CN120976951A - 一种文本图像识别方法和装置 - Google Patents
一种文本图像识别方法和装置Info
- Publication number
- CN120976951A CN120976951A CN202511347680.9A CN202511347680A CN120976951A CN 120976951 A CN120976951 A CN 120976951A CN 202511347680 A CN202511347680 A CN 202511347680A CN 120976951 A CN120976951 A CN 120976951A
- Authority
- CN
- China
- Prior art keywords
- text
- recognition
- image
- character
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了一种文本图像识别方法和装置;本发明实施例在获取待识别文本图像后,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,然后,根据文本特征集,确定出文本内容的语义特征信息,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果;该方案可以提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
Description
本申请是申请日为2020年10月28日、中国专利申请号为202011171696.6、发明名称为“一种文本图像识别方法和装置”的专利申请的分案申请。
技术领域
本发明涉及通信技术领域,具体涉及一种文本图像识别方法和装置。
背景技术
近年来,随着神经网络技术在人工智能领域的大热,将神经网络应用于图像识别的图像识别技术也有了长足的发展。尤其是将神经网络应用于对文本图像中的文本内容进行文本识别。现有的文本图像识别方法往往是采用注意力机智对文本图像进行编解码来是识别。
在对现有技术的研究和实践过程中,本发明的发明人发现对于现有的文本图像识别方法来说,由于仅仅依赖有限的局部文本特征,难以处理一些低质量的待识别文本图像,从而导致文本图像识别的准确率大大降低。
发明内容
本发明实施例提供一种文本图像识别方法和装置,可以提高文本图像识别的准确率。
一种文本图像识别方法,包括:
获取待识别文本图像,所述待识别文本图像包括至少一个文本内容;
对所述待识别文本图像中的文本内容进行特征提取,得到所述文本内容的文本特征集;
根据所述文本特征集,确定出所述文本内容的语义特征信息;
基于所述语义特征信息,对识别所述文本特征集的识别参数进行调整,得到目标识别参数;
根据所述目标识别参数,对所述文本特征集进行识别,得到所述待识别文本图像的文本识别结果。
可选的,本发明实施例还可以提供另一种文本图像识别方法,包括:
显示教育直播页面,所述教育直播页面包括文本内容和识别控件;
响应于所述识别控件的识别操作,显示文本内容选择页面,所述文本内容选择页面包括文本内容选择控件;
响应于所述文本内容选择控件的选择操作,根据所述文本内容,生成待识别文本图像,并将所述待识别文本图像发送至服务器;
获取所述服务器针对所述待识别文本图像的文本识别结果;
显示识别结果页面,所述识别结果页面包括待识别文本图像和所述待识别文本图像的文本识别结果。
在上述方案中,所述识别结果页面还包括保存控件,所述显示识别结果页面之后,还包括:响应于所述保存控件的保存操作,将所述文本识别结果进行存储,并返回显示教育直播页面,所述教育直播页面还包括查看控件,所述查看控件用于查看所述文本识别结果;响应于所述查看控件的查看操作,显示文本查看页面,所述文本查看页面包括所述文本识别结果和编辑控件;响应于所述编辑控件的编辑操作,对所述文本识别结果进行编辑。
相应的,本发明实施例提供一种文本图像识别装置,包括:
第一获取单元,用于获取待识别文本图像,所述待识别文本图像包括至少一个文本内容;
提取单元,用于对所述待识别文本图像中的文本内容进行特征提取,得到所述文本内容的文本特征集;
确定单元,用于根据所述文本特征集,确定出所述文本内容的语义特征信息;
调整单元,用于基于所述语义特征信息,对识别所述文本特征集的识别参数进行调整,得到目标识别参数;
识别单元,用于根据所述目标识别参数,对所述文本特征集进行识别,得到所述待识别文本图像的文本识别结果。
可选的,本发明实施例还可以提供另一种文本图像识别装置,包括:
直播页面显示单元,用于显示教育直播页面,所述教育直播页面包括文本内容和识别控件;
选择页面显示单元,用于响应于所述识别控件的识别操作,显示文本内容选择页面,所述文本内容选择页面包括文本内容选择控件;
生成单元,用于响应于所述文本内容选择控件的选择操作时,根据所述文本内容,生成待识别文本图像,并将所述待识别文本图像发送至服务器;
第二获取单元,用于获取所述服务器针对所述待识别文本图像的文本识别结果;
识别结果显示单元,用于显示识别结果页面,所述识别结果页面包括待识别文本图像和所述待识别文本图像的文本识别结果。
可选的,在一些实施例中,所述调整单元,具体可以用于获取文本识别模型中解码网络的初始化参数和隐藏层的维度信息,并将所述初始化参数作为识别所述文本特征集的识别参数,所述文本识别模型用于识别所述待识别文本图像的文本内容;根据所述维度信息,对所述语义特征信息的维度进行转换,得到转换后语义特征信息;根据所述转换后语义特征信息,对所述识别参数进行调整,得到所述目标识别参数。
可选的,在一些实施例中,所述调整单元,具体可以用于将所述识别参数替换为所述转换后语义特征信息,以对所述解码网络进行初始化,并将所述转换后语义特征信息作为所述目标识别参数;所述根据所述目标识别参数,对所述文本特征集进行识别,得到所述待识别文本图像的文本识别结果,包括:根据目标识别参数,采用初始化后解码网络对所述文本特征集进行解码,得到所述待识别文本图像的文本识别结果。
可选的,在一些实施例中,所述识别单元,具体可以用于根据所述文本特征集,确定所述待识别文本图像中文本内容的字符识别顺序;基于所述字符识别顺序,在所述文本内容中确定出当前需要识别的当前文本字符;根据所述目标识别参数,对所述当前文本字符进行识别,以得到所述待识别文本图像的文本识别结果。
可选的,在一些实施例中,所述识别单元,具体可以用于根据所述文本特征集,对所述目标识别参数进行更新,得到第一更新后识别参数,并基于所述第一更新后识别参数,对所述当前文本字符进行识别,得到所述当前文本字符的第一字符识别结果;根据所述字符识别顺序,在所述文本内容中筛选出所述当前文本字符的下一个文本字符,得到目标文本字符;根据所述第一字符识别结果,对所述第一更新后识别参数进行更新,得到第二更新后识别参数,并基于所述第二更新后识别参数,对所述目标文本字符进行识别,得到所述目标文本字符的第二字符识别结果;返回执行根据所述字符识别顺序,在所述文本内容中筛选出所述当前文本字符的下一个文本字符的步骤,直至所述文本内容中的文本字符全部识别,得到所述待识别文本图像的文本识别结果。
可选的,在一些实施例中,所述识别单元,具体可以用于对所述目标识别参数进行特征提取,得到所述目标识别参数对应的第一识别特征;将所述第一识别特征与所述文本特征集中的文本特征进行融合,得到第一全局文本特征;根据所述第一全局文本特征,对所述目标识别参数进行更新,得到第一更新后识别参数。
可选的,在一些实施例中,所述识别单元,具体可以用于对所述第一更新后识别参数进行特征提取,得到所述第一更新后识别参数的第二识别特征;根据所述第一字符识别结果,确定所述当前文本字符识别出的字符特征;将所述第二识别特征与字符特征进行融合,得到第二全局文本特征;基于所述第二全局文本特征,对所述第一更新后识别参数进行更新,得到第二更新后识别参数。
可选的,在一些实施例中,所述提取单元,具体可以用于在所述待识别文本图像中识别出所述文本内容的文本位置信息;根据所述文本位置信息,对所述待识别文本图像进行校正,得到校正后文本图像;采用所述识别模型的编码网络对所述校正后文本图像的文本内容进行特征提取,得到所述文本内容的文本特征集。
可选的,在一些实施例,所述提取单元,具体可以用于在所述待识别文本图像中识别出所述文本内容的至少一个图像控制点和图像控制点的目标位置;根据所述文本位置信息,确定出所述图像控制点在所述待识别文本图像中的当前位置;基于所述图像控制点的目标位置和当前位置,计算文本内容在所述待识别文本图像和校正后文本图像之间的位置关系;根据所述位置关系,将所述待识别文图转换为所述校正后文本图像。
可选的,在一些实施例中,所述提取单元,具体可以用于对所述校正后文本图像进行图像特征提取,得到所述校正后文本图像的图像特征信息;根据所述图像特征信息,对所述文本内容进行双向识别,得到不同方向上的多个初始文本特征;将所述初始文本特征进行拼接,得到所述文本内容的文本特征集。
可选的,在一些实施例中,所述确定单元,具体可以用于对所述文本特征集的维度进行转换,得到目标维度的目标文本特征集;采用所述识别模型的语义识别网络对所述目标文本特征集进行识别,得到所述文本内容的上下文特征;根据所述上下文特征,确定所述文本内容的语义特征信息。
可选的,在一些实施例中,文本图像识别装置还可以包括处理单元,所述处理单元,具体可以用于响应于所述保存控件的保存操作,将所述文本识别结果进行存储,并返回显示教育直播页面,所述教育直播页面还包括查看控件,所述查看控件用于查看所述文本识别结果;响应于所述查看控件的查看操作,显示文本查看页面,所述文本查看页面包括所述文本识别结果和编辑控件;响应于所述编辑控件的编辑操作,对所述文本识别结果进行编辑。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的文本图像识别方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本图像识别方法中的步骤。
本发明实施例在获取待识别文本图像后,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,然后,根据文本特征集,确定出文本内容的语义特征信息,然后,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果;由于该方案在提取到待识别文本图像的文本内容的文本特征集之后,还确定出文本内容的语义特征信息,将语义特征信息作为全局信息来引导对文本内容中文本字符的识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本图像识别方法的场景示意图;
图2是本发明实施例提供的文本图像识别方法中服务器端的场景示意图;
图3是本发明实施例提供的文本图像识别方法的流程示意图;
图4是本发明实施例提供的文本识别模型的框架图;
图5是本发明实施例提供的文本图像识别方法的另一流程示意图;
图6是本发明实施例提供的教育直播页面的示意图;
图7是本发明实施例提供的内容选择页面的示意图;
图8是本发明实施例提供的生成待识别文本图像的流程示意图;
图9是本发明实施例提供的识别结果页面的示意图;
图10是本发明实施例提供的文本查看页面的示意图;
图11是本发明实施例提供的文本图像识别方法中的交互流程示意图;
图12是本发明实施例提供的文本识别模型的网络结构图;
图13是本发明实施例提供的第一文本图像识别装置的结构示意图;
图14是本发明实施例提供的第二文本图像识别装置的结构示意图;
图15是本发明实施例提供的第二文本图像识别装置的另一结构示意图;
图16是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例中相关数据收集处理在实例应用时应该严格根据相关法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
本发明实施例提供一种文本图像识别方法、装置和计算机可读存储介质。其中,该文本图像识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。具体的,本发明实施例提供的适用于第一电子设备的文本图像识别装置(为了区分可以称为第一文本图像识别装置)中,以及适用于第二电子设备的文本图像识别装置(为了区分可以称为第二文本图像识别装置)。
其中,第一电子设备可以为服务器等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。第二电子设备可以为终端等设备,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本发明实施例将以第一电子设备为服务器,第二电子设备为终端为例,来介绍文本图像识别方法。
例如,参见图1,本发明实施例提供的文本图像识别系统可以包括服务器10,也可以包括服务器10和终端20,服务器10与终端之间通过网络连接,比如,可以通过有线或无线网络连接等。
其中,服务器10,可以用于获取待识别文本图像,该待识别文本图像包括至少一个文本内容,然后,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,根据文本特征集,确定出文本内容的语义特征信息,然后,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果,具体可以如图2所示。
其中,语义特征信息可以为文本内容中每一个文本字符语义相似的特征信息。
其中,对待识别文本图像的识别可以采用人工智能的方式,比如,可以采用基于语义增强的编解码框架下的文本识别模型的方式在待测试画面帧中识别角色参数信息和场景信息以及生产模拟操作信息。所谓人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,终端20,可以用于显示教育直播页面,该教育直播页面包括文本内容和识别控件,响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件,响应于文本内容选择控件的选择操作时,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器,然后,获取服务器针对待识别文本图像的文本识别结果,显示识别结果页面,该识别结果页面包括待识别文本图像和所述待识别文本图像的文本识别结果。
其中,响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
其中,需要说明的是,文本图像识别方法可以单独由第一文本图像识别装置执行,还可以由第一文本图像识别装置和第二文本图像识别装置进行交互,从而共同执行。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从第一文本图像识别装置的角度进行描述,该第一文本图像识别装置具体可以集成在电子设备中,该电子设备可以是服务器等设备。
一种文本图像识别方法,包括:
获取待识别文本图像,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,根据文本特征集,确定出文本内容的语义特征信息,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
如图3所示,该文本图像识别方法的具体流程如下:
101、获取待识别文本图像。
其中,待识别文本图像包括至少一个文本内容,所谓文本内容可以为包括文本字符的内容,比如,可以为一段不同语言文字、一段代码或一段符号等具有文本字符的内容。
例如,可以直接获取终端发送的一张或多张待识别文本图像,比如,用户在教育直播页面上筛选出需要识别的文本内容,终端根据文本内容,生成待识别文本图像,将文本图像直接发送至第一文本图像识别装置,第一文本图像识别装置就可以获取到待识别文本图像。还可以从互联网或其他数据库中获取到待识别文本图像,比如,从互联网上或其他数据库爬取包含文本内容的图像,将爬取到的包含文本内容的图像作为待识别文本图像。还可以直接接收用户上传的包含文本内容的图像,将接收到的包含文本内容的图像作为待识别文本图像。还可以对接收到的包含文本内容的图像进行预处理,从而得到待识别文本图像,比如,在图像中识别出文本内容的文本区域,根据文本区域,对图像进行裁剪,将不包含文本内容的区域裁剪掉,从而得到只包含文本内容的文本区域的图像,将文本区域的图像作为待识别文本图像。
102、对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集。
例如,可以在待识别文本图像中识别出文本内容的文本位置信息,根据文本位置信息,对待识别文本图像进行校正,得到校正后文本图像,采用识别模型的编码网络对校正后文本图像特征的文本内容进行特征提取,得到文本内容的文本特征集,具体可以如下:
S1、在待识别文本图像中识别出文本内容的文本位置信息。
其中,文本位置信息可以为包括文本内容的文本框在待识别文本图像中的位置信息。
例如,在待识别文本图像识别出包含文本内容的文本区域,获取该文本区域的位置信息,作为文本内容的文本位置信息,比如,在待识别文本图像中识别出包含内容的文本区域,计算这个文本区域对应的虚拟文本框在整个待识别文本图像中的位置信息,将该位置信息作为文本内容的文本位置信息。
S2、根据文本位置信息,对待识别文本图像进行校正,得到校正后文本图像。
其中,对待识别文本图像进行校正,主要是纠正文本内容中的扭曲的文本字符,从而得到校正后文本图像。
例如,可以采用识别模型的校正网络在待识别文本图像中识别出文本内容对应的图像控制点(control points)和图像控制点的目标位置,其中,图像控制点可以为图像几何校正、投影变换和图像配准等几何变换中,在图像上选取的用于建立几何变换函数的参考点,可以理解为包围文本内容中待识别文本字符的控制点,图像控制点一般可以为多个,多个图像控制点就可以组成包围文本内容中待识别文本字符的最小虚拟包围框。比如,可以采用浅层卷积神经网络(Shallow CNN)在待识别文本图像中识别出文本内容的至少一个图像控制点和图像控制点的目标位置。
根据文本位置信息,确定图像控制点在待识别文本图像中的当前位置,比如,计算图像控制点与文本内容的文本区域之间的距离关系,根据距离关系和文本位置信息,确定图像控制点在待识别文本图像中当前位置。基于图像控制点和目标位置和当前位置,计算文本内容在待识别文本图像和校正后文本图像之间的位置关系,比如,采用薄板样条插值(Thin Plate Spline)算法,通过对比图像控制点的目标位置和当前位置,计算出文本内容在待识别文本图像和校正后文本图像之间的位置关系。根据位置关系,将待识别文本图像转换为校正后文本图像,比如,根据位置关系,在待识别文本图像中对图像控制点进行移动或其他操作,使得图像控制点的当前位置与目标位置重合,就可以将待识别文本图像转换为校正后文本图像,从而完成对待识别文本图像的校正。
S3、采用识别模型的编码网络对校正后文本图像的文本内容进行特征提取,得到文本内容的文本特征集。
例如,可以对校正后文本图像进行图像特征提取,得到校正后文本图像的图像特征信息,根据图像特征信息,对文本内容进行双向识别,得到不同方向上的初始文本特征集,将初始文本特征集中的文本特征进行拼接,得到文本内容的文本特征集。具体可以如下:
(1)对校正后文本图像进行图像特征提取,得到校正后文本图像的图像特征信息。
例如,对校正后文本图像进行多尺度的图像特征提取,可以得到校正后文本图像的多尺度的图像特征信息,比如,可以采用45层或其他层数的残差网络对校正后文本图像进行多尺度的图像特征提取,得到校正后文本图像的多尺度的图像特征信息,该图像特征信息也可以为待识别文本图像的视觉特征。
(2)根据图像特征信息,对文本内容进行双向识别,得到不同方向上的初始文本特征。
例如,根据图像特征信息,对文本内容中的文本字符从左往右和从右往左分别进行识别,得到每个文本字符在不同方向的初始文本特征,比如,采用256个隐藏单元和两层双向的长短期记忆网络(BiLSTM),在所述图像特征信息中筛选出文本内容中每个文本字符的目标图像特征,采用BiLSTM网络,分别从两个不同方向对目标图像特征进行识别,得到每个字符在不同方向上的初始文本特征。
其中,还需要说明的是,对于每个文本字符的初始文本特征的识别,需要依赖前一个文本字符的识别结果。
(3)将初始文本特征进行拼接,得到文本内容的文本特征集。
例如,根据文本内容中文本字符的排列顺序,将同一个字符两次识别出的不同的初始文本特征进行拼接,就可以得到文本内容的文本特征集,比如,以文本内容中包括A、B和C三个文本字符,从左往右对这三个文本字符对应的目标图像特征进行识别,得到这三个文本字符对应的初始文本特征分别为L1、L2和L3,从右往左对这三个文本字符对应的目标图像特征进行识别,得到这个三个文本字符对应的初始文本特征分别为R1、R2和R3,此时就可以得到每个文本字符的两个初始文本特征,譬如,文本字符A的初始文本特征就可以为L1和R1,将这两个初始文本特征进行拼接,就可以得到文本字符A的文本特征,将文本内容中全部文本字符的初始文本特征进行拼接,就可以得到文本内容的文本特征集。该文本特征集的尺寸可以为L×C,其中,L为最后一个图像特征对应的特征图的宽度,C为该特征图的深度。
103、根据文本特征集,确定出文本内容的语义特征信息。
例如,对文本特征的维度进行转换,得到目标维度的目标文本特征集,比如,比如,以文本特征集的尺寸为L×C为例,将文本特征集展开为维数为K的一维文本特征,K=L×C,从而将维数为K的一维文本特征作为目标文本特征集。采用识别模型的语义识别网络对目标文本特征集进行识别,得到文本内容的上下文特征,比如,可以采用FastText网络(一种语义识别网络)的前馈神经网络对维数为K的一维文本特征进行识别,得到文本内容的上下文特征。根据上下文特征,确定文本内容的语义特征信息,比如,可以采用线性函数对上下文特征进行识别,得到文本内容中每个文本字符对应的语义特征,从而得到文本内容的语义特征信息,线性函数可以如公式(1)所示:
S=W2σ(W1I+b1)+b2 (1)
其中,S为文本内容中文本字符的语义特征,W1和W2为转换参数,b1和b2为网络参数,σ为线性整流函数(Rectified Linear Unit,ReLU)。
其中,对于语义识别网络来说,选择FastText网络可以采用子词算法(sub-word)处理“未登录词(out of vocabulary)”的问题,从而可以大大提升对文本内容的语义特征信息识别的准确率。
104、基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数。
其中,识别参数可以为解码网络中的初始化参数,主要用于对解码网络进行初始化从而引导对文本字符的识别。
例如,获取文本识别模型中解码网络的初始化参数和隐藏层的维度信息,比如,解码网络可以为单向GRU(一种LSTM网络的变体)网络,GRU网络中的初始化参数一般为随机参数,就需要在解码网络中识别出当前的初始化参数,将初始化参数作为识别文本特征集的识别参数,并获取GRU网络的隐藏层的维度信息,隐藏层的维度可以为512。根据维度信息,对语义特征信息的维度进行转换,得到转换后语义特征信息,比如,以隐藏层的维度为512为例,就可以将语义特征信息中的语义特征向量的维度转换成512,就可以得到转换后语义特征信息。根据转换后语义特征信息,对识别参数进行调整,得到目标识别参数,比如,直接将解码网络中的识别参数替换为转换后语义信息,此时,就相当于将解码网络的初始化参数替换为转换后语义信息,此时,加载该转换后语义信息就可以完成对解码网络的初始化,从而得到初始化后解码网络,并将转换后语义特征信息作为目标识别参数,这里的初始化,就相当于是让解码网络已经学习了待识别文本图像中文本内容的语义特征信息。这样就可以在使用解码网络对文本特征集进行识别时,解码网络被语义特征信息进行引导,从而可以提升对待识别文本图像的识别准确率。
105、根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
例如,根据目标识别参数,采用初始化后解码网络对文本特征集进行解码,得到待识别文本图像的文本识别结果,具体可以如下:
C1、根据文本特征集,确定待识别文本图像中文本内容的字符识别顺序。
其中,字符识别顺序可以为对文本内容中的文本字符进行识别的识别顺序。
例如,在文本特征集中确定出文本特征的特征顺序,根据特征顺序,对文本内容中的文本字符进行排序,得到待识别文本图像中文本内容的字符识别顺序,比如,当文本特征集中的文本特征与文本内容中的文本字符一一对应时,在文本内容中确定出每个文本字符对应的文本特征,从而根据特征顺序,对文本内容中的文本字符进行排序,将排序之后的文本字符的顺序作为字符识别顺序,当文本特征集中的文本特征与文本内容中的文本字符不是一一对应时,该字符识别顺序可以为文本字符在文本内容中的原始排列顺序。
C2、基于字符识别顺序,在文本内容中确定出当前需要识别的当前文本字符。
例如,解码网络对文本内容中的文本字符单词每次识别一个文本字符,比如,可以为一个字、一个字母或一个单词。基于字符识别顺序,每次在文本内容确定出当前需要识别的当前的一个文本字符,比如,第一次对文本内容中的文本字符识别时,此时当前需要识别的当前文本字符为字符识别顺序中排第一的文本字符,往后以此类推。
C3、根据目标识别参数,对当前文本字符进行识别,以得到待识别文本图像的文本识别结果。
例如,根据文本特征集,对目标识别参数进行更新,得到第一更新后识别参数,并基于第一更新后识别参数,对当前文本字符进行更新,得到当前文本字符的第一字符识别结果,根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符,得到目标文本字符,根据第一字符识别结果,对第一更新后识别参数进行更新,得到第二更新后识别参数,并基于第二更新后识别参数,对目标文本字符进行识别,得到目标文本字符的第二字符识别结果,返回执行根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符的步骤,直至文本内容中的文本字符全部识别,得到待识别文本图像的文本识别结果。具体可以如下:
(1)根据文本特征集,对目标识别参数进行更新,得到第一更新后识别参数,并基于第一更新后识别参数,对当前文本字符进行更新,得到当前文本字符的第一字符识别结果。
例如,对目标识别参数进行特征提取,得到目标识别参数对应的第一识别特征,比如,此时的目标识别参数为转换后语义识别特征信息,就相当于在转换后语义特征识别特征信息中提取出语义特征向量,将语义特征向量作为目标识别参数对应的识别特征。将第一识别特征与文本特征集中的文本特征进行融合,得到第一全局文本特征,比如,将语义特征向量与文本特征集的特征向量进行拼接,根据拼接后的特征向量,生成更新门控状态参数和重置门控状态参数,将门控状态参数与语义特征向量进行融合,得到融合后语义特征向量,将融合后语义特征向量与文本特征集中的文本特征再次拼接,从而得到第一全局文本特征。根据第一全局文本特征,对目标识别参数进行更新,得到第一更新后识别参数,比如,通过更新门控状态参数将第一全局文本特征和目标识别参数进行融合,得到第一更新识别参数。
基于第一更新识别参数,对当前文本字符进行识别,得到当前文本字符的第一字符识别结果,比如,可以采用如公式(2)所示的识别公式,对当前文本字符进行识别,得到当前文本字符的第一字符结果,具体如下:
yt=σ(Wo·ht) (2)
其中,yt为字符识别结果对应字符特征,Wo为识别参数,ht为识别特征。
(2)根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符,得到目标文本字符。
比如,在所述字符识别顺序中查询出所述当前文本字符的下一个文本字符的字符标识,根据字符标识,在文本内容中筛选出目标文本字符,比如,以字符识别顺序为文本字符A-文本字符B-文本字符C,当前文本字符为文本字符A为例,则当前文本字符的下一个文本字符的字符标识为文本字符B,在文本内容中筛选出文本字符B对应的文本字符,就可以得到目标文本字符。
(3)根据第一字符识别结果,对第一更新后识别参数进行更新,得到第二更新后识别参数,并基于第二更新后识别参数,对目标文本字进行识别,得到目标文本字符的第二字符识别结果。
例如,对第一更新后识别参数进行特征提取,得到第一更新后识别参数的第二识别特征,比如,在第一更新后识别参数中提取出语义特征,将提取到的语义特征作为第二识别特征。根据第一字符识别结果,确定当前文本字符识别出的字符特征,比如,当第一字符识别结果为当前文本字符识别后的字符向量时,就可以将该字符向量作为字符特征,当第一字符识别结果为识别出来的具体字或词时,对识别出的字或词进行特征提取,得到字符特征。将第二识别特征与字符特征进行融合,得到第二全局文本特征,比如,将第一更新后识别参数的语义特征向量与字符特征向量进行拼接,根据拼接后的特征向量,生成更新门控状态参数和重置门控状态参数,将门控状态参数与语义特征向量进行融合,得到融合后语义特征向量,将融合后语义特征向量与字符特征再次拼接,从而第二全局文本特征。基于第二全局文本特征,对第一更新后识别参数进行更新,比如,通过更新门控状态参数将第二全局文本特征和第一更新后识别参数进行融合,就可以得到第二更新后识别参数。
基于第二更新后识别参数,对目标文本字符进行识别,得到目标文本字符的第二字符识别结果,具体的识别方法与第一字符识别结果相同,也是采用公式(2)进行识别,在此就不再赘述。
(4)返回执行根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符的步骤,直至文本内容中的文本字符全部识别,得到待识别文本图像的文本识别结果。
例如,在目标文本字符识作为此时的当前文本字符别完成之后,就可以返回执行根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符的步骤,也就是筛选出文本内容中需要识别的第三个文本字符,首选,根据上一个文本字符的字符识别结果,对当前的识别参数进行更新,基于更新后的识别参数,对第三个文本字符进行识别,得到第三个文本字符的字符识别结果,当文本内容中还存在第三个文本字符的下一个文本字符时,就基于第三个文本字符的识别结果和第三个文本字符对应的更新后的识别参数,对下一个文本字符进行识别,以此类推,直至文本内容中所有的文本字符全部识别,从而就可以得到待识别文本图像的文本识别结果。
其中,需要说明的是,该文本识别模型的解码网络在识别每一个文本字符时,都是基于上一个文本字符的识别结果和识别参数,除了第一个文本字符的识别以外,第一个文本字符的识别主要依靠转换后语义特征信息和当前文本特征集,可以发现该解码网络中每次存在两个输出和两个输出,从第二文本字符开始,两个输入为上一个文本字符的字符识别结果和通过上一个文本字符更新后的识别参数。
其中,对于文本识别模型来说,基础模型主要包括编码网络(编码器)、语义识别网络(Semantic)和解码网络(解码器),解码网络中还可以包括注意力机制模块,整体框架可以如图4所示,该文本识别模型的框架也可以为语义增强编解码框架(SE-ASTER)。编码网络用语对待识别文本图像进行文本特征的编码,从而得到文本特征集,语义识别网络主要用于对文本特征集中的文本特征进行语义识别,识别出文本内容中每个文本字符语义相近的语义特征,从而得到语义特征信息。解码网络主要用于对文本特征集进行解码,在对文本特征集进行解码之前,采用语义特征信息对解码网络进行初始化,采用初始化后解码网络,对文本特征集进行单向解码,生成待识别文本图像的文本内容中每个文本字符的识别结果,从而得到待识别文本图像的文本识别结果。
其中,该文本识别模型可以根据实际应用的需求进行设置,另外,需要说的是,该文本识别模型可以由维护人员预先进行设置,也可以由该文本识别模型自行训练,而且文本识别模型由于具有多个网络,对该文本识别模型的训练方式采用的是端到端训练的,具体训练过程可以如下:
(1)采集文本图像样本,该文本图像样本已标注文本内容。
例如,具体可以采集多个原始文本图像,比如,可以从数据库或者网上爬取原始图像,在原始图像中筛选出包含文本内容的图像,得到原始文本图像。在原始文本图像中标注文本内容,得到文本图像样本。
(2)采用预设文本识别模型对图像文本样本中的文本内容进行识别,得到识别结果。
例如,采用预设文本识别模型对所述待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,根据文本特征集,确定出文本内容的语义特征信息,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
(3)根据文本图像样本的预测结果与标注结果对预设文本识别模型进行收敛,得到文本识别模型。
例如,可以通过损失函数,根据文本图像样本的预测结果与标注结果对预设文本识别模型进行收敛,得到文本识别模型。譬如,损失函数具体可以如公式(3)所示:
L=Lrec+λLsem (3)
其中,Lrec为标准的交叉熵损失,Lsem为余弦损失函数,λ为用于平衡损失的超参数,在这里可以设为1或其他值。选用Lsem主要是为了提升文本识别模型的训练速度,因此,没有对比损失(contrastive loss)函数。
其中,对于Lsem来说,具体的计算过程可以如公式(4)所示,具体可以如下:
Lsem=1-cos(S,em) (4)
其中,S为预测的语义特征信息,em为FastText模型中的词向量。
由以上可知,本发明实施例在获取待识别文本图像后,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,然后,根据文本特征集,确定出文本内容的语义特征信息,然后,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果;由于该方案在提取到待识别文本图像的文本内容的文本特征集之后,还确定出文本内容的语义特征信息,将语义特征信息作为全局信息来引导对文本内容中文本字符的识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
本实施例将从第二文本图像识别装置的角度进行描述,该第二文本图像识别装置具体可以集成在电子设备中,该电子设备可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以访问业务资源的智能设备等设备。
一种文本图像识别方法,包括:
显示教育直播页面,该教育直播页面包括文本内容和识别控件,响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件,响应于文本内容选择控件的选择操作时,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器,获取所述服务器针对所述待识别文本图像的文本识别结果,显示识别结果页面,该识别结果页面包括待识别文本图像和待识别文本图像的文本识别结果。
如图5所示,该文本图像识别方法的具体流程如下:
201、显示教育直播页面。
其中,教育直播页面可以为教育类直播的页面,所谓教育类直播主要是将线上教育和直播的结合,其特点是主编基于给观众展示的一些图文资料来做讲解。教育直播页面包括文本内容和识别控件,其中,文本内容就可以为主编在直播中展示的用于讲解的图文资料等。
例如,用户可以对直播客户端的用户操作页面进行操作从而触发显示教育直播页面,比如,用户在直播客户端的内容搜索页面进行操作触发显示教育直播页面,教育直播页面可以如图6所示,其中,内容搜索页面可以为供用户搜索各类教育直播内容的页面,用户可以在内容搜索页面通过搜索控件进行搜索操作,以搜索所需的教育直播内容。还比如,用户可以在直播客户端的内容推荐页面进行操作触发显示教育直播页面,其中,内容推荐页面可以为后台针对用户的观看习惯或个人信息等为用户推荐的各种教育直播内容的页面,用户可以在内容推荐页面通过选择控件选择所需的教育直播内容。
其中,控件的表现形式可以有多种,比如,输入框、图标和按钮等形式。
202、响应于识别控件的识别操作,显示文本内容选择页面。
其中,文本内容选择页面包括文本内容选择控件。
例如,当用户在教育直播页面触发识别控件的识别操作时,响应于识别控件的识别操作,对当前显示的教育直播页面中显示文本内容的区域进行截图,得到初始文本图像,根据初始文本内容图像,显示文本内容选择页面,比如,根据初始文本内容图像,生成文本内容选择页面,然后,显示该文本内容选择页面,文本内容选择页面中包括初始文本内容图像和文本内容选择控件,如图7所示,文本内容选择控件可以为可调整的文本内容选择框。
203、响应于文本内容选择控件的选择操作,根据文本内容,生成待识别文本图像,并待识别文本图像发送至服务器。
例如,当用户在文本内容选择页面上通过触发文本内容选择控件,在文本内容中选择需要识别的目标文本内容,比如,用户在文本内容选择页面对文本内容选择框的位置和大小进行调整,将调整后内容选择框的文本内容作为目标文本内容。响应于文本内容选择控件的选择操作,将目标文本内容对应的图像作为待识别文本图像,比如,在初始文本内容图像中识别出目标文本内容的目标区域,并在初始文本内容中将目标区域进行截图,从而得到待识别文本图像,具体可以如图8所示。然后,直接将待识别文本图像发送至服务器,当年待识别文本图像数量较多或者内存较大时,还可以间接将待识别文本图像发送至服务器,比如,将待识别文本图像存储在第三方数据库,然后,将存储地址发送至服务器,服务器根据存储地址,在第三方数据库中获取待识别文本图像。
204、获取服务器针对待识别文本图像的文本识别结果。
例如,可以直接接收服务器返回的文本识别结果,比如,服务器在接收到待识别文本图像并进行识别后,直接将识别结果发送至第二文本图像识别装置。还可以向服务器发送识别结果的获取请求,服务器接收到获取请求之后,判断待识别文本图像识别是否完成,如果已经识别完成,就直接将识别结果返回,如果还未识别或还未完成识别,就可以等到完成对待识别文本图像识别之后,再将识别结果返回。还可以在服务器的存储识别结果的内存或缓存中获取,比如,定时或定期去读取服务器中存储识别结果的内存或缓存,在内存或缓存中筛选出待识别文本图像的识别结果。
205、显示识别结果页面。
其中,识别结果页面包括待识别文本图像和待识别文本图像的识别结果。
例如,接收到待识别文本图像的识别结果后,根据待识别文本图像的识别结果,显示识别结果页面,比如,根据待识别文本图像的识别结果,生成识别结果页面,显示识别结果页面,如图9所示。
可选的,在显示识别结果页面之后,识别结果页面上还可以包括保存控件,用户还可以将识别结果进行保存和编辑,因此,文本图像识别方法,还可以包括:
响应于保存控件的保存操作,将文本识别结果进行存储,并返回显示教育直播页面,该教育直播页面还包括查看控件,该查看控件用于查重文本识别结果;响应于查看控件的查看操作,显示文本查看页面,文本查看页面包括文本识别结果和编辑控件;响应于编辑控件的编辑操作,对文本识别结果进行编辑。
例如,当用户在识别结果页面触发保存控件时,响应于保存控件的保存操作,将文本结果进行存储,比如,可以将文本识别结果以文本的形式存储至直播客户端的内存或缓存中。此时,就可以返回显示教育直播页面,该教育直播页面上还可以包括查看控件。当用户在教育直播页面触发查看控件时,响应于查看控件的查看操作时,显示文本查看页面,具体如图10所示,文本查看页面上包括编辑控件,文本查看页面可以为教育直播页面的子页面,也可以为直播客户端上显示的一个独立页面。当用户在文本查看页面上触发编辑控件时,响应于编辑控件的编辑操作,对文本识别结果进行编辑,比如,可以对文本识别结果的文本进行修改、删除或替换等编辑操作,得到编辑后的文本识别结果。还可以将编辑后的文本识别结果存储在直播客户端的内存或缓存中,也可以直接替换第一次存储的文本识别结果。
由以上可知,本实施例在显示教育直播页面后,该教育直播页面包括文本内容和识别控件,响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件,响应于文本内容选择控件的选择操作,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器,获取服务器针对待识别文本图像的文本识别结果,显示识别结果页面,该识别结果页面包括待识别文本图像和待识别文本图像的文本识别结果,由于该方案通过服务器根据待识别文本图像中的文本内容的语义特征信息,对待识别文本图像的文本内容进行识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该第一文本图像识别装置集成在服务器,第二文本图像识别装置集成在终端,文本识别模型的编码网络为残差模块和BiLSTM模块,语义识别网络为FastText网络,解码网络为GRU,第一文本图像识别装置和第二文本图像识别装置的应用场景为教育直播中产生的待识别文本图像的识别为例进行说明。
(一)文本识别模型的训练
例如,文本识别模型的训练采用端到端的训练方式,对于多个网络作为整体进行训练,具体可以如下:
(1)采集文本图像样本,该文本图像样本已标注文本内容。
例如,从数据库或者网上爬取原始图像,在原始图像中筛选出包含文本内容的图像,得到原始文本图像。在原始文本图像中标注文本内容,得到文本图像样本。
(2)采用预设文本识别模型对图像文本样本中的文本内容进行识别,得到识别结果。
例如,采用预设文本识别模型对所述待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,根据文本特征集,确定出文本内容的语义特征信息,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
(3)根据文本图像样本的预测结果与标注结果对预设文本识别模型进行收敛,得到文本识别模型。
例如,可以通过损失函数,根据文本图像样本的预测结果与标注结果对预设文本识别模型进行收敛,得到文本识别模型。譬如,损失函数具体可以如公式(3)所示:
L=Lrec+λLsem (3)
其中,Lrec为标准的交叉熵损失,Lsem为余弦损失函数,λ为用于平衡损失的超参数,在这里可以设为1或其他值。选用Lsem主要是为了提升文本识别模型的训练速度,因此,没有对比损失(contrastive loss)函数。
其中,对于Lsem来说,具体的计算过程可以如公式(4)所示,具体可以如下:
Lsem=1-cos(S,em) (4)
其中,S为预测的语义特征信息,em为FastText模型中的词向量。
(二)文本识别模型的应用
如图11所示,一种文本图像识别方法,具体流程如下:
301、终端显示教育直播页面。
例如,用户在直播客户端的内容搜索页面进行操作触发终端显示教育直播页面,用户可以在直播客户端的内容推荐页面进行操作触发终端显示教育直播页面。
302、终端响应于识别控件的识别操作,显示文本内容选择页面。
例如,当用户在教育直播页面触发识别控件的识别操作时,终端响应于识别控件的识别操作,对当前显示的教育直播页面中显示文本内容的区域进行截图,得到初始文本图像,根据初始文本内容图像,生成文本内容选择页面,然后,显示该文本内容选择页面。
303、终端响应于文本内容选择控件的选择操作,根据文本内容,生成待识别文本图像,并待识别文本图像发送至服务器。
例如,用户在文本内容选择页面对文本内容选择框的位置和大小进行调整,终端将调整后内容选择框的文本内容作为目标文本内容,在初始文本内容图像中识别出目标文本内容的目标区域,并在初始文本内容中将目标区域进行截图,从而得到待识别文本图像,将待识别文本图像发送至服务器。
304、服务器获取待识别文本图像。
例如,当终端向服务器发送待识别文本图像时,服务器可以直接接收到终端发送的待识别文本图像,当终端向服务器发送存储待识别文本图像的存储地址时,服务器根据存储地址,获取待识别文本图像。服务器还可以直接终端的内存或缓存中直接获取当前需要识别的待识别文本图像。服务器还可以对接收到的包含文本内容的图像进行预处理,比如,在图像中识别出文本内容的文本区域,根据文本区域,对图像进行裁剪,将不包含文本内容的区域裁剪掉,从而得到只包含文本内容的文本区域的图像,将文本区域的图像作为待识别文本图像。
305、服务器在待识别文本图像中识别出文本内容的文本位置信息。
例如,服务器在待识别文本图像中识别出包含内容的文本区域,计算这个文本区域对应的虚拟文本框在整个待识别文本图像中的位置信息,将该位置信息作为文本内容的文本位置信息。
306、服务器根据文本位置信息,对待识别文本图像进行校正,得到校正后文本图像。
例如,服务器可以采用浅层卷积神经网络在待识别文本图像中识别出文本内容的至少一个图像控制点和图像控制点的目标位置。计算图像控制点与文本内容的文本区域之间的距离关系,根据距离关系和文本位置信息,确定图像控制点在待识别文本图像中当前位置。采用薄板样条插值算法,通过对比图像控制点的目标位置和当前位置,计算出文本内容在待识别文本图像和校正后文本图像之间的位置关系。根据位置关系,在待识别文本图像中对图像控制点进行移动或其他操作,使得图像控制点的当前位置与目标位置重合,就可以将待识别文本图像转换为校正后文本图像,从而完成对待识别文本图像的校正。
307、服务器采用识别模型的编码网络对校正后文本图像的文本内容进行特征提取,得到文本内容的文本特征集。
例如,服务器可以对校正后文本图像进行图像特征提取,得到校正后文本图像的图像特征信息,根据图像特征信息,对文本内容进行双向识别,得到不同方向上的初始文本特征集,将初始文本特征集中的文本特征进行拼接,得到文本内容的文本特征集。具体可以如下:
(1)服务器对校正后文本图像进行图像特征提取,得到校正后文本图像的图像特征信息。
例如,服务器可以采用45层或其他层数的残差网络对校正后文本图像进行多尺度的图像特征提取,得到校正后文本图像的多尺度的图像特征信息,该图像特征信息也可以为待识别文本图像的视觉特征。
(2)服务器根据图像特征信息,对文本内容进行双向识别,得到不同方向上的初始文本特征。
例如,服务器采用256个隐藏单元和两层双向的长短期记忆网络(BiLSTM),在所述图像特征信息中筛选出文本内容中每个文本字符的目标图像特征,采用BiLSTM网络,分别从两个不同方向对目标图像特征进行识别,得到每个字符在不同方向上的初始文本特征。
(3)服务器将初始文本特征进行拼接,得到文本内容的文本特征集。
例如,根据文本内容中文本字符的排列顺序,将同一个字符两次识别出的不同的初始文本特征进行拼接,就可以得到文本内容的文本特征集。该文本特征集的尺寸可以为L×C,其中,L为最后一个图像特征对应的特征图的宽度,C为该特征图的深度。
308、服务器根据文本特征集,确定出文本内容的语义特征信息。
例如,以文本特征集的尺寸为L×C为例,服务器将文本特征集展开为维数为K的一维文本特征,K=L×C,从而将维数为K的一维文本特征作为目标文本特征集。服务器可以采用FastText网络的前馈神经网络对维数为K的一维文本特征进行识别,得到文本内容的上下文特征。可以采用如公式(1)所示的线性函数对上下文特征进行识别,得到文本内容中每个文本字符对应的语义特征,从而得到文本内容的语义特征信息。
309、服务器基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数。
例如,服务器获取GRU网络中的初始化参数,将初始化参数作为识别文本特征集的识别参数,并获取GRU网络的隐藏层的维度信息,隐藏层的维度可以为512。将语义特征信息中的语义特征向量的维度转换成512,就可以得到转换后语义特征信息。直接将GRU网络中的初始化参数替换为转换后语义信息,并将转换后语义特征信息作为目标识别参数。加载该转换后语义信息就可以完成对GRU网络的初始化,从而得到初始化后GRU网络。
310、服务器根据文本特征集,确定待识别文本图像中文本内容的字符识别顺序。
例如,当文本特征集中的文本特征与文本内容中的文本字符一一对应时,服务器在文本内容中确定出每个文本字符对应的文本特征,从而根据特征顺序,对文本内容中的文本字符进行排序,将排序之后的文本字符的顺序作为字符识别顺序,当文本特征集中的文本特征与文本内容中的文本字符不是一一对应时,该字符识别顺序可以为文本字符在文本内容中的原始排列顺序。
311、服务器基于字符识别顺序,在文本内容中确定出当前需要识别的当前文本字符。
例如,GRU网络对文本内容进行识别是一次识别一个文本字符,第一次对文本内容中的文本字符识别时,此时当前需要识别的当前文本字符为字符识别顺序中排第一的文本字符,往后以此类推。
312、服务器根据目标识别参数,对当前文本字符进行识别,以得到待识别文本图像的文本识别结果。
例如,服务器根据文本特征集,对目标识别参数进行更新,得到第一更新后识别参数,并基于第一更新后识别参数,对当前文本字符进行更新,得到当前文本字符的第一字符识别结果,根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符,得到目标文本字符,根据第一字符识别结果,对第一更新后识别参数进行更新,得到第二更新后识别参数,并基于第二更新后识别参数,对目标文本字符进行识别,得到目标文本字符的第二字符识别结果,返回执行根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符的步骤,直至文本内容中的文本字符全部识别,得到待识别文本图像的文本识别结果。具体可以如下:
(1)服务器根据文本特征集,对目标识别参数进行更新,得到第一更新后识别参数,并基于第一更新后识别参数,对当前文本字符进行更新,得到当前文本字符的第一字符识别结果。
例如,服务器在转换后语义特征识别特征信息中提取出语义特征向量,将语义特征向量作为目标识别参数对应的识别特征。将语义特征向量与文本特征集的特征向量进行拼接,根据拼接后的特征向量,生成更新门控状态参数和重置门控状态参数,将门控状态参数与语义特征向量进行融合,得到融合后语义特征向量,将融合后语义特征向量与文本特征集中的文本特征再次拼接,从而得到第一全局文本特征。通过更新门控状态参数将第一全局文本特征和目标识别参数进行融合,得到第一更新识别参数。基于第一更新识别参数,采用如公式(2)所示的识别公式对当前文本字符进行识别,得到当前文本字符的第一字符识别结果。
(2)服务器根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符,得到目标文本字符。
例如,在所述字符识别顺序中查询出所述当前文本字符的下一个文本字符的字符标识,根据字符标识,在文本内容中筛选出目标文本字符。
(3)服务器根据第一字符识别结果,对第一更新后识别参数进行更新,得到第二更新后识别参数,并基于第二更新后识别参数,对目标文本字进行识别,得到目标文本字符的第二字符识别结果。
例如,服务器在第一更新后识别参数中提取出语义特征,将提取到的语义特征作为第二识别特征。当第一字符识别结果为当前文本字符识别后的字符向量时,就可以将该字符向量作为字符特征,当第一字符识别结果为识别出来的具体字或词时,对识别出的字或词进行特征提取,得到字符特征,将第一更新后识别参数的语义特征向量与字符特征向量进行拼接,根据拼接后的特征向量,生成更新门控状态参数和重置门控状态参数,将门控状态参数与语义特征向量进行融合,得到融合后语义特征向量,将融合后语义特征向量与字符特征再次拼接,从而第二全局文本特征,通过更新门控状态参数将第二全局文本特征和第一更新后识别参数进行融合,就可以得到第二更新后识别参数。基于第二更新后识别参数,对目标文本字符进行识别,得到目标文本字符的第二字符识别结果。
(4)服务器返回执行根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符的步骤,直至文本内容中的文本字符全部识别,得到待识别文本图像的文本识别结果。
例如,服务器在目标文本字符识作为此时的当前文本字符别完成之后,就可以返回执行根据字符识别顺序,在文本内容中筛选出当前文本字符的下一个文本字符的步骤,也就是筛选出文本内容中需要识别的第三个文本字符,首选,根据上一个文本字符的字符识别结果,对当前的识别参数进行更新,基于更新后的识别参数,对第三个文本字符进行识别,得到第三个文本字符的字符识别结果,当文本内容中还存在第三个文本字符的下一个文本字符时,就基于第三个文本字符的识别结果和第三个文本字符对应的更新后的识别参数,对下一个文本字符进行识别,以此类推,直至文本内容中所有的文本字符全部识别,从而就可以得到待识别文本图像的文本识别结果。
其中,采用文本识别模型对待识别文本图像进行识别的总体过来看,整体网络架构图可以如图12所示,主要分了四个部分,一是校正模块,校正模块采用浅层识别模型识别出待识别文本图像的图像控制点,通过图像控制点,采用薄板样条插值算法对待识别文本图像进行校正,得到校正后文本图像,二是编码网络,编码网络采用残差模块和BiLSTM网络对校正后文本图像进行编码,得到文本内容的文本特征集,三是语义识别网络,语义识别网络根据文本特征集,采用FastText网络通过线性函数,确定出文本内容的语义特征信息,四是编码网络,编码网络通过语义特征信息对GRU网络进行初始化,采用初始化后的GRU网络对文本特征集进行识别,从而得到待识别文本图像的文本识别结果。
313、终端获取服务器针对待识别文本图像的文本识别结果。
例如,服务器在接收到待识别文本图像并进行识别后,直接将识别结果发送至终端。终端还可以向服务器发送识别结果的获取请求,服务器接收到获取请求之后,判断待识别文本图像识别是否完成,如果已经识别完成,就直接将识别结果返回,如果还未识别或还未完成识别,就可以等到完成对待识别文本图像识别之后,再将识别结果返回。终端还可以在服务器的存储识别结果的内存或缓存中直接读取。
314、终端显示识别结果页面。
例如,终端接收到待识别文本图像的识别结果后,根据待识别文本图像的识别结果,生成识别结果页面,显示识别结果页面。
可选的,在显示识别结果页面之后,识别结果页面上还可以包括保存控件,用户还可以将识别结果进行保存和编辑。比如,当用户在识别结果页面触发保存控件时,响应于保存控件的保存操作,可以将文本识别结果以文本的形式存储至直播客户端的内存或缓存中。此时,就可以返回显示教育直播页面,该教育直播页面上还可以包括查看控件。当用户在教育直播页面触发查看控件时,响应于查看控件的查看操作时,显示文本查看页面,当用户在文本查看页面上触发编辑控件时,响应于编辑控件的编辑操作,对文本识别结果进行编辑,得到编辑后的文本识别结果。还可以将编辑后的文本识别结果存储在直播客户端的内存或缓存中,也可以直接替换第一次存储的文本识别结果。
由以上可知,本实施例服务器在获取待识别文本图像后,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,然后,根据文本特征集,确定出文本内容的语义特征信息,然后,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果;由于该方案在提取到待识别文本图像的文本内容的文本特征集之后,还确定出文本内容的语义特征信息,将语义特征信息作为全局信息来引导对文本内容中文本字符的识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
为了更好地实施以上方法,本发明实施例还提供一种文本图像识别装置(即第一文本图像识别装置),该第一文本图像识别装置可以集成在服务器,该服务器可以为单台服务器,也可以为多台服务器组成的服务器集群。
例如,如图13所示,该第一文本图像识别装置可以包括第一获取单元401、提取单元402、确定单元403、调整单元404和识别单元405,如下:
(1)第一获取单元401;
第一获取单元401,用于获取待识别文本图像,该待识别文本图像包括至少一个文本内容。
例如,第一获取单元401,具体可以用于用户在教育直播页面上筛选出需要识别的文本内容,终端根据文本内容,生成待识别文本图像,将文本图像直接发送至第一文本图像识别装置,第一文本图像识别装置就可以获取到待识别文本图像,还可以从互联网或其他数据库中获取到待识别文本图像。
(2)提取单元402;
提取单元402,用于对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集。
例如,提取单元402,具体可以用于在待识别文本图像中识别出文本内容的文本位置信息,根据文本位置信息,对待识别文本图像进行校正,得到校正后文本图像,采用识别模型的编码网络对校正后文本图像特征的文本内容进行特征提取,得到文本内容的文本特征集。
(3)确定单元403;
确定单元403,用于根据文本特征集,确定出文本内容的语义特征信息。
例如,确定单元403,具体可以用于对文本特征的维度进行转换,得到目标维度的目标文本特征集,采用识别模型的语义识别网络对目标文本特征集进行识别,得到文本内容的上下文特征,根据上下文特征,确定文本内容的语义特征信息。
(4)调整单元404;
调整单元404,用于基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数。
例如,调整单元404,具体可以用于获取文本识别模型中解码网络的初始化参数和隐藏层的维度信息,根据维度信息,对语义特征信息的维度进行转换,得到转换后语义特征信息,根据转换后语义特征信息,对识别参数进行调整,得到目标识别参数。
(5)识别单元405;
识别单元405,用于根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
例如,识别单元405,具体可以用于根据文本特征集,确定待识别文本图像中文本内容的字符识别顺序,基于字符识别顺序,在文本内容中确定出当前需要识别的当前文本字符,根据目标识别参数,对当前文本字符进行识别,以得到待识别文本图像的文本识别结果。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在第一获取单元401获取待识别文本图像后,该待识别文本图像包括至少一个文本内容,提取单元402对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,然后,确定单元403根据文本特征集,确定出文本内容的语义特征信息,然后,调整单元404基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,识别单元405根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果;由于该方案在提取到待识别文本图像的文本内容的文本特征集之后,还确定出文本内容的语义特征信息,将语义特征信息作为全局信息来引导对文本内容中文本字符的识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
为了更好地实施以上方法,本发明实施例还提供一种文本图像识别装置(即第二文本图像识别装置),该第二文本图像识别装置可以集成在终端,该终端可以包括智能手机、平板电脑、笔记本电脑和/或个人计算机等。
例如,如图14所示,该第二文本图像识别装置可以包括直播页面显示单元501、选择页面显示单元502、生成单元503、第二获取单元504和识别结果显示单元505,如下:
(1)直播页面显示单元501;
直播页面显示单元501,用于显示教育直播页面,该教育直播页面包括文本内容和识别控件。
例如,直播页面显示单元501,具体可以用于用户可以对直播客户端的用户操作页面进行操作从而触发显示教育直播页面。
(2)选择页面显示单元502;
选择页面显示单元502,用于响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件。
例如,选择页面显示单元502,具体可以用于当用户在教育直播页面触发识别控件的识别操作时,响应于识别控件的识别操作,对当前显示的教育直播页面中显示文本内容的区域进行截图,得到初始文本图像,根据初始文本内容图像,显示文本内容选择页面。
(3)生成单元503;
生成单元503,用于响应于文本内容选择控件的选择操作时,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器。
例如,生成单元503,具体可以用于当用户在文本内容选择页面上通过触发文本内容选择控件,在文本内容中选择需要识别的目标文本内容,响应于文本内容选择控件的选择操作,将目标文本内容对应的图像作为待识别文本图像,将待识别文本图像发送至服务器,
(4)第二获取单元504;
第二获取单元504,用于获取服务器针对待识别文本图像的文本识别结果。
例如,第二获取单元504,具体可以用于可以直接接收服务器返回的文本识别结果,或者在服务器的存储识别结果的内存或缓存中获取。
(5)识别结果显示单元505;
识别结果显示单元505,用于显示识别结果页面,该识别结果页面包括待识别文本图像和待识别文本图像的文本识别结果。
例如,识别结果显示单元505,具体可以用于根据待识别文本图像的识别结果,生成识别结果页面,显示识别结果页面。
可选的,第二文本图像识别装置还可以包括处理单元506,如图15所示,具体如下:
处理单元506,用于对待识别文本图像的文本识别结果进行处理。
例如,处理单元506,具体可以用于响应于保存控件的保存操作,将文本识别结果进行存储,并返回显示教育直播页面,该教育直播页面还包括查看控件,该查看控件用于查重文本识别结果;响应于查看控件的查看操作,显示文本查看页面,文本查看页面包括文本识别结果和编辑控件;响应于编辑控件的编辑操作,对文本识别结果进行编辑。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在直播页面显示单元501显示教育直播页面后,该教育直播页面包括文本内容和识别控件,选择页面显示单元502响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件,生成单元503响应于文本内容选择控件的选择操作,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器,第二获取单元504获取服务器针对待识别文本图像的文本识别结果,识别结果显示单元505显示识别结果页面,该识别结果页面包括待识别文本图像和待识别文本图像的文本识别结果,由于该方案通过服务器根据待识别文本图像中的文本内容的语义特征信息,对待识别文本图像的文本内容进行识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
本发明实施例还提供一种电子设备,如图16所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图16中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体检测。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取待识别文本图像,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,根据文本特征集,确定出文本内容的语义特征信息,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
或
显示教育直播页面,该教育直播页面包括文本内容和识别控件,响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件,响应于文本内容选择控件的选择操作时,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器,获取所述服务器针对所述待识别文本图像的文本识别结果,显示识别结果页面,该识别结果页面包括待识别文本图像和待识别文本图像的文本识别结果。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取待识别文本图像后,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,然后,根据文本特征集,确定出文本内容的语义特征信息,然后,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果;由于该方案在提取到待识别文本图像的文本内容的文本特征集之后,还确定出文本内容的语义特征信息,将语义特征信息作为全局信息来引导对文本内容中文本字符的识别,从而提升文本图像的识别准确率,尤其是低质量文本图像的识别准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本图像识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别文本图像,该待识别文本图像包括至少一个文本内容,对待识别文本图像中的文本内容进行特征提取,得到文本内容的文本特征集,根据文本特征集,确定出文本内容的语义特征信息,基于语义特征信息,对识别文本特征集的识别参数进行调整,得到目标识别参数,根据目标识别参数,对文本特征集进行识别,得到待识别文本图像的文本识别结果。
或
显示教育直播页面,该教育直播页面包括文本内容和识别控件,响应于识别控件的识别操作,显示文本内容选择页面,该文本内容选择页面包括文本内容选择控件,响应于文本内容选择控件的选择操作时,根据文本内容,生成待识别文本图像,并将待识别文本图像发送至服务器,获取所述服务器针对所述待识别文本图像的文本识别结果,显示识别结果页面,该识别结果页面包括待识别文本图像和待识别文本图像的文本识别结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本图像识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本图像识别方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种文本图像识别方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种文本图像识别方法,其特征在于,包括:
获取待识别文本图像中的文本内容的语义特征信息;
基于所述语义特征信息,对识别所述文本内容的文本特征集的识别参数进行调整,得到目标识别参数;
根据所述文本特征集,对所述目标识别参数进行更新,得到第一更新后识别参数,并基于所述第一更新后识别参数,对当前文本字符进行识别,得到所述当前文本字符的第一字符识别结果;
根据所述第一字符识别结果,对所述第一更新后识别参数进行更新,得到第二更新后识别参数,并基于所述第二更新后识别参数,对目标文本字符进行识别,得到所述目标文本字符的第二字符识别结果,其中,所述目标文本字符是根据字符识别顺序,在所述文本内容中筛选出的所述当前文本字符的下一个文本字符。
2.根据权利要求1所述的方法,其特征在于,在所述对目标文本字符进行识别,得到所述目标文本字符的第二字符识别结果之后,所述方法还包括:
返回执行根据所述字符识别顺序,在所述文本内容中筛选出所述当前文本字符的所述下一个文本字符的步骤,直至所述文本内容中的文本字符全部识别,得到所述待识别文本图像的文本识别结果。
3.根据权利要求1所述的文本图像识别方法,其特征在于,所述根据所述文本特征集,对所述目标识别参数进行更新,得到第一更新后识别参数,包括:
对所述目标识别参数进行特征提取,得到所述目标识别参数对应的第一识别特征;
将所述第一识别特征与所述文本特征集中的文本特征进行融合,得到第一全局文本特征;
根据所述第一全局文本特征,对所述目标识别参数进行更新,得到第一更新后识别参数。
4.根据权利要求3所述的文本图像识别方法,其特征在于,所述将所述第一识别特征与所述文本特征集中的文本特征进行融合,得到第一全局文本特征,包括:
将所述第一识别特征与所述文本特征集中的文本特征进行拼接,得到拼接后的特征向量;
根据所述拼接后的特征向量,生成更新门控状态参数和重置门控状态参数;
将所述门控状态参数与所述第一识别特征进行融合,得到融合后语义特征向量;
将所述融合后语义特征向量与所述文本特征集中的所述文本特征进行拼接,得到第一全局文本特征。
5.根据权利要求1所述的文本图像识别方法,其特征在于,所述根据所述第一字符识别结果,对所述第一更新后识别参数进行更新,得到第二更新后识别参数,包括:
对所述第一更新后识别参数进行特征提取,得到所述第一更新后识别参数的第二识别特征;
根据所述第一字符识别结果,确定所述当前文本字符识别出的字符特征;
将所述第二识别特征与所述字符特征进行融合,得到第二全局文本特征;
基于所述第二全局文本特征,对所述第一更新后识别参数进行更新,得到第二更新后识别参数。
6.根据权利要求5所述的文本图像识别方法,其特征在于,所述根据所述第一字符识别结果,确定所述当前文本字符识别出的字符特征,包括:
执行以下处理的任意一种:
当所述第一字符识别结果为所述当前文本字符识别后的字符向量时,将所述字符向量作为所述当前文本字符识别出的字符特征;
当所述第一字符识别结果为识别出来的具体字或词时,对识别出的所述字或所述词进行特征提取,得到所述当前文本字符识别出的字符特征。
7.根据权利要求5所述的文本图像识别方法,其特征在于,所述将所述第二识别特征与所述字符特征进行融合,得到第二全局文本特征,包括:
将所述第一更新后识别参数的所述第二识别特征与所述字符特征进行拼接,得到拼接后的特征向量;
根据所述拼接后的特征向量,生成更新门控状态参数和重置门控状态参数;
将所述门控状态参数与第二识别特征进行融合,得到融合后语义特征向量;
将所述融合后语义特征向量与所述字符特征再次拼接,得到第二全局文本特征。
8.根据权利要求1所述的文本图像识别方法,其特征在于,所述基于所述语义特征信息,对识别所述文本内容的文本特征集的识别参数进行调整,得到目标识别参数,包括:
获取文本识别模型中解码网络的初始化参数和隐藏层的维度信息,并将所述初始化参数作为识别所述文本特征集的识别参数,所述文本识别模型用于识别所述待识别文本图像的文本内容;
根据所述维度信息,对所述语义特征信息的维度进行转换,得到转换后语义特征信息;
根据所述转换后语义特征信息,对所述识别参数进行调整,得到所述目标识别参数。
9.根据权利要求8所述的文本图像识别方法,其特征在于,所述根据所述转换后语义特征信息,对所述识别参数进行调整,得到所述目标识别参数,包括:
将所述识别参数替换为所述转换后语义特征信息,以对所述解码网络进行初始化,并将所述转换后语义特征信息作为所述目标识别参数。
10.根据权利要求1至9任一项所述的文本图像识别方法,其特征在于,在所述基于所述第一更新后识别参数,对当前文本字符进行识别,得到所述当前文本字符的第一字符识别结果之前,所述方法还包括:
根据所述文本特征集,确定所述待识别文本图像中所述文本内容的所述字符识别顺序;
基于所述字符识别顺序,在所述文本内容中确定出当前需要识别的所述当前文本字符。
11.根据权利要求10所述的文本图像识别方法,其特征在于,所述根据所述文本特征集,确定所述待识别文本图像中所述文本内容的所述字符识别顺序,包括:
若所述文本特征集中的文本特征与所述文本内容中的文本字符一一对应,在所述文本内容中确定出每个所述文本字符对应的所述文本特征,根据所述文本特征的特征顺序,对所述文本内容中的所述文本字符进行排序,将排序之后的所述文本字符的顺序作为所述字符识别顺序;
若所述文本特征集中的所述文本特征未与所述文本内容中的所述文本字符一一对应,将所述文本字符在所述文本内容中的原始排列顺序作为所述字符识别顺序。
12.根据权利要求1至9任一项所述的文本图像识别方法,其特征在于,所述获取待识别文本图像中的文本内容的语义特征信息,包括:
获取待识别文本图像,所述待识别文本图像包括至少一个所述文本内容;
对所述待识别文本图像中的所述文本内容进行特征提取,得到所述文本内容的所述文本特征集;
根据所述文本特征集,确定出所述文本内容的语义特征信息。
13.根据权利要求12所述的文本图像识别方法,其特征在于,所述对所述待识别文本图像中的所述文本内容进行特征提取,得到所述文本内容的所述文本特征集,包括:
在所述待识别文本图像中识别出所述文本内容的文本位置信息;
根据所述文本位置信息,对所述待识别文本图像进行校正,得到校正后文本图像;
采用所述识别模型的编码网络对所述校正后文本图像的文本内容进行特征提取,得到所述文本内容的所述文本特征集。
14.根据权利要求13所述的文本图像识别方法,其特征在于,所述根据所述文本位置信息,对所述待识别文本图像进行校正,得到校正后文本图像,包括:
在所述待识别文本图像中识别出所述文本内容的至少一个图像控制点和图像控制点的目标位置;
根据所述文本位置信息,确定出所述图像控制点在所述待识别文本图像中的当前位置;
基于所述图像控制点的目标位置和当前位置,计算文本内容在所述待识别文本图像和校正后文本图像之间的位置关系;
根据所述位置关系,将所述待识别文图转换为所述校正后文本图像。
15.根据权利要求13所述的文本图像识别方法,其特征在于,所述采用所述识别模型的编码网络对所述校正后文本图像的文本内容进行特征提取,得到所述文本内容的所述文本特征集,包括:
对所述校正后文本图像进行图像特征提取,得到所述校正后文本图像的图像特征信息;
根据所述图像特征信息,对所述文本内容进行双向识别,得到不同方向上的多个初始文本特征;
将所述初始文本特征进行拼接,得到所述文本内容的所述文本特征集。
16.根据权利要求15所述的文本图像识别方法,其特征在于,所述根据所述图像特征信息,对所述文本内容进行双向识别,得到不同方向上的多个初始文本特征,包括:
在所述图像特征信息中,筛选出所述文本内容中每个所述文本字符的目标图像特征;
按照从左往右和从右往左两个不同方向,分别对所述目标图像特征进行识别,得到每个所述文本字符在所述不同方向上的初始文本特征。
17.根据权利要求12所述的文本图像识别方法,其特征在于,所述根据所述文本特征集,确定出所述文本内容的语义特征信息,包括:
对所述文本特征集的维度进行转换,得到目标维度的目标文本特征集;
采用所述识别模型的语义识别网络对所述目标文本特征集进行识别,得到所述文本内容的上下文特征;
根据所述上下文特征,确定所述文本内容的语义特征信息。
18.一种文本图像识别方法,其特征在于,包括:
显示教育直播页面,所述教育直播页面包括文本内容和识别控件;
响应于所述识别控件的识别操作,显示文本内容选择页面,所述文本内容选择页面包括文本内容选择控件;
响应于所述文本内容选择控件的选择操作,根据所述文本内容,生成待识别文本图像,并将所述待识别文本图像发送至服务器;
获取所述服务器针对所述待识别文本图像的文本识别结果,所述文本识别结果为所述服务器采用如权利要求1至17中任一项所述文本图像识别方法对所述待识别文本图像进行文本图像识别后得到的;
显示识别结果页面,所述识别结果页面包括待识别文本图像和所述待识别文本图像的文本识别结果。
19.一种文本图像识别装置,其特征在于,包括:
第一获取单元,用于获取待识别文本图像中的所述文本内容的语义特征信息;
调整单元,用于基于所述语义特征信息,对识别所述文本内容的文本特征集的识别参数进行调整,得到目标识别参数;
识别单元,用于根据所述文本特征集,对所述目标识别参数进行更新,得到第一更新后识别参数,并基于所述第一更新后识别参数,对当前文本字符进行识别,得到所述当前文本字符的第一字符识别结果;根据所述第一字符识别结果,对所述第一更新后识别参数进行更新,得到第二更新后识别参数,并基于所述第二更新后识别参数,对目标文本字符进行识别,得到所述目标文本字符的第二字符识别结果,其中,所述目标文本字符是根据字符识别顺序,在所述文本内容中筛选出的所述当前文本字符的下一个文本字符。
20.一种文本图像识别装置,其特征在于,包括:
直播页面显示单元,用于显示教育直播页面,所述教育直播页面包括文本内容和识别控件;
选择页面显示单元,用于响应于所述识别控件的识别操作,显示文本内容选择页面,所述文本内容选择页面包括文本内容选择控件;
生成单元,用于响应于所述文本内容选择控件的选择操作时,根据所述文本内容,生成待识别文本图像,并将所述待识别文本图像发送至服务器;
第二获取单元,用于获取所述服务器针对所述待识别文本图像的文本识别结果,所述文本识别结果为所述服务器采用如权利要求1至17中任一项所述文本图像识别方法对所述待识别文本图像进行文本图像识别后得到的;
识别结果显示单元,用于显示识别结果页面,所述识别结果页面包括待识别文本图像和所述待识别文本图像的文本识别结果。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511347680.9A CN120976951A (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511347680.9A CN120976951A (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
| CN202011171696.6A CN112149642B (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202011171696.6A Division CN112149642B (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN120976951A true CN120976951A (zh) | 2025-11-18 |
Family
ID=73953496
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202011171696.6A Active CN112149642B (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
| CN202511347680.9A Pending CN120976951A (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202011171696.6A Active CN112149642B (zh) | 2020-10-28 | 2020-10-28 | 一种文本图像识别方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (2) | CN112149642B (zh) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113378815B (zh) * | 2021-06-16 | 2023-11-24 | 南京信息工程大学 | 一种场景文本定位识别的系统及其训练和识别的方法 |
| CN113568823A (zh) * | 2021-09-27 | 2021-10-29 | 深圳市永达电子信息股份有限公司 | 一种员工操作行为监控方法、系统和计算机可读介质 |
| CN114611509A (zh) * | 2022-03-16 | 2022-06-10 | 北京有竹居网络技术有限公司 | 文本识别方法、装置、可读介质及电子设备 |
| CN114792423B (zh) * | 2022-05-20 | 2022-12-09 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置和存储介质 |
| CN115187996B (zh) * | 2022-09-09 | 2023-01-06 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
| CN115358392B (zh) * | 2022-10-21 | 2023-05-05 | 北京百度网讯科技有限公司 | 深度学习网络的训练方法、文本检测方法及装置 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106874443A (zh) * | 2017-02-09 | 2017-06-20 | 北京百家互联科技有限公司 | 基于视频文本信息提取的信息查询方法以及装置 |
| US10741092B1 (en) * | 2017-06-09 | 2020-08-11 | Act, Inc. | Application of high-dimensional linguistic and semantic feature vectors in automated scoring of examination responses |
| WO2020010547A1 (zh) * | 2018-07-11 | 2020-01-16 | 深圳前海达闼云端智能科技有限公司 | 字符识别方法、装置、存储介质及电子设备 |
| CN109993057B (zh) * | 2019-02-25 | 2024-10-29 | 平安科技(深圳)有限公司 | 语义识别方法、装置、设备及计算机可读存储介质 |
| CN111753822B (zh) * | 2019-03-29 | 2024-05-24 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
| CN110609897B (zh) * | 2019-08-12 | 2023-08-04 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
| CN111382717B (zh) * | 2020-03-17 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
-
2020
- 2020-10-28 CN CN202011171696.6A patent/CN112149642B/zh active Active
- 2020-10-28 CN CN202511347680.9A patent/CN120976951A/zh active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| CN112149642A (zh) | 2020-12-29 |
| CN112149642B (zh) | 2025-09-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112149642B (zh) | 一种文本图像识别方法和装置 | |
| US12299408B2 (en) | Translating texts for videos based on video context | |
| CN110446063B (zh) | 视频封面的生成方法、装置及电子设备 | |
| CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
| CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
| CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
| CN117609550B (zh) | 视频标题生成方法和视频标题生成模型的训练方法 | |
| CN118632070B (zh) | 视频的生成方法、装置、电子设备、存储介质及程序产品 | |
| CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
| KR20200079175A (ko) | 행위 예측에 기초한 ar 장치 제어 방법 및 장치 | |
| CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
| CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
| CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
| WO2026001197A1 (zh) | 视频生成、虚拟对象的运动视频生成、视频编辑、视频生成模型训练及基于视频生成模型的信息处理方法 | |
| WO2026001219A1 (zh) | 视频生成、虚拟对象的运动视频生成、视频编辑、视频生成模型训练及基于视频生成模型的信息处理方法 | |
| CN119206573A (zh) | 一种面向视频的事件知识抽取方法、系统、设备及介质 | |
| US20250131753A1 (en) | Generating image difference captions via an image-text cross-modal neural network | |
| CN120409657B (zh) | 多模态大模型驱动的人物知识图谱构建方法及系统 | |
| CN116645455A (zh) | 虚拟形象视频的生成方法、装置、电子设备和存储介质 | |
| CN116932788A (zh) | 封面图像提取方法、装置、设备及计算机存储介质 | |
| CN119646181A (zh) | 内容生成方法、装置、电子设备及存储介质 | |
| CN113395584A (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
| HK40035376A (zh) | 一种文本图像识别方法和装置 | |
| CN118366198B (zh) | 一种基于多人场景的跟踪换脸方法、系统、设备及介质 | |
| CN117746177B (zh) | 图像识别模型训练方法和图像识别模型应用方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |