[go: up one dir, main page]

CN108108732A - 字符辨识系统及其字符辨识方法 - Google Patents

字符辨识系统及其字符辨识方法 Download PDF

Info

Publication number
CN108108732A
CN108108732A CN201611114117.8A CN201611114117A CN108108732A CN 108108732 A CN108108732 A CN 108108732A CN 201611114117 A CN201611114117 A CN 201611114117A CN 108108732 A CN108108732 A CN 108108732A
Authority
CN
China
Prior art keywords
character
character string
string
recognized
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611114117.8A
Other languages
English (en)
Other versions
CN108108732B (zh
Inventor
高志忠
康浩平
吴佳桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN108108732A publication Critical patent/CN108108732A/zh
Application granted granted Critical
Publication of CN108108732B publication Critical patent/CN108108732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

一种字符辨识系统及其字符辨识方法。字符辨识方法包括:使用第一卷积神经网络模型,辨识有兴趣区块中的字符串,产出辨识字符串,其中该有兴趣区块中的字符串包括一或多个字符;以及比较该辨识字符串与字符数据库中多个字符串,以寻找与该辨识字符串相对应的字符串,其中该多个字符串的每个字符串包括一或多个字符;其中,若找到该辨识字符串相对应的字符串,以该辨识字符串作为字符辨识结果,若未找到该辨识字符串相对应的字符串,使用第二卷积神经网络模型,更正该辨识字符串,以产出新辨识字符串作为字符辨识结果。

Description

字符辨识系统及其字符辨识方法
技术领域
本揭露是有关于字符辨识系统及其相关字符辨识方法,特别是有关于一种基于卷积神经网络的字符辨识系统及其相关字符辨识方法。
背景技术
随着运动风气的盛行及使用者需求的驱使下,每场赛事都会记录大量的照片或影片。愈来愈多的赛事单位或运动网站提供运动员使用号码布上标示的字符(譬如说号码等)进行照片或影片搜寻的服务,以方便参赛者于赛后搜寻自己的照片或影片并分享于社群网络。一般而言,这类辨识是透过计算机来进行影像分析与处理。然而,因为照片或影片中号码布位移与变形的关系,使得用计算机进行辨识号码布上的字符的正确率较低,因此目前大都是以雇用大量工读生进行人工辨识后,标记照片或影片上出现的号码布上的字符,导致需耗费大量的人力、时间与成本。
近年来,随着类神经网络的技术提升,使得辨识的效果跟以往的技术相比有相当显着的进步,因此类神经网络可被广泛用于譬如说文字辨识。传统类神经网络的文字辨识的步骤包括文字侦测、文字分割和文字辨识等步骤,虽然使用类神经网络可提升辨识的效果,然而,因为号码布上的文字容易受到号码布的扭曲影响而无法完整的切割,导致后续的字元辨识(Optical Character Recognize,OCR)容易发生错误,影响文字辨识的正确率。
发明内容
有鉴于此,本揭露提供一种基于卷积神经网络的字符辨识系统及其相关字符辨识方法。
本揭露的一实施例提供一种字符辨识方法,适用于包括储存装置与影像处理器的字符辨识系统。字符辨识方法包括:使用第一卷积神经网络(Convolutional NeuralNetwork,CNN)模型,辨识有兴趣区块中的字符串(character string),产出辨识字符串,其中该有兴趣区块中的字符串包括一或多个字符;以及比较该辨识字符串与字符数据库中多个字符串,以寻找与该辨识字符串相对应的字符串,其中该多个字符串的每个字符串包括一或多个字符;其中,若找到该辨识字符串相对应的字符串,以该辨识字符串作为字符辨识结果,若未找到该辨识字符串相对应的字符串,使用第二卷积神经网络模型,更正该辨识字符串,以产出新辨识字符串作为字符辨识结果。
本揭露另一实施例提供一种字符辨识系统,包括:储存装置以及影像处理器。储存装置经配置储存字符数据库。影像处理器耦接储存装置,经配置使用第一卷积神经网络(Convolutional Neural Network,CNN)模型,辨识有兴趣区块中的字符串(characterstring),产出辨识字符串,其中有兴趣区块中的字符串包括一或多个字符,并且比较该辨识字符串与该字符数据库中多个字符串,以寻找与该辨识字符串相对应的字符串,其中多个字符串的每个字符串包括一或多个字符;其中,若找到辨识字符串相对应的字符串时,影像处理器是以辨识字符串作为字符辨识结果,若未找到辨识字符串相对应的字符串,影像处理器经配置使用第二卷积神经网络模型,更正辨识字符串,以产出新辨识字符串作为字符辨识结果。
本揭露的上述方法可经由本揭露的装置或系统来实作,其为可执行特定功能的硬件或固件,亦可以透过程序码方式收录于记录媒体中,并结合特定硬件来实作。当程序码被电子装置、处理器、计算机或机器载入且执行时,电子装置、处理器、计算机或机器变成用以实行本揭露的装置或系统。
附图说明
图1是显示依据本揭露的字符辨识系统一实施例的示意图;
图2是显示本揭露的字符辨识方法一实施例的流程图;
图3是显示本揭露一实施例的使用第二CNN模型更正辨识字符串的流程图;
图4是显示本揭露一实施例的用于第二CNN模型的部分字符串的字符个数及其所对应字符位置的计算的流程图;
图5是显示本揭露一实施例的调整后的字符串的产生方法流程图;
图6是显示本揭露一实施例的CNN模型的结构示意图;
图7是显示本揭露一实施例的可能组合数以及实际组合数的比例示意图。
【符号说明】
10~输入影像;
100~字符辨识系统;
110~影像输入装置;
120~影像处理器;
122~机器学习引擎;
130~储存装置;
132~字符数据库;
S202、S204、S206、S207、S208、S210、S211、S212、S213~步骤;
S302、S304~步骤;
S402、S404、S406、S408、S410、S412、S414~步骤;
S502、S504、S506~步骤;以及
700~阀值。
具体实施方式
为让本揭露的目的、特征、和优点能更明显易懂,特举出下文实施例,并配合所附附图,作详细说明如下。注意的是,本章节所叙述的实施例目的在于说明本发明的实施方式而非用以限定本发明的保护范围,任何熟悉此项技艺者,在不脱离本发明的精神和范围内,当可做些许更动与润饰,因此本发明的保护范围当视所附的权利要求书所界定的范围为准。应理解下列实施例可经由软件,硬件,固件,或上述任意组合来实现。
本揭露实施例提供一种字符辨识系统及其字符辨识方法,可利用多阶层的卷积神经网络(Convolutional Neural Network,以下简称CNN)的架构,透过事先训练好的多个CNN模型来对“具待辨识字符的物件影像”(或称为输入影像)如图片或影片的画面(例如:具门牌的房子、具车牌的车辆、具待辨识字符的纸张、具待辨识字符的衣服、运动赛事中具号码布的参赛者等等,但并不以前述为限)进行字符串侦测并标记出字符串的位置,再搭配使用字符数据库与字串检查错误更正机制等进行字符辨识,将所分析的最有可能的辨识字符串输出为辨识结果,可有效提高辨识的准确率与辨识速度。
图1显示依据本揭露的字符辨识系统一实施例的示意图。如图1所示,字符辨识系统100至少包括影像输入装置110、一影像处理器120、一机器学习引擎122、一储存装置130以及一显示装置140。影像输入装置110可经配置以接收或取得一输入影像10,以提供输入影像10至影像处理器120进行后续影像分析与处理。举例来说,字符辨识系统100可为膝上型电脑、桌上型电脑、平板装置或其它手持式装置(例如,智能手机)等,但本揭露并不限于此。举例来说,于一实施例中,影像输入装置110可为影像撷取单元,例如一红外线影像撷取装置、一光电耦合元件或一互补式金氧半导体光学感测元件的其中一者或其任意组合,但本揭露不限于此。其中,输入影像10可为一图片或一影片的一画面,而输入影像10中包括一待辨识的字符串。待辨识的字符串中的字符种类可为:各种类型符号(symbol)、各种类型字母(包括各国语言字母)、各种类型数字、各种类型文字、图案或前述中至少两项的任意组合。于一实施例中,待辨识的字符串可为包括至少一种字符种类的一字符串,例如包含至少一英文字母及至少一阿拉伯数字的字符串“B7”、“A12345”等。于另一些实施例中,待辨识的字符串可为仅包括单一字符种类的一字符串,例如:包含至少一英文字母的字符串“Z”、“AB”、“ABCDE”等或包含至少一阿拉伯数字的字符串“9”、“56”、“1234”等,但本揭露并不限于此。为便于解说,于后面段落的实施例中,将以输入影像10可为一运动赛事的参赛者的照片或影片,而待辨识的字符串则为照片或影片上参赛者的号码布上的字符,进行可能实施例的说明,已知技术者当可类推其他类型实施态样。
影像处理器120是耦接至影像输入装置110与储存装置130,可从储存装置130中载入并执行指令集及/或程序码,以依据影像输入装置110所提供的输入影像10执行本案所述的字符辨识方法,其细节将于后进行说明。影像处理器120可为通用处理器、微处理器(Micro-Control Unit,MCU)、图形处理器(Graphics Processing Unit,GPU)或数字信号处理器(Digital Signal Processor,DSP)等,用以提供影像数据分析、处理及运算的功能。储存装置130可为非挥发性储存媒体(例如:只读记忆体(Read-Only Memory,ROM)、快闪记忆体(Flash memory)、硬盘、光盘等)、挥发性储存媒体(例如:随机存取记忆体(Radom AccessMemory,RAM))、或两者的任意组合,用以储存相关数据,例如运算过程中的中间数据及辨识结果数据等。于一些实施例中,储存装置130可事先储存输入影像10,影像处理器120则直接由储存装置130中存取输入影像10进行后续处理,而无须透过影像输入装置110。
储存装置130可还包括字符数据库132,其是存取有多个字符串,这些字符数据库132中所存储的字符串可用于后续的字符辨识。举例来说,字符数据库132可储存所有实际参赛者的可能字符串,之后,影像处理器120可比对字符数据库132中所存储的字符串,来判断辨识结果是否正确或有效。
机器学习引擎122可依据一机器学习演算法或机制,来训练出多个CNN模型,用以对输入影像10进行字符串侦测与辨识。其中,每一CNN模型采用多层CNN结构,用以提取特征,每一层CNN都会进行特征撷取(feature extraction)以及分类(classification)并且上一层的输出作为下一层的输入。CNN在特征撷取的阶段可取出主要特征并透过后续的降解析(subsampling),除了可以降低训练网络的特征维度(feature dimension),并且可以达到平移不变性的效果。
如图1实施例所示,机器学习引擎122所采用的类神经网络为CNN且其采用的CNN模型至少包括一区块侦测CNN模型、一第一CNN模型以及一第二CNN模型。其中,每一CNN模型可具有如图6所示的结构。图6是显示本揭露一实施例的CNN模型的结构示意图。如图6所示,CNN模型包括多层,可透过CNN网络的训练与学习机制对输入影像进行特征撷取以及分类。其中,CNN各层依次为输入层、多个卷积层、多个全连接层以及分类层,卷积层可还包括特征提取层(feature extraction layer)以及特征映射层(feature mapping layer),特征提取层的神经元的输入与前一层的局部接受域相连,提取相关局部的特征,特征映射层由多个特征映射而成,每个映射为一平面,相同特征映射面上的神经元权值相同,所以其可并行学习。透过CNN模型的多个卷积层对输入影像10进行特征映射和提取,再经过全连接层以及分类层完成整个分类过程以得到一辨识字符串。
具体来说,区块侦测CNN模型的输入为输入影像10,用以侦测输入影像10,直接找出输入影像10中的有兴趣区块(region of interest,ROI)。机器学习引擎122可事先将大量的包含有兴趣区块的输入影像10交给CNN进行训练,CNN便可找出有兴趣区块的抽象特征定义,得到区块侦测CNN模型。之后,机器学习引擎122便可透过区块侦测CNN模型侦测出输入影像10中的有兴趣区块。举例来说,当输入影像10(或称为具待辨识字符的物件影像)为一参赛者的全身影像且其包括一号码布时,有兴趣区块可为号码布所在的区块,区块侦测CNN模型经配置以辨识出号码布所在的区块,第一CNN模型经配置以辨识号码布内的字符串(例如:号码及/或字元符号),第二CNN模型经配置于第一CNN模型所辨识出的字符无效或不正确时,更正辨识出的部分字符串(例如:号码),以提高辨识的正确率。由于本案可侦测出输入影像10中的号码布的位置,因此只需辨识号码布内的字符,可有效排除其他画面内的其他辨识干扰(例如:其中非号码布内的字符),也可适用于非正面人形或非人形躯干的物体例如动物上的字符辨识。注意的是,具体机器学习机制的细节是可采用本领域技艺人士所熟知的各种处理技术来加以实现,其细节在此省略。
显示装置140可为任一可用以显示或呈现辨识结果的装置。显示装置140是可显示相关数据,例如是文字、图形、界面及/或各种信息如显示或呈现辨识结果等。显示装置140可经配置呈现辨识结果的影像(包含任一种影像格式,如bmp、jpg、png等)或呈现量测结果的画面,例如:液晶显示器(LCD)。应理解的是,于一些实施例中,显示装置140是结合触碰感应装置(未显示)的屏幕。触控感应装置是具有一触控表面,其包括至少一维度的感测器以侦测靠近或在触控表面上的一输入工具如手指或触控笔等在其表面上的接触及动作。因此,使用者可透过显示装置140来进行触控输入命令或信号。
可理解的是,上述各元件或模组是为一具有对应功能的装置,可具有适当的硬件电路或元件以执行对应功能,然而,该装置并不以具有实体为限,其亦得为一虚拟的具有对应功能的程序、软件,或是具有处理、运行该程序、软件能力的装置。而上述各元件运作的方式,可进一步的参阅以下对应的方法的说明。明确来说,字符辨识系统100可经由影像处理器120来控制机器学习引擎122中各CNN模型的操作来执行本案的字符辨识方法。
图2显示本揭露的字符辨识方法一实施例的流程图。请同时参照图1与图2。依据本揭露实施例的字符辨识方法可以适用于一字符辨识系统,举例来说,可适用于图1的字符辨识系统100并由影像处理器120加以执行。
首先,如步骤S202,影像处理器120侦测一输入影像10,以取得包含一字符串的一有兴趣区块。于一实施例中,影像处理器120经配置使用机器学习引擎122中的区块侦测CNN模型,侦测输入影像,取得包含字符串的有兴趣区块并将有兴趣区块正规化。于此步骤中,机器学习引擎122先针对输入影像10进行有兴趣区块的侦测,在进行有兴趣区块的侦测时是使用事先训练好的区块侦测CNN模型。举例来说,有兴趣区块可为包含一字符串的号码布,而区块侦测CNN模型可侦测输入影像10来辨识出号码布所在的区块。于侦测出包含字符串的有兴趣区块之后,再将输入影像10中有兴趣区块的画面正规化,缩放到一指定的大小(例如:将有兴趣区块的画面缩放至128x128像素)。之后,影像处理器120再使用事先训练好的字符串辨识CNN模型并以缩放到指定大小的有兴趣区块的画面当作字符串辨识CNN模型的输入进行字符串(例如:号码)辨识。
接着,如步骤S204,影像处理器120使用第一CNN模型对有兴趣区块的字符串进行字符串辨识,产生一辨识字符串。举例来说,当有兴趣区块为包含一号码的号码布时,第一CNN模型可对号码布上的完整号码进行号码辨识,并于辨识完成后产生表示辨识结果的辨识号码。举例来说,由于号码布的号码字串可能是由26个英文字母加上10个阿拉伯数字中的数个英数字元组成,因此每一个符号都有36个可能的辨识结果。
于产生辨识字符串之后,如步骤S206,影像处理器120判断辨识字符串是否存在字符数据库132中。其中字符数据库132包括多个字符串且每个字符串可包括一或多个字符。具体来说,判断辨识字符串是否存在字符数据库132中是比较辨识字符串与字符数据库132中多个字符串,以寻找字符数据库132中是否有与辨识字符串相对应的字符串。当于字符数据库132中寻找到与辨识字符串相对应的一字符串时便判定辨识字符串存在字符数据库132。
当辨识字符串存在字符数据库132时(步骤S206的是),如步骤S207,表示辨识成功,于是输出辨识字符串为字符辨识结果。举例来说,假设辨识字符串为“A12345”,则当字符数据库132中存在字符串“A12345”时便表示辨识成功。
相反地,当辨识字符串并不存在字符数据库132时(步骤S206的否),亦即,于字符数据库132中找不到与辨识字符串相对应的任何字符串,表示辨识失败,接着如步骤S208,影像处理器120使用第二CNN模型更正辨识字符串,产生一新辨识字符串。
于一些实施例中,使用第二CNN模型更正辨识字符串是使用第二CNN模型辨识有兴趣区块中的字符串中的部分字符串,并以辨识得的新部分字符串替换该辨识字符串中对应位置的前述部分字符串,其中有兴趣区块中的字符串包括多个字符,且部分字符串的字符个数小于有兴趣区块中的字符串的字符个数。步骤S208的具体内容请参见图3。图3是显示本揭露一实施例的使用第二CNN模型更正辨识字符串的流程图,其经配置可由影像处理器120所执行。
当辨识字符串并不存在字符数据库132时,如步骤S302,影像处理器120使用第二CNN模型辨识该有兴趣区块中的部分字符串,产生一辨识的部分字符串,并于辨识的部分字符串产生之后,如步骤S304,以辨识的部分字符串替换第一CNN模型所产生的辨识字符串的对应部分字符串,以得到步骤S208的新辨识字符串。举例来说,假设有兴趣区块中的完整字符串为“A12345”,而辨识的部分字符串可为“345”、“123”或“2345”等。当第一CNN模型所产生的辨识字符串为“A12386”时,可将“A12386”中的对应部分字符串“386”替换为辨识的部分字符串“345”,便可得到新辨识字符串“A12345”。其中,部分字符串的字符数及对应位置的计算细节请参见以下图4。
图4是显示本揭露一实施例的用于第二CNN模型的部分字符串的字符个数及其所对应字符位置的计算的流程图,其经配置可由影像处理器120所执行。
首先,影像处理器120计算字符串中各字符位置的字符种类个数(步骤S402)。接着,影像处理器120依据各字符位置的字符种类个数,决定各字符位置的排序值并选定一字符位置(步骤S404)。选定字符位置之后,影像处理器120分别计算选定的字符位置的字符于数据库中的一可能组合总数以及一实际组合总数(步骤S406)。之后,影像处理器120依据计算出的可能组合总数以及实际组合总数,得到一相应组合比例(即实际组合总数/可能组合总数)(步骤S408)。影像处理器120接着判断相应组合比例是否大于一预设阀值(步骤S410)。若相应组合比例大于阀值,影像处理器120将部分字符串的字符个数增加1,并依据剩余字符位置的排序值,新增并记录下一选定字符位置(步骤S412)并重新执行步骤S406-S410的判断。若相应组合比例未大于阀值时,影像处理器120便可得到第二CNN模型所对应的部分字符串的字符个数及部分字符串所对应的字符位置(步骤S414)。
具体来说,假设S={SnSn-1…Sx…S1}是要辨识的字串,S1,…,Sn是各个字元,n表示字串长度,|Sx|是字元Sx的种类数量(1≤x≤n),T为一预设阀值,令P为组合各字元所形成的子字串(第2个CNN所要辨识的字串),P1,…,Pk为各个字元,k是字串长度,|Py|是字元Py的种类数量(1≤y≤k),令C(P)为计算P在字符数据库中的字串数量,则子字串的组合比例为接着,在组合比例大于阀值(R>T)的情况下,找出最长的部分字串P(最大的k)即可求得决定要训练的位元个数与所训练位元的位置第二CNN模型所对应的部分字符串的字符个数及其对应字符位置。
举例来说,假设某场赛事的最大号码为2799,则号码的字符位置有个位数字位、十位数字位、百位数字位以及千位数字位,其中可先计算号码的各个位元的种类数,得到个位数字位有10类(即数字0-9)、十位数字位有10类(即数字0-9)、百位数字位有8类(即数字0-7)以及千位数字位有3类(即数字0-2)。于本实施例中,依据前述各个位元的种类数高低,得到统计位元顺序为个位数字位或十位数字位优先,接着再依序为百位数字位或千位数字位。于本例中,以个位数字位为起始判断位元,计算个位数字位的字符于字符数据库中可能组合的总数以及实际组合的总数,再计算该位元的实际组合与可能组合的比例。接着,判断个位数字位计算出的组合比例是否大于阀值,若小于阀值,便可决定第二CNN模型用以训练的字符个数为1且对应字符位置为个位数字位。于另一实施例中,若个位数字位计算出的组合比例大于阀值,则再增加一个字符位置继续进行下一个字元组的判断。也就是说,再增加十位数字位进行下一轮判断,计算十位数字位包含个位数字位的字符于字符数据库中可能组合的总数以及实际组合的总数,再计算此字符组的实际组合与可能组合的比例。假设增加第四个字元时的组合比例小于阀值,例如阀值为0.9,则表示于训练第二个CNN模型时,用以训练的字符个数为3且对应字符位置为百位数字位、十位数字位以及个位数字位。可理解的是,透过选定不同的阀值可决定用于决定训练第二个CNN模型时的字符数及其位置,进而改善整体的辨识正确率。
图7是显示本揭露一实施例的可能组合数以及实际组合数的比例示意图。如图7所示,个位数字位表示为(10/10)代表可能组合数为10类,实际组合数为10类,而加上十位数字位表示为(99/100)代表可能组合数为100类,然实际组合数只为99类,依此类推。其中,可能组合数取决于已报名人数,而实际组合数取决于实际参加的人数,有些人可能报名但未参加,因此实际组合数可能小于可能组合数。于此例中,假设阀值700设为0.9时,因为加上百位数时的比例为474/1000,小于0.9,因此可根据图7的统计结果求得用以训练的字符个数为2且对应字符位置为十位数字位以及个位数字位。
回到图2,于步骤S208产生新辨识字符串之后,如步骤S210,影像处理器120判断新辨识字符串是否存在字符数据库132中。类似地,判断新辨识字符串是否存在字符数据库132中是比较新辨识字符串与字符数据库132中多个字符串,以寻找字符数据库132中是否有与新辨识字符串相对应的字符串。当于字符数据库132中寻找到与新辨识字符串相对应的一字符串时便判定新辨识字符串存在字符数据库132。
当新辨识字符串存在字符数据库132时(步骤S210的是),如步骤S211,表示辨识成功,于是影像处理器120输出新辨识字符串为字符辨识结果。相反地,当新辨识字符串也不存在字符数据库132时(步骤S210的否),亦即,于字符数据库132中找不到与新辨识字符串相对应的任何字符串,表示辨识失败,接着如步骤S212,影像处理器120对辨识字符串进行编辑距离(Edit Distance)计算,以利用字符数据库132中的字符串数据调整辨识字符串,产生一调整后的字符串。其中,调整后的字符串的产生细节请参见以下图5。
图5显示本揭露一实施例的调整后的字符串的产生方法流程图。请同时参照图1与图5。依据本实施例的调整后的字符串的产生方法可以适用于图1的字符辨识系统100并由影像处理器120加以执行。
首先,如步骤S502,影像处理器120依据字符数据库132的多个字符串,统计每一字符位置的字符种类个数并据此决定每一字符位置的一调整权重。举例来说,假设字符数据库132中号码的字符位置有个位数字位、十位数字位、百位数字位以及千位数字位,其中个位数字位有10类(即数字0-9)、十位数字位有10类(即数字0-9)、百位数字位有8类(即数字0-7)以及千位数字位有3类,则影像处理器120可依据每个字符位置的字符种类个数分配给予不同的调整权重。
接着,如步骤S504,影像处理器120利用调整权重进行最小编辑距离计算,计算字符数据库132中每一字符串的一调整误差。编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。编辑距离可应用于拼字校正或是计算两个序列的相似程度。于本案中,依据每个字符位置的字符种类个数分配给予不同的调整权重并透过调整权重进行最小编辑距离计算,可进一步考虑位元间的种类数关系来筛选出最相似的字符串,增加辨识成功率。
于计算出字符数据库中每一字符串的调整误差之后,如步骤S506,影像处理器120输出具有最小调整误差的字符串为步骤S212的调整后的字符串。
回到图2,于步骤S212产生调整后的字符串之后,如步骤S213,影像处理器120输出调整后的字符串为字符辨识结果。
于一些实施例中,当新辨识字符串于数据库中未存在对应的字符串时,影像处理器120可再使用一第三CNN模型(未绘示),来更正新辨识字符串,再利用更正后的字符串比较数据库中的字符串。第三CNN模型的部分字符串可以类似于第二CNN模型的部分字符串或者可以是第二CNN模型的部分字符串以外的字符串。第三CNN模型的部分字符串的产生与决定方式与第二CNN模型类似,其细节不在此赘述。
因此,依据本揭露的字符辨识系统及其字符辨识方法可应用于具有不同颜色的字符串且能忍受有兴趣区块的部分影像与其字符串一定程度的弯曲变形、平移、遮蔽与阴影的现象。此外,依据本揭露的字符辨识系统及其字符辨识方法应用阶层式卷积神经网络架构并搭配使用字符数据库与拼字检查错误更正机制进行字符辨识,可将所分析的最有可能的字符辨识结果进行输出,可相较于现有方法都有更好的辨识效果,并有较高的准确率。
本揭露的方法,或特定型态或其部份,可以以程序码的型态存在。程序码可以包含于实体媒体,如软盘、光盘片、硬盘、或是任何其他机器可读取(如计算机可读取)储存媒体,亦或不限于外在形式的计算机程序产品,其中,当程序码被机器,如计算机载入且执行时,此机器变成用以参与本揭露的装置。程序码也可透过一些传送媒体,如电线或电缆、光纤、或是任何传输型态进行传送,其中,当程序码被机器,如计算机接收、载入且执行时,此机器变成用以参与本揭露的装置。当在一般用途影像处理器实作时,程序码结合影像处理器提供一操作类似于应用特定逻辑电路的独特装置。
虽然本揭露已以一些实施例揭露如上,然其并非用以限定本揭露,任何所属技术领域中包括通常知识者,在不脱离本揭露的精神和范围内,当可作些许的更动与润饰。举例来说,本揭露实施例所述的系统以及方法可以硬件、软件或硬件以及软件的组合的实体实施例加以实现。因此本揭露的保护范围当视所附的权利要求书所界定的范围为准。

Claims (20)

1.一种字符辨识方法,其特征在于,适用于包括储存装置与影像处理器的字符辨识系统,该字符辨识方法包括:
使用第一卷积神经网络模型,辨识有兴趣区块中的字符串,产出辨识字符串,其中该有兴趣区块中的字符串包括一或多个字符;以及
比较该辨识字符串与字符数据库中多个字符串,以寻找与该辨识字符串相对应的字符串,其中该多个字符串的每个字符串包括一或多个字符;
其中,若找到该辨识字符串相对应的字符串,以该辨识字符串作为字符辨识结果,若未找到该辨识字符串相对应的字符串,使用第二卷积神经网络模型,更正该辨识字符串,以产出新辨识字符串作为字符辨识结果。
2.根据权利要求1所述的字符辨识方法,其特征在于,该有兴趣区块是使用区块侦测卷积神经网络模型,侦测输入影像而得,并且该有兴趣区块是被正规化。
3.根据权利要求2所述的字符辨识方法,其特征在于,该输入影像为图片或影片的画面。
4.根据权利要求2所述的字符辨识方法,其特征在于,该区块侦测卷积神经网络模型、该第一卷积神经网络模型、该第二卷积神经网络模型为预先训练过的卷积神经网络模型。
5.根据权利要求1所述的字符辨识方法,其特征在于,该多个字符串包括各种类型符号、各种类型字母、各种类型数字、各种类型文字、或前述中至少两项的任意组合。
6.根据权利要求1所述的字符辨识方法,其特征在于,还包括:
比较该新辨识字符串与该字符数据库中的字符串,以寻找与该新辨识字符串相对应的字符串;以及
若找到与该新辨识字符串相对应的字符串,则输出该新辨识字符串,若未找到与该新辨识字符串相对应的字符串,使用第三卷积神经网络模型,更正该新辨识字符串。
7.根据权利要求1所述的字符辨识方法,其特征在于,该使用该第二卷积神经网络模型,更正该辨识字符串,以产出该新辨识字符串的步骤还包括:
使用该第二卷积神经网络模型辨识该有兴趣区块中的字符串中的部分字符串,产生辨识的部分字符串;
以该辨识的部分字符串替换该第一卷积神经网络模型所产生的该辨识字符串的对应部分字符串,以得到该新辨识字符串,其中该有兴趣区块中的字符串包括多个字符,且该部分字符串的字符个数小于该有兴趣区块中的字符串的字符个数。
8.根据权利要求7所述的字符辨识方法,其特征在于,该有兴趣区块中的所述字符串中每一所述字符有对应字符位置,该方法还包括:
计算每一所述对应字符位置的字符种类个数;
依据所述对应字符位置的所述字符种类个数,决定每一所述对应字符位置的排序值;以及
依据所述对应字符位置的所述排序值,依序计算各该对应字符位置的可能组合总数以及实际组合总数,当该可能组合总数以及该实际组合总数的组合比例大于阀值,则将该部分字符串的字符个数增加1,并依据剩余字符位置的排序,新增并记录下一选定字符位置,直到该组合比例小于该阀值,则得到该第二卷积神经网络模型所对应的该部分字符串的字符个数及该部分字符串所对应的字符位置。
9.根据权利要求1所述的字符辨识方法,其特征在于,还包括:
比较该新辨识字符串与该字符数据库中的字符串,以寻找与该新辨识字符串相对应的字符串;以及
若找到与该新辨识字符串相对应的字符串,则输出该新辨识字符串,若未找到与该新辨识字符串相对应的字符串时,则使用编辑距离计算更正该新辨识字符串,以利用该字符数据库中的字符串数据产生调整后的字符串,并输出该调整后的字符串。
10.根据权利要求9所述的字符辨识方法,其特征在于,还包括:
依据该字符数据库,统计每一字符位置的字符种类个数并据此决定每一所述字符位置的调整权重;
利用该调整权重进行该最小编辑距离计算,计算该字符数据库中每一字符串的调整误差;以及
输出具有最小调整误差的该字符串为该调整后的字符串。
11.一种字符辨识系统,其特征在于,包括:
储存装置,储存有字符数据库;以及
影像处理器,耦接该储存装置,经配置使用第一卷积神经网络模型,辨识有兴趣区块中的字符串,产出辨识字符串,其中该有兴趣区块中的字符串包括一或多个字符,并且比较该辨识字符串与该字符数据库中多个字符串,以寻找与该辨识字符串相对应的字符串,其中该多个字符串的每个字符串包括一或多个字符;
其中,若找到该辨识字符串相对应的字符串时,该影像处理器是以该辨识字符串作为字符辨识结果,若未找到该辨识字符串相对应的字符串,该影像处理器经配置使用第二卷积神经网络模型,更正该辨识字符串,以产出新辨识字符串作为字符辨识结果。
12.根据权利要求11所述的字符辨识系统,其特征在于,该影像处理器经配置使用区块侦测卷积神经网络模型侦测输入影像而得到该有兴趣区块。
13.根据权利要求12所述的字符辨识系统,其特征在于,该输入影像为图片或影片的画面。
14.根据权利要求12所述的字符辨识系统,其特征在于,该区块侦测卷积神经网络模型、该第一卷积神经网络模型、该第二卷积神经网络模型为预先训练过的卷积神经网络模型。
15.根据权利要求11所述的字符辨识系统,其特征在于,该多个字符串包括各种类型符号、各种类型字母、各种类型数字、各种类型文字、或前述中至少两项的任意组合。
16.根据权利要求11所述的字符辨识系统,其特征在于,该影像处理器还比较该新辨识字符串与该字符数据库中的字符串,以寻找与该新辨识字符串相对应的字符串;若找到与该新辨识字符串相对应的字符串,则该影像处理器输出该新辨识字符串,若未找到与该新辨识字符串相对应的字符串,使用第三卷积神经网络模型,更正该新辨识字符串。
17.根据权利要求11所述的字符辨识系统,其特征在于,该影像处理器还使用该第二卷积神经网络模型辨识该有兴趣区块中的字符串中的部分字符串,产生辨识的部分字符串,并以该辨识的部分字符串替换该第一卷积神经网络模型所产生的该辨识字符串的对应部分字符串,以得到该新辨识字符串,其中该有兴趣区块中的字符串包括多个字符,且该部分字符串的字符个数小于该有兴趣区块中的字符串的字符个数。
18.根据权利要求17所述的字符辨识系统,其特征在于,该有兴趣区块中的所述字符串中每一所述字符有对应字符位置,该影像处理器还计算每一所述对应字符位置的字符种类个数、依据所述对应字符位置的所述字符种类个数,决定每一所述对应字符位置的排序值、依据所述对应字符位置的所述排序值,依序计算各该对应字符位置的可能组合总数以及实际组合总数,当该可能组合总数以及该实际组合总数的组合比例大于阀值,则该部分字符串的字符个数增加1,并依据剩余字符位置的排序,新增并记录下一选定字符位置,直到该可能组合总数以及该实际组合总数的组合比例小于阀值,则得到该第二卷积神经网络模型所对应的该部分字符串的字符个数及该部分字符串所对应的字符位置。
19.根据权利要求11所述的字符辨识系统,其特征在于,该影像处理器还比较该新辨识字符串与该字符数据库中的字符串,以寻找与该新辨识字符串相对应的字符串,若找到与该新辨识字符串相对应的字符串,则该影像处理器输出该新辨识字符串,若未找到与该新辨识字符串相对应的字符串时,则该影像处理器使用编辑距离计算更正该新辨识字符串,以利用该字符数据库中的字符串数据产生调整后的字符串,并输出该调整后的字符串。
20.根据权利要求19所述的字符辨识系统,其特征在于,该影像处理器还依据该字符数据库,统计每一字符位置的字符种类个数并据此决定每一所述字符位置的调整权重,利用该调整权重进行该最小编辑距离计算,计算该字符数据库中每一字符串的调整误差以及输出具有最小调整误差的该字符串为该调整后的字符串。
CN201611114117.8A 2016-11-25 2016-12-07 字符辨识系统及其字符辨识方法 Active CN108108732B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW105138810A TWI607387B (zh) 2016-11-25 2016-11-25 字符辨識系統及其字符辨識方法
TW105138810 2016-11-25

Publications (2)

Publication Number Publication Date
CN108108732A true CN108108732A (zh) 2018-06-01
CN108108732B CN108108732B (zh) 2022-01-11

Family

ID=61230690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611114117.8A Active CN108108732B (zh) 2016-11-25 2016-12-07 字符辨识系统及其字符辨识方法

Country Status (3)

Country Link
US (1) US10269120B2 (zh)
CN (1) CN108108732B (zh)
TW (1) TWI607387B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376739A (zh) * 2018-10-19 2019-02-22 北京奇艺世纪科技有限公司 一种编组方式确定方法及装置
CN110516125A (zh) * 2019-08-28 2019-11-29 拉扎斯网络科技(上海)有限公司 识别异常字符串的方法、装置、设备及可读存储介质
CN112508017A (zh) * 2020-12-15 2021-03-16 通号智慧城市研究设计院有限公司 数显仪表读数智能识别方法、系统、处理设备和存储介质
CN117501324A (zh) * 2021-07-01 2024-02-02 大金工业株式会社 字符识别装置、字符识别方法以及字符识别程序
TWI854101B (zh) * 2020-10-12 2024-09-01 八維智能股份有限公司 以即時簡訊機器人實現機器人流程自動化及從影像抽取文字內容的機器人流程

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339445B2 (en) 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10366328B2 (en) 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10360470B2 (en) 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US10366302B2 (en) 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US10102453B1 (en) * 2017-08-03 2018-10-16 Gyrfalcon Technology Inc. Natural language processing via a two-dimensional symbol having multiple ideograms contained therein
US10083171B1 (en) * 2017-08-03 2018-09-25 Gyrfalcon Technology Inc. Natural language processing using a CNN based integrated circuit
WO2018141429A1 (en) * 2017-02-03 2018-08-09 Siemens Aktiengesellschaft A method and apparatus for detecting objects of interest in images
RU2652461C1 (ru) * 2017-05-30 2018-04-26 Общество с ограниченной ответственностью "Аби Девелопмент" Дифференциальная классификация с использованием нескольких нейронных сетей
CN109214238B (zh) * 2017-06-30 2022-06-28 阿波罗智能技术(北京)有限公司 多目标跟踪方法、装置、设备及存储介质
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
US10192148B1 (en) * 2017-08-22 2019-01-29 Gyrfalcon Technology Inc. Machine learning of written Latin-alphabet based languages via super-character
US10482162B2 (en) * 2017-11-30 2019-11-19 International Business Machines Corporation Automatic equation transformation from text
CN109902817B (zh) * 2017-12-11 2021-02-09 安徽寒武纪信息科技有限公司 板卡和神经网络运算方法
US10832043B2 (en) * 2018-02-06 2020-11-10 Disney Enterprises, Inc. Variable resolution recognition
CN108399382A (zh) * 2018-02-13 2018-08-14 阿里巴巴集团控股有限公司 车险图像处理方法和装置
US10430876B1 (en) * 2018-03-08 2019-10-01 Capital One Services, Llc Image analysis and identification using machine learning with output estimation
CN108875748B (zh) * 2018-06-27 2021-10-01 上海尚往网络科技有限公司 无线访问接入点信息的生成方法、设备和计算机可读介质
US10417342B1 (en) 2018-07-03 2019-09-17 Gyrfalcon Technology Inc. Deep learning device for local processing classical chinese poetry and verse
TWI682332B (zh) * 2018-07-18 2020-01-11 國立彰化師範大學 用於識別絕育狀態影像的深度學習方法及其識別裝置
US10311149B1 (en) * 2018-08-08 2019-06-04 Gyrfalcon Technology Inc. Natural language translation device
TWI677826B (zh) * 2018-09-19 2019-11-21 國家中山科學研究院 車牌辨識系統與方法
CN111046859B (zh) * 2018-10-11 2023-09-29 杭州海康威视数字技术股份有限公司 字符识别方法及装置
JP7192109B2 (ja) * 2018-10-12 2022-12-19 ノキア テクノロジーズ オサケユイチア コンテキスト埋め込みおよび領域ベースの物体検出のための方法および装置
US10387772B1 (en) 2018-10-22 2019-08-20 Gyrfalcon Technology Inc. Ensemble learning based image classification systems
CN109543689A (zh) * 2018-11-21 2019-03-29 北京同创信通科技有限公司 一种线上移动板坯标识智能识别系统及方法
US10331967B1 (en) * 2018-12-05 2019-06-25 Gyrfalcon Technology Inc. Machine learning via a two-dimensional symbol
JP7277128B2 (ja) * 2018-12-25 2023-05-18 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN113508604B (zh) * 2019-02-28 2023-10-31 斯塔特斯公司 从广播视频生成可跟踪视频帧的系统及方法
CN110097041A (zh) * 2019-03-08 2019-08-06 贵州电网有限责任公司 一种用于电力仪表巡检的标准字符快速识别方法
CN109871904A (zh) * 2019-03-11 2019-06-11 广东工业大学 甲骨文字识别模型及训练方法、系统、设备、计算机介质
US11281911B2 (en) 2019-04-27 2022-03-22 Gyrfalcon Technology Inc. 2-D graphical symbols for representing semantic meaning of a video clip
CN111708448B (zh) * 2019-05-08 2023-11-03 义隆电子股份有限公司 用于触控装置的控制系统及方法
US10713830B1 (en) 2019-05-13 2020-07-14 Gyrfalcon Technology Inc. Artificial intelligence based image caption creation systems and methods thereof
JP7231024B2 (ja) * 2019-06-06 2023-03-01 富士通株式会社 情報処理プログラム、情報処理方法、および情報処理装置
US11475727B2 (en) * 2019-06-24 2022-10-18 R B Edgar et al. Method and system for determining if paper currency has numismatic value
US11526723B2 (en) 2019-07-09 2022-12-13 Gyrfalcon Technology Inc. Apparatus and methods of obtaining multi-scale feature vector using CNN based integrated circuits
EP3786814A1 (en) 2019-08-30 2021-03-03 Accenture Global Solutions Limited Intelligent extraction of information from a document
CN110717483B (zh) * 2019-09-19 2023-04-18 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
CN110674813B (zh) * 2019-09-24 2022-04-05 北京字节跳动网络技术有限公司 汉字识别方法、装置、计算机可读介质及电子设备
US11783587B2 (en) * 2020-03-04 2023-10-10 Nec Corporation Deep learning tattoo match system based
US11586615B2 (en) * 2020-07-29 2023-02-21 Bank Of America Corporation System for generation of resource identification numbers to avoid electronic misreads
TWI747450B (zh) * 2020-08-19 2021-11-21 中國鋼鐵股份有限公司 字元辨識方法、電子裝置與電腦程式產品
JP2022091608A (ja) * 2020-12-09 2022-06-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
TWI769809B (zh) * 2021-05-06 2022-07-01 廣達電腦股份有限公司 內容擷取系統及內容擷取方法
TWI783718B (zh) * 2021-10-07 2022-11-11 瑞昱半導體股份有限公司 可應用於在顯示裝置中進行實時視頻內容文字檢測和語音自動生成之顯示控制積體電路
CN114067095B (zh) * 2021-11-29 2023-11-10 黄河勘测规划设计研究院有限公司 基于水尺字符检测识别的水位识别方法
JP2023099885A (ja) 2022-01-04 2023-07-14 株式会社東芝 検索装置、検索システム、検索方法、プログラム、及び記憶媒体
TWI805406B (zh) * 2022-06-13 2023-06-11 中國信託商業銀行股份有限公司 智能辨識系統及智能辨識方法
CN115169335B (zh) * 2022-09-07 2023-01-13 深圳高灯计算机科技有限公司 发票数据校准方法、装置、计算机设备和存储介质
CN115731196A (zh) * 2022-11-23 2023-03-03 联宝(合肥)电子科技有限公司 一种标签识别方法、装置、设备及存储介质
KR20240162248A (ko) * 2023-05-08 2024-11-15 한국과학기술연구원 인공신경망을 이용하여 객체 배치 오류를 진단하는 방법 및 장치
CN116912839A (zh) * 2023-09-13 2023-10-20 中移(苏州)软件技术有限公司 文字识别方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916941A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种字符识别的后处理方法
CN102122348A (zh) * 2011-02-26 2011-07-13 王枚 一种实用的模糊车牌图像复原方法
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法
CN104268541A (zh) * 2014-09-15 2015-01-07 青岛高校信息产业有限公司 一种设备铭牌和能效标识的智能化图像识别方法
CN104299006A (zh) * 2014-07-23 2015-01-21 中国传媒大学 一种基于深度神经网络的车牌识别方法
US20150371100A1 (en) * 2014-06-23 2015-12-24 Xerox Corporation Character recognition method and system using digit segmentation and recombination

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6028956A (en) 1997-04-04 2000-02-22 Kofile Inc. Object location and span determination method and apparatus which determines a location and span of an object in an image
US6636631B2 (en) * 1998-06-04 2003-10-21 Matsushita Electric Industrial Co., Ltd. Optical character reading method and system for a document with ruled lines and its application
JP3965983B2 (ja) * 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置
US7016529B2 (en) 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition
TW591545B (en) 2002-10-25 2004-06-11 Advanced Vision Technology Inc Method and system for recognizing number by neural network
US7664343B2 (en) 2006-01-23 2010-02-16 Lockheed Martin Corporation Modified Levenshtein distance algorithm for coding
US20080008383A1 (en) * 2006-07-07 2008-01-10 Lockheed Martin Corporation Detection and identification of postal metermarks
WO2010075430A1 (en) 2008-12-24 2010-07-01 Strands, Inc. Sporting event image capture, processing and publication
US8582807B2 (en) 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
TWI498830B (zh) 2012-11-01 2015-09-01 Univ Nat Yunlin Sci & Tech 不均勻光線下的車牌辨識方法及系統
US9495620B2 (en) * 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US8965112B1 (en) 2013-12-09 2015-02-24 Google Inc. Sequence transcription with deep neural networks
TWI522934B (zh) 2014-01-03 2016-02-21 Nat Univ Chin Yi Technology 智慧型手機之陀螺儀感測器車牌辨識系統及其方法
US9251431B2 (en) 2014-05-30 2016-02-02 Apple Inc. Object-of-interest detection and recognition with split, full-resolution image processing pipeline
JP6430914B2 (ja) * 2014-12-22 2018-11-28 キヤノンイメージングシステムズ株式会社 画像処理装置および画像処理方法
CN104484658A (zh) 2014-12-30 2015-04-01 中科创达软件股份有限公司 一种基于多通道卷积神经网络的人脸性别识别方法及装置
CN106156766B (zh) * 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
JP6535196B2 (ja) * 2015-04-01 2019-06-26 キヤノンイメージングシステムズ株式会社 画像処理装置、画像処理方法および画像処理システム
CN104850845B (zh) 2015-05-30 2017-12-26 大连理工大学 一种基于非对称卷积神经网络的交通标志识别方法
US10007863B1 (en) * 2015-06-05 2018-06-26 Gracenote, Inc. Logo recognition in images and videos
CN104992167B (zh) 2015-07-28 2018-09-11 中国科学院自动化研究所 一种基于卷积神经网络的人脸检测方法及装置
CN106599900B (zh) * 2015-10-20 2020-04-21 华中科技大学 一种识别图像中的字符串的方法和装置
US9785855B2 (en) * 2015-12-17 2017-10-10 Conduent Business Services, Llc Coarse-to-fine cascade adaptations for license plate recognition with convolutional neural networks
WO2018057530A1 (en) * 2016-09-21 2018-03-29 GumGum, Inc. Machine learning models for identifying objects depicted in image or video data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916941A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 一种字符识别的后处理方法
CN102122348A (zh) * 2011-02-26 2011-07-13 王枚 一种实用的模糊车牌图像复原方法
CN103617415A (zh) * 2013-11-19 2014-03-05 北京京东尚科信息技术有限公司 一种自动识别发票的装置和方法
US20150371100A1 (en) * 2014-06-23 2015-12-24 Xerox Corporation Character recognition method and system using digit segmentation and recombination
CN104299006A (zh) * 2014-07-23 2015-01-21 中国传媒大学 一种基于深度神经网络的车牌识别方法
CN104268541A (zh) * 2014-09-15 2015-01-07 青岛高校信息产业有限公司 一种设备铭牌和能效标识的智能化图像识别方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376739A (zh) * 2018-10-19 2019-02-22 北京奇艺世纪科技有限公司 一种编组方式确定方法及装置
CN109376739B (zh) * 2018-10-19 2021-03-26 北京奇艺世纪科技有限公司 一种编组方式确定方法及装置
CN110516125A (zh) * 2019-08-28 2019-11-29 拉扎斯网络科技(上海)有限公司 识别异常字符串的方法、装置、设备及可读存储介质
CN110516125B (zh) * 2019-08-28 2020-05-08 拉扎斯网络科技(上海)有限公司 识别异常字符串的方法、装置、设备及可读存储介质
TWI854101B (zh) * 2020-10-12 2024-09-01 八維智能股份有限公司 以即時簡訊機器人實現機器人流程自動化及從影像抽取文字內容的機器人流程
CN112508017A (zh) * 2020-12-15 2021-03-16 通号智慧城市研究设计院有限公司 数显仪表读数智能识别方法、系统、处理设备和存储介质
CN117501324A (zh) * 2021-07-01 2024-02-02 大金工业株式会社 字符识别装置、字符识别方法以及字符识别程序
CN117501324B (zh) * 2021-07-01 2025-02-25 大金工业株式会社 字符识别装置、字符识别方法以及字符识别程序

Also Published As

Publication number Publication date
CN108108732B (zh) 2022-01-11
TWI607387B (zh) 2017-12-01
US10269120B2 (en) 2019-04-23
TW201820203A (zh) 2018-06-01
US20180150956A1 (en) 2018-05-31

Similar Documents

Publication Publication Date Title
CN108108732A (zh) 字符辨识系统及其字符辨识方法
CN107977633B (zh) 人脸图像的年龄识别方法、装置及存储介质
CN112597837A (zh) 图像检测方法、装置、设备、存储介质和计算机程序产品
WO2020211624A1 (zh) 对象追踪方法、追踪处理方法、相应的装置、电子设备
CN110276253A (zh) 一种基于深度学习的模糊文字检测识别方法
CN110287952B (zh) 一种维语图片字符的识别方法及系统
CN111598149B (zh) 一种基于注意力机制的回环检测方法
CN106874826A (zh) 人脸关键点跟踪方法和装置
WO2021189911A1 (zh) 基于视频流的目标物位置检测方法、装置、设备及介质
CN110033018A (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN112990009B (zh) 基于端到端的车道线检测方法、装置、设备及存储介质
CN107273458A (zh) 深度模型训练方法及装置、图像检索方法及装置
CN110381392A (zh) 一种视频摘要提取方法及其系统、装置、存储介质
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN111753796A (zh) 图像中关键点的识别方法、装置、电子设备及存储介质
CN117237858B (zh) 一种回环检测方法
TWI873463B (zh) 魚類辨識裝置及魚類辨識方法
WO2019120025A1 (zh) 照片的调整方法、装置、存储介质及电子设备
CN106682669A (zh) 一种图像处理方法及移动终端
CN115880682A (zh) 图像文本识别方法、装置、设备、介质和产品
CN111008624A (zh) 光学字符识别方法和产生光学字符识别的训练样本的方法
CN116071583A (zh) 一种图像分类模型的训练方法、装置、计算机设备及介质
WO2023109086A1 (zh) 文字识别方法、装置、设备及存储介质
CN110503090A (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN111325194A (zh) 一种文字识别方法、装置及设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant