CN108108732A

CN108108732A - 字符辨识系统及其字符辨识方法

Info

Publication number: CN108108732A
Application number: CN201611114117.8A
Authority: CN
Inventors: 高志忠; 康浩平; 吴佳桦
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2016-11-25
Filing date: 2016-12-07
Publication date: 2018-06-01
Anticipated expiration: 2036-12-07
Also published as: CN108108732B; TWI607387B; US10269120B2; TW201820203A; US20180150956A1

Abstract

一种字符辨识系统及其字符辨识方法。字符辨识方法包括：使用第一卷积神经网络模型，辨识有兴趣区块中的字符串，产出辨识字符串，其中该有兴趣区块中的字符串包括一或多个字符；以及比较该辨识字符串与字符数据库中多个字符串，以寻找与该辨识字符串相对应的字符串，其中该多个字符串的每个字符串包括一或多个字符；其中，若找到该辨识字符串相对应的字符串，以该辨识字符串作为字符辨识结果，若未找到该辨识字符串相对应的字符串，使用第二卷积神经网络模型，更正该辨识字符串，以产出新辨识字符串作为字符辨识结果。

Description

字符辨识系统及其字符辨识方法

技术领域

本揭露是有关于字符辨识系统及其相关字符辨识方法，特别是有关于一种基于卷积神经网络的字符辨识系统及其相关字符辨识方法。

背景技术

随着运动风气的盛行及使用者需求的驱使下，每场赛事都会记录大量的照片或影片。愈来愈多的赛事单位或运动网站提供运动员使用号码布上标示的字符(譬如说号码等)进行照片或影片搜寻的服务，以方便参赛者于赛后搜寻自己的照片或影片并分享于社群网络。一般而言，这类辨识是透过计算机来进行影像分析与处理。然而，因为照片或影片中号码布位移与变形的关系，使得用计算机进行辨识号码布上的字符的正确率较低，因此目前大都是以雇用大量工读生进行人工辨识后，标记照片或影片上出现的号码布上的字符，导致需耗费大量的人力、时间与成本。

近年来，随着类神经网络的技术提升，使得辨识的效果跟以往的技术相比有相当显着的进步，因此类神经网络可被广泛用于譬如说文字辨识。传统类神经网络的文字辨识的步骤包括文字侦测、文字分割和文字辨识等步骤，虽然使用类神经网络可提升辨识的效果，然而，因为号码布上的文字容易受到号码布的扭曲影响而无法完整的切割，导致后续的字元辨识(Optical Character Recognize,OCR)容易发生错误，影响文字辨识的正确率。

发明内容

有鉴于此，本揭露提供一种基于卷积神经网络的字符辨识系统及其相关字符辨识方法。

本揭露的一实施例提供一种字符辨识方法，适用于包括储存装置与影像处理器的字符辨识系统。字符辨识方法包括：使用第一卷积神经网络(Convolutional NeuralNetwork,CNN)模型，辨识有兴趣区块中的字符串(character string)，产出辨识字符串，其中该有兴趣区块中的字符串包括一或多个字符；以及比较该辨识字符串与字符数据库中多个字符串，以寻找与该辨识字符串相对应的字符串，其中该多个字符串的每个字符串包括一或多个字符；其中，若找到该辨识字符串相对应的字符串，以该辨识字符串作为字符辨识结果，若未找到该辨识字符串相对应的字符串，使用第二卷积神经网络模型，更正该辨识字符串，以产出新辨识字符串作为字符辨识结果。

本揭露另一实施例提供一种字符辨识系统，包括：储存装置以及影像处理器。储存装置经配置储存字符数据库。影像处理器耦接储存装置，经配置使用第一卷积神经网络(Convolutional Neural Network,CNN)模型，辨识有兴趣区块中的字符串(characterstring)，产出辨识字符串，其中有兴趣区块中的字符串包括一或多个字符，并且比较该辨识字符串与该字符数据库中多个字符串，以寻找与该辨识字符串相对应的字符串，其中多个字符串的每个字符串包括一或多个字符；其中，若找到辨识字符串相对应的字符串时，影像处理器是以辨识字符串作为字符辨识结果，若未找到辨识字符串相对应的字符串，影像处理器经配置使用第二卷积神经网络模型，更正辨识字符串，以产出新辨识字符串作为字符辨识结果。

本揭露的上述方法可经由本揭露的装置或系统来实作，其为可执行特定功能的硬件或固件，亦可以透过程序码方式收录于记录媒体中，并结合特定硬件来实作。当程序码被电子装置、处理器、计算机或机器载入且执行时，电子装置、处理器、计算机或机器变成用以实行本揭露的装置或系统。

附图说明

图1是显示依据本揭露的字符辨识系统一实施例的示意图；

图2是显示本揭露的字符辨识方法一实施例的流程图；

图3是显示本揭露一实施例的使用第二CNN模型更正辨识字符串的流程图；

图4是显示本揭露一实施例的用于第二CNN模型的部分字符串的字符个数及其所对应字符位置的计算的流程图；

图5是显示本揭露一实施例的调整后的字符串的产生方法流程图；

图6是显示本揭露一实施例的CNN模型的结构示意图；

图7是显示本揭露一实施例的可能组合数以及实际组合数的比例示意图。

【符号说明】

10～输入影像；

100～字符辨识系统；

110～影像输入装置；

120～影像处理器；

122～机器学习引擎；

130～储存装置；

132～字符数据库；

S202、S204、S206、S207、S208、S210、S211、S212、S213～步骤；

S302、S304～步骤；

S402、S404、S406、S408、S410、S412、S414～步骤；

S502、S504、S506～步骤；以及

700～阀值。

具体实施方式

为让本揭露的目的、特征、和优点能更明显易懂，特举出下文实施例，并配合所附附图，作详细说明如下。注意的是，本章节所叙述的实施例目的在于说明本发明的实施方式而非用以限定本发明的保护范围，任何熟悉此项技艺者，在不脱离本发明的精神和范围内，当可做些许更动与润饰，因此本发明的保护范围当视所附的权利要求书所界定的范围为准。应理解下列实施例可经由软件，硬件，固件，或上述任意组合来实现。

本揭露实施例提供一种字符辨识系统及其字符辨识方法，可利用多阶层的卷积神经网络(Convolutional Neural Network,以下简称CNN)的架构，透过事先训练好的多个CNN模型来对“具待辨识字符的物件影像”(或称为输入影像)如图片或影片的画面(例如：具门牌的房子、具车牌的车辆、具待辨识字符的纸张、具待辨识字符的衣服、运动赛事中具号码布的参赛者等等，但并不以前述为限)进行字符串侦测并标记出字符串的位置，再搭配使用字符数据库与字串检查错误更正机制等进行字符辨识，将所分析的最有可能的辨识字符串输出为辨识结果，可有效提高辨识的准确率与辨识速度。

图1显示依据本揭露的字符辨识系统一实施例的示意图。如图1所示，字符辨识系统100至少包括影像输入装置110、一影像处理器120、一机器学习引擎122、一储存装置130以及一显示装置140。影像输入装置110可经配置以接收或取得一输入影像10，以提供输入影像10至影像处理器120进行后续影像分析与处理。举例来说，字符辨识系统100可为膝上型电脑、桌上型电脑、平板装置或其它手持式装置(例如，智能手机)等，但本揭露并不限于此。举例来说，于一实施例中，影像输入装置110可为影像撷取单元，例如一红外线影像撷取装置、一光电耦合元件或一互补式金氧半导体光学感测元件的其中一者或其任意组合，但本揭露不限于此。其中，输入影像10可为一图片或一影片的一画面，而输入影像10中包括一待辨识的字符串。待辨识的字符串中的字符种类可为：各种类型符号(symbol)、各种类型字母(包括各国语言字母)、各种类型数字、各种类型文字、图案或前述中至少两项的任意组合。于一实施例中，待辨识的字符串可为包括至少一种字符种类的一字符串，例如包含至少一英文字母及至少一阿拉伯数字的字符串“B7”、“A12345”等。于另一些实施例中，待辨识的字符串可为仅包括单一字符种类的一字符串，例如：包含至少一英文字母的字符串“Z”、“AB”、“ABCDE”等或包含至少一阿拉伯数字的字符串“9”、“56”、“1234”等，但本揭露并不限于此。为便于解说，于后面段落的实施例中，将以输入影像10可为一运动赛事的参赛者的照片或影片，而待辨识的字符串则为照片或影片上参赛者的号码布上的字符，进行可能实施例的说明，已知技术者当可类推其他类型实施态样。

影像处理器120是耦接至影像输入装置110与储存装置130，可从储存装置130中载入并执行指令集及/或程序码，以依据影像输入装置110所提供的输入影像10执行本案所述的字符辨识方法，其细节将于后进行说明。影像处理器120可为通用处理器、微处理器(Micro-Control Unit，MCU)、图形处理器(Graphics Processing Unit,GPU)或数字信号处理器(Digital Signal Processor，DSP)等，用以提供影像数据分析、处理及运算的功能。储存装置130可为非挥发性储存媒体(例如：只读记忆体(Read-Only Memory，ROM)、快闪记忆体(Flash memory)、硬盘、光盘等)、挥发性储存媒体(例如：随机存取记忆体(Radom AccessMemory，RAM))、或两者的任意组合，用以储存相关数据，例如运算过程中的中间数据及辨识结果数据等。于一些实施例中，储存装置130可事先储存输入影像10，影像处理器120则直接由储存装置130中存取输入影像10进行后续处理，而无须透过影像输入装置110。

储存装置130可还包括字符数据库132，其是存取有多个字符串，这些字符数据库132中所存储的字符串可用于后续的字符辨识。举例来说，字符数据库132可储存所有实际参赛者的可能字符串，之后，影像处理器120可比对字符数据库132中所存储的字符串，来判断辨识结果是否正确或有效。

机器学习引擎122可依据一机器学习演算法或机制，来训练出多个CNN模型，用以对输入影像10进行字符串侦测与辨识。其中，每一CNN模型采用多层CNN结构，用以提取特征，每一层CNN都会进行特征撷取(feature extraction)以及分类(classification)并且上一层的输出作为下一层的输入。CNN在特征撷取的阶段可取出主要特征并透过后续的降解析(subsampling)，除了可以降低训练网络的特征维度(feature dimension)，并且可以达到平移不变性的效果。

如图1实施例所示，机器学习引擎122所采用的类神经网络为CNN且其采用的CNN模型至少包括一区块侦测CNN模型、一第一CNN模型以及一第二CNN模型。其中，每一CNN模型可具有如图6所示的结构。图6是显示本揭露一实施例的CNN模型的结构示意图。如图6所示，CNN模型包括多层，可透过CNN网络的训练与学习机制对输入影像进行特征撷取以及分类。其中，CNN各层依次为输入层、多个卷积层、多个全连接层以及分类层，卷积层可还包括特征提取层(feature extraction layer)以及特征映射层(feature mapping layer)，特征提取层的神经元的输入与前一层的局部接受域相连，提取相关局部的特征，特征映射层由多个特征映射而成，每个映射为一平面，相同特征映射面上的神经元权值相同，所以其可并行学习。透过CNN模型的多个卷积层对输入影像10进行特征映射和提取，再经过全连接层以及分类层完成整个分类过程以得到一辨识字符串。

具体来说，区块侦测CNN模型的输入为输入影像10，用以侦测输入影像10，直接找出输入影像10中的有兴趣区块(region of interest，ROI)。机器学习引擎122可事先将大量的包含有兴趣区块的输入影像10交给CNN进行训练，CNN便可找出有兴趣区块的抽象特征定义，得到区块侦测CNN模型。之后，机器学习引擎122便可透过区块侦测CNN模型侦测出输入影像10中的有兴趣区块。举例来说，当输入影像10(或称为具待辨识字符的物件影像)为一参赛者的全身影像且其包括一号码布时，有兴趣区块可为号码布所在的区块，区块侦测CNN模型经配置以辨识出号码布所在的区块，第一CNN模型经配置以辨识号码布内的字符串(例如：号码及/或字元符号)，第二CNN模型经配置于第一CNN模型所辨识出的字符无效或不正确时，更正辨识出的部分字符串(例如：号码)，以提高辨识的正确率。由于本案可侦测出输入影像10中的号码布的位置，因此只需辨识号码布内的字符，可有效排除其他画面内的其他辨识干扰(例如：其中非号码布内的字符)，也可适用于非正面人形或非人形躯干的物体例如动物上的字符辨识。注意的是，具体机器学习机制的细节是可采用本领域技艺人士所熟知的各种处理技术来加以实现，其细节在此省略。

显示装置140可为任一可用以显示或呈现辨识结果的装置。显示装置140是可显示相关数据，例如是文字、图形、界面及/或各种信息如显示或呈现辨识结果等。显示装置140可经配置呈现辨识结果的影像(包含任一种影像格式，如bmp、jpg、png等)或呈现量测结果的画面，例如：液晶显示器(LCD)。应理解的是，于一些实施例中，显示装置140是结合触碰感应装置(未显示)的屏幕。触控感应装置是具有一触控表面，其包括至少一维度的感测器以侦测靠近或在触控表面上的一输入工具如手指或触控笔等在其表面上的接触及动作。因此，使用者可透过显示装置140来进行触控输入命令或信号。

可理解的是，上述各元件或模组是为一具有对应功能的装置，可具有适当的硬件电路或元件以执行对应功能，然而，该装置并不以具有实体为限，其亦得为一虚拟的具有对应功能的程序、软件，或是具有处理、运行该程序、软件能力的装置。而上述各元件运作的方式，可进一步的参阅以下对应的方法的说明。明确来说，字符辨识系统100可经由影像处理器120来控制机器学习引擎122中各CNN模型的操作来执行本案的字符辨识方法。

图2显示本揭露的字符辨识方法一实施例的流程图。请同时参照图1与图2。依据本揭露实施例的字符辨识方法可以适用于一字符辨识系统，举例来说，可适用于图1的字符辨识系统100并由影像处理器120加以执行。

首先，如步骤S202，影像处理器120侦测一输入影像10，以取得包含一字符串的一有兴趣区块。于一实施例中，影像处理器120经配置使用机器学习引擎122中的区块侦测CNN模型，侦测输入影像，取得包含字符串的有兴趣区块并将有兴趣区块正规化。于此步骤中，机器学习引擎122先针对输入影像10进行有兴趣区块的侦测，在进行有兴趣区块的侦测时是使用事先训练好的区块侦测CNN模型。举例来说，有兴趣区块可为包含一字符串的号码布，而区块侦测CNN模型可侦测输入影像10来辨识出号码布所在的区块。于侦测出包含字符串的有兴趣区块之后，再将输入影像10中有兴趣区块的画面正规化，缩放到一指定的大小(例如：将有兴趣区块的画面缩放至128x128像素)。之后，影像处理器120再使用事先训练好的字符串辨识CNN模型并以缩放到指定大小的有兴趣区块的画面当作字符串辨识CNN模型的输入进行字符串(例如：号码)辨识。

接着，如步骤S204，影像处理器120使用第一CNN模型对有兴趣区块的字符串进行字符串辨识，产生一辨识字符串。举例来说，当有兴趣区块为包含一号码的号码布时，第一CNN模型可对号码布上的完整号码进行号码辨识，并于辨识完成后产生表示辨识结果的辨识号码。举例来说，由于号码布的号码字串可能是由26个英文字母加上10个阿拉伯数字中的数个英数字元组成，因此每一个符号都有36个可能的辨识结果。

于产生辨识字符串之后，如步骤S206，影像处理器120判断辨识字符串是否存在字符数据库132中。其中字符数据库132包括多个字符串且每个字符串可包括一或多个字符。具体来说，判断辨识字符串是否存在字符数据库132中是比较辨识字符串与字符数据库132中多个字符串，以寻找字符数据库132中是否有与辨识字符串相对应的字符串。当于字符数据库132中寻找到与辨识字符串相对应的一字符串时便判定辨识字符串存在字符数据库132。

当辨识字符串存在字符数据库132时(步骤S206的是)，如步骤S207，表示辨识成功，于是输出辨识字符串为字符辨识结果。举例来说，假设辨识字符串为“A12345”，则当字符数据库132中存在字符串“A12345”时便表示辨识成功。

相反地，当辨识字符串并不存在字符数据库132时(步骤S206的否)，亦即，于字符数据库132中找不到与辨识字符串相对应的任何字符串，表示辨识失败，接着如步骤S208，影像处理器120使用第二CNN模型更正辨识字符串，产生一新辨识字符串。

于一些实施例中，使用第二CNN模型更正辨识字符串是使用第二CNN模型辨识有兴趣区块中的字符串中的部分字符串，并以辨识得的新部分字符串替换该辨识字符串中对应位置的前述部分字符串，其中有兴趣区块中的字符串包括多个字符，且部分字符串的字符个数小于有兴趣区块中的字符串的字符个数。步骤S208的具体内容请参见图3。图3是显示本揭露一实施例的使用第二CNN模型更正辨识字符串的流程图，其经配置可由影像处理器120所执行。

当辨识字符串并不存在字符数据库132时，如步骤S302，影像处理器120使用第二CNN模型辨识该有兴趣区块中的部分字符串，产生一辨识的部分字符串，并于辨识的部分字符串产生之后，如步骤S304，以辨识的部分字符串替换第一CNN模型所产生的辨识字符串的对应部分字符串，以得到步骤S208的新辨识字符串。举例来说，假设有兴趣区块中的完整字符串为“A12345”，而辨识的部分字符串可为“345”、“123”或“2345”等。当第一CNN模型所产生的辨识字符串为“A12386”时，可将“A12386”中的对应部分字符串“386”替换为辨识的部分字符串“345”，便可得到新辨识字符串“A12345”。其中，部分字符串的字符数及对应位置的计算细节请参见以下图4。

图4是显示本揭露一实施例的用于第二CNN模型的部分字符串的字符个数及其所对应字符位置的计算的流程图，其经配置可由影像处理器120所执行。

首先，影像处理器120计算字符串中各字符位置的字符种类个数(步骤S402)。接着，影像处理器120依据各字符位置的字符种类个数，决定各字符位置的排序值并选定一字符位置(步骤S404)。选定字符位置之后，影像处理器120分别计算选定的字符位置的字符于数据库中的一可能组合总数以及一实际组合总数(步骤S406)。之后，影像处理器120依据计算出的可能组合总数以及实际组合总数，得到一相应组合比例(即实际组合总数/可能组合总数)(步骤S408)。影像处理器120接着判断相应组合比例是否大于一预设阀值(步骤S410)。若相应组合比例大于阀值，影像处理器120将部分字符串的字符个数增加1，并依据剩余字符位置的排序值，新增并记录下一选定字符位置(步骤S412)并重新执行步骤S406-S410的判断。若相应组合比例未大于阀值时，影像处理器120便可得到第二CNN模型所对应的部分字符串的字符个数及部分字符串所对应的字符位置(步骤S414)。

具体来说，假设S＝{S_nS_n-1…S_x…S₁}是要辨识的字串，S₁,…,S_n是各个字元，n表示字串长度，|S_x|是字元S_x的种类数量(1≤x≤n)，T为一预设阀值，令P为组合各字元所形成的子字串(第2个CNN所要辨识的字串)，P₁,…,P_k为各个字元，k是字串长度，|P_y|是字元P_y的种类数量(1≤y≤k)，令C(P)为计算P在字符数据库中的字串数量，则子字串的组合比例为接着，在组合比例大于阀值(R>T)的情况下，找出最长的部分字串P(最大的k)即可求得决定要训练的位元个数与所训练位元的位置第二CNN模型所对应的部分字符串的字符个数及其对应字符位置。

举例来说，假设某场赛事的最大号码为2799，则号码的字符位置有个位数字位、十位数字位、百位数字位以及千位数字位，其中可先计算号码的各个位元的种类数，得到个位数字位有10类(即数字0-9)、十位数字位有10类(即数字0-9)、百位数字位有8类(即数字0-7)以及千位数字位有3类(即数字0-2)。于本实施例中，依据前述各个位元的种类数高低，得到统计位元顺序为个位数字位或十位数字位优先，接着再依序为百位数字位或千位数字位。于本例中，以个位数字位为起始判断位元，计算个位数字位的字符于字符数据库中可能组合的总数以及实际组合的总数，再计算该位元的实际组合与可能组合的比例。接着，判断个位数字位计算出的组合比例是否大于阀值，若小于阀值，便可决定第二CNN模型用以训练的字符个数为1且对应字符位置为个位数字位。于另一实施例中，若个位数字位计算出的组合比例大于阀值，则再增加一个字符位置继续进行下一个字元组的判断。也就是说，再增加十位数字位进行下一轮判断，计算十位数字位包含个位数字位的字符于字符数据库中可能组合的总数以及实际组合的总数，再计算此字符组的实际组合与可能组合的比例。假设增加第四个字元时的组合比例小于阀值，例如阀值为0.9，则表示于训练第二个CNN模型时，用以训练的字符个数为3且对应字符位置为百位数字位、十位数字位以及个位数字位。可理解的是，透过选定不同的阀值可决定用于决定训练第二个CNN模型时的字符数及其位置，进而改善整体的辨识正确率。

图7是显示本揭露一实施例的可能组合数以及实际组合数的比例示意图。如图7所示，个位数字位表示为(10/10)代表可能组合数为10类，实际组合数为10类，而加上十位数字位表示为(99/100)代表可能组合数为100类，然实际组合数只为99类，依此类推。其中，可能组合数取决于已报名人数，而实际组合数取决于实际参加的人数，有些人可能报名但未参加，因此实际组合数可能小于可能组合数。于此例中，假设阀值700设为0.9时，因为加上百位数时的比例为474/1000，小于0.9，因此可根据图7的统计结果求得用以训练的字符个数为2且对应字符位置为十位数字位以及个位数字位。

回到图2，于步骤S208产生新辨识字符串之后，如步骤S210，影像处理器120判断新辨识字符串是否存在字符数据库132中。类似地，判断新辨识字符串是否存在字符数据库132中是比较新辨识字符串与字符数据库132中多个字符串，以寻找字符数据库132中是否有与新辨识字符串相对应的字符串。当于字符数据库132中寻找到与新辨识字符串相对应的一字符串时便判定新辨识字符串存在字符数据库132。

当新辨识字符串存在字符数据库132时(步骤S210的是)，如步骤S211，表示辨识成功，于是影像处理器120输出新辨识字符串为字符辨识结果。相反地，当新辨识字符串也不存在字符数据库132时(步骤S210的否)，亦即，于字符数据库132中找不到与新辨识字符串相对应的任何字符串，表示辨识失败，接着如步骤S212，影像处理器120对辨识字符串进行编辑距离(Edit Distance)计算，以利用字符数据库132中的字符串数据调整辨识字符串，产生一调整后的字符串。其中，调整后的字符串的产生细节请参见以下图5。

图5显示本揭露一实施例的调整后的字符串的产生方法流程图。请同时参照图1与图5。依据本实施例的调整后的字符串的产生方法可以适用于图1的字符辨识系统100并由影像处理器120加以执行。

首先，如步骤S502，影像处理器120依据字符数据库132的多个字符串，统计每一字符位置的字符种类个数并据此决定每一字符位置的一调整权重。举例来说，假设字符数据库132中号码的字符位置有个位数字位、十位数字位、百位数字位以及千位数字位，其中个位数字位有10类(即数字0-9)、十位数字位有10类(即数字0-9)、百位数字位有8类(即数字0-7)以及千位数字位有3类，则影像处理器120可依据每个字符位置的字符种类个数分配给予不同的调整权重。

接着，如步骤S504，影像处理器120利用调整权重进行最小编辑距离计算，计算字符数据库132中每一字符串的一调整误差。编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。编辑距离可应用于拼字校正或是计算两个序列的相似程度。于本案中，依据每个字符位置的字符种类个数分配给予不同的调整权重并透过调整权重进行最小编辑距离计算，可进一步考虑位元间的种类数关系来筛选出最相似的字符串，增加辨识成功率。

于计算出字符数据库中每一字符串的调整误差之后，如步骤S506，影像处理器120输出具有最小调整误差的字符串为步骤S212的调整后的字符串。

回到图2，于步骤S212产生调整后的字符串之后，如步骤S213，影像处理器120输出调整后的字符串为字符辨识结果。

于一些实施例中，当新辨识字符串于数据库中未存在对应的字符串时，影像处理器120可再使用一第三CNN模型(未绘示)，来更正新辨识字符串，再利用更正后的字符串比较数据库中的字符串。第三CNN模型的部分字符串可以类似于第二CNN模型的部分字符串或者可以是第二CNN模型的部分字符串以外的字符串。第三CNN模型的部分字符串的产生与决定方式与第二CNN模型类似，其细节不在此赘述。

因此，依据本揭露的字符辨识系统及其字符辨识方法可应用于具有不同颜色的字符串且能忍受有兴趣区块的部分影像与其字符串一定程度的弯曲变形、平移、遮蔽与阴影的现象。此外，依据本揭露的字符辨识系统及其字符辨识方法应用阶层式卷积神经网络架构并搭配使用字符数据库与拼字检查错误更正机制进行字符辨识，可将所分析的最有可能的字符辨识结果进行输出，可相较于现有方法都有更好的辨识效果，并有较高的准确率。

本揭露的方法，或特定型态或其部份，可以以程序码的型态存在。程序码可以包含于实体媒体，如软盘、光盘片、硬盘、或是任何其他机器可读取(如计算机可读取)储存媒体，亦或不限于外在形式的计算机程序产品，其中，当程序码被机器，如计算机载入且执行时，此机器变成用以参与本揭露的装置。程序码也可透过一些传送媒体，如电线或电缆、光纤、或是任何传输型态进行传送，其中，当程序码被机器，如计算机接收、载入且执行时，此机器变成用以参与本揭露的装置。当在一般用途影像处理器实作时，程序码结合影像处理器提供一操作类似于应用特定逻辑电路的独特装置。

虽然本揭露已以一些实施例揭露如上，然其并非用以限定本揭露，任何所属技术领域中包括通常知识者，在不脱离本揭露的精神和范围内，当可作些许的更动与润饰。举例来说，本揭露实施例所述的系统以及方法可以硬件、软件或硬件以及软件的组合的实体实施例加以实现。因此本揭露的保护范围当视所附的权利要求书所界定的范围为准。

Claims

1.一种字符辨识方法，其特征在于，适用于包括储存装置与影像处理器的字符辨识系统，该字符辨识方法包括：

使用第一卷积神经网络模型，辨识有兴趣区块中的字符串，产出辨识字符串，其中该有兴趣区块中的字符串包括一或多个字符；以及

比较该辨识字符串与字符数据库中多个字符串，以寻找与该辨识字符串相对应的字符串，其中该多个字符串的每个字符串包括一或多个字符；

其中，若找到该辨识字符串相对应的字符串，以该辨识字符串作为字符辨识结果，若未找到该辨识字符串相对应的字符串，使用第二卷积神经网络模型，更正该辨识字符串，以产出新辨识字符串作为字符辨识结果。

2.根据权利要求1所述的字符辨识方法，其特征在于，该有兴趣区块是使用区块侦测卷积神经网络模型，侦测输入影像而得，并且该有兴趣区块是被正规化。

3.根据权利要求2所述的字符辨识方法，其特征在于，该输入影像为图片或影片的画面。

4.根据权利要求2所述的字符辨识方法，其特征在于，该区块侦测卷积神经网络模型、该第一卷积神经网络模型、该第二卷积神经网络模型为预先训练过的卷积神经网络模型。

5.根据权利要求1所述的字符辨识方法，其特征在于，该多个字符串包括各种类型符号、各种类型字母、各种类型数字、各种类型文字、或前述中至少两项的任意组合。

6.根据权利要求1所述的字符辨识方法，其特征在于，还包括：

比较该新辨识字符串与该字符数据库中的字符串，以寻找与该新辨识字符串相对应的字符串；以及

若找到与该新辨识字符串相对应的字符串，则输出该新辨识字符串，若未找到与该新辨识字符串相对应的字符串，使用第三卷积神经网络模型，更正该新辨识字符串。

7.根据权利要求1所述的字符辨识方法，其特征在于，该使用该第二卷积神经网络模型，更正该辨识字符串，以产出该新辨识字符串的步骤还包括：

使用该第二卷积神经网络模型辨识该有兴趣区块中的字符串中的部分字符串，产生辨识的部分字符串；

以该辨识的部分字符串替换该第一卷积神经网络模型所产生的该辨识字符串的对应部分字符串，以得到该新辨识字符串，其中该有兴趣区块中的字符串包括多个字符，且该部分字符串的字符个数小于该有兴趣区块中的字符串的字符个数。

8.根据权利要求7所述的字符辨识方法，其特征在于，该有兴趣区块中的所述字符串中每一所述字符有对应字符位置，该方法还包括：

计算每一所述对应字符位置的字符种类个数；

依据所述对应字符位置的所述字符种类个数，决定每一所述对应字符位置的排序值；以及

依据所述对应字符位置的所述排序值，依序计算各该对应字符位置的可能组合总数以及实际组合总数，当该可能组合总数以及该实际组合总数的组合比例大于阀值，则将该部分字符串的字符个数增加1，并依据剩余字符位置的排序，新增并记录下一选定字符位置，直到该组合比例小于该阀值，则得到该第二卷积神经网络模型所对应的该部分字符串的字符个数及该部分字符串所对应的字符位置。

9.根据权利要求1所述的字符辨识方法，其特征在于，还包括：

若找到与该新辨识字符串相对应的字符串，则输出该新辨识字符串，若未找到与该新辨识字符串相对应的字符串时，则使用编辑距离计算更正该新辨识字符串，以利用该字符数据库中的字符串数据产生调整后的字符串，并输出该调整后的字符串。

10.根据权利要求9所述的字符辨识方法，其特征在于，还包括：

依据该字符数据库，统计每一字符位置的字符种类个数并据此决定每一所述字符位置的调整权重；

利用该调整权重进行该最小编辑距离计算，计算该字符数据库中每一字符串的调整误差；以及

输出具有最小调整误差的该字符串为该调整后的字符串。

11.一种字符辨识系统，其特征在于，包括：

储存装置，储存有字符数据库；以及

影像处理器，耦接该储存装置，经配置使用第一卷积神经网络模型，辨识有兴趣区块中的字符串，产出辨识字符串，其中该有兴趣区块中的字符串包括一或多个字符，并且比较该辨识字符串与该字符数据库中多个字符串，以寻找与该辨识字符串相对应的字符串，其中该多个字符串的每个字符串包括一或多个字符；

其中，若找到该辨识字符串相对应的字符串时，该影像处理器是以该辨识字符串作为字符辨识结果，若未找到该辨识字符串相对应的字符串，该影像处理器经配置使用第二卷积神经网络模型，更正该辨识字符串，以产出新辨识字符串作为字符辨识结果。

12.根据权利要求11所述的字符辨识系统，其特征在于，该影像处理器经配置使用区块侦测卷积神经网络模型侦测输入影像而得到该有兴趣区块。

13.根据权利要求12所述的字符辨识系统，其特征在于，该输入影像为图片或影片的画面。

14.根据权利要求12所述的字符辨识系统，其特征在于，该区块侦测卷积神经网络模型、该第一卷积神经网络模型、该第二卷积神经网络模型为预先训练过的卷积神经网络模型。

15.根据权利要求11所述的字符辨识系统，其特征在于，该多个字符串包括各种类型符号、各种类型字母、各种类型数字、各种类型文字、或前述中至少两项的任意组合。

16.根据权利要求11所述的字符辨识系统，其特征在于，该影像处理器还比较该新辨识字符串与该字符数据库中的字符串，以寻找与该新辨识字符串相对应的字符串；若找到与该新辨识字符串相对应的字符串，则该影像处理器输出该新辨识字符串，若未找到与该新辨识字符串相对应的字符串，使用第三卷积神经网络模型，更正该新辨识字符串。

17.根据权利要求11所述的字符辨识系统，其特征在于，该影像处理器还使用该第二卷积神经网络模型辨识该有兴趣区块中的字符串中的部分字符串，产生辨识的部分字符串，并以该辨识的部分字符串替换该第一卷积神经网络模型所产生的该辨识字符串的对应部分字符串，以得到该新辨识字符串，其中该有兴趣区块中的字符串包括多个字符，且该部分字符串的字符个数小于该有兴趣区块中的字符串的字符个数。

18.根据权利要求17所述的字符辨识系统，其特征在于，该有兴趣区块中的所述字符串中每一所述字符有对应字符位置，该影像处理器还计算每一所述对应字符位置的字符种类个数、依据所述对应字符位置的所述字符种类个数，决定每一所述对应字符位置的排序值、依据所述对应字符位置的所述排序值，依序计算各该对应字符位置的可能组合总数以及实际组合总数，当该可能组合总数以及该实际组合总数的组合比例大于阀值，则该部分字符串的字符个数增加1，并依据剩余字符位置的排序，新增并记录下一选定字符位置，直到该可能组合总数以及该实际组合总数的组合比例小于阀值，则得到该第二卷积神经网络模型所对应的该部分字符串的字符个数及该部分字符串所对应的字符位置。

19.根据权利要求11所述的字符辨识系统，其特征在于，该影像处理器还比较该新辨识字符串与该字符数据库中的字符串，以寻找与该新辨识字符串相对应的字符串，若找到与该新辨识字符串相对应的字符串，则该影像处理器输出该新辨识字符串，若未找到与该新辨识字符串相对应的字符串时，则该影像处理器使用编辑距离计算更正该新辨识字符串，以利用该字符数据库中的字符串数据产生调整后的字符串，并输出该调整后的字符串。

20.根据权利要求19所述的字符辨识系统，其特征在于，该影像处理器还依据该字符数据库，统计每一字符位置的字符种类个数并据此决定每一所述字符位置的调整权重，利用该调整权重进行该最小编辑距离计算，计算该字符数据库中每一字符串的调整误差以及输出具有最小调整误差的该字符串为该调整后的字符串。