CN107403130A

CN107403130A - 一种字符识别方法及字符识别装置

Info

Publication number: CN107403130A
Application number: CN201710256378.1A
Authority: CN
Inventors: 李云锦; 杨晓庆; 孙萌; 王锐坚; 赵玲玲; 陈孟阳; 阎鹏; 邓澍军; 郭常圳
Original assignee: Beijing Chalk Future Technology Co Ltd
Current assignee: Beijing Chalk Future Technology Co Ltd
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2017-11-28

Abstract

本申请提供一种字符识别方法及字符识别装置，所述字符识别方法包括：获取包含待识别字符的图像；对所述图像进行区域分割并获取每个区域的文本块；依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有各自的置信度，且所述识别模块的置信度不同；当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；将所有文本块的识别结果进行整合，得到对所述图像中字符识别的结果。

Description

一种字符识别方法及字符识别装置

技术领域

本发明涉及模式识别中的文字识别技术领域，特别涉及一种字符识别方法及字符识别装置。

背景技术

字符识别，主要是识别图像上的中文字符或英文字符，通过拍照或者截取包含字符的图像，然后识别该图像中的字符内容，最后将识别该图像中的字符内容输出成可编辑的电子化文本。

目前针对字符识别的技术主要有以下几种：

第一种，用滑动窗口对目标图像进行切分，拿切分块和样本集进行对比识别，但是手写体样本多样、变化多，框体的大小不好确定；

第二种，在用户手写输入的时候采集用户书写轨迹，通过判断轨迹走势识别手写字符，但是该方法只能识别用户现场书写的轨迹，无法对损失了用户书写轨迹的手写字符图像进行识别；

第三种，通过传统的光学字符识别技术识别扫描仪扫描出的含有手写字符图像中的字符，但是目前智能手机拍出图像的清晰度相比扫描仪差很多，传统的光学字符识别技术对这种清晰度较差的图像上的手写字符进行识别。

以上几种对字符识别的方法均有不足，不能一次性快速准确的将大篇幅的字符图像中的字符识别成电子化文本。

发明内容

有鉴于此，本申请提供一种字符识别方法及字符识别装置，以实现快速准确的对大篇幅的手字符图像中的字符进行识别。

一方面，本申请提供一种字符识别方法，包括：

获取包含待识别字符的图像；

对所述图像进行区域分割并获取每个区域的文本块；

依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有一个置信度，且所述至少两个识别模块的置信度不同；

当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；

将所有文本块的识别结果进行整合，得到对所述图像中字符识别的结果。

另一方面，本申请提供一种字符识别装置，包括：

获取模块，用于获取包含待识别字符的图像；

分割模块，用于所述图像进行区域分割并获取每个区域的文本块；

输入模块，用于依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有各自的置信度，且所述识别模块的置信度不同；

处理模块，当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；

整合模块，将所有文本块的识别结果进行整合，得到对所述图像中字符识别的结果。

本发明申请提供的一种字符识别方法及字符识别装置利用至少两个识别模块对包含待识别字符的图像中的字符进行识别，基于所述至少两个识别模块的识别结果和不同的置信度给出了较为准确的识别结果，解决了不能一次性快速准确的将大篇幅的字符图像中的字符识别成电子化文本的问题。

附图说明

图1为本申请一实施例提供的字符识别方法的流程图；

图2为本申请一实施例提供的字符识别方法的流程图；

图3为本申请一实施例提供的字符识别方法中对图像进行预处理的示意图；

图4为本申请一实施例采用CNN(卷积神经网络)识别模块和RNN(循环神经网络)识别模块进行字符识别方法的流程图；

图5-1为用手机拍摄的一篇手写英文作文图像；

图5-2为图5-1所示的图像进行预处理之后的图像；

图5-3为图5-2所示的图像进行区域分割获取的单独文本块；

图5-4为图5-3所示的每个文本块进行识别后的识别结果；

图5-5为图5-4所示的识别结果进行整合后得到的电子化文本内容；

图6为本申请一实施例提供的一种字符识别装置的结构示意图；

图7为本申请一实施例提供的电子设备的硬件结构示意图。

具体实施方式

本发明实施例提供的一种字符识别方法及字符识别装置，首先对含有字符的图像进行预处理和二值化，然后基于深度学习多识别模块对图像中的字符进行识别，使得字符识别更为快速和准确。下面结合附图，对本发明的实施方式和实施过程做详细说明。

现有的字符识别技术对于印刷体图像、具有书写轨迹的图像以及使用扫描仪扫描的图像上的字符识别效果较好，但是不适用于一次性的将大篇的字符图像中的快速准确的识别成文本。

基于现有技术中字符识别方法的不足，本申请提供的一种字符识别方法及一种字符识别装置，能够一次性快速准确的识别图像中的大篇幅字符，将图像中的字符内容电子化。

参见图1，本申请一实施例提供一种字符识别方法，包括步骤101至步骤105。

步骤101：获取包含待识别字符的图像。

获取包含待识别字符的图像的方法可以是手机拍照也可以是从其它设备获取到的图像，但是并不仅限于在手机上使用，也可以在其它固定或移动平台上使用。

步骤102：对所述图像进行区域分割并获取每个区域的文本块。

所述文本块可以是印刷体文本块，也可以是手写文本块。

步骤103：依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有各自的置信度，且所述识别模块的置信度不同；使用至少两个识别模块进行分别识别比较可以提高每个文本块识别的准确率。

步骤104：当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；置信度越高识别结果的准确率越高，该识别结果中还包含字符图像中的文字文本的标点符号信息。

步骤105：将所有文本块的识别结果进行整合，得到对所述图像中字符识别的结果；将所有文本块进行识别之后，对所有文本块的识别结果进行整合，然后将整合过的识别结果。

本申请实施例中，手机或其它固定、移动平台获取含有中文或英文的字符的图像，将获取到的图像按照区域分割并获取每个区域的文本块，然后依次将每个单独文本块同时输入到至少两个识别模块中识别，以置信度高的识别结果作为当前文本块的识别结果，最后将所有文本块的识别结果进行整合，得到该图像中所有字符的识别结果，相对于现有技术，获取到的含有字符的图像无论是印刷体或者手写体，均可快速准确的识别出图像上的字符，从而节省时间提高识别效率。

参见图2，本申请一实施例提供一种字符识别方法，具体包括步骤201至步骤208。

步骤201：获取包含待识别字符的图像。

在步骤201获取包含待识别字符的图像之后，对该图像进行区域分割并获取每个区域的文本块之前，为了更加快速准确的对图像上的字符进行识别，需要对图像进行预处理。

步骤202：对所述图像进行预处理。

实际应用中，所述预处理的方式可以包括以下三种中的至少一种。

参见图3，第一种预处理的方式包括：判断所述图像模糊是否模糊，若所述图像模糊，则重新获取包含待识别字符的图像。

可以通过检测文字边缘的像素点数目来判断图像是否模糊。本申请一实施例中，通过检测文字边缘的像素点数目来判断图像是否模糊可以包括如下步骤：

通过梯度算子确定出所述图像中的第一字符边缘；

检测所述第一字符边缘的像素点数量；若所述第一字符边缘的像素点数量小于预设阈值则确定所述图像模糊。

在判断图像是否模糊的时候，拉普拉斯算子检测图像中局部梯度较大的部分，确定出图像中的第一文字边缘，检测第一文字边缘的像素点的数量，当检测出来的第一文字边缘的像素点的数量小于400时确定图像严重模糊，会提醒用户重新获取图像。

本申请另一实施例中，通过检测文字边缘的像素点数目来判断图像是否模糊可以包括如下步骤：

通过梯度算子确定出所述图像中的第一字符边缘；

检测出第一像素点的第一灰度值和第一像素点数量，所述第一像素点为所述第一字符边缘所包含的像素点；

根据第一灰度值确定第二灰度值，所述第一灰度值与所述第二灰度值之间的差值在第一阈值范围内；

根据所述第二灰度值的像素点确定文字区域，通过梯度算子确定出所述文字区域中的字符边缘作为第二字符边缘，检测出第二字符边缘的第二像素点和第二像素点数量；

当所述第一像素点数量与第二像素点数量的比值在第二阈值范围内时，确定所述图像模糊。

在判断图像是否模糊的时候，先检测出第一文字边缘的第一像素点的数量和第一灰度值，在第一文字边缘区域搜索，以第一灰度值确定第二灰度值，所述第一灰度值与所述第二灰度值之间的差值在第一阈值范围内，所述第一阈值根据实际情况配置参数，根据第二灰度值确定第二像素点以及第二像素点的数量，该第二像素点构成第二文字边缘，当检测的第一像素点数量与第二像素点数量的比值小于0.1时，确定图像严重模糊，会提醒用户重新获取图像。

比较清晰的图像检测出来的文字边缘的像素点多，模糊的图像检测出来的文字边缘的像素点少；例如，一实施例中，检测的文字边缘像素点的数量大于或等于400时则为正常图像，检测的文字边缘像素点的数量小于400时则图像严重模糊需要重新获取；另一实施例中，检测文字边缘的像素点与实际文字边缘的像素点的比值大于或等于0.1时则为正常图像，检测文字边缘的像素点与实际文字边缘的像素点的小于0.1时则为图像严重模糊需要重新获取，实际的文字边缘的像素点并不能得到，但是却可以通过一定的方法近似、估算，以检测出来的文字边缘的灰度值作为文字的参考灰度值，在检测出来的文字边缘区域搜索，搜索出来的灰度值与参考灰度值接近的像素均认为是文字区域，再从该文字区域提取边缘部分，为实际文字边缘，确定出实际文字边缘的像素点即可。

第二种预处理方法包括：判断当前图像是否发生了偏转，当确定图像发生了旋转时，将图像调整为正向。

本申请实施例中，主要通过检测图像是否发生了九十度旋转或一百八十度旋转来判断当前图片是否发生了偏转，实际应用中，可以通过如下方法确定图像发生了旋转：

对所述图像做二值化处理，确定所述图像上每个字符的外接框；

确定所述外接框横向成组的行数和纵向成组的列数；

以字符外接框的左上角为原点，横向向右为x轴，纵向向下为y轴；

将外接框按y坐标聚成行，逐行依次检查相邻外接框，若相邻外接框偏移量大于外接框高度的一半，则认为原先的行已经结束，外接框开始新的一行；

将字符外接框按x坐标聚成列，逐列依次检查相邻外接框，若相邻外接框偏移量大于外接框宽度的一半，则认为原先的列已经结束，外接框开始新的一列，得到所述外接框横向成组的行数和纵向成组的列数；

当所述行数与所述列数的差值在第三阈值范围内时，确定所述图像发生了旋转。

在确定图像是否发生了旋转时，先对图像做二值化处理，即通过设定阈值，将图像中的像素点的灰度值转化为0或255；由于字符为前景，因此将像素值小于阈值的转为255，而灰度值大于阈值的像素变为0；对于前景字符，提取像素值为255的区域，该区域为连通区域，然后将各连通区域用外接矩形框框起来，从而确定出用于外接该连通区域的外接框，再根据连通区域外接框的长宽比和面积，从连通区域外接框中筛选出用于外接字符的外接框，根据字符外接框长宽比和面积大于标点符号外接框的长宽比和面积进行字符外接框的筛选。

以字符外接框的左上角为原点，横向向右为x轴，纵向向下为y轴；先将外接框按y坐标聚成行，逐行按顺序检查相邻外接框，若相邻外接框偏移量大于外接框高度的一半，则认为原先的行已经结束，由此外接框开始新的一组；这样可以得到所有外接框横向成组的行数及每行字符外接框的数量。

同理，将字符外接框按x坐标聚成行，逐列按顺序检查相邻外接框，若偏移量大于外接框宽度的一半，则认为原先的列已经结束，新列开始。由此得到所有外接框纵向成组的列数及每列字符外接框的数量。

将横向成组的行数与纵向成组的列数进行比较，得到横向成组的行数与纵向成组的列数的差值，当该差值在第三阈值范围内时，则确定图像发生了旋转，所述第三阈值根据实际情况进行参数配置。

正常情况下，字符横向更紧凑，纵向排列比较随机，因此横向成行的组数远小于纵向成列的组数；反之，则判断图像发生了旋转。

第三种预处理的方法包括：判断所述图像对应的灰度图像是否需要进行灰度反转，当确定所述图像对应的灰度图像需要进行灰度反转时，对所述灰度图像进行灰度反转。

灰度图像上，文字一般是深色，而背景为浅色；但是在特殊情况下，比如拍摄黑板上的手写文字时，文字是白色的，而背景是深色的；因此需要检测字体的颜色，必要时反转灰度图像，通过如下方法确定图像对应的灰度图像需要进行灰度反转：

获取所述图像对应的灰度图，灰度图是图像进行二值化处理后得到，灰度图为呈现黑白效果的图像；

将所述灰度图进行灰度反转得到反转后的灰度图，反转后的灰度图即将灰度图中的像素点的灰度值进行对换之后得到的图像；

对所述灰度图和反转后的灰度图进行二值化处理，确定所述灰度图和反转后的灰度图的外接框数量，所述外接框用于外接所述图像对应的字符，对原图灰度图像和反转后的灰度图像进行前景的连通区域的外接框检测，得到原图灰度图像上外接框的数量和反转后的灰度图像上外接框的数量；

当反转后的灰度图上外接框的数量大于所述灰度图上外接框的数量时，确定所述图像对应的灰度图需要进行灰度反转，将得到的原图灰度图像上外接框的数量和反转后的灰度图像上外接框的数量进行比较，由于有正常字体颜色的灰度图会检测出更多字符外接框，因此如果反转颜色后的灰度图像检测出字符外接框数量大于原图灰度图像上外接框的数量时，则确定原图像对应的灰度图需要进行灰度反转。

对所述图像进行预处理之后图像不会出现模糊、方向不正确以及图像上字体颜色较浅等情况，可以改善手机摄像头等拍摄的受设备硬件限制和光线影响的字符图像，提高待识别字符图像的质量，使得后期能够更加快速准确的对图像上的字符进行识别。

步骤203：在对所述图像进行区域分割并获取每个区域的文本块之前还包括对图像做二值化处理。

对所述图像进行二值化处理的方法可以参见步骤202的预处理中有关二值化处理的内容。

对所述图像进行二值化处理之后，可以将图像分为像素值为黑和白，初步给出各字符的连通域，有利于后期对所述图像进行区域分割处理，且处理速度可以大大提高。

步骤204：对所述图像进行区域分割并获取每个区域的文本块。

实际应用中，根据获取的图片中的待识别的内容的不同，该文本块可以是印刷体文本块，也可以是手写文本块。

对所述图像进行区域分割还需要对所述图像进一步优化二值化，首先，我们提出了一个多层次局部灰度直方图均衡化的方法，均衡化的基本思想是对图像中像素个数多的灰度级进行展宽，而对图像中像素个数少的灰度进行压缩，从而扩展像原取值的动态范围，提高了对比度和灰度色调的变化，使图像更加清晰，局部的均衡化利用了局部的像素值统计信息来均衡局部的灰度分布，避免了光照不均匀时全局分布和局部分布不一致而造成的错误的均衡结果；对于有些局部区域过小，而又太集中的像素值分布(如一块纯背景或纯字符部分)，我们会借用它周围区域的分布来代替，避免其因统计不足而造成的分布偏颇，多层次局部灰度均衡化会对原图由粗到细、一层层划分更小的局部区域，对每块局部区域都进行局部灰度均衡化后，再平均所有的结果得到最终的均衡化结果；在进行均衡化处理后，用拉普拉斯算子得到初始字符种子，从这些种子中，字符的平均像素值得以估计计算，从剩余的背景区域中，我们可以同样估算出背景的平均像素值，从这两个值可以计算出阈值，用于在字符种子周围一定范围内的搜索区域分割出新的字符，更新后的字符分割结果会更加准确而完成地得到字符部分，经过几轮更新后，最终的字符分割结果将收敛到真实的字符位置上，二值化优化得以完成。

对所述图像进行二值化优化处理，可以使得图像在充满噪声、阴影、光照不均匀、对比度低等情况下依然可以得到比较准确的字符切分结果。

二值化优化完成之后，可以开始进行图像的区域分割并获取每个区域的文本块，一个文本块即一个字符，找到连通域作为初始切分结果，然后将连通域排列成行，初步分割会出现错误的字符粘连现象，因此可以将初始分割的字符先组成文本行，再将文本行优化分割、修正，即可得到最终的切分结果。

获得文本行后，通过过切分来解决粘连的问题，过切分可以更加均匀地分割各个文本行，一般来说，当分割块的长度与高度的比例较大时，则确定产生了粘连的现象，对于这样的情况，当前文本行会重新检查可能的切分点，切分点的评分是基于垂直投影的像素数目、垂直方向上字符上下轮廓的靠近程度以及距离前后切分点的距离，在最可能的切分点进行再次切分，可以解决粘连问题。

步骤205：训练识别模块：对至少两个识别模块进行训练，对所述至少两个识别模块进行训练之前，还包括构造训练数据。

可选地，所述构造训练数据包括：

获取原始图像，将所述原始图像作为原始训练数据；所述原始图像可以是中文字符库或者标准英文字母或者单词库中获取的标准，清晰，无偏移的图像。

将所述原始图像在预设范围内旋转任意角度；或者

在保留所述原始图像预定数量信息的基础上进行裁剪；或者

模糊所述原始图像上字符的边缘；或者

在所述原始图像中加入椒盐噪声(salt-and-pepper noise)；或者

降低所述原始图像的质量；或者

扭曲并映射所述原始图像至一般四边形；或者

在预设范围内平移所述原始图像；

将上述变化后的原始图像随机选择组合生成新的训练数据。

对识别模块进行训练时需要构造训练数据，训练数据是获取原始图像的数据特征作为训练数据，训练数据比较少的情况下，识别模块的识别结果就不完整不精确，为了获得更多的训练数据，我们就将获取的原始图像经过上述一系列的模拟现实的变换，然后将这些变换随机选择组合生成新的训练数据，获得更多的训练数据，提高识别模块的识别速度和精确度，并且较多的训练数据训练出来的识别模块进行字符识别时可以避免过拟合现象的发生，提高识别结果的准确度。

步骤206：依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有各自的置信度，且所述识别模块的置信度不同。

步骤207：当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；

步骤208：将所有文本块的识别结果进行整合，得到对所述图像中字符识别的结果。

在得到所述图像中字符识别结果之后，还可以应用自然语言模型对该识别结果进行验证，当确定识别结果不符合自然语言模型时，对识别结果进行纠正，从而提升识别正确率。

在本申请实施例中，利用基于深度学习的至少两个识别模块对包含识别字符的图像中的字符进行识别，基于所述至少两个识别模块的识别结果和不同的置信度给出了较为准确的识别结果，解决了不能一次性快速准确的将大篇幅的字符图像中的字符识别成电子化文本的问题，且在字符识别之前对包含识别字符的图像做预处理、二值化等处理之后再进行字符识别，识别结果速度快、准确率高。

参见图4，本申请一实施例提供一种采用卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块进行字符识别方法，包括步骤301至步骤307。

步骤301：用手机拍摄一篇手写英文作文图像并自动裁剪成合适尺寸，手机自动检测文本边缘对所述图像进行裁剪，如果手机不能自动检测时，也可以选择人工进行裁剪，如图5-1所示。

步骤302：对所述图像进行预处理，如图5-2所示。

对所述图像进行预处理的过程包括：若判断所述图像模糊，需要重新获取所述图像时，若判断所述图像不模糊则不需要重新获取所述图像，判断所述图像是否模糊的方法可以参见上述实施例步骤202中通过检测文字边缘的像素点数目来判断图像是否模糊的任意一种方法。

若检测出所述图像旋转时将所述图像进行调整，若检测出所述图像没有发生旋转则不需要进行调整，检测所述图像是否发生了旋转的方法可以参见上述实施例步骤202中检测图像是否发生了九十度旋转或一百八十度旋转来判断当前图片是否发生了偏转的方法。

若检测出所述图像对应的灰度图需要反转，则将所述图像对应的灰度图进行发转，若检测出所述图像对应的灰度图不需要反转则不需要进行调整，判断所述图像对应的灰度图像是否需要进行灰度反转的方法可以参见上述实施例步骤202中判断所述图像对应的灰度图像是否需要进行灰度反转的方法。

在预处理阶段也会利用直线检测的方法将所述手写英文作文图像上英文作业本上的单线格去掉。

步骤303：对所述图像进行区域分割并获取每个区域的字符，如图5-3所示。

所述图像预处理之后，就可以对所述图像进行区域分割获取每个区域的文本块，即字符，对所述图像上的字符进行分割的方法参见上述实施例步骤204中对图像进行区域分割并获取每个区域文本块的方法。

步骤304：依次将每个字符同时输入到预先训练的卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块中进行识别。

卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块在对分割之后的字符进行识别之前就需要进行训练。

对所述卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块进行训练之前，还包括构造训练数据，构造训练数据的方法如下：

获取原始图像，将所述原始图像作为原始训练数据。

在原始图像的基础上利用增强现实的方法进行扩充：将所述原始图像在一定范围内旋转任意角度、在保留所述原始图像70％的基础上进行裁剪、模糊所述原始图像上字符的边缘、在所述原始图像中加入椒盐噪声(salt-and-pepper noise)、降低所述原始图像的质量、扭曲并映射所述原始图像至一般四边形、在一定范围内平移所述原始图像；将上述变化后的原始图像随机选择组合生成新的训练数据，以此获得更多的训练数据。

利用上述训练数据对卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块进行训练。

CNN识别模块和RNN识别模块的目标函数通过下述公式(1)进行计算，目标函数为在所有的训练数据X上最小化损失函数(loss function)f_w(·)及权重为λ的所有参数的正则项：

通过不断迭代，使得L(w)越来越小，其中N是样本数量，f_w(X⁽ⁱ⁾)是单个样本X⁽ⁱ⁾的损失函数，M是参数总个数，是其中的第j个参数，后面这一项是正则化项，防止过拟合。

其中，每个X⁽ⁱ⁾代表的是第i条样本，比如英文单词对应的图片：

English

比如汉字对应的图片：

上述损失函数通过公式(2)进行计算：

其中是样本X⁽ⁱ⁾被预测成y_i的概率，是神经网络最后一个全连接层对应类别y_i的输出值，j是神经网络最后一个全连接层对应类别j的输出值，具体通过公式(3)进行计算：

CNN识别模块和RNN识别模块都应用了小批随机梯度下降(mini-batchstochastic gradient descent)算法优化公式(1)中的最小化损失函数，依据下面公式(4)更新权重W的值：

w_t+1＝w_t+Δw_t+1 (4)

其中Δw_t+1的计算方法通过公式(5)得到：

公式(5)里面的μ是用于更新当前参数值时平衡前次更新的值的冲量，而α是通常提到的学习速率。

步骤305：判断字符输入到CNN识别模块和RNN识别模块的识别结果是否相同。

步骤306：当输入到CNN识别模块和RNN识别模块的识别结果相同时，输出识别结果，当在CNN识别模块和RNN识别模块的识别结果不同时，以置信度高的识别模块的识别结果作为当前字符的识别结果，CNN识别模块和RNN识别模块的训练数据特征越多，置信度就越高，因此步骤304中将原始图像经过一系列的变换模拟现实中的变化，然后将若干种变换随机选择组合，以此获取更多的新的训练数据，如图5-4所示。

步骤307：将所有字符的识别结果进行整合，得到图像中字符的电子化文本内容，如图5-5所示。

采用CNN(卷积神经网络)识别模块和RNN(循环神经网络)识别模块通过提前对千万级别的中文和英文数据特征进行训练和测试建立识别模型，在字符图像识别之前对所述图像进行预处理、二值化等处理，因此在字符识别时速度快，整张图像的识别只需要1.5秒左右，并且效果好，获取的手写在白纸、单线格、四线格等图像进行识别时，识别精度均在百分之九十以上。

参见图6，本申请实施例还提供了一种字符识别装置，包括：

获取模块601，用于获取包含待识别字符的图像；获取包含待识别字符的图像的方法可以是手机拍照也可以是从其它设备获取到的图像，但是并不仅限于在手机上使用，也可以在其它固定或移动平台上使用。

分割模块602，用于对所述图像进行区域分割并获取每个区域的文本块；所述文本块可以是印刷体文本块，也可以是手写文本块。

输入模块603，用于依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有各自的置信度，且所述识别模块的置信度不同；使用至少两个识别模块进行分别识别比较可以提高每个文本块识别的准确率。

处理模块604，当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；置信度越高识别结果的准确率越高，该识别结果中还包含字符图像中的文字文本的标点符号信息。

整合模块605，将所有文本块的识别结果进行整合，得到对所述图像中字符识别的结果。

本申请实施例中，采用上述字符识别装置进行字符识别，无论含有字符的图像无论是印刷体或者手写体，均可快速准确的识别出图像上的字符，将所述图像上的字符进行电子文本化，从而节省时间提高识别效率。

可选地，所述获取模块601还包括

图像模糊检测模块：用于当确定所述图像模糊时，重新获取包含待识别字符的图像；

和/或，

图像旋转检测模块，用于当确定所述图像发生了旋转时，将所述图像调整为正向；

和/或，

图像灰度检测模块，用于当确定所述图像对应的灰度图像需要进行灰度反转时，对所述灰度图像进行灰度反转。

可选地，所述图像检测模块可以通过检测文字边缘的像素点数目来判断图像是否模糊。

本申请一实施例中，通过检测文字边缘的像素点数目来判断图像是否模糊可以包括如下步骤：

通过梯度算子确定出所述图像中的第一字符边缘；

检测所述第一字符边缘的像素点数量；若所述第一字符边缘的像素点数量小于预设阈值则确定所述图像模糊；

通过梯度算子确定出所述图像中的第一字符边缘；

可选地，所述图像旋转检测模块用于判断当前图像是否发生了偏转，当确定图像发生了旋转时，将图像调整为正向。

确定所述外接框横向成组的行数和纵向成组的列数；

可选地，所述图像灰度检测模块用于判断所述图像对应的灰度图像是否需要进行灰度反转，当确定所述图像对应的灰度图像需要进行灰度反转时，对所述灰度图像进行灰度反转。

灰度图像上，文字一般是深色，而背景为浅色；但是在特殊情况下，比如拍摄黑板上的手写文字时，文字是白色的，而背景是深色的；因此需要检测字体的颜色，必要时反转灰度图像。

本申请实施例中，通过如下方法确定图像对应的灰度图像需要进行灰度反转：

获取所述图像对应的灰度图；

将所述灰度图进行灰度反转得到反转后的灰度图；

对所述灰度图和反转后的灰度图进行二值化处理，确定所述灰度图和反转后的灰度图的外接框数量，所述外接框用于外接所述图像对应的字符；

当反转后的灰度图上外接框的数量大于所述灰度图上外接框的数量时，确定所述图像对应的灰度图需要进行灰度反转。

可选地，所述输入模块603包括至少两个识别训练模块，用于对所述至少两个识别模块进行训练。

可选地，所述至少两个识别训练模块还包括构造数据模块，用于构造训练数据。

可选地，所述构造数据模块包括：

收集数据模块，用于获取原始图像，将所述原始图像作为原始训练数据；所述原始图像可以是字符库或者标准英文字母或者单词库中获取的标准，清晰，无偏移的图像。

组合数据模块，用于将所述原始图像在预设范围内旋转任意角度；或者

在保留所述原始图像70％的基础上进行裁剪；或者

模糊所述原始图像上字符的边缘；或者

在所述原始图像中加入椒盐噪声(salt-and-pepper noise)；或者

降低所述原始图像的质量；或者

扭曲并映射所述原始图像至一般四边形；或者

在预设范围内平移所述原始图像；

将上述变化后的原始图像随机选择组合生成新的训练数据。

可选地，所述至少两个识别模块包括卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块。

通过以上实施例可见，在本申请实施例中，通过提取文本块的数据特征进行训练，建立基于深度学习的识别模块，而后利用至少两个训练好的识别模块同时对文本块进行识别，获取置信度最高的识别结果作为当前文本块的识别结果，采用这种深度学习技术的字符识别方法识别速度快，且在字符识别之前对图像做二值化、去格子等预处理然后利用多识别模块分别识别选取最佳识别结果，识别结果的准确率高。

图7是本申请实施例提供的执行文本图片中文字背景反色的检测方法的电子设备的硬件结构示意图，如图7所示，该电子设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行数据存储方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线750连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的数据存储方法对应的程序指令/模块(例如，附图6所示的各个模块)。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的数据存储方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据数据存储装置的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至数据存储装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与数据存储装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的数据存储方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：掌上电脑(PDA Personal DigitalAssistant)、移动互联网设备(MID，Mobile Internet Device)和超级移动个人计算机(UMPC，Ultra-mobile Personal Computer)设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

在本申请所提供的多个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的检测装置的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口，模块的间接耦合或通信链接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本发明优选实施例只是用于帮助阐述本发明。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种字符识别方法，其特征在于，包括：

获取包含待识别字符的图像；

对所述图像进行区域分割并获取每个区域的文本块；

2.根据权利要求1所述的方法，其特征在于，在获取包含待识别字符的图像之后，还包括：

当确定所述图像模糊时，重新获取包含待识别字符的图像；

和/或，

当确定所述图像发生了旋转时，将所述图像调整为正向；

和/或，

当确定所述图像对应的灰度图像需要进行灰度反转时，对所述灰度图像进行灰度反转。

3.根据权利要求2所述的方法，其特征在于，确定所述图像模糊包括：

通过梯度算子确定出所述图像中的第一字符边缘；

或者，

通过梯度算子确定出所述图像中的第一字符边缘；

4.根据权利要求2所述的方法，其特征在于，确定所述图像发生了旋转包括：对所述图像做二值化处理，确定所述图像上每个字符的外接框；

确定所述外接框横向成组的行数和纵向成组的列数；

将外接框按y坐标聚成行，逐行依次检查相邻外接框，若相邻外接框偏移量大于外接框高度的一半，则认为原先的行已经结束，外接框开始新的一行；将字符外接框按x坐标聚成列，逐列依次检查相邻外接框，若相邻外接框偏移量大于外接框宽度的一半，则认为原先的列已经结束，外接框开始新的一列，得到所述外接框横向成组的行数和纵向成组的列数；

5.根据权利要求2所述的方法，其特征在于，确定所述图像对应的灰度图像需要进行灰度反转包括：

获取所述图像对应的灰度图；

将所述灰度图进行灰度反转得到反转后的灰度图；

6.根据权利要求1所述的方法，其特征在于，在依次将每个文本块同时输入到至少两个识别模块进行识别之前，还包括对所述至少两个识别模块进行训练。

7.根据权利要求6所述的方法，其特征在于，对所述至少两个识别模块进行训练之前，还包括构造训练数据。

8.根据权利要求7所述的方法，其特征在于，所述构造训练数据包括：

获取原始图像，将所述原始图像作为原始训练数据；

将所述原始图像在预设范围内旋转任意角度；或者

在保留所述原始图像预定数量信息的基础上进行裁剪；或者

模糊所述原始图像上字符的边缘；或者

在所述原始图像中加入椒盐噪声(salt-and-pepper noise)；或者

降低所述原始图像的质量；或者

扭曲并映射所述原始图像至一般四边形；或者

在预设范围内平移所述原始图像；

将上述变化后的原始图像随机选择组合生成新的训练数据。

9.根据权利要求1所述的方法，其特征在于，所述至少两个识别模块包括卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块。

10.一种字符识别装置，其特征在于，包括：

获取模块，用于获取包含待识别字符的图像；

分割模块，用于对所述图像进行区域分割并获取每个区域的文本块；

输入模块，用于依次将每个文本块同时输入到至少两个识别模块进行识别，其中：每个所述识别模块有各自的置信度，且所述识别模块的置信度不同；处理模块，当所述识别模块之间识别的结果不同时，以置信度高的识别模块的识别结果作为当前文本块的识别结果；

11.根据权利要求10所述的装置，其特征在于，所述获取模块还包括

图像模糊检测模块，用于当确定所述图像模糊时，重新获取包含待识别字符的图像；

和/或，

12.根据权利要求11所述的装置，其特征在于，所述图像检测模块确定所述图像模糊包括：

通过梯度算子确定出所述图像中的第一字符边缘；

或者，

通过梯度算子确定出所述图像中的第一字符边缘；

13.根据权利要求11所述的装置，其特征在于，所述图像旋转检测模块确定所述图像发生了旋转包括：

确定所述外接框横向成组的行数和纵向成组的列数；

14.根据权利要求11所述的装置，其特征在于，所述图像灰度检测模块确定所述图像对应的灰度图像需要进行灰度反转包括：

获取所述图像对应的灰度图；

将所述灰度图进行灰度反转得到反转后的灰度图；

15.根据权利要求10所述的装置，其特征在于，所述输入模块包括至少两个识别训练模块，用于对所述至少两个识别模块进行训练。

16.根据权利要求15所述的装置，其特征在于，所述至少两个识别训练模块还包括构造数据模块，用于构造训练数据。

17.根据权利要求16所述的装置，其特征在于，所述构造数据模块包括：

收集数据模块，用于获取原始图像，将所述原始图像作为原始训练数据；

在保留所述原始图像预定数量信息的基础上进行裁剪；或者

模糊所述原始图像上字符的边缘；或者

在所述原始图像中加入椒盐噪声(salt-and-pepper noise)；或者

降低所述原始图像的质量；或者

扭曲并映射所述原始图像至一般四边形；或者

在预设范围内平移所述原始图像；

将上述变化后的原始图像随机选择组合生成新的训练数据。

18.根据权利要求10所述的装置，其特征在于，所述至少两个识别模块包括卷积神经网络(CNN)识别模块和循环神经网络(RNN)识别模块。