CN108898131A

CN108898131A - 一种复杂自然场景下的数字仪表识别方法

Info

Publication number: CN108898131A
Application number: CN201810500379.0A
Authority: CN
Inventors: 张晨民; 彭天强; 李丙涛
Original assignee: Zhengzhou Jinhui Computer System Engineering Co Ltd
Current assignee: Zhengzhou Jinhui Computer System Engineering Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-11-27

Abstract

本发明涉及数字仪表识别技术领域，尤其涉及一种复杂自然场景下的数字仪表识别方法。一种复杂自然场景下的数字仪表识别方法，包括以下步骤：利用SSD算法进行复杂自然场景下的数字仪表区域定位；利用ResNet50神经网络提取特征，利用双向LSTM网络对提取的特征进行训练，获得数字仪表区域的文本行定位；利用ResNet50神经网络提取文本行特征，利用BRNN网络对提取的文本行特征进行训练，利用CTC算法获得数字仪表识别结果。本发明避免了背景复杂时字符分割造成的识别误差，提高了数字仪表的识别准确率。

Description

一种复杂自然场景下的数字仪表识别方法

技术领域

本发明涉及数字仪表识别技术领域，尤其涉及一种复杂自然场景下的数字仪表识别方法。

背景技术

数字仪表识别是指利用计算机自动从数字图像中找到数字字符的位置并识别数字字符的技术，属于模式识别的范畴。数字仪表以其精度高、读取方便、易设置等优点在工业和检测领域得到了广泛的应用。

目前，数字仪表的识别主要有两种形式：

1、基于人工的仪表识别。该方法需要人工肉眼对仪表进行识别并记录，其过程繁琐且效率低下。并且在人工读取的过程中，由于人的主观原因或者外界环境因素易产生读数误差，导致测量精度下降。同时对于一些外部环境比较恶劣的现场，比如化工、电力等含有有害气体或低温、高温、高辐射的场所，都不适合用人工的方式对仪表示值进行读数。

2、基于机器视觉的仪表识别。该方法是利用摄像机对仪表图像进行采集，并根据机器视觉的算法对图像进行识别，大大提高了仪表识别的效率。此类方法采用机器视觉代替人工对仪表进行识别，不仅减少人为主观因素造成的误差，而且消除了人工现场操作的危险性。但是现有的基于机器视觉的仪表识别方法，只能针对背景单一的数字仪表进行定位、分割和识别，且大部分算法无法对小数点和正负号进行识别。同时现有算法在对数字仪表区域定位后，必须经过字符分割才能进行识别，背景复杂时通常导致字符分割出现的半个字符无法识别的情况。因此，需要一种针对复杂自然场景且无需字符分割的仪表识别算法。

专利申请号为201510920430.X，名为《一种基于交点特征提取的数字识别方法》的中国专利申请，首先利用最大类间方差法对灰度化后的图像实现二值化，将要识别的目标和图像背景区分开；其次，对LED数码进行字符分割，得到LED数码表二值图；然后利用两条水平线在数码表二值图像的3/4与1/4处，从左至右进行扫描，分别记录像素的变换次数；再利用一条垂直线在数码表二值图像的1/2处，从上至下进行列扫描，记录像素的变换次数；最后将行列像素变换次数与标准数字的变换次数进行比较，根据一定的逻辑策略进行数字判别。

该方法的缺点是不能有效定位复杂自然环境下的数字仪表，且该方法只针对0-9的数字进行识别，没有设计小数点和正负号的识别。

专利申请号为201611031884.2，名为《一种数字仪表读数图像识别方法》的中国专利申请，根据事先标定的数字仪表图像，使用模板匹配方法在全景图像中提取感兴趣区域，再根据标定字符的相对位置关系提取感兴趣区域中单个字符区域和小数点待检测区域；对单个字符区域，利用事先训练好的卷积神经网络字符模型进行单个字符识别；对小数点待检测区域，利用事先训练好的基于分块LBP编码特征及Adaboost分类器的Cascade目标检测子进行小数点检测，并对检测结果进行后处理；最后根据字符、小数点及正负号识别结果获取读数。

该方法的缺点是对单个字符进行识别，分割效果严重影响数字识别结果并且只能识别理想状态下的数字仪表，不能有效的识别复杂自然场景下的数字仪表。

发明内容

本发明针对上述数字仪表识别中存在的问题，提出一种复杂自然场景下的数字仪表识别方法，避免了背景复杂时字符分割造成的识别误差，提高了数字仪表的识别准确率。

为了实现上述目的，本发明采用以下技术方案：

一种复杂自然场景下的数字仪表识别方法，包括以下步骤：

步骤1：利用SSD算法进行复杂自然场景下的数字仪表区域定位；

步骤2：利用ResNet50神经网络提取特征，利用双向LSTM网络对提取的特征进行训练，获得数字仪表区域的文本行定位；

步骤3：利用ResNet50神经网络提取文本行特征，利用BRNN网络对提取的文本行特征进行训练，利用CTC算法获得数字仪表识别结果。

进一步地，所述步骤1包括：

步骤1.1：对样本数据进行预处理，获得预处理后的样本数据；

步骤1.2：构建SSD网络模型，在VGG16的基础网络结构上，将第6层和第7层的全连接层转化成卷积层；增加3个卷积层和一个平均池化层；

步骤1.3：对卷积后的每张特征图，采用3×3卷积生成默认框的回归后的坐标和类别概率；每个所述默认框的大小的计算公式为：

其中m为特征图数目，s_min为最底层默认框大小，s_max为最顶层默认框大小；

步骤1.4：定义事先标注好的指针式仪表区域为ground truth box，通过ground truthbox对SSD网络模型进行训练；利用训练好的SSD网络进行多角度指针式仪表的精确定位；

训练过程如下所示：

将实际选取的默认框prior box和ground truth box按照IOU进行匹配，IOU T₁的prior box为正样本，其余为负样本，所述T₁为0.7；将prior box的回归损失由高到低进行排序，选择回归损失最高的M个prior box作为集合D，匹配成功后的正样本作为集合P，则正样本集为P-D∩P，负样本集为D-D∩P；所述正样本集和负样本集中正样本和负样本的数量比为1:4，即M为prior box数量的1/4；

通过损失函数调整网络参数，完成指针式仪表的定位；

所述损失函数为：

其中，c为类别概率，l为预测框，N为与ground truth box相匹配的prior box个数；如果N＝0，损失函数为0；L_conf为分类损失部分；L_loc(x,l,g)为预测框l和第g个ground truthbox的回归损失部分；λ为回归损失的权重，代表了回归损失对整个损失函数的贡献，λ取值为0.5；

步骤1.5：利用NMS算法删去重复框体，选取数字仪表区域。

进一步地，所述步骤2包括：

步骤2.1：使用ResNet50神经网络训练数字仪表样本数据，得到大小为W×H×C的特征图；

步骤2.2：在所述步骤2.1中特征图的每个位置取3×3×C的窗体特征，用于预测该位置k个锚点、即anchor对应的类别信息和位置信息；

步骤2.3：将每行的所有窗体对应的3×3×C的特征输入到双向LSTM网络中，得到大小为W×256的矩阵输出；

步骤2.4：将W×256的矩阵输入512维的全连接层；

步骤2.5：将全连接层的特征输入到分类或回归层中，得到anchor对应的类别信息和位置信息，从而获得多个精细的数字文本检测区域；

步骤2.6：根据阈值分割法，设定阈值T₂，将scores<T₂的anchor直接删除，所述scores为类别概率，利用NMS算法对剩余的anchor文本框进行去重，所述T₂为0.8；

步骤2.7：利用文本构造算法合并文本线；

步骤2.8：利用side-refinement算法对预测文本框体的水平位置进行微调，得到数字字符文本行的定位。

进一步地，所述步骤3包括：

步骤3.1：对数字文本行图像进行预处理，数字文本行图像大小为M×N，设定M的缩放比，根据M的缩放比对N进行缩放；

步骤3.2：将预处理后的样本数据输入ResNet50神经网络中进行特征提取，获得特征图，按列将特征图转换成特征向量；

步骤3.3：利用BRNN网络的双向LSTM算法对特征向量进行识别，得到每列特征的类别序列；

步骤3.4：利用CTC算法求解最优的类别序列，得到文本行识别结果。

与现有技术相比，本发明具有的有益效果：

本发明首先利用SSD算法进行数字仪表区域定位；然后利用RestNet50神经网络结合BLSTM网络进行数字文本行的定位，最后利用RestNet50神经网络结合BRNN网络实现数字文本行的识别，利用CTC算法选取最优的识别结果。该发明利用SSD算法定位表计区域，提高了复杂自然环境下的数字仪表定位准确率，同时利用BLSTM算法在不做单个字符切分的前提下对整个文本行进行识别，避免了背景复杂时字符分割造成的识别误差，提高了数字仪表的识别准确率。

本发明的数字仪表识别算法是基于端到端的训练，可以接受任意场景、任意尺寸的图像输入，识别任意长度的字符串。本发明可以对自然场景下的数字仪表数值进行有效识别。

附图说明

图1为本发明实施例的一种复杂自然场景下的数字仪表识别方法的基本流程图。

图2为本发明另一实施例的一种复杂自然场景下的数字仪表识别方法的整体框架图。

图3为本发明实施例的一种复杂自然场景下的数字仪表识别方法的SSD网络结构示意图。

图4为本发明实施例的一种复杂自然场景下的数字仪表识别方法的数字仪表区域定位网络结构示意图。

图5为本发明实施例的一种复杂自然场景下的数字仪表识别方法的数字文本行定位网络结构示意图。

图6为本发明实施例的一种复杂自然场景下的数字仪表识别方法的数字字符区域识别网络结构示意图。

图7为本发明实施例的一种复杂自然场景下的数字仪表识别方法的数字仪表识别测试结果之一。

图8为本发明实施例的一种复杂自然场景下的数字仪表识别方法的数字仪表识别测试结果之二。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例一：

如图1所示，本发明的一种复杂自然场景下的数字仪表识别方法，包括以下步骤：

步骤S101：利用SSD算法进行复杂自然场景下的数字仪表区域定位；

步骤S102：利用ResNet50神经网络提取特征，利用双向LSTM网络对提取的特征进行训练，获得数字仪表区域的文本行定位；

步骤S103：利用ResNet50神经网络提取文本行特征，利用BRNN网络对提取的文本行特征进行训练，利用CTC算法获得数字仪表识别结果。

实施例二：

如图2所示，本发明的另一种复杂自然场景下的数字仪表识别方法，包括：

本发明中各阶段的神经网络模型需要事先离线训练，离线训练前需要对采集到的自然场景下的数字仪表进行人工标注，即分别标记出图像中数字仪表的位置、数字仪表中文本行的位置和文本行的识别结果。利用有标签的数据对网络进行训练，然后利用离线训练好的网络对测试样本进行测试，实现数字仪表区域定位、数字文本行定位、数字字符识别功能。数字仪表区域定位、数字文本行定位、数字字符识别的过程具体如下所示：

步骤S201：数字仪表区域定位。

数字仪表区域定位是利用训练好的SSD网络对样本数据中的数字仪表区域进行定位的过程。其中SSD网络是采用单个深度神经网络模型实现目标检测和识别的方法，SSD网络结构如图3所示，首先采用VGG16的基础网络结构，使用前5层，然后将fc6和fc7层转化成两个卷积层。再格外增加了3个卷积层和一个average pool层。不同层次的feature map分别用于默认框、即default box的偏移以及不同类别得分的预测，最后通过NMS得到最终的检测定位结果。

数字仪表区域定位的网络结构如图4所示，具体步骤如下：

步骤S2011：对样本数据进行预处理，获得300×300×3大小的样本数据。

步骤S2012：构建SSD网络模型，其中模型选择的特征图包括：38×38、19×19、10×10、5×5、3×3、1×1，分别对应block4、block7、block8、block9、block10、block11。对于每张特征图，采用3×3卷积生成默认框(default box)的4个回归后的坐标和8个类别概率。

步骤S2013：将处理后的样本数据输入VGG16神经网络的前5层进行卷积操作后，对卷积特征层生成默认框，然后继续进行卷积操作，依次对后面每层的卷积特征层提取默认框。每一张卷积特征图，按照不同的大小(scale)和长宽比(ratio)生成k个默认框。

每个默认框大小的计算公式为：

其中m为特征图数目，s_min为最底层默认框大小，s_max为最顶层默认框大小。因为每个默认框长宽比a_r的比例值原始为{1,2,3,1/2,1/3}，所以每个默认框的宽为高为对于比例为1的默认框，额外添加一个比例为的默认框。最终，每张特征图中的每个点生成6个默认框。每个默认框中心设定为其中，|f_k|为第k个特征图尺寸，i∈[1,k]。

由于s_min、s_max的值直接影响表计定位算法的计算量，所以通过统计数字仪表图像样本中表盘区域所占的面积，确定s_min＝0.1，s_max＝0.25。并根据对数字仪表图像中仪表形状的观察统计，以覆盖各种数字仪表表盘为目的，设定默认框的长宽比的比例值为{1，2，1/2}，进一步降低指针仪表定位算法的计算量。通过大量的实验训练和测试验证了s_min＝0.1，s_max＝0.25，长宽比＝{1，2，1/2}时，数字仪表识别算法在不降低精度的前提下，时间复杂度最低。

步骤S2014：定义事先人工标注的自然场景下的数字仪表区域为ground truthbox，通过ground truth box对SSD网络进行训练，使该网络可以精确的定位复杂自然场景下数字仪表区域，即保证default box的分类confidence的同时，将prior box尽可能的回归到ground truth box。所述ground truth box由正确标注的真实位置数据ground truth组成。

首先需要确定正负样本。将prior box和ground truth box按照IOU(JaccardOverlap)进行匹配，IOU>T₁的prior box就是正样本(positive example)，其它就是负样本(negative example)。由于这样产生的负样本的数量要远远多于正样本，导致训练时很难收敛。将prior box的回归损失由高到低进行排序，选择回归损失最高的M个priorbox作为集合D。设匹配成功、即Match成功后的正样本序号的集合为P，那么正样本集为P-D∩P，负样本集为D-D∩P。本发明通过规范M的数量来控制正负样本的比例。由于T₁、M的值对于数字仪表表盘区域的精确定位至关重要，所以通过对样本数据的多次实验对比分析，确定T₁＝0.7，M＝1:4时表计定位算法能较完整的定位表盘区域，且收敛速度最快。

然后，利用损失函数调整网络参数，使default box尽可能的接近ground truthbox。首先需要求解损失函数，即对应默认框的回归损失loss(loc)和类别损失loss(conf)。损失函数定义为：

其中，c为类别概率，l为预测框，N为与ground truth box相匹配的prior box个数；如果N＝0，损失函数为0；L_conf为分类损失部分，采用softmax loss函数度量分类损失；L_loc(x,l,g)为预测框l和第g个ground truth box的回归损失部分；λ为回归损失的权重，代表了回归损失对整个损失函数的贡献；λ值的设置对表计定位效果有着至关重要的影响，针对自然场景下表计的各种复杂背景因素，经过大量训练实验和交叉测试，最终设置λ＝0.5时取得了最优的定位效果。

回归损失部分L_loc定义如下：

其中l为预测框，g为ground truth、即真实位置，p为x对应的类别，d为默认框(default bounding box)。

步骤S2015：最后利用NMS算法删去重复框体，选取数字仪表区域。

步骤S202：数字文本行定位。

数字文本行定位是对SSD网络检测出的数字仪表区域的字符区域进行定位的过程。首先使用ResNet50神经网络对样本图像进行卷积操作，通过各个卷积层得到特征向量；然后利用3X3的滑动窗体对特征向量进行特征提取，将提取的特征输入BLSTM算法中进行训练，将输出向量输入到FC全连接层，得到三个分类或回归层，用于确定类别和字符文本框的位置、大小。最后，利用NMS算法对检测出的字符文本框进行去重操作，合并文本线，确定样本数据中数字文本行的位置和大小。

数字文本行定位的网络结构如图5所示。具体步骤如下：

步骤S2021：使用ResNet50神经网络训练数字仪表样本数据，得到大小为W×H×C的特征图；

步骤S2022：在特征图的每个位置取3×3×C的窗体特征，用于预测该位置k个锚点、即anchor对应的类别信息和位置信息，通过统计仪表图像中数字文本行的形状，经过多次实验确定k＝1，anchor的宽度为16，anchor的长宽比为6:1；

步骤S2023：将每行的所有窗体对应的3×3×C的特征输入到双向LSTM中，所述双向LSTM为BLSTM网络，得到大小为W×256的矩阵输出；

步骤S2024：将W×256的矩阵输入512维的FC层、即全连接层；

步骤S2025：将全连接层的特征输入到三个分类或回归层中，所述三个分类或回归层分别为2k vertical coordinate层、k side-refinement层及2k scores层，其中2kvertical coordinate和k side-refinement是用来回归k个anchor的位置信息，2k scores是k个anchor的类别信息，获得多个精细的数字文本检测区域；

步骤S2026：根据阈值分割法，设定阈值T₂，将scores<T₂的anchor直接删除，所述scores为类别概率，然后利用NMS算法对剩下的anchor文本框进行去重。由于T₂的值是平衡文本行定位的查全率和查准率的重要影响因子，所以通过对多次实验结果进行分析平衡，设置T₂＝0.8时定位效果最佳。

步骤S2027：利用文本构造算法，依次合并相近的两个数字字符文本框体，直至无法合并为止，即合并文本线；

步骤S2028：利用side-refinement(边缘细化)得出相对偏移，通过相对偏移对预测文本框体的水平位置进行微调，得到数字字符文本行的定位。其中x_side是预测最接近实际数字文本行的预测框体水平方向的x坐标，x^* _side是实际数字文本行的水平方向的x坐标，是提前通过实际数字文本行的bounding box和anchor的位置计算得到的，是anchor的中心x坐标；w^a为anchor的宽度，值为固定值16像素，相对偏移为：

步骤S203：数字字符识别。

数字字符区域识别是对样本数据中的数字文本行进行识别的过程。首先利用ResNet50神经网络提取数字文本行图像的特征向量；然后利用双向LSTM算法、即BLSTM算法识别特征向量，获得每列特征的概率分布；最后利用CTC算法和前向后向算法求解最优的label序列，得到数字文本行识别结果。

数字字符区域识别的网络结构如图6所示。具体识别步骤如下：

步骤S2031：对数字文本行图像进行预处理，如数字文本行图像大小为M×N，设定缩放后的M′＝16，根据M的缩放比对N进行缩放；

步骤S2032：将预处理后的样本数据输入ResNet50神经网络中进行特征提取，获得特征图，再按列将特征图转换成特征向量；

步骤S2033：利用RNN网络的双向LSTM算法对特征向量进行识别，得到每列特征的label序列、即类别序列。需要提前输入该网络的输出类别数，本发明根据数字仪表读数的特点，确定类别数为14，所述类别包含0-9、.、+、-、背景。

步骤S2034：利用CTC算法求解最优的label序列，得到文本行识别结果，具体步骤是：

1)将得到的label序列y＝y₁,y₂,......,y_T，输入到CTC算法中，其中T代表序列的长度，每一个代表一种在集合L′上的概率分布，L′＝L∪{blank}是任务中所有可能的label序列，其中blank为空白序列。

2)通过序列到序列的函数β函数，首次移除重复label序列和blank空白序列，其中π∈L′^T，T代表长度，即β(π)＝l；label识别的条件概率定义为所有π的条件概率之和，即有效地利用前向后向算法进行计算。

3)针对不带字典库和带字典库两种模型，选取预测概率最高的label序列π进行转录变换。

不带字典库模型转录：l^*≈β(argmax_π p(π|y)；

带字典库模型转录：

候选序列N_δ(l′)是通过BK-tree的数据结构有效计算得到的；

4)网络训练，训练数据集X＝{I_i,l_i}，I_i代表训练数字文本行图像，l_i代表实际的数字文本行序列。目的是使得真实数字文本行序列的负对数最小，即

上述数字仪表区域定位、数字文本行定位、数字字符识别三部分相结合，实现自然场景下的数字仪表识别。本发明的数字仪表识别算法对自然场景下的数字仪表数值具有较强的识别能力，是一种能够适用于自然条件下的数字仪表识别方法。

本发明的数字仪表识别算法是基于端到端的训练，可以接受任意场景、任意尺寸的图像输入，识别任意长度的字符串。本发明可以对自然场景下的数字仪表数值进行有效识别。图7、图8为本发明对自然场景下的数字仪表进行识别的测试结果，可以发现，本发明可以对自然场景下的数字仪表数值进行有效识别。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种复杂自然场景下的数字仪表识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种复杂自然场景下的数字仪表识别方法，其特征在于，所述步骤1包括：

训练过程如下所示：

将实际选取的默认框prior box和ground truth box按照IOU进行匹配，IOU T₁的priorbox为正样本，其余为负样本，所述T₁为0.7；将prior box的回归损失由高到低进行排序，选择回归损失最高的M个prior box作为集合D，匹配成功后的正样本作为集合P，则正样本集为P-D∩P，负样本集为D-D∩P；所述正样本集和负样本集中正样本和负样本的数量比为1:4，即M为prior box数量的1/4；

通过损失函数调整网络参数，完成指针式仪表的定位；

所述损失函数为：

步骤1.5：利用NMS算法删去重复框体，选取数字仪表区域。

3.根据权利要求1所述的一种复杂自然场景下的数字仪表识别方法，其特征在于，所述步骤2包括：

步骤2.4：将W×256的矩阵输入512维的全连接层；

步骤2.7：利用文本构造算法合并文本线；

4.根据权利要求1所述的一种复杂自然场景下的数字仪表识别方法，其特征在于，所述步骤3包括：