[go: up one dir, main page]

CN105930813B - 一种在任意自然场景下检测行文本的方法 - Google Patents

一种在任意自然场景下检测行文本的方法 Download PDF

Info

Publication number
CN105930813B
CN105930813B CN201610268752.5A CN201610268752A CN105930813B CN 105930813 B CN105930813 B CN 105930813B CN 201610268752 A CN201610268752 A CN 201610268752A CN 105930813 B CN105930813 B CN 105930813B
Authority
CN
China
Prior art keywords
point
pixel
region
text
straight line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610268752.5A
Other languages
English (en)
Other versions
CN105930813A (zh
Inventor
石柱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Issa Technology Co ltd
ISSA Technology Co Ltd
Original Assignee
Beijing Yisa Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yisa Technology Co Ltd filed Critical Beijing Yisa Technology Co Ltd
Priority to CN201610268752.5A priority Critical patent/CN105930813B/zh
Publication of CN105930813A publication Critical patent/CN105930813A/zh
Application granted granted Critical
Publication of CN105930813B publication Critical patent/CN105930813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种在任意自然场景下检测行文本的方法,包括:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本。本发明的方法通过快速分析所有像素中所有的可能构成字符的区域,并利用霍夫变换找出所有可能的角度,不依赖字符边缘,对光照和清晰度的影响较小。

Description

一种在任意自然场景下检测行文本的方法
技术领域
本发明属于计算机图像处理领域,用于快速检测图像或视频中自然场景下的行文本。
背景技术
随着科学技术的发展,人们获取图像的手段日益多元化,数码相机、摄像头、扫描仪等等设备都称为了广泛应用的图像获取设备。获取的各种图像中包含很多有用的文本信息,如字幕、车牌字符、广告标语等,从视频或图像中直接获取这些文本信息将为人们的工作提供极大的便利,这个获取过程就是一种文本检测过程。现阶段,图像中的文本检测在包括图像或视频检索、网络过滤、智能交通、数字图书馆等多个领域具有广泛应用前景和需求,因此,准确地从图像或视频中检测定位出文本是数字图象处理中的一个重要研究内容。
光学字符识别技术(Optical Character Recongnition,OCR)从20世纪70年代兴起,发展到现在已经非常成熟,其针对高分辨率的文档识别具有跟高的准确率,因此得到了广泛的应用。但是,现有的OCR技术只针对扫描仪得到的高分辨率、规整的文档图像具有良好的识别能力,而对于嵌在背景图像中的文本则不能进行有效识别。因此,在自然场景中提取文本成为了图像处理领域需要解决的热点问题。现有技术中用于自然场景中文本检测和定位的方法有很多,例如,基于连通区域的文本定位算法、基于纹理的文本定位算法和基于边缘的文本定位算法等等。但这些方法各自都有局限性,比如,基于连通区域的文本定位算法主要适用于图像中文本颜色相同、文本在图像中占很大比例并且背景简单的情况,适应性差;基于纹理的文本定位算法在检测文本时需要先计算图像的纹理特征,而图像的纹理特征计算复杂度相对较高,而且在背景相对复杂的情况下,文本区域容易与背景区域产生粘连,使得文本定位不准确;而基于边缘的文本定位算法虽然速度快,但是当图像背景复杂时,检测结果虚警较多,对光照、清晰度影响较大,而且对于字符切割也比较困难。
鉴于上述背景,本发明的目的在于提供一种新的任意自然场景下检测文本的方法,能够不依赖于字符边缘,快速准确地检测出复杂背景下的文本,对光照和清晰度的影响较小。
发明内容
本发明的上述目的通过以下技术方案实现:
提供一种在任意自然场景下检测行文本的方法,包括:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本。
本发明优选的方案中,所述的通过比较各像素点的像素值来找出像素值极值点的过程具体是:将每个像素点都与相邻的所有未被比较过的像素点逐一做比较,记录每次比较得到的高像素值的点;然后进一步在得到的所有高像素值中找到最高值并回溯拓展得到相应区域。
本发明进一步优选的方案中,所述的将每个像素点都与相邻的所有未被比较过的像素点逐一做比较,记录每次比较得到的高像素值的点的过程包括:将任意一个像素点作为当前点,将其和相邻的所有未访问过的像素点逐一比较像素值,只要出现像素值高于当前点的像素点,即将该点作为新的当前点继续与其相邻的所有未访问过的像素点逐一比较像素值,整个比较过程中记录每次比较得到的高像素值的点,同时将所有参与比较的像素点标记为已访问过;直到当前点周围没有未访问过的像素点时停止比较,并将最后的当前点记录下来。
本发明优选的方案中,所述的排除噪声区域是,根据经确定和修正的所有文本字符可能出现的区域的规格做一个过滤,把明显不符合字符大小的区域过滤掉。
本发明所述的方法,优选可以通过计算机程序完成以下步骤:
1.定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;
2.标记任意一个像素为当前点,将其access map对应值修改为1;
3.将一个空的region压入步骤1定义的stack;
4.根据步骤1定义的access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:
4.1有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:
4.1.1不小于,则将该点记录在步骤1定义的heap中,然后将该点作为新的当前点重复步骤4;
或者,
4.1.2小于,则将当前点记录在步骤1定义的heap中,跳入步骤3;
或者,
4.2无,则将当前点记录在位于步骤3所述的stack顶部的region中,记录方法如下:
region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;
5.步骤4所述的记录完成后,判断步骤4得到的heap是否为空,并根据判断结果做如下处理:
5.1否(heap不为空),则进一步对记录在heap中的像素点做如下处理:
5.1.1当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2所述的stack顶端的region记录的矩形作为潜在的文本字符;
或者,
5.1.2当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于步骤4.2所述的stack顶部第二位置点的像素值,并根据判断结果做如下处理:
5.1.2.1是,则将步骤4.2所述的stack顶部两个region记录的矩形融合;
或者,
5.1.2.2否,则以当前处理的像素点为当前点重复步骤4;
每次在步骤4.2所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;
或者,
5.2是(heap为空),则停止比较和记录过程;
6.将步骤5.1.1得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;
7.定一个point map,与图像大小相同,初始化值为0;
8.将步骤6过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7定义的point map上:
px=rx+rw/2
py=ry+ry/2
其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;
9.用霍夫变换在point map上的点中寻找直线;
10.根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。
与现有技术相比,本发明的方法通过快速分析所有像素中所有的可能构成字符的区域,并利用霍夫变换找出所有可能的角度,不依赖字符边缘,对光照和清晰度的影响较小。
附图说明
图1是本发明实施例1所述的行文本检测方法的流程图。
具体实施方式
以下通过列举实施例的方式对本发明的技术方案做进一步的说明。
实施例1
一种检测图像中行文本的方法,如图1所示,可通过计算机程序进行以下步骤:
1.定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;
2.标记任意一个像素为当前点,将其access map对应值修改为1;
3.将一个空的region压入stack;
4.根据access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:
4.1有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:
4.1.1不小于,则将该点记录在heap中,然后将该点作为新的当前点重复步骤4;
或者,
4.1.2小于,则将当前点记录在heap中,跳入步骤3;
或者,
4.2无,则将当前点记录在位于stack顶部的region中,记录方法如下:
region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;
5.步骤4所述的记录完成后,判断步骤4所述的heap是否为空,并根据判断结果做如下处理:
5.1否(heap不为空),则进一步对记录在heap中的像素点做如下处理:
5.1.1当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2所述的stack顶端的region记录的矩形作为潜在的文本字符;
或者,
5.1.2当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于stack顶部第二位置点的像素值,并根据判断结果做如下处理:
5.1.2.1是,则将stack顶部两个region记录的矩形融合;
或者,
5.1.2.2否,则以当前处理的像素点为当前点重复步骤4;
每次在步骤4.2所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;
5.2是(heap为空),则停止比较和记录过程;
6.将步骤5.1.1得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;
7.定一个point map,与图像大小相同,初始化值为0;
8.将步骤6过滤后剩余的所有可能为文本字符的矩形按照如下规则映射在步骤7定义的point map上:
px=rx+rw/2
py=ry+ry/2
其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;
9.用霍夫变换在步骤8映射后的point map上的点中寻找在一个水平范围的所有可能的直线;
10.根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。

Claims (1)

1.一种在任意自然场景下检测行文本的方法,其特征在于:在待检测图像中,通过比较各像素点的像素值来找出像素值极值点,然后基于所述极值点回溯扩展得到文本字符可能出现的所有区域;排除噪声区域;利用霍夫变换,基于剩余区域的中心映射在二维坐标系中的坐标点找出所有可能角度的直线,并最终通过非极大值抑制的方法确定一条最佳斜率的直线,以该直线上对应的区域作为检测到的行文本;
所述方法具体是通过计算机程序完成以下步骤:
1)定义一个region,表示可能的文本字符;同时定义一个heap和一个stack,可存放region;
再定义一个与图像大小相同的access map,其中所有点的对应值为0或1;初始化所有点对应值为0;
2)标记任意一个像素为当前点,将其access map对应值修改为1;
3)将一个空的region压入步骤1)定义的stack;
4)根据更新后的access map判断当前点周围有没有access map中对应值为0的点;根据判断结果做如下处理:
4.1)有,则比较该点的像素值是否小于当前点像素值,将比较中参与过比较的点的access map中对应值改为1,并根据判定结果进一步做如下处理:
4.1.1)不小于,则将该点记录在步骤1)定义的heap中,然后将该点作为新的当前点重复步骤4);
或者,
4.1.2)小于,则将当前点记录在步骤1)定义的heap中,跳入步骤3);
或者,
4.2)无,则将当前点记录在位于步骤3)所述的stack顶部的region中,记录方法如下:
region记录一个矩形,x1,y1为左上角点值坐标,x2,y2为右下角点值坐标;
5)步骤4)所述的记录完成后,判断步骤4)得到的heap是否为空,并根据判断结果做如下处理:
5.1)否,则进一步对记录在heap中的像素点做如下处理:
5.1.1)当前处理的像素点与上一个处理的像素点像素值不同,则将位于步骤4.2)所述的stack顶端的region记录的矩形作为潜在的文本字符;
或者,
5.1.2)当前处理的像素点与上一个处理的像素点像素值相同,则进一步根据判断当前处理的点像素值是否小于位于步骤4.2)所述的stack顶部第二位置点的像素值,并根据判断结果做如下处理:
5.1.2.1)是,则将步骤4.2)所述的stack顶部两个region记录的矩形融合;
或者,
5.1.2.2)否,则以当前处理的像素点为当前点重复步骤4);
每次在步骤4.2)所述的region记录的矩形中添加一个新的像素时,根据添加的新像素更新坐标x1,y1,x2,y2的值;同时在region中设置一个area来记录实际添加的像素点数,有新的点被添加记录时,area值+1;
或者,
5.2)是,则停止比较和记录过程;
6)将步骤5.1.1)得到的所有可能的文本字符的矩形根据矩形的长宽,以及长宽比值,做一个过滤,把不符合字符大小的矩形过滤掉;
7)定一个point map,与图像大小相同,初始化值为0;
8)将步骤6)过滤后剩余的所有可能为文本字符的矩形按照如下规则影射在步骤7)定义的point map上:
px=rx+rw/2
py=ry+ry/2
其中,(px,py)为文本字符矩形在point map上的坐标,将此坐标在point map上的值修改为255;即把每一个文本矩形的中心,映射在point map上;
9)用霍夫变换在point map上的点中寻找直线;
10)根据找到的直线的斜率,以及直线与x,y轴的截距,通过非极大值抑制的方法找到与预期斜率最吻合的直线;该直线上对应的文本字符矩形,即为检测到的行文本。
CN201610268752.5A 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法 Active CN105930813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610268752.5A CN105930813B (zh) 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610268752.5A CN105930813B (zh) 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法

Publications (2)

Publication Number Publication Date
CN105930813A CN105930813A (zh) 2016-09-07
CN105930813B true CN105930813B (zh) 2019-03-01

Family

ID=56836355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610268752.5A Active CN105930813B (zh) 2016-04-27 2016-04-27 一种在任意自然场景下检测行文本的方法

Country Status (1)

Country Link
CN (1) CN105930813B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047617B (zh) * 2019-12-18 2021-07-23 南方电网电力科技股份有限公司 一种矩形识别优化方法、装置及设备
CN117082690B (zh) * 2023-10-17 2023-12-22 深圳市帝狼光电有限公司 一种智能台灯的控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593278A (zh) * 2008-05-27 2009-12-02 佳能株式会社 文档图像的语言判别方法和系统
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185887B2 (en) * 2013-02-27 2019-01-22 Longsand Limited Textual representation of an image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593278A (zh) * 2008-05-27 2009-12-02 佳能株式会社 文档图像的语言判别方法和系统
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法

Also Published As

Publication number Publication date
CN105930813A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
CN114782499B (zh) 一种基于光流和视图几何约束的图像静态区域提取方法及装置
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
US9303525B2 (en) Method and arrangement for multi-camera calibration
CN106254933B (zh) 字幕提取方法及装置
CN107688806B (zh) 一种基于仿射变换的自由场景文本检测方法
CN103336961B (zh) 一种交互式的自然场景文本检测方法
CN110717489A (zh) Osd的文字区域的识别方法、装置及存储介质
CN109961399B (zh) 基于图像距离变换的最佳缝合线搜寻方法
WO2019085971A1 (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN108280450A (zh) 一种基于车道线的高速公路路面检测方法
KR20130056309A (ko) 텍스트 기반 3d 증강 현실
CN103198476B (zh) 一种粗线型十字圆环标记的图像检测方法
JP2003515230A (ja) ビデオストリームの分類可能な記号の分離方法及びシステム
CN109409356B (zh) 一种基于swt的多方向中文印刷体文字检测方法
US20120082372A1 (en) Automatic document image extraction and comparison
US20190102615A1 (en) System and method for capturing and interpreting images into triple diagrams
CN107644105A (zh) 一种搜题方法及装置
CN114898321A (zh) 道路可行驶区域检测方法、装置、设备、介质及系统
CN110288040B (zh) 一种基于拓扑验证的图像相似评判方法及设备
US9094617B2 (en) Methods and systems for real-time image-capture feedback
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN114299109A (zh) 多目标对象轨迹生成方法、系统、电子设备和存储介质
CN115063578B (zh) 芯片图像中目标对象检测与定位方法、装置及存储介质
CN105930813B (zh) 一种在任意自然场景下检测行文本的方法
CN115223173A (zh) 对象识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee after: Issa Technology Co.,Ltd.

Address before: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee before: Qingdao Issa Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee after: Qingdao Issa Technology Co.,Ltd.

Address before: 100015 second floor, Beijing link17 building, yard 6, Jingshun East Street, Chaoyang District, Beijing

Patentee before: BEIJING YISA TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address