[go: up one dir, main page]

CN107909080A - 一种文字提取系统及方法 - Google Patents

一种文字提取系统及方法 Download PDF

Info

Publication number
CN107909080A
CN107909080A CN201711025339.7A CN201711025339A CN107909080A CN 107909080 A CN107909080 A CN 107909080A CN 201711025339 A CN201711025339 A CN 201711025339A CN 107909080 A CN107909080 A CN 107909080A
Authority
CN
China
Prior art keywords
value
color value
brightness value
image
pending image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711025339.7A
Other languages
English (en)
Inventor
温九江
袁松平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Xiaocao Information Industry Co Ltd
Original Assignee
Guangxi Xiaocao Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Xiaocao Information Industry Co Ltd filed Critical Guangxi Xiaocao Information Industry Co Ltd
Priority to CN201711025339.7A priority Critical patent/CN107909080A/zh
Publication of CN107909080A publication Critical patent/CN107909080A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种文字提取系统及方法,系统包括:扫描模块,用于将带有文字的背景图片进行扫描,得到待处理图像;第一提取模块,用于提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;调整模块,用于根据预设颜色值分别对第一颜色值和第二颜色值进行调整,并根据预设亮度值对第一亮度值和第二亮度值进行调整;第二提取模块,用于从调整后的待处理图像中提取出文字图像;转换模块,用于将提取出的文字图像转换为对应的文字符号。本发明能够通过将背景与文字部分的色差拉大,来进行调整,更容易提取文字部分,识别力强。

Description

一种文字提取系统及方法
技术领域
本发明主要涉及信息处理技术领域,具体涉及一种文字提取系统及方法。
背景技术
文字识别是从图像中提取文字图像,再由文字图像转换为纯文字的过程。
由于整体的背景与文字部分色差及亮度辨识度不高,现有的由图像转换文字的技术中,识别性能不佳,容易造成识别错误,需要进行二次校正,且校正起来十分麻烦,工作效率低。
发明内容
本发明针对上述技术问题的不足,提供一种文字提取系统及方法。
本发明解决上述技术问题的技术方案如下:一种文字提取系统,包括:
扫描模块,用于将带有文字的背景图片进行扫描,得到待处理图像;
第一提取模块,用于提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;
调整模块,用于根据预设颜色值分别对待处理图像整体的第一颜色值和待处理图像中文字部分第二颜色值进行调整,加大第一颜色值和第二颜色值的差值,并根据预设亮度值对待处理图像整体的第一亮度值和待处理图像中文字部分第二亮度值进行调整,加大第一亮度值和第二亮度值的差值;
第二提取模块,用于从调整后的待处理图像中提取出文字图像;
转换模块,用于将提取出的文字图像转换为对应的文字符号。
本发明的有益效果是:通过将背景与文字部分进行细节处理,调整颜色值和亮度值使得文字部分突出,更容易提取文字部分,识别力强。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述调整模块具体用于,将第一颜色值减去预设颜色值得到新的第一颜色值,将第二颜色值加上预设颜色值得到新的第二颜色值,根据新的第一颜色值和新的第二颜色值对待处理图像进行调整;
将第一亮度值减去预设亮度值得到新的第一亮度值,将第二亮度值加上预设亮度值得到新的第二亮度值,根据新的第一亮度值和新的第二亮度值对待处理图像进行调整。
采用上述技术特征的有益效果为:能够拉开整体背景色与文字部分的色差值和亮度值,便于更好的识别出文字图像。
进一步,所述第二提取模块具体用于,从调整后的待处理图像中对文字部分进行描边处理,得到文字轮廓,根据文字轮廓提取出文字图像。
采用上述技术特征的有益效果为:由于整体背景色与文字部分的颜色及亮度进行了处理,能够使文字部分更突出,便于提取文字图像。
进一步,所述转换模块具体用于,根据提取出的文字图像与预设文字库中的文字图像进行匹配,得到匹配的文字图像,通过匹配到的文字图像得到对应的文字符号。
采用上述进一步的有益效果是:将抠出的文字图像与预存的文字图像进行匹配,再通过匹配到的文字图像得到对应的文字符号。
本发明解决上述技术问题的另一技术方案如下:一种文字提取方法,包括:
将带有文字的背景图片进行扫描,得到待处理图像;
提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;
根据预设颜色值分别对待处理图像整体的第一颜色值和待处理图像中文字部分第二颜色值进行调整,加大第一颜色值和第二颜色值的差值,并根据预设亮度值对待处理图像整体的第一亮度值和待处理图像中文字部分第二亮度值进行调整,加大第一亮度值和第二亮度值的差值;
从调整后的待处理图像中提取出文字图像;
将提取出的文字图像转换为对应的文字符号。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述根据预设颜色值分别对第一颜色值和第二颜色值进行调整,并根据预设亮度值对第一亮度值和第二亮度值进行调整具体包括:
将第一颜色值减去预设颜色值得到新的第一颜色值,将第二颜色值加上预设颜色值得到新的第二颜色值,根据新的第一颜色值和新的第二颜色值对待处理图像进行调整;
将第一亮度值减去预设亮度值得到新的第一亮度值,将第二亮度值加上预设亮度值得到新的第二亮度值,根据新的第一亮度值和新的第二亮度值对待处理图像进行调整。
采用上述进一步的有益效果是:将待处理图像中的背景色与文字部分的色差增大,有利于获取文字部分的图像。
进一步,所述从调整后的待处理图像中提取出文字图像具体包括:从调整后的待处理图像中对文字部分进行描边处理,得到文字轮廓,根据文字轮廓提取出文字图像。
进一步,所述将提取出的文字图像转换为对应的文字符号具体包括:根据提取出的文字图像与预设文字库中的文字图像进行匹配,得到匹配的文字图像,通过匹配到的文字图像得到对应的文字符号。
采用上述进一步的有益效果是:将抠出的文字图像与预存的文字图像进行匹配,再通过匹配到的文字图像得到对应的文字符号。
附图说明
图1为本发明一实施例提供的文字提取系统的模块框图;
图2为本发明另一实施例提供的文字提取方法的方法流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明一实施例提供的文字提取系统的模块框图;
如图1所示,一种文字提取系统,包括:
扫描模块,用于将带有文字的背景图片进行扫描,得到待处理图像;
第一提取模块,用于提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;
调整模块,用于根据预设颜色值分别对待处理图像整体的第一颜色值和待处理图像中文字部分第二颜色值进行调整,加大第一颜色值和第二颜色值的差值,并根据预设亮度值对待处理图像整体的第一亮度值和待处理图像中文字部分第二亮度值进行调整,加大第一亮度值和第二亮度值的差值;
第二提取模块,用于从调整后的待处理图像中提取出文字图像;
转换模块,用于将提取出的文字图像转换为对应的文字符号。
可选的,作为本发明的一个实施例,所述调整模块具体用于,将第一颜色值减去预设颜色值得到新的第一颜色值,将第二颜色值加上预设颜色值得到新的第二颜色值,根据新的第一颜色值和新的第二颜色值对待处理图像进行调整;
将第一亮度值减去预设亮度值得到新的第一亮度值,将第二亮度值加上预设亮度值得到新的第二亮度值,根据新的第一亮度值和新的第二亮度值对待处理图像进行调整。
可选的,作为本发明的一个实施例,所述第二提取模块具体用于,从调整后的待处理图像中对文字部分进行描边处理,得到文字轮廓,根据文字轮廓提取出文字图像。
可选的,作为本发明的一个实施例,所述转换模块具体用于,根据提取出的文字图像与预设文字库中的文字图像进行匹配,得到匹配的文字图像,通过匹配到的文字图像得到对应的文字符号。
图2为本发明另一实施例提供的文字提取方法的方法流程图;
可选的,作为本发明的另一个实施例,如图2所示,一种文字提取方法,包括:
将带有文字的背景图片进行扫描,得到待处理图像;
提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;
根据预设颜色值分别对待处理图像整体的第一颜色值和待处理图像中文字部分第二颜色值进行调整,加大第一颜色值和第二颜色值的差值,并根据预设亮度值对待处理图像整体的第一亮度值和待处理图像中文字部分第二亮度值进行调整,加大第一亮度值和第二亮度值的差值;
从调整后的待处理图像中提取出文字图像;
将提取出的文字图像转换为对应的文字符号。
可选的,作为本发明的一个实施例,所述根据预设颜色值分别对第一颜色值和第二颜色值进行调整,并根据预设亮度值对第一亮度值和第二亮度值进行调整具体包括:
将第一颜色值减去预设颜色值得到新的第一颜色值,将第二颜色值加上预设颜色值得到新的第二颜色值,根据新的第一颜色值和新的第二颜色值对待处理图像进行调整;
将第一亮度值减去预设亮度值得到新的第一亮度值,将第二亮度值加上预设亮度值得到新的第二亮度值,根据新的第一亮度值和新的第二亮度值对待处理图像进行调整。
上述实施例中,将待处理图像中的背景色与文字部分的色差增大,有利于获取文字部分的图像。
可选的,作为本发明的一个实施例,所述从调整后的待处理图像中提取出文字图像具体包括:从调整后的待处理图像中对文字部分进行描边处理,得到文字轮廓,根据文字轮廓提取出文字图像。
可选的,作为本发明的一个实施例,所述将提取出的文字图像转换为对应的文字符号具体包括:根据提取出的文字图像与预设文字库中的文字图像进行匹配,得到匹配的文字图像,通过匹配到的文字图像得到对应的文字符号。
上述实施例中,将抠出的文字图像与预存的文字图像进行匹配,再通过匹配到的文字图像得到对应的文字符号。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种文字提取系统,其特征在于,包括:
扫描模块,用于将带有文字的背景图片进行扫描,得到待处理图像;
第一提取模块,用于提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;
调整模块,用于根据预设颜色值分别对待处理图像整体的第一颜色值和待处理图像中文字部分第二颜色值进行调整,加大第一颜色值和第二颜色值的差值,并根据预设亮度值对待处理图像整体的第一亮度值和待处理图像中文字部分第二亮度值进行调整,加大第一亮度值和第二亮度值的差值;
第二提取模块,用于从调整后的待处理图像中提取出文字图像;
转换模块,用于将提取出的文字图像转换为对应的文字符号。
2.根据权利要求1所述的一种文字提取系统,其特征在于,所述调整模块具体用于,将第一颜色值减去预设颜色值得到新的第一颜色值,将第二颜色值加上预设颜色值得到新的第二颜色值,根据新的第一颜色值和新的第二颜色值对待处理图像进行调整;
将第一亮度值减去预设亮度值得到新的第一亮度值,将第二亮度值加上预设亮度值得到新的第二亮度值,根据新的第一亮度值和新的第二亮度值对待处理图像进行调整。
3.根据权利要求1所述的一种文字提取系统,其特征在于,所述第二提取模块具体用于,从调整后的待处理图像中对文字部分进行描边处理,得到文字轮廓,根据文字轮廓提取出文字图像。
4.根据权利要求3所述的一种文字提取系统,其特征在于,所述转换模块具体用于,根据提取出的文字图像与预设文字库中的文字图像进行匹配,得到匹配的文字图像,通过匹配到的文字图像得到对应的文字符号。
5.一种文字提取方法,其特征在于,包括:
将带有文字的背景图片进行扫描,得到待处理图像;
提取待处理图像整体的第一颜色值和第一亮度值,并提取待处理图像中文字部分的第二颜色值和第二亮度值;
根据预设颜色值分别对待处理图像整体的第一颜色值和待处理图像中文字部分第二颜色值进行调整,加大第一颜色值和第二颜色值的差值,并根据预设亮度值对待处理图像整体的第一亮度值和待处理图像中文字部分第二亮度值进行调整,加大第一亮度值和第二亮度值的差值;
从调整后的待处理图像中提取出文字图像;
将提取出的文字图像转换为对应的文字符号。
6.根据权利要求5所述的一种文字提取方法,其特征在于,所述根据预设颜色值分别对第一颜色值和第二颜色值进行调整,并根据预设亮度值对第一亮度值和第二亮度值进行调整具体包括:
将第一颜色值减去预设颜色值得到新的第一颜色值,将第二颜色值加上预设颜色值得到新的第二颜色值,根据新的第一颜色值和新的第二颜色值对待处理图像进行调整;
将第一亮度值减去预设亮度值得到新的第一亮度值,将第二亮度值加上预设亮度值得到新的第二亮度值,根据新的第一亮度值和新的第二亮度值对待处理图像进行调整。
7.根据权利要求5所述的一种文字提取方法,其特征在于,所述从调整后的待处理图像中提取出文字图像具体包括:从调整后的待处理图像中对文字部分进行描边处理,得到文字轮廓,根据文字轮廓提取出文字图像。
8.根据权利要求7所述的一种文字提取方法,其特征在于,所述将提取出的文字图像转换为对应的文字符号具体包括:根据提取出的文字图像与预设文字库中的文字图像进行匹配,得到匹配的文字图像,通过匹配到的文字图像得到对应的文字符号。
CN201711025339.7A 2017-10-27 2017-10-27 一种文字提取系统及方法 Pending CN107909080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711025339.7A CN107909080A (zh) 2017-10-27 2017-10-27 一种文字提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711025339.7A CN107909080A (zh) 2017-10-27 2017-10-27 一种文字提取系统及方法

Publications (1)

Publication Number Publication Date
CN107909080A true CN107909080A (zh) 2018-04-13

Family

ID=61842104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711025339.7A Pending CN107909080A (zh) 2017-10-27 2017-10-27 一种文字提取系统及方法

Country Status (1)

Country Link
CN (1) CN107909080A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877030A (zh) * 2018-07-19 2018-11-23 深圳怡化电脑股份有限公司 图像处理方法、装置、终端和计算机可读存储介质
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262619A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 文档的文字提取方法和装置
CN102750540A (zh) * 2012-06-12 2012-10-24 大连理工大学 基于形态滤波增强的最稳定极值区视频文本检测方法
CN102768763A (zh) * 2011-05-05 2012-11-07 方正国际软件(北京)有限公司 一种文字勾边方法及装置
CN104899586A (zh) * 2014-03-03 2015-09-09 阿里巴巴集团控股有限公司 对图像中包含的文字内容进行识别方法及装置
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信系统集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统
CN107004396A (zh) * 2014-11-21 2017-08-01 乐天株式会社 信息处理装置、信息处理方法以及信息处理程序

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262619A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 文档的文字提取方法和装置
CN102768763A (zh) * 2011-05-05 2012-11-07 方正国际软件(北京)有限公司 一种文字勾边方法及装置
CN102750540A (zh) * 2012-06-12 2012-10-24 大连理工大学 基于形态滤波增强的最稳定极值区视频文本检测方法
CN104899586A (zh) * 2014-03-03 2015-09-09 阿里巴巴集团控股有限公司 对图像中包含的文字内容进行识别方法及装置
CN107004396A (zh) * 2014-11-21 2017-08-01 乐天株式会社 信息处理装置、信息处理方法以及信息处理程序
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信系统集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法
CN106934386A (zh) * 2017-03-30 2017-07-07 湖南师范大学 一种基于自启发式策略的自然场景文字检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
易博: "服务外包业中OCR前期对图片的处理", 《电子测试》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877030A (zh) * 2018-07-19 2018-11-23 深圳怡化电脑股份有限公司 图像处理方法、装置、终端和计算机可读存储介质
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置

Similar Documents

Publication Publication Date Title
US9196024B2 (en) Method and apparatus for enhancing color
Brisinello et al. Improving optical character recognition performance for low quality images
JP2006085678A (ja) 画像作成方法および装置並びにプログラム
US20150278605A1 (en) Apparatus and method for managing representative video images
JP2001155146A (ja) 画像処理装置及び画像処理方法
US20180158178A1 (en) Inpainting device and method using segmentation of reference region
CN110969046B (zh) 人脸识别方法、设备及计算机可读存储介质
Liang et al. Salient object detection using content-sensitive hypergraph representation and partitioning
CN109064419A (zh) 一种基于wls滤波和多尺度稀疏表达的单幅图像去雨方法
CN107909080A (zh) 一种文字提取系统及方法
CN107256543A (zh) 图像处理方法、装置、电子设备及存储介质
CN110516661B (zh) 应用于虹膜识别的美瞳检测方法及装置
CN114494066B (zh) 一种基于Hessian滤波器的人像锐化方法、装置、设备、介质
Jeon Color image enhancement by histogram equalization in heterogeneous color space
CN110545414B (zh) 一种图像锐化方法
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
Chen et al. Bregman-tanimoto based method for contrast preserving decolorization
Tang et al. Color image enhancement based on retinex theory with guided filter
CN113096014B (zh) 视频超分处理方法、电子设备及存储介质
Sukanya et al. A tool for extracting text from scanned documents and convert it into editable format
Jia et al. Superpixel-based feature extraction and fusion method for hyperspectral and lidar classification
CN116363010A (zh) 图像处理方法及装置
Hua et al. A new method of image denoising for underground coal mine based on the visual characteristics
JP5265058B1 (ja) 商品画像処理装置、商品画像処理方法、情報記録媒体、ならびに、プログラム
US20190304096A1 (en) Image processing device, image processing method and image processing program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413