[go: up one dir, main page]

CN112132054A - 一种基于深度学习的文档定位和分割方法 - Google Patents

一种基于深度学习的文档定位和分割方法 Download PDF

Info

Publication number
CN112132054A
CN112132054A CN202011017876.9A CN202011017876A CN112132054A CN 112132054 A CN112132054 A CN 112132054A CN 202011017876 A CN202011017876 A CN 202011017876A CN 112132054 A CN112132054 A CN 112132054A
Authority
CN
China
Prior art keywords
document
feature map
image
loss
segmenting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011017876.9A
Other languages
English (en)
Inventor
王诗言
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011017876.9A priority Critical patent/CN112132054A/zh
Publication of CN112132054A publication Critical patent/CN112132054A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种基于深度学习的文档定位和分割方法,属于计算机技术领域。该方法包括:S1:输入图像,并使用卷积神经网络提取该图像的特征;S2:将提取到的特征图采用卷积核大小为1的卷积层进行降维;S3:将降维之后的特征图分离成四个通道;S4:将分离出的四个特征图分别输入关键点预测模块,分别预测左上、左下、右上、右下四个顶点的坐标;S5:根据得到的四个顶点坐标对文档图像进行校正和分割。本发明相较于目前的基于边缘检测的文档边缘检测方法,不易受到背景复杂线条的影响,对文档四个顶点的定位更加准确。

Description

一种基于深度学习的文档定位和分割方法
技术领域
本发明属于计算机技术领域,涉及机器学习和深度学习技术领域,具体涉及一种基于深度学习的文档定位和分割方法。
背景技术
目前越来越多的人使用手机、平板等移动设备对文档文件进行拍摄,相比较传统的扫描仪去完成文档文件的数字化更加的方便快捷。但用户进行拍摄时存在使用扫描仪不会出现的问题:(1)拍摄的图片文档只占据中心的部分,需要去除无用的背景,将文档分割出来。(2)因为拍摄的角度与距离,拍摄的图片存在几何失真,需要进行校正。
在市场现有的软件中,文档的四个顶点有些是要求用户去手动指定的,这种模式需要用户的配合,用户体验较差,且不适用于处理大量图片。也有部分软件通过图像处理的方法自动定位文档的四个顶点,但是由于算法方面的局限性,经常出现误判,成功率较低。
因此,现有技术存在缺陷,亟需一种针对手机、平板等移动设备拍摄图像的有效识别方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习的文档定位和分割方法,能够处理较复杂文档类型,对文档顶点进行精确定位,并对文档进行准确有效的校正和分割。
为达到上述目的,本发明提供如下技术方案:
一种基于深度学习的文档定位和分割方法,具体包括以下步骤:
S1:输入图像,并使用卷积神经网络提取该图像的特征;
S2:将提取到的特征图采用卷积核大小为1的卷积层进行降维;
S3:将降维之后的特征图分离成四个通道;
S4:将分离出的四个特征图分别输入关键点预测模块,分别预测左上、左下、右上、右下四个顶点的坐标;
S5:根据得到的四个顶点坐标对文档图像进行校正和分割。
进一步,步骤S4中,所述关键点预测模块的处理步骤为:
S41:对分离出的每一个通道输出的特征图进行归一化;
S42:对归一化之后的特征图转换为坐标点。
进一步,所述步骤S41具体包括:采用SoftMax函数作为归一化函数对分离出的每一个通道输出的特征图进行归一化:Z=φ(z)。
进一步,所述步骤S42具体包括以下步骤:
S421:定义两个矩阵X和Y,其宽高和输入的特征图一致,具体数值计算为:
Figure BDA0002699696190000021
Figure BDA0002699696190000022
其中,w表示输入特征图的宽,h表示输入特征图的高;i=1...w,j=1...h;
这样可以将X和Y的坐标值归一化到(-1,1)之间。
S422:对归一化之后的特征图转换为坐标点,通过对归一化之后的特征图和定义的矩阵求得F范数,具体数值计算为:
x=<Z,X>F
y=<Z,Y>F
经过上述步骤后,得到顶点坐标点为:
μ=[<Z,X>F,<Z,Y>F]
S423:关键点预测模块的总Loss为误差平方和Loss与正则Loss,总Loss计算公式为:
L(Z,p)=LMSE(μ,p)+λLD(Z,p)
其中,λ为正则化系数,用来设置正则化的强度;误差平方和Loss为:
LMSE(μ,p)=||p-μ||2
其中,p为真实值,μ为模块预测值;
为了使网络可以学习到小方差的高斯热图,采用正则Loss,对正则项引入高斯热图先验。正则Loss采用JS散度,JS散度广泛应用于衡量两个分布相似性上。正则Loss为:
Figure BDA0002699696190000023
其中,p(c)表示真实值,
Figure BDA0002699696190000024
表示二元高斯分布,D(·||·)表示JS散度。
进一步,所述步骤S5具体包括:利用文档的四个顶点坐标计算单应性矩阵H,利用单应性矩阵H进行透视变换,将几何失真的文档图像投影到新的平面进行视角校正。
进一步,所述特征图为高斯热图。
本发明的有益效果在于:本发明使用卷积神经网络提取深度特征,然后利用高斯热图回归坐标点的方法检测文档的四个顶点,通过四个顶点的坐标对文档图像进行视角校正。这是一种端到端的方法,容易在移动端设备上进行部署。本发明相较于目前的基于边缘检测的文档边缘检测方法,不易受到背景复杂线条的影响,对文档四个顶点的定位更加准确。本发明适合应用于对移动设备拍摄的文档图像进行提取保存的应用中,也可以作为文档识别的预处理步骤。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于深度学习的文档定位和分割方法的具体实施流程图;
图2为本发明方法用于名片的分割效果图,(a)名片的原始拍摄图片,(b)对名片的定位图,(c)名片的最终分割效果图;
图3为本发明方法用于发票的分割效果图,(a)发票的原始拍摄图片,(b)对发票的定位图,(c)发票的最终分割效果图;
图4为本发明方法用于文件的分割效果图,(a)文件的原始拍摄图片,(b)对文件的定位图,(c)文件的最终分割效果图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,图1为本发明基于深度学习的文档定位和分割方法,具体包括以下的步骤:
S1:输入图像;
S2:使用卷积神经网络进行特征提取;
(1)使用MobilenetV2网络作为特征提取网络进行特征提取;
(2)网络输入为600×800×3的三通道彩色图像,网络输出为MobilenetV2网络最后一个卷积层的特征图。
S3:将提取到的特征图用卷积核大小为1的卷积层降维到4个通道;
(1)特征图大小为25×19×1280;
(2)设置卷积层参数:strides为1、filter为4、ksize为1。
S4:将降维之后的特征图分离成四个通道;
降维之后的特征图大小为25×19×4。
S5:将分离出的四个特征图分别输入关键点预测模块分别预测左上、左下、右上、右下四个顶点的坐标;
(1)采用SoftMax函数作为归一化函数对分离出的每一个通道输出的高斯热图进行归一化:Z=φ(z);
(2)定义两个矩阵X和Y,其宽高和输入的特征图一致,具体数值计算为:
Figure BDA0002699696190000041
Figure BDA0002699696190000042
其中,w表示输入特征图的宽,h表示输入特征图的高,i=1...w,j=1...h;
这样可以将X和Y的坐标值归一化到(-1,1)之间。
(3)对归一化之后的高斯热图转换为坐标点,通过对归一化之后的高斯热图和定义的矩阵求得F范数,具体数值计算为:
x=<Z,X>F
y=<Z,Y>F
经过上述步骤后,得到顶点坐标点为:
μ=[<Z,X>F,<Z,Y>F]
(4)关键点预测模块的总Loss为误差平方和Loss与正则项Loss,总Loss为:
L(Z,p)=LMSE(μ,p)+λLD(Z,p)
误差平方和Loss为:
其中,λ为正则化系数,用来设置正则化的强度;误差平方和Loss为:
LMSE(μ,p)=||p-μ||2
其中,p为真实值,μ为模块预测值;
为了使网络可以学习到小方差的高斯热图,采用正则Loss,对正则项引入高斯热图先验。正则Loss采用JS散度,JS散度广泛应用于衡量两个分布相似性上。正则Loss为:
Figure BDA0002699696190000051
其中,p(c)表示真实值,
Figure BDA0002699696190000052
表示二元高斯分布,D(·||·)表示JS散度。
S6:根据得到的四个顶点坐标对文档图像进行校正和分割。
用文档的四个顶点坐标计算单应性矩阵H,利用单应性矩阵H进行透视变换,将几何失真的文档图像投影到新的平面进行视角校正。
本发明方法通过对图像进行特征提取、关键点预测两个步骤自动确定文档图像中顶点的坐标。本发明可以将图像内的文档进行快速定位和分割,且不易受到复杂背景的干扰。本发明适合应用于对移动设备拍摄的文档图像进行提取保存的应用中,也可以作为文档识别的预处理步骤。具体的,采用本发明方法分别对名片、不同版本的发票进行识别,如图2~4所示,最终识别的效果清晰且无变形,证明了本发明对文档定位和分割的有效性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于深度学习的文档定位和分割方法,其特征在于,该方法具体包括以下步骤:
S1:输入图像,并使用卷积神经网络提取该图像的特征;
S2:将提取到的特征图采用卷积核大小为1的卷积层进行降维;
S3:将降维之后的特征图分离成四个通道;
S4:将分离出的四个特征图分别输入关键点预测模块,分别预测左上、左下、右上、右下四个顶点的坐标;
S5:根据得到的四个顶点坐标对文档图像进行校正和分割。
2.根据权利要求1所述的文档定位和分割方法,其特征在于,步骤S4中,所述关键点预测模块的处理步骤为:
S41:对分离出的每一个通道输出的特征图进行归一化;
S42:对归一化之后的特征图转换为坐标点。
3.根据权利要求2所述的文档定位和分割方法,其特征在于,所述步骤S41具体包括:采用SoftMax函数作为归一化函数对分离出的每一个通道输出的特征图进行归一化:Z=φ(z)。
4.根据权利要求3所述的文档定位和分割方法,其特征在于,所述步骤S42具体包括以下步骤:
S421:定义两个矩阵X和Y,其宽高和输入的特征图一致,具体数值计算为:
Figure FDA0002699696180000011
Figure FDA0002699696180000012
其中,w表示输入特征图的宽,h表示输入特征图的高,i=1...w,j=1...h;
S422:对归一化之后的特征图转换为坐标点,通过对归一化之后的特征图和定义的矩阵求得F范数,具体数值计算为:
x=<Z,X>F
y=<Z,Y>F
得到顶点坐标点为:
μ=[<Z,X>F,<Z,Y>F]
S423:关键点预测模块的总Loss为误差平方和Loss与正则Loss,总Loss计算公式为:
L(Z,p)=LMSE(μ,p)+λLD(Z,p)
其中,λ为正则化系数,用来设置正则化的强度;误差平方和Loss为:
LMSE(μ,p)=||p-μ||2
其中,p为真实值,μ为模块预测值;
正则Loss为:
Figure FDA0002699696180000021
其中,p(c)表示真实值,
Figure FDA0002699696180000022
表示二元高斯分布,D(·||·)表示JS散度。
5.根据权利要求4所述的文档定位和分割方法,其特征在于,所述步骤S5具体包括:利用文档的四个顶点坐标计算单应性矩阵H,利用单应性矩阵H进行透视变换,将几何失真的文档图像投影到新的平面进行视角校正。
6.根据权利要求1~4中任意一项所述的文档定位和分割方法,其特征在于,所述特征图为高斯热图。
CN202011017876.9A 2020-09-24 2020-09-24 一种基于深度学习的文档定位和分割方法 Pending CN112132054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011017876.9A CN112132054A (zh) 2020-09-24 2020-09-24 一种基于深度学习的文档定位和分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011017876.9A CN112132054A (zh) 2020-09-24 2020-09-24 一种基于深度学习的文档定位和分割方法

Publications (1)

Publication Number Publication Date
CN112132054A true CN112132054A (zh) 2020-12-25

Family

ID=73839368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011017876.9A Pending CN112132054A (zh) 2020-09-24 2020-09-24 一种基于深度学习的文档定位和分割方法

Country Status (1)

Country Link
CN (1) CN112132054A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591844A (zh) * 2021-07-23 2021-11-02 作业帮教育科技(北京)有限公司 图片校正方法、装置和页面检测模型的搭建方法
CN113850805A (zh) * 2021-11-29 2021-12-28 北京世纪好未来教育科技有限公司 多文档检测方法、装置、电子设备及存储介质
CN114596576A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 一种图像处理方法、装置、电子设备及存储介质
CN116912196A (zh) * 2023-07-13 2023-10-20 深圳市联影高端医疗装备创新研究院 非限束器区域检测方法、装置、计算机设备和存储介质
US12374081B2 (en) 2022-04-06 2025-07-29 Optum, Inc. Digital image processing techniques using bounding box precision models

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090423A (zh) * 2017-12-01 2018-05-29 上海工程技术大学 一种基于热力图和关键点回归的深度车牌检测方法
CN110674889A (zh) * 2019-10-15 2020-01-10 贵州电网有限责任公司 一种用于电表终端故障识别的图像训练方法
CN110942064A (zh) * 2019-11-25 2020-03-31 维沃移动通信有限公司 图像处理方法、装置和电子设备
CN110969160A (zh) * 2019-11-21 2020-04-07 合肥工业大学 一种基于深度学习的车牌图像校正、识别方法及系统
CN111160142A (zh) * 2019-12-14 2020-05-15 上海交通大学 一种基于数值预测回归模型的证件票据定位检测方法
US20200193163A1 (en) * 2014-02-28 2020-06-18 Second Spectrum, Inc. Methods and systems of combining video content with one or more augmentations to produce augmented video
CN111445386A (zh) * 2020-04-15 2020-07-24 深源恒际科技有限公司 基于文本内容四点检测的图像校正方法
CN111667429A (zh) * 2020-06-06 2020-09-15 南京聚特机器人技术有限公司 一种巡检机器人目标定位校正方法
CN111695519A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200193163A1 (en) * 2014-02-28 2020-06-18 Second Spectrum, Inc. Methods and systems of combining video content with one or more augmentations to produce augmented video
CN108090423A (zh) * 2017-12-01 2018-05-29 上海工程技术大学 一种基于热力图和关键点回归的深度车牌检测方法
CN110674889A (zh) * 2019-10-15 2020-01-10 贵州电网有限责任公司 一种用于电表终端故障识别的图像训练方法
CN110969160A (zh) * 2019-11-21 2020-04-07 合肥工业大学 一种基于深度学习的车牌图像校正、识别方法及系统
CN110942064A (zh) * 2019-11-25 2020-03-31 维沃移动通信有限公司 图像处理方法、装置和电子设备
CN111160142A (zh) * 2019-12-14 2020-05-15 上海交通大学 一种基于数值预测回归模型的证件票据定位检测方法
CN111445386A (zh) * 2020-04-15 2020-07-24 深源恒际科技有限公司 基于文本内容四点检测的图像校正方法
CN111667429A (zh) * 2020-06-06 2020-09-15 南京聚特机器人技术有限公司 一种巡检机器人目标定位校正方法
CN111695519A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AIDEN NIBALI等: "Numerical Coordinate Regression with Convolutional Neural Networks", 《ARXIV》 *
王亚琴: "基于视觉的运动目标检测与跟踪研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591844A (zh) * 2021-07-23 2021-11-02 作业帮教育科技(北京)有限公司 图片校正方法、装置和页面检测模型的搭建方法
CN113850805A (zh) * 2021-11-29 2021-12-28 北京世纪好未来教育科技有限公司 多文档检测方法、装置、电子设备及存储介质
CN113850805B (zh) * 2021-11-29 2022-02-22 北京世纪好未来教育科技有限公司 多文档检测方法、装置、电子设备及存储介质
CN114596576A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 一种图像处理方法、装置、电子设备及存储介质
US12374081B2 (en) 2022-04-06 2025-07-29 Optum, Inc. Digital image processing techniques using bounding box precision models
CN116912196A (zh) * 2023-07-13 2023-10-20 深圳市联影高端医疗装备创新研究院 非限束器区域检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN112686812B (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
CN112132054A (zh) 一种基于深度学习的文档定位和分割方法
US10699146B2 (en) Mobile document detection and orientation based on reference object characteristics
US7228006B2 (en) Method and system for detecting a geometrically transformed copy of an image
US8811751B1 (en) Method and system for correcting projective distortions with elimination steps on multiple levels
WO2022134771A1 (zh) 表格处理方法、装置、电子设备及存储介质
CN110766007B (zh) 证件遮挡检测方法、装置、设备及可读存储介质
KR101893679B1 (ko) 딥 러닝을 이용한 카드번호 인식방법
CN105488512B (zh) 基于Sift特征匹配和形状上下文的试卷阅卷方法
CN113011426A (zh) 一种识别证件的方法和装置
CN111626295B (zh) 车牌检测模型的训练方法和装置
Feng et al. DocScanner: Robust document image rectification with progressive learning
CN115471682A (zh) 一种基于SIFT融合ResNet50的图像匹配方法
WO2019062426A1 (zh) 边框检测方法、服务器及存储介质
CN110751071A (zh) 人脸识别方法及装置、存储介质、计算设备
CN115620364A (zh) 基于智能三维人像采集的证件照生成检测方法及系统
CN110288040B (zh) 一种基于拓扑验证的图像相似评判方法及设备
CN113469216B (zh) 零售终端海报识别与完整性判断方法、系统及存储介质
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
JP2008252856A (ja) 画像の補正方法、補正プログラムおよび画像歪み補正装置
WO2019071476A1 (zh) 一种基于智能终端的快递信息录入方法及录入系统
Keefer et al. A survey on document image processing methods useful for assistive technology for the blind
CN113920513B (zh) 基于自定义通用模板的文本识别方法及设备
Koo Segmentation and rectification of pictures in the camera-captured images of printed documents
CN116051869B (zh) 融合ovr-svm和psnr相似度的图像标签匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201225

RJ01 Rejection of invention patent application after publication