[go: up one dir, main page]

CN116935405A - 基于ocr和nlp提取客户文档扫描件内服务条款方法 - Google Patents

基于ocr和nlp提取客户文档扫描件内服务条款方法 Download PDF

Info

Publication number
CN116935405A
CN116935405A CN202310744291.4A CN202310744291A CN116935405A CN 116935405 A CN116935405 A CN 116935405A CN 202310744291 A CN202310744291 A CN 202310744291A CN 116935405 A CN116935405 A CN 116935405A
Authority
CN
China
Prior art keywords
text
characters
picture
service
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310744291.4A
Other languages
English (en)
Inventor
李卓洋
张磊
孙宇
孙寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Oriental Longma Software Development Co ltd
Original Assignee
Beijing Oriental Longma Software Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Oriental Longma Software Development Co ltd filed Critical Beijing Oriental Longma Software Development Co ltd
Priority to CN202310744291.4A priority Critical patent/CN116935405A/zh
Publication of CN116935405A publication Critical patent/CN116935405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于OCR和NLP提取客户文档扫描件内服务条款方法,步骤如下:1)、服务器获取用户上传的扫描件;2)、将扫描件转换为JPG格式的图片;3)、使用DBnet网络识别图片中包含文字的行;4)、将识别出包含文字的行转换为独立的图片;5)、将包含文字的独立的图片转换为标准化图片;6)、将标准化图片交给文字识别网络,识别出文字;7)、识别出的文字中的标题、段落,切换为正文;8)、识别文档中的表格,切换为正文;9)、提取出文档中的服务内容和对工程师要求,切换为正文;10)、进行关键词搜索,并规范化提取内容。本发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本,快速定位客户所要的服务内容。

Description

基于OCR和NLP提取客户文档扫描件内服务条款方法
技术领域
本发明涉及计算机程序领域,特别是涉及一种基于OCR和NLP提取客户文档扫描件内服务条款方法。
背景技术
IT运维服务的提供者基于服务级别协议(SLA)向IT运维服务的使用者提供各类IT运维服务。不同服务级别对应的服务质量指标是服务级别协议的重要组成部分。服务质量指标体现服务供应商所提供的IT运维服务的质量。
2020年,人类产生的数据总量将超过1000ZB,而随着大数据、人工智能、物联网的崛起,未来的数据库形态将越来越丰富,关系型数据库,非关系型数据库,结构数据库,时序数据库等将得到越来越多广泛应用,在不远的将来已云为基础的云数据库将越来越多的影响人们的生活。而数据库运维服务也会不断增加,近年来,越来越多专业的IT运维团队提供全系列企业级性能管理方案和相关的IT服务,在帮助用户提高业务效率和整体生产力的同时,降低运营和运维成本。但由于不同行业,规模的客户造成了不同内容和级别的服务需求。在签订的服务文档中,往往技术部负责人阅览文档时间相对滞后,并且根据公司管理要求技术负责人并不能阅读整份文档,从而导致某些服务内容的缺失或加大了团队的沟通成本;故能自动化提取出文档中的服务内容显得尤为重要。
目前基本靠人工来解决,在签订服务条款后。相关人员会把相关的服务内容的页面交给技术负责人,但是在其他页面中可能包含一些违约责任或者对于服务工程师有(资历,证书,技能等)更细节的要求,这就增加时间成本,甚至对客户的需求了解的不够具体,到处部分细节的遗漏。
发明内容
为了解决上述问题,本发明的目的是提供了一种基于OCR和NLP提取客户文档扫描件内服务条款方法,解决了上述背景技术中提出的问题。
为了实现上述目的,本发明采用如下技术方案:
基于OCR和NLP提取客户文档扫描件内服务条款方法,步骤如下:1)、服务器获取用户上传的扫描件;2)、将扫描件转换为JPG格式的图片;3)、使用DBnet网络识别图片中包含文字的行;4)、将识别出包含文字的行转换为独立的图片;5)、将包含文字的独立的图片转换为标准化图片;6)、将标准化图片交给文字识别网络,识别出文字;7)、识别出的文字中的标题、段落,切换为正文;8)、识别文档中的表格,切换为正文;9)、提取出文档中的服务内容和对工程师要求,切换为正文;10)、对步骤7)、步骤8)、步骤9)中的正文进行关键词搜索,并规范化提取内容。
进一步的改进技术方案,所述步骤1)中,文档通过扫描仪器进行扫描,成PDF文件,然后上传到服务器中。
进一步的改进技术方案,所述步骤1)中,DBnet网络识别图片中包含文字的行的方法是:步骤一:加载训练模型;步骤二:输入包含文字的图像;步骤三:使用DBnet算法对各个文本段进行标注;步骤四:提取文本段,得到裁剪出的文本图像;步骤五:将裁剪得到的文本图像使用CRNN算法识别各文本段内容;步骤六:输出的结果是否有未在字典中的陌生字符,如果是则将陌生字符加入字典,并将此图像加入数据库进行训练并保存训练模型;若不是判断其结果是否正确,正确则输出,错误则再次将此图像加入数据库进行训练并保存训练模型。
进一步的改进技术方案,所述加载训练模型的步骤是:S1、将字典和词典内的字词进行导入,建立表格、图像识别基本数据库;S2、通过卷积神经网络对基本数据库的文字进行象形标识,并进行存储。
进一步的改进技术方案,所述标准化图片为22*600像素的图片。
进一步的改进技术方案,所述关键字在服务条款的文本信息中搜索匹配的方法包括:
在所述服务条款的文本信息中锁定所有与所述关键字匹配的目标信息,所述目标信息包括与所述关键字相同、近义,和/或与所述关键字具有映射关系的文本信息;
对锁定的目标信息进行语意识别;通过识别的语意匹配与所述关键字的关联度,并根据所述关联度对所述目标信息进行排序。
与现有技术相比,本发明实现的有益效果:
本发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本,快速定位客户所要的服务内容。
本发明通过OCR和自然语言对整个文档进行扫描、提取,避免了因为权限问题造成的技术人员对于文档阅读的缺失,导致的客户要求理解不明和遗漏。
附图说明
以下结合附图和具体实施方式来进一步详细说明本发明:
图1为本发明的工作的运行流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例
如图1所示,本实施例公布了一种基于OCR和NLP提取客户文档扫描件内服务条款方法,步骤如下:
1)、服务器获取用户上传的扫描件。文档通过扫描仪器进行扫描,成PDF文件,然后上传到服务器中。
2)、将扫描件转换为JPG格式的图片。
3)、使用DBnet网络识别图片中包含文字的行。DBnet网络识别图片中包含文字的行的方法是:步骤一:加载训练模型;步骤二:输入包含文字的图像;步骤三:使用DBnet算法对各个文本段进行标注;步骤四:提取文本段,得到裁剪出的文本图像;步骤五:将裁剪得到的文本图像使用CRNN算法识别各文本段内容;步骤六:输出的结果是否有未在字典中的陌生字符,如果是则将陌生字符加入字典,并将此图像加入数据库进行训练并保存训练模型;若不是判断其结果是否正确,正确则输出,错误则再次将此图像加入数据库进行训练并保存训练模型。
其中,所述加载训练模型的步骤是:S1、将字典和词典内的字词进行导入,建立表格、图像识别基本数据库;S2、通过卷积神经网络对基本数据库的文字进行象形标识,并进行存储。
4)、将识别出包含文字的行转换为独立的图片。所述标准化图片为22*600像素的图片。
5)、将包含文字的独立的图片转换为标准化图片。
6)、将标准化图片交给文字识别网络,识别出文字。
7)、识别出的文字中的标题、段落,切换为正文。
8)、识别文档中的表格,切换为正文。
9)、提取出文档中的服务内容和对工程师要求,切换为正文。
10)、对步骤7)、步骤8)、步骤9)中的正文进行关键词搜索,并规范化提取内容。
所述关键字在服务条款的文本信息中搜索匹配的方法包括:在所述服务条款的文本信息中锁定所有与所述关键字匹配的目标信息,所述目标信息包括与所述关键字相同、近义,和/或与所述关键字具有映射关系的文本信息;对锁定的目标信息进行语意识别;通过识别的语意匹配与所述关键字的关联度,并根据所述关联度对所述目标信息进行排序。
本实施例按照操作程序,把文档扫描件识别为文字,提取出文档中的服务内容和对工程师的要求,最后精简为标准化内容。
本实施例通过以上技术实现自动化提取文档中的服务内容等信息,标准化后交给技术服务人。减少技术负责人和文档对接人的沟通时间成本。减少文档中关于提取服务内容的遗漏。
本发明通过OCR和自然语言对整个文档进行扫描、提取,避免了因为权限问题造成的技术人员对于文档阅读的缺失,导致的客户要求理解不明和遗漏。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.基于OCR和NLP提取客户文档扫描件内服务条款方法,其特征在于,步骤如下:
1)、服务器获取用户上传的扫描件;
2)、将扫描件转换为JPG格式的图片;
3)、使用DBnet网络识别图片中包含文字的行;
4)、将识别出包含文字的行转换为独立的图片;
5)、将包含文字的独立的图片转换为标准化图片;
6)、将标准化图片交给文字识别网络,识别出文字;
7)、识别出的文字中的标题、段落,切换为正文;
8)、识别文档中的表格,切换为正文;
9)、提取出文档中的服务内容和对工程师要求,切换为正文;
10)、对步骤7)、步骤8)、步骤9)中的正文进行关键词搜索,并规范化提取内容。
2.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法,其特征在于,
所述步骤1)中,文档通过扫描仪器进行扫描,成PDF文件,然后上传到服务器中。
3.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法,其特征在于,
所述步骤1)中,DBnet网络识别图片中包含文字的行的方法是:
步骤一:加载训练模型;
步骤二:输入包含文字的图像;
步骤三:使用DBnet算法对各个文本段进行标注;
步骤四:提取文本段,得到裁剪出的文本图像;
步骤五:将裁剪得到的文本图像使用CRNN算法识别各文本段内容;
步骤六:输出的结果是否有未在字典中的陌生字符,如果是则将陌生字符加入字典,并将此图像加入数据库进行训练并保存训练模型;若不是判断其结果是否正确,正确则输出,错误则再次将此图像加入数据库进行训练并保存训练模型。
4.根据权利要求3所述的基于OCR和NLP提取客户文档扫描件内服务条款方法,其特征在于,
所述加载训练模型的步骤是:
S1、将字典和词典内的字词进行导入,建立表格、图像识别基本数据库;
S2、通过卷积神经网络对基本数据库的文字进行象形标识,并进行存储。
5.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法,其特征在于,
所述标准化图片为22*600像素的图片。
6.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法,其特征在于,
所述关键字在服务条款的文本信息中搜索匹配的方法包括:
在所述服务条款的文本信息中锁定所有与所述关键字匹配的目标信息,所述目标信息包括与所述关键字相同、近义,和/或与所述关键字具有映射关系的文本信息;
对锁定的目标信息进行语意识别;通过识别的语意匹配与所述关键字的关联度,并根据所述关联度对所述目标信息进行排序。
CN202310744291.4A 2023-06-21 2023-06-21 基于ocr和nlp提取客户文档扫描件内服务条款方法 Pending CN116935405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310744291.4A CN116935405A (zh) 2023-06-21 2023-06-21 基于ocr和nlp提取客户文档扫描件内服务条款方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310744291.4A CN116935405A (zh) 2023-06-21 2023-06-21 基于ocr和nlp提取客户文档扫描件内服务条款方法

Publications (1)

Publication Number Publication Date
CN116935405A true CN116935405A (zh) 2023-10-24

Family

ID=88387014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310744291.4A Pending CN116935405A (zh) 2023-06-21 2023-06-21 基于ocr和nlp提取客户文档扫描件内服务条款方法

Country Status (1)

Country Link
CN (1) CN116935405A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
US20210374189A1 (en) * 2018-10-04 2021-12-02 Showa Denko K.K. Document search device, document search program, and document search method
CN113806472A (zh) * 2020-06-17 2021-12-17 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备
CN113850157A (zh) * 2021-09-08 2021-12-28 精锐视觉智能科技(上海)有限公司 一种基于神经网络的字符识别的方法
CN114359912A (zh) * 2022-03-22 2022-04-15 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及系统
CN114495138A (zh) * 2021-12-27 2022-05-13 瑞格人工智能科技有限公司 一种智能文档识别与特征提取方法、装置平台和存储介质
US20230139831A1 (en) * 2020-09-30 2023-05-04 DataInfoCom USA, Inc. Systems and methods for information retrieval and extraction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210374189A1 (en) * 2018-10-04 2021-12-02 Showa Denko K.K. Document search device, document search program, and document search method
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
CN113806472A (zh) * 2020-06-17 2021-12-17 中国人寿资产管理有限公司 一种对文字图片和图像型扫描件实现全文检索的方法及设备
US20230139831A1 (en) * 2020-09-30 2023-05-04 DataInfoCom USA, Inc. Systems and methods for information retrieval and extraction
CN113850157A (zh) * 2021-09-08 2021-12-28 精锐视觉智能科技(上海)有限公司 一种基于神经网络的字符识别的方法
CN114495138A (zh) * 2021-12-27 2022-05-13 瑞格人工智能科技有限公司 一种智能文档识别与特征提取方法、装置平台和存储介质
CN114359912A (zh) * 2022-03-22 2022-04-15 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及系统

Similar Documents

Publication Publication Date Title
CN111930966B (zh) 一种用于数字政务的智能政策匹配方法及系统
CN107766371B (zh) 一种文本信息分类方法及其装置
CN102622592B (zh) 一种基于云技术的名片识别方法
CN115994230A (zh) 一种融合人工智能和知识图谱技术的智慧档案构建方法
CN110737629A (zh) 一种用于归档电子文件的方法及系统
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
CN108897862A (zh) 一种基于政府公文图片检索方法及系统
CN112560468A (zh) 气象预警文本处理方法、相关装置及计算机程序产品
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN110516057A (zh) 一种信访问题答复方法及装置
CN114840673A (zh) 基于NetCDF的多源异构海洋环境数据集成方法
CN119091460A (zh) 一种文字识别与自动化审核方法和系统
CN114882518A (zh) 基于图像识别技术的建筑工程图纸标准化管理系统
CN113822521B (zh) 题库题目的质量检测方法、装置及存储介质
CN116935405A (zh) 基于ocr和nlp提取客户文档扫描件内服务条款方法
CN116089610A (zh) 一种基于行业知识的标签识别方法及装置
CN120806870A (zh) 一种智能订单生成与管理系统
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN113449525A (zh) 一种基于实体识别的文件智能流转方法及系统
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN112464907A (zh) 一种文档处理系统及方法
CN119415618A (zh) 档案管理系统及其方法
CN117573876A (zh) 一种业务数据分类分级方法及装置
CN108256833A (zh) 一种in time日程安排处理系统
CN114187600A (zh) 一种计量资产智能化管理的辅助系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination