CN116935405A

CN116935405A - 基于ocr和nlp提取客户文档扫描件内服务条款方法

Info

Publication number: CN116935405A
Application number: CN202310744291.4A
Authority: CN
Inventors: 李卓洋; 张磊; 孙宇; 孙寅
Original assignee: Beijing Oriental Longma Software Development Co ltd
Current assignee: Beijing Oriental Longma Software Development Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-10-24

Abstract

本发明公开了一种基于OCR和NLP提取客户文档扫描件内服务条款方法，步骤如下：1)、服务器获取用户上传的扫描件；2)、将扫描件转换为JPG格式的图片；3)、使用DBnet网络识别图片中包含文字的行；4)、将识别出包含文字的行转换为独立的图片；5)、将包含文字的独立的图片转换为标准化图片；6)、将标准化图片交给文字识别网络，识别出文字；7)、识别出的文字中的标题、段落，切换为正文；8)、识别文档中的表格，切换为正文；9)、提取出文档中的服务内容和对工程师要求，切换为正文；10)、进行关键词搜索，并规范化提取内容。本发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本，快速定位客户所要的服务内容。

Description

基于OCR和NLP提取客户文档扫描件内服务条款方法

技术领域

本发明涉及计算机程序领域，特别是涉及一种基于OCR和NLP提取客户文档扫描件内服务条款方法。

背景技术

IT运维服务的提供者基于服务级别协议(SLA)向IT运维服务的使用者提供各类IT运维服务。不同服务级别对应的服务质量指标是服务级别协议的重要组成部分。服务质量指标体现服务供应商所提供的IT运维服务的质量。

2020年，人类产生的数据总量将超过1000ZB，而随着大数据、人工智能、物联网的崛起，未来的数据库形态将越来越丰富，关系型数据库，非关系型数据库，结构数据库，时序数据库等将得到越来越多广泛应用，在不远的将来已云为基础的云数据库将越来越多的影响人们的生活。而数据库运维服务也会不断增加，近年来，越来越多专业的IT运维团队提供全系列企业级性能管理方案和相关的IT服务，在帮助用户提高业务效率和整体生产力的同时，降低运营和运维成本。但由于不同行业，规模的客户造成了不同内容和级别的服务需求。在签订的服务文档中，往往技术部负责人阅览文档时间相对滞后，并且根据公司管理要求技术负责人并不能阅读整份文档，从而导致某些服务内容的缺失或加大了团队的沟通成本；故能自动化提取出文档中的服务内容显得尤为重要。

目前基本靠人工来解决，在签订服务条款后。相关人员会把相关的服务内容的页面交给技术负责人，但是在其他页面中可能包含一些违约责任或者对于服务工程师有(资历，证书，技能等)更细节的要求，这就增加时间成本，甚至对客户的需求了解的不够具体，到处部分细节的遗漏。

发明内容

为了解决上述问题，本发明的目的是提供了一种基于OCR和NLP提取客户文档扫描件内服务条款方法，解决了上述背景技术中提出的问题。

为了实现上述目的，本发明采用如下技术方案：

基于OCR和NLP提取客户文档扫描件内服务条款方法，步骤如下：1)、服务器获取用户上传的扫描件；2)、将扫描件转换为JPG格式的图片；3)、使用DBnet网络识别图片中包含文字的行；4)、将识别出包含文字的行转换为独立的图片；5)、将包含文字的独立的图片转换为标准化图片；6)、将标准化图片交给文字识别网络，识别出文字；7)、识别出的文字中的标题、段落，切换为正文；8)、识别文档中的表格，切换为正文；9)、提取出文档中的服务内容和对工程师要求，切换为正文；10)、对步骤7)、步骤8)、步骤9)中的正文进行关键词搜索，并规范化提取内容。

进一步的改进技术方案，所述步骤1)中，文档通过扫描仪器进行扫描，成PDF文件，然后上传到服务器中。

进一步的改进技术方案，所述步骤1)中，DBnet网络识别图片中包含文字的行的方法是：步骤一：加载训练模型；步骤二：输入包含文字的图像；步骤三：使用DBnet算法对各个文本段进行标注；步骤四：提取文本段，得到裁剪出的文本图像；步骤五：将裁剪得到的文本图像使用CRNN算法识别各文本段内容；步骤六：输出的结果是否有未在字典中的陌生字符，如果是则将陌生字符加入字典，并将此图像加入数据库进行训练并保存训练模型；若不是判断其结果是否正确，正确则输出，错误则再次将此图像加入数据库进行训练并保存训练模型。

进一步的改进技术方案，所述加载训练模型的步骤是：S1、将字典和词典内的字词进行导入，建立表格、图像识别基本数据库；S2、通过卷积神经网络对基本数据库的文字进行象形标识，并进行存储。

进一步的改进技术方案，所述标准化图片为22*600像素的图片。

进一步的改进技术方案，所述关键字在服务条款的文本信息中搜索匹配的方法包括：

在所述服务条款的文本信息中锁定所有与所述关键字匹配的目标信息，所述目标信息包括与所述关键字相同、近义，和/或与所述关键字具有映射关系的文本信息；

对锁定的目标信息进行语意识别；通过识别的语意匹配与所述关键字的关联度，并根据所述关联度对所述目标信息进行排序。

与现有技术相比，本发明实现的有益效果：

本发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本，快速定位客户所要的服务内容。

本发明通过OCR和自然语言对整个文档进行扫描、提取，避免了因为权限问题造成的技术人员对于文档阅读的缺失，导致的客户要求理解不明和遗漏。

附图说明

以下结合附图和具体实施方式来进一步详细说明本发明：

图1为本发明的工作的运行流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

请参阅图1。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例

如图1所示，本实施例公布了一种基于OCR和NLP提取客户文档扫描件内服务条款方法，步骤如下：

1)、服务器获取用户上传的扫描件。文档通过扫描仪器进行扫描，成PDF文件，然后上传到服务器中。

2)、将扫描件转换为JPG格式的图片。

3)、使用DBnet网络识别图片中包含文字的行。DBnet网络识别图片中包含文字的行的方法是：步骤一：加载训练模型；步骤二：输入包含文字的图像；步骤三：使用DBnet算法对各个文本段进行标注；步骤四：提取文本段，得到裁剪出的文本图像；步骤五：将裁剪得到的文本图像使用CRNN算法识别各文本段内容；步骤六：输出的结果是否有未在字典中的陌生字符，如果是则将陌生字符加入字典，并将此图像加入数据库进行训练并保存训练模型；若不是判断其结果是否正确，正确则输出，错误则再次将此图像加入数据库进行训练并保存训练模型。

其中，所述加载训练模型的步骤是：S1、将字典和词典内的字词进行导入，建立表格、图像识别基本数据库；S2、通过卷积神经网络对基本数据库的文字进行象形标识，并进行存储。

4)、将识别出包含文字的行转换为独立的图片。所述标准化图片为22*600像素的图片。

5)、将包含文字的独立的图片转换为标准化图片。

6)、将标准化图片交给文字识别网络，识别出文字。

7)、识别出的文字中的标题、段落，切换为正文。

8)、识别文档中的表格，切换为正文。

9)、提取出文档中的服务内容和对工程师要求，切换为正文。

10)、对步骤7)、步骤8)、步骤9)中的正文进行关键词搜索，并规范化提取内容。

所述关键字在服务条款的文本信息中搜索匹配的方法包括：在所述服务条款的文本信息中锁定所有与所述关键字匹配的目标信息，所述目标信息包括与所述关键字相同、近义，和/或与所述关键字具有映射关系的文本信息；对锁定的目标信息进行语意识别；通过识别的语意匹配与所述关键字的关联度，并根据所述关联度对所述目标信息进行排序。

本实施例按照操作程序，把文档扫描件识别为文字，提取出文档中的服务内容和对工程师的要求，最后精简为标准化内容。

本实施例通过以上技术实现自动化提取文档中的服务内容等信息，标准化后交给技术服务人。减少技术负责人和文档对接人的沟通时间成本。减少文档中关于提取服务内容的遗漏。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.基于OCR和NLP提取客户文档扫描件内服务条款方法，其特征在于，步骤如下：

1）、服务器获取用户上传的扫描件；

2）、将扫描件转换为JPG格式的图片；

3）、使用DBnet网络识别图片中包含文字的行；

4）、将识别出包含文字的行转换为独立的图片；

5）、将包含文字的独立的图片转换为标准化图片；

6）、将标准化图片交给文字识别网络，识别出文字；

7）、识别出的文字中的标题、段落，切换为正文；

8）、识别文档中的表格，切换为正文；

9）、提取出文档中的服务内容和对工程师要求，切换为正文；

10）、对步骤7）、步骤8）、步骤9）中的正文进行关键词搜索，并规范化提取内容。

2.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法，其特征在于，

所述步骤1）中，文档通过扫描仪器进行扫描，成PDF文件，然后上传到服务器中。

3.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法，其特征在于，

所述步骤1）中，DBnet网络识别图片中包含文字的行的方法是：

步骤一：加载训练模型；

步骤二：输入包含文字的图像；

步骤三：使用DBnet算法对各个文本段进行标注；

步骤四：提取文本段，得到裁剪出的文本图像；

步骤五：将裁剪得到的文本图像使用CRNN算法识别各文本段内容；

步骤六：输出的结果是否有未在字典中的陌生字符，如果是则将陌生字符加入字典，并将此图像加入数据库进行训练并保存训练模型；若不是判断其结果是否正确，正确则输出，错误则再次将此图像加入数据库进行训练并保存训练模型。

4.根据权利要求3所述的基于OCR和NLP提取客户文档扫描件内服务条款方法，其特征在于，

所述加载训练模型的步骤是：

S1、将字典和词典内的字词进行导入，建立表格、图像识别基本数据库；

S2、通过卷积神经网络对基本数据库的文字进行象形标识，并进行存储。

5.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法，其特征在于，

所述标准化图片为22*600像素的图片。

6.根据权利要求1所述的基于OCR和NLP提取客户文档扫描件内服务条款方法，其特征在于，

所述关键字在服务条款的文本信息中搜索匹配的方法包括：