CN107958061A

CN107958061A - 一种文本相似度的计算方法及计算机可读存储介质

Info

Publication number: CN107958061A
Application number: CN201711251955.4A
Authority: CN
Inventors: 朱敬华; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-04-24

Abstract

本发明涉及文本处理技术领域，提供了一种文本相似度的计算方法，包含步骤：对待比较的第一文本和第二文本进行预处理，得到所述第一文本和所述第二文本中分别包含的属性值；基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度；基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。基于上述文本相似度计算方法可获得一个易于比较的数值结果，以便于后续的文本处理。此外，基于上述文本相似度计算方法，本发明还提供一种预测文本录入位置的方法及计算机可读存储介质。

Description

一种文本相似度的计算方法及计算机可读存储介质

技术领域

本发明关于文本处理技术领域，尤其涉及一种文本相似度的计算方法及计算机可读存储介质，以及基于所述方法的预测文本录入位置的方法及计算机可读存储介质。

背景技术

文本相似度是指不同文本之间的语义关联程度，文本相似度的确定是文本挖掘、文本检索、文本分析的核心工作之一。

目前文本相似度计算技术正处于发展阶段，尤其是随着互联网技术的越来越成熟，文档文稿的电子化、可结构化及智能应用等需求越来越旺盛，现有技术中实现文本相似度的计算方法和处理算法也越来越成熟，主要包含子序列与子字符串、字符串编辑距离、向量相似度、SimHash等类型的基础算法。

根据不同的应用需求，对具体算法的选定和优化方向也是各不相同，尤其是针对一些特定的行业文档例如合同、协议、证明文件等具有一定结构规范且严谨的文档的处理更需要贴近实际需求的算法和优化，以对其的更进一步的处理加工提供良好的基础。

发明内容

基于上述对技术的需求，本发明提供了一种文本相似度的计算方法，包含步骤，对待比较的第一文本和第二文本进行预处理，得到所述第一文本和所述第二文本中分别包含的属性值；基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度；基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。

在一实施中，所述对待比较的第一文本和第二文本进行预处理包含分别对所述第一文本和所述第二文本进行分词处理。

在一实施中，所述对待比较的第一文本和第二文本进行预处理包含对所述属性值设置权重，所述基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度的步骤更包含基于所述权重、所述第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度。

在一实施中，所述第二预设算法包含如下公式：

其中，c1,c2分别表示所述第一文本和所述第二文本，ci表示文本c的第i个属性，wi为第i个属性的权重，S(c¹,c²)为两份所述待比较文本的相似度，为两份所述待比较文本中对应属性的相似度。

在一实施中，所述第一预设算法包含如下公式：

其中，c1,c2分别表示所述第一文本和所述第二文本，ci表示文本c的第i个属性，为两份所述待比较文本对应属性的相似度，V(c_i)表示文本第i个属性的值，为所述待比较文本中对应属性值的相似度。

在一实施中，当所述属性值的数据类型为数字时，取值为1。

在一实施中，当所述属性值的数据类型为文本时，的取值为根据预设文本训练模型计算出的结果。

基于上述文本相似度计算方法，本发明还提供一种预测文本录入位置的方法，包含步骤：准备历史文本库，其中所述历史文本库中的样本与待预测文本的应用类型相同；通过上述文本相似度的计算方法，分别计算所述待预测文本与所述历史文本库中的各样本的相似度；选取相似度最高的所述样本作为所述待预测文本的参考样本；基于所述参考样本的录入位置预测所述待预测文本中的录入位置。

在一实施中，所述方法更包含步骤，对所述历史文本库中的样本中的录入位置进行标注，如此一来，可基于所述标注预测所述待预测文本中的对应的录入位置。

此外本发明还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的文本相似度的计算方法。

以及一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述预测文本录入位置的方法。

综上所述，基于本发明提供的文本相似度计算方法，可借助于与待预测文本行业相同的历史样本的相似度，且结果可数值化，进一步的基于该方法和结果，可获得历史文本库中与待预测文本最接近的历史样本，并以此作为参考对待预测文本的录入位置进行预测，可较简便的获得一个初步的预测结果，以便于后续的处理和应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1绘示本发明一较佳实施例所提供的预测合同录入位置的方法流程图；

图2绘示本实施例所提供的一种文本相似度计算方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明所提供的技术方案主要应用于具有规范格式、包含用户录入内容及固定内容的行业文本，例如合同、协议、证明文件等。本说明书中将以合同为例，以预测合同录入位置的方法为切入点，对本发明所提供的技术方案进行详细说明。值得注意的是，本发明所提供的技术方案的应用范围并不限于此。

请参照图1，图1绘示本发明一较佳实施例所提供的预测合同录入位置的方法流程图。如图1所示，所述方法具体包含以下步骤：

S101，准备历史文本库。

具体而言，根据预测文本的应用类型，收集一定数量的历史样本，创建历史文本库。在本实施例中，则是收集与待预测合同相同应用类型的历史合同样本，应用类型的选取维度可以根据预设的应用范围来确定，例如本方法仅用于处理购房合同，那么历史样本的收集则集中在购房合同，若应用范围需求更广，那么可收集如产权交易类合同、民事合同等其他更广的范围。可以理解的是，预设的应用范围越小，收集到的样本与预测文本的贴近程度就越大，得到的分析结果就更加精准。

对历史文本库的准备，不仅包含收集历史样本，更包含根据后续的处理需求对各个样本进行预处理，关于预处理的方式将在下文中进行详细说明。

S102，通过预设文本相似度的计算方法，分别计算所述待预测文本与所述历史文本库中的各样本的相似度。

首先本步骤中所使用的文本相似度的计算方法具体可参见图2，图2绘示本实施例所提供的一种文本相似度计算方法流程图。

如图2所示，所述文本相似度方法包含步骤：

S201，对待比较的第一文本和第二文本进行预处理，得到所述第一文本和所述第二文本中分别包含的属性值。

S202，基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度。

S203，基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。

具体而言，在本实施例中，步骤S201中的待比较的第一文本为上述待预测文本，第二文本为上述历史样本。对该两份文本的预处理具体包含分别对待预测文本和历史样本进行分词处理，其中，在进行分词处理之后，将基于行业词典对分词结果进行校验，其中行业词典的选取与上述样本的选取类似，即根据实际的应用范围来选取或创建，例如贴近于待预测文本的行业词典来对分词结果进行校验，可较大程度的保证分词的正确率。

值得注意的是，在本方法中对待预测文本的分词处理和对历史样本的分词处理并非同步进行，历史样本的预处理在构建历史文本库时已完成并保存了结果，如此一来，将该些可预见的工作内容进行前置处理，则减轻了计算文本相似度时的处理任务量，提升了作业速度。

经过预处理后，基于分词结果可获得待预测文本和历史样本中各自包含的属性值。更进一步的，为了使得后续计算结果更加精准，可引入权重的概念，即对各个属性值进行权重设置，具体的，权重值的设置可根据分词出现的频率、经语义分析后在文本中的重要程度等维度进行考量，本发明对此并不作限制。

在步骤S202中，基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度的方法可包含，基于预设公式对文本中的属性值进行相似度的计算，具体公式如下：

其中，c¹,c²分别表示所述第一文本，即待预测文本和第二文本，即历史样本，c_i表示文本c的第i个属性，为两份所述待比较文本对应属性的相似度，V(c_i)表示文本第i个属性的值，为所述待比较文本中对应属性值的相似度。

具体的，根据属性值的数据类型确定的取值，其中，当所述属性值的数据类型为数字时，取值为1；当所述属性值的数据类型为文本时，的取值为根据预设文本训练模型计算出的结果。其中，预设文本训练模型可包含基于word2vec事先训练一个文本相似度计算模型。

如此一来，根据属性值的数据类型不同，设置不同的计算方法，可在一定程度上提升计算结果的准确性。

在步骤S203中，基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度的方法可包含，基于预设公式对文本中的属性值进行相似度的计算，具体公式如下：

其中，c¹,c²分别表示第一文本，即待预测文本和第二文本，即历史样本，c_i表示文本c的第i个属性，w_i为第i个属性的权重，S(c¹,c²)为两份所述待比较文本的相似度，为两份所述待比较文本中对应属性的相似度。

也就是说基于步骤S202中对每个属性值的相似度的计算结果，以及各个属性值对应的权重值最终可计算得出两个文本的相似度。

值得注意的是，图2所示的文本相似度计算方法的应用范围并不限于本发明所提供的实施例，也可以应用在其他需要对两个文件相似度进行计算的应用领域。其中的属性值的确定、权重的设定以及函数的具体实现方法均可根据实际需求进行设定，并不受限于本说明书中揭露的内容。

请再次参照图1，在步骤S102中，可借助上述文本相似度计算方法得到待预测文本与历史样本的相似度，为了进一步获得最相近的历史样本，那么，可将待预测文本与历史文本库中的所有样本的相似度进行计算，然而，当历史文本库中历史样本的数量过于庞大时，也可以设定一个阈值，当计算匹配到相似度达到阈值的历史样本时，则停止与其他历史样本相似度计算的过程。

S103，选取相似度最高的所述样本作为所述待预测文本的参考样本。经过步骤S102的处理后，将得到待预测文本与各个历史样本的相似度，选取相似度最高的历史样本作为参考样本。由于上述相似度计算的结果为数值，那么可以直接根据数值的大小比较得出相似度最高的历史样本。

S104，基于所述参考样本的录入位置预测所述待预测文本中的录入位置。

经过上述步骤S101至S103的处理之后，从历史文本库中获取到与待预测文本最接近的参考文本之后，可基于参考文本的录入位置预测待预测文本中的录入位置。其中，所述录入位置是指用户输入的内容的填写位置，例如合同文本中，甲方姓名、合同金额等根据实际情况填写的内容的位置。

需要补充说明的是，在构建历史文本库时，对历史样本的预处理，不仅包含上述的分词处理，还包含对录入位置的标注，在本步骤中，可根据参考文本中标注的录入位置的信息对应到待预测文本的相应位置为用户录入位置。

如前文所述，合同文本具有规范的结构以及通用的固定内容，通过上述方法获取到待预测文本的录入位置后，可以进一步的获取到用户输入的内容，以助于后续的数据分析和处理。

此外，本发明还提供一种计算机可读存储介质，存储有计算机程序，其中计算机程序被处理器执行实现图1所示实施例中所述的预测文本录入位置的方法。

以及提供了一种计算机可读存储介质，存储有计算机程序，其中计算机程序被处理器执行实现图2所示实施例中所述的文本相似度的计算方法。

值得注意的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本相似度的计算方法，其特征在于，包含步骤：

对待比较的第一文本和第二文本进行预处理，得到所述第一文本和所述第二文本中分别包含的属性值；

基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度；

基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。

2.如权利要求1所述的计算方法，其特征在于，所述对待比较的第一文本和第二文本进行预处理包含分别对所述第一文本和所述第二文本进行分词处理。

3.如权利要求1所述的计算方法，其特征在于，所述对待比较的第一文本和第二文本进行预处理包含对所述属性值设置权重，所述基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度的步骤更包含基于所述权重、所述第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度。

4.如权利要求3所述的计算方法，其特征在于，所述第二预设算法包含如下公式：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msup> <mi>c</mi> <mn>1</mn> </msup> <mo>,</mo> <msup> <mi>c</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>G</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，c¹,c²分别表示所述第一文本和所述第二文本，c_i表示文本c的第i个属性，w_i为第i个属性的权重，S(c¹,c²)为两份所述待比较文本的相似度，为两份所述待比较文本中对应属性的相似度。

5.如权利要求1所述的计算方法，其特征在于，所述第一预设算法包含如下公式：

其中，c¹,c²分别表示所述第一文本和所述第二文本，c_i表示文本c的第i个属性，为两份所述待比较文本对应属性的相似度，V(c_i)表示文本第i个属性的值，为所述待比较文本中对应属性值的相似度。

6.如权利要求5所述的计算方法，其特征在于，当所述属性值的数据类型为数字时，取值为1。

7.如权利要求5所述的计算方法，特征在于，当所述属性值的数据类型为文本时，的取值为根据预设文本训练模型计算出的结果。

8.一种预测文本录入位置的方法，其特征在于，包含步骤：

准备历史文本库，其中所述历史文本库中的样本与待预测文本的应用类型相同；

通过如权利要求1至7中任一项所述的文本相似度的计算方法，分别计算所述待预测文本与所述历史文本库中的各样本的相似度；

选取相似度最高的所述样本作为所述待预测文本的参考样本；

基于所述参考样本的录入位置预测所述待预测文本中的录入位置。

9.如权利要求8所述的预测文本录入位置的方法，其特征在于，更包含步骤，对所述历史文本库中的样本中的录入位置进行标注，如此一来，可基于所述标注预测所述待预测文本中的对应的录入位置。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本相似度的计算方法。

11.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求8至9中任一项所述预测文本录入位置的方法。