[go: up one dir, main page]

CN107958061A - 一种文本相似度的计算方法及计算机可读存储介质 - Google Patents

一种文本相似度的计算方法及计算机可读存储介质 Download PDF

Info

Publication number
CN107958061A
CN107958061A CN201711251955.4A CN201711251955A CN107958061A CN 107958061 A CN107958061 A CN 107958061A CN 201711251955 A CN201711251955 A CN 201711251955A CN 107958061 A CN107958061 A CN 107958061A
Authority
CN
China
Prior art keywords
text
similarity
mrow
property value
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711251955.4A
Other languages
English (en)
Inventor
朱敬华
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Corp ltd
Original Assignee
Xiamen Kuaishangtong Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Corp ltd filed Critical Xiamen Kuaishangtong Technology Corp ltd
Priority to CN201711251955.4A priority Critical patent/CN107958061A/zh
Publication of CN107958061A publication Critical patent/CN107958061A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本处理技术领域,提供了一种文本相似度的计算方法,包含步骤:对待比较的第一文本和第二文本进行预处理,得到所述第一文本和所述第二文本中分别包含的属性值;基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度;基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。基于上述文本相似度计算方法可获得一个易于比较的数值结果,以便于后续的文本处理。此外,基于上述文本相似度计算方法,本发明还提供一种预测文本录入位置的方法及计算机可读存储介质。

Description

一种文本相似度的计算方法及计算机可读存储介质
技术领域
本发明关于文本处理技术领域,尤其涉及一种文本相似度的计算方法及计算机可读存储介质,以及基于所述方法的预测文本录入位置的方法及计算机可读存储介质。
背景技术
文本相似度是指不同文本之间的语义关联程度,文本相似度的确定是文本挖掘、文本检索、文本分析的核心工作之一。
目前文本相似度计算技术正处于发展阶段,尤其是随着互联网技术的越来越成熟,文档文稿的电子化、可结构化及智能应用等需求越来越旺盛,现有技术中实现文本相似度的计算方法和处理算法也越来越成熟,主要包含子序列与子字符串、字符串编辑距离、向量相似度、SimHash等类型的基础算法。
根据不同的应用需求,对具体算法的选定和优化方向也是各不相同,尤其是针对一些特定的行业文档例如合同、协议、证明文件等具有一定结构规范且严谨的文档的处理更需要贴近实际需求的算法和优化,以对其的更进一步的处理加工提供良好的基础。
发明内容
基于上述对技术的需求,本发明提供了一种文本相似度的计算方法,包含步骤,对待比较的第一文本和第二文本进行预处理,得到所述第一文本和所述第二文本中分别包含的属性值;基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度;基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。
在一实施中,所述对待比较的第一文本和第二文本进行预处理包含分别对所述第一文本和所述第二文本进行分词处理。
在一实施中,所述对待比较的第一文本和第二文本进行预处理包含对所述属性值设置权重,所述基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度的步骤更包含基于所述权重、所述第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度。
在一实施中,所述第二预设算法包含如下公式:
其中,c1,c2分别表示所述第一文本和所述第二文本,ci表示文本c的第i个属性,wi为第i个属性的权重,S(c1,c2)为两份所述待比较文本的相似度,为两份所述待比较文本中对应属性的相似度。
在一实施中,所述第一预设算法包含如下公式:
其中,c1,c2分别表示所述第一文本和所述第二文本,ci表示文本c的第i个属性,为两份所述待比较文本对应属性的相似度,V(ci)表示文本第i个属性的值,为所述待比较文本中对应属性值的相似度。
在一实施中,当所述属性值的数据类型为数字时,取值为1。
在一实施中,当所述属性值的数据类型为文本时,的取值为根据预设文本训练模型计算出的结果。
基于上述文本相似度计算方法,本发明还提供一种预测文本录入位置的方法,包含步骤:准备历史文本库,其中所述历史文本库中的样本与待预测文本的应用类型相同;通过上述文本相似度的计算方法,分别计算所述待预测文本与所述历史文本库中的各样本的相似度;选取相似度最高的所述样本作为所述待预测文本的参考样本;基于所述参考样本的录入位置预测所述待预测文本中的录入位置。
在一实施中,所述方法更包含步骤,对所述历史文本库中的样本中的录入位置进行标注,如此一来,可基于所述标注预测所述待预测文本中的对应的录入位置。
此外本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本相似度的计算方法。
以及一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述预测文本录入位置的方法。
综上所述,基于本发明提供的文本相似度计算方法,可借助于与待预测文本行业相同的历史样本的相似度,且结果可数值化,进一步的基于该方法和结果,可获得历史文本库中与待预测文本最接近的历史样本,并以此作为参考对待预测文本的录入位置进行预测,可较简便的获得一个初步的预测结果,以便于后续的处理和应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1绘示本发明一较佳实施例所提供的预测合同录入位置的方法流程图;
图2绘示本实施例所提供的一种文本相似度计算方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明所提供的技术方案主要应用于具有规范格式、包含用户录入内容及固定内容的行业文本,例如合同、协议、证明文件等。本说明书中将以合同为例,以预测合同录入位置的方法为切入点,对本发明所提供的技术方案进行详细说明。值得注意的是,本发明所提供的技术方案的应用范围并不限于此。
请参照图1,图1绘示本发明一较佳实施例所提供的预测合同录入位置的方法流程图。如图1所示,所述方法具体包含以下步骤:
S101,准备历史文本库。
具体而言,根据预测文本的应用类型,收集一定数量的历史样本,创建历史文本库。在本实施例中,则是收集与待预测合同相同应用类型的历史合同样本,应用类型的选取维度可以根据预设的应用范围来确定,例如本方法仅用于处理购房合同,那么历史样本的收集则集中在购房合同,若应用范围需求更广,那么可收集如产权交易类合同、民事合同等其他更广的范围。可以理解的是,预设的应用范围越小,收集到的样本与预测文本的贴近程度就越大,得到的分析结果就更加精准。
对历史文本库的准备,不仅包含收集历史样本,更包含根据后续的处理需求对各个样本进行预处理,关于预处理的方式将在下文中进行详细说明。
S102,通过预设文本相似度的计算方法,分别计算所述待预测文本与所述历史文本库中的各样本的相似度。
首先本步骤中所使用的文本相似度的计算方法具体可参见图2,图2绘示本实施例所提供的一种文本相似度计算方法流程图。
如图2所示,所述文本相似度方法包含步骤:
S201,对待比较的第一文本和第二文本进行预处理,得到所述第一文本和所述第二文本中分别包含的属性值。
S202,基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度。
S203,基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。
具体而言,在本实施例中,步骤S201中的待比较的第一文本为上述待预测文本,第二文本为上述历史样本。对该两份文本的预处理具体包含分别对待预测文本和历史样本进行分词处理,其中,在进行分词处理之后,将基于行业词典对分词结果进行校验,其中行业词典的选取与上述样本的选取类似,即根据实际的应用范围来选取或创建,例如贴近于待预测文本的行业词典来对分词结果进行校验,可较大程度的保证分词的正确率。
值得注意的是,在本方法中对待预测文本的分词处理和对历史样本的分词处理并非同步进行,历史样本的预处理在构建历史文本库时已完成并保存了结果,如此一来,将该些可预见的工作内容进行前置处理,则减轻了计算文本相似度时的处理任务量,提升了作业速度。
经过预处理后,基于分词结果可获得待预测文本和历史样本中各自包含的属性值。更进一步的,为了使得后续计算结果更加精准,可引入权重的概念,即对各个属性值进行权重设置,具体的,权重值的设置可根据分词出现的频率、经语义分析后在文本中的重要程度等维度进行考量,本发明对此并不作限制。
在步骤S202中,基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度的方法可包含,基于预设公式对文本中的属性值进行相似度的计算,具体公式如下:
其中,c1,c2分别表示所述第一文本,即待预测文本和第二文本,即历史样本,ci表示文本c的第i个属性,为两份所述待比较文本对应属性的相似度,V(ci)表示文本第i个属性的值,为所述待比较文本中对应属性值的相似度。
具体的,根据属性值的数据类型确定的取值,其中,当所述属性值的数据类型为数字时,取值为1;当所述属性值的数据类型为文本时,的取值为根据预设文本训练模型计算出的结果。其中,预设文本训练模型可包含基于word2vec事先训练一个文本相似度计算模型。
如此一来,根据属性值的数据类型不同,设置不同的计算方法,可在一定程度上提升计算结果的准确性。
在步骤S203中,基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度的方法可包含,基于预设公式对文本中的属性值进行相似度的计算,具体公式如下:
其中,c1,c2分别表示第一文本,即待预测文本和第二文本,即历史样本,ci表示文本c的第i个属性,wi为第i个属性的权重,S(c1,c2)为两份所述待比较文本的相似度,为两份所述待比较文本中对应属性的相似度。
也就是说基于步骤S202中对每个属性值的相似度的计算结果,以及各个属性值对应的权重值最终可计算得出两个文本的相似度。
值得注意的是,图2所示的文本相似度计算方法的应用范围并不限于本发明所提供的实施例,也可以应用在其他需要对两个文件相似度进行计算的应用领域。其中的属性值的确定、权重的设定以及函数的具体实现方法均可根据实际需求进行设定,并不受限于本说明书中揭露的内容。
请再次参照图1,在步骤S102中,可借助上述文本相似度计算方法得到待预测文本与历史样本的相似度,为了进一步获得最相近的历史样本,那么,可将待预测文本与历史文本库中的所有样本的相似度进行计算,然而,当历史文本库中历史样本的数量过于庞大时,也可以设定一个阈值,当计算匹配到相似度达到阈值的历史样本时,则停止与其他历史样本相似度计算的过程。
S103,选取相似度最高的所述样本作为所述待预测文本的参考样本。经过步骤S102的处理后,将得到待预测文本与各个历史样本的相似度,选取相似度最高的历史样本作为参考样本。由于上述相似度计算的结果为数值,那么可以直接根据数值的大小比较得出相似度最高的历史样本。
S104,基于所述参考样本的录入位置预测所述待预测文本中的录入位置。
经过上述步骤S101至S103的处理之后,从历史文本库中获取到与待预测文本最接近的参考文本之后,可基于参考文本的录入位置预测待预测文本中的录入位置。其中,所述录入位置是指用户输入的内容的填写位置,例如合同文本中,甲方姓名、合同金额等根据实际情况填写的内容的位置。
需要补充说明的是,在构建历史文本库时,对历史样本的预处理,不仅包含上述的分词处理,还包含对录入位置的标注,在本步骤中,可根据参考文本中标注的录入位置的信息对应到待预测文本的相应位置为用户录入位置。
如前文所述,合同文本具有规范的结构以及通用的固定内容,通过上述方法获取到待预测文本的录入位置后,可以进一步的获取到用户输入的内容,以助于后续的数据分析和处理。
此外,本发明还提供一种计算机可读存储介质,存储有计算机程序,其中计算机程序被处理器执行实现图1所示实施例中所述的预测文本录入位置的方法。
以及提供了一种计算机可读存储介质,存储有计算机程序,其中计算机程序被处理器执行实现图2所示实施例中所述的文本相似度的计算方法。
综上所述,基于本发明提供的文本相似度计算方法,可借助于与待预测文本行业相同的历史样本的相似度,且结果可数值化,进一步的基于该方法和结果,可获得历史文本库中与待预测文本最接近的历史样本,并以此作为参考对待预测文本的录入位置进行预测,可较简便的获得一个初步的预测结果,以便于后续的处理和应用。
值得注意的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种文本相似度的计算方法,其特征在于,包含步骤:
对待比较的第一文本和第二文本进行预处理,得到所述第一文本和所述第二文本中分别包含的属性值;
基于第一预设算法计算所述第一文本中各个所述属性值与所述第二文本中各个所述属性值的相似度;
基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本与所述第二文本的相似度。
2.如权利要求1所述的计算方法,其特征在于,所述对待比较的第一文本和第二文本进行预处理包含分别对所述第一文本和所述第二文本进行分词处理。
3.如权利要求1所述的计算方法,其特征在于,所述对待比较的第一文本和第二文本进行预处理包含对所述属性值设置权重,所述基于第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度的步骤更包含基于所述权重、所述第二预设算法及各个所述属性值的相似度计算得到所述第一文本和所述第二文本的相似度。
4.如权利要求3所述的计算方法,其特征在于,所述第二预设算法包含如下公式:
<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msup> <mi>c</mi> <mn>1</mn> </msup> <mo>,</mo> <msup> <mi>c</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>G</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,c1,c2分别表示所述第一文本和所述第二文本,ci表示文本c的第i个属性,wi为第i个属性的权重,S(c1,c2)为两份所述待比较文本的相似度,为两份所述待比较文本中对应属性的相似度。
5.如权利要求1所述的计算方法,其特征在于,所述第一预设算法包含如下公式:
<mrow> <mi>G</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>V</mi> <mo>(</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>1</mn> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mi>V</mi> <mrow> <mo>(</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mo>(</mo> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>c</mi> <mi>i</mi> </msub> <mi>i</mi> <mi>n</mi> <mi> </mi> <msup> <mi>c</mi> <mn>1</mn> </msup> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi> </mi> <msub> <mi>c</mi> <mi>i</mi> </msub> <mi>i</mi> <mi>n</mi> <mi> </mi> <msup> <mi>c</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mo>(</mo> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>
其中,c1,c2分别表示所述第一文本和所述第二文本,ci表示文本c的第i个属性,为两份所述待比较文本对应属性的相似度,V(ci)表示文本第i个属性的值,为所述待比较文本中对应属性值的相似度。
6.如权利要求5所述的计算方法,其特征在于,当所述属性值的数据类型为数字时,取值为1。
7.如权利要求5所述的计算方法,特征在于,当所述属性值的数据类型为文本时,的取值为根据预设文本训练模型计算出的结果。
8.一种预测文本录入位置的方法,其特征在于,包含步骤:
准备历史文本库,其中所述历史文本库中的样本与待预测文本的应用类型相同;
通过如权利要求1至7中任一项所述的文本相似度的计算方法,分别计算所述待预测文本与所述历史文本库中的各样本的相似度;
选取相似度最高的所述样本作为所述待预测文本的参考样本;
基于所述参考样本的录入位置预测所述待预测文本中的录入位置。
9.如权利要求8所述的预测文本录入位置的方法,其特征在于,更包含步骤,对所述历史文本库中的样本中的录入位置进行标注,如此一来,可基于所述标注预测所述待预测文本中的对应的录入位置。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本相似度的计算方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求8至9中任一项所述预测文本录入位置的方法。
CN201711251955.4A 2017-12-01 2017-12-01 一种文本相似度的计算方法及计算机可读存储介质 Pending CN107958061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711251955.4A CN107958061A (zh) 2017-12-01 2017-12-01 一种文本相似度的计算方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711251955.4A CN107958061A (zh) 2017-12-01 2017-12-01 一种文本相似度的计算方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107958061A true CN107958061A (zh) 2018-04-24

Family

ID=61963348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711251955.4A Pending CN107958061A (zh) 2017-12-01 2017-12-01 一种文本相似度的计算方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107958061A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109582759A (zh) * 2018-11-15 2019-04-05 中电科大数据研究院有限公司 一种衡量公文相似性的方法
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN120449885A (zh) * 2025-04-24 2025-08-08 广州工程技术职业学院 多语言合同智能比对方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN106610953A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于基尼指数求解文本相似度的方法
CN107153684A (zh) * 2017-04-24 2017-09-12 北京小米移动软件有限公司 推送消息的显示方法、装置和设备
CN107346344A (zh) * 2017-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本匹配的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN104102626A (zh) * 2014-07-07 2014-10-15 厦门推特信息科技有限公司 一种用于短文本语义相似度计算的方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN106610953A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 基于基尼指数求解文本相似度的方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN107153684A (zh) * 2017-04-24 2017-09-12 北京小米移动软件有限公司 推送消息的显示方法、装置和设备
CN107346344A (zh) * 2017-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本匹配的方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109165291B (zh) * 2018-06-29 2021-07-09 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109582759A (zh) * 2018-11-15 2019-04-05 中电科大数据研究院有限公司 一种衡量公文相似性的方法
CN109582759B (zh) * 2018-11-15 2021-10-22 中电科大数据研究院有限公司 一种衡量公文相似性的方法
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111460110B (zh) * 2019-01-22 2023-04-25 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN120449885A (zh) * 2025-04-24 2025-08-08 广州工程技术职业学院 多语言合同智能比对方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN109670191A (zh) 机器翻译的校准优化方法、装置与电子设备
CN110737768A (zh) 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN107958061A (zh) 一种文本相似度的计算方法及计算机可读存储介质
CN113836918A (zh) 文档搜索方法、装置、计算机设备及计算机可读存储介质
CN110059924A (zh) 合同条款的审查方法、装置、设备及计算机可读存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
Nassiri et al. Modern standard Arabic readability prediction
CN114021718A (zh) 模型行为可解释性方法、系统、介质及设备
US20240289552A1 (en) Character-level attention neural networks
CN111126031A (zh) 代码文本处理方法及相关产品
Motter et al. Lighthouse: an automated solver selection tool
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113822040A (zh) 一种主观题阅卷评分方法、装置、计算机设备及存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN105893363A (zh) 一种获取知识点的相关知识点的方法及系统
CN109117471A (zh) 一种词语相关度的计算方法及终端
CN119669534A (zh) 物料检索方法、装置、计算机设备及存储介质
CN119577078A (zh) 问答方法、装置、计算机设备及存储介质
CN119476238A (zh) 基于ai大模型的工程项目报告生成方法、装置及设备
Fukui et al. Predictive algorithm for converting linear strings to general mathematical formulae

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180424