CN106250524A

CN106250524A - 一种基于语义信息的机构名抽取方法和装置

Info

Publication number: CN106250524A
Application number: CN201610634682.0A
Authority: CN
Inventors: 毛立花; 唐旋; 崔乐乐
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2016-08-04
Filing date: 2016-08-04
Publication date: 2016-12-21

Abstract

本发明公开了一种基于语义信息的机构名抽取方法和装置，该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块；该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比，提出了基于语义信息的机构名抽取装置，并且提出了使用维基百科自动构建机构名词典的方法；使用了基于图的聚类算法进行词语聚类，并且使用词语的类别特征作为语义特征；改进了图聚类算法CW，解决了其存在的震荡问题；构建了包含大量未登录机构名的测试语料，该语料更具有说服力；而且本发明提出的装置与目前最好的开源工具相比，F1值提高了8%左右。

Description

一种基于语义信息的机构名抽取方法和装置

技术领域

本发明涉及一种机构名识别领域，具体地说是一种基于语义信息的机构名抽取方法和装置。

背景技术

命名实体识别及其关系抽取就是从文本中抽取出实体相关的知识的过程，是信息抽取的重要任务，是众多自然语言处理领域的基础，具有重要的研究意义和应用价值。

命名实体识别最初使用的方法就是基于规则的方法，是通过使用词法规则、语法规则甚至语义规则来进行命名实体的识别。规则一般都是由领域专家进行人工编写的，或者在人工编写的基础上从训练语料中学习得到新的规则。命名实体识别的过程即规则匹配的过程。基于规则的方法实现简单，准确率较高，然而由于规则的有限性，召回率较低。基于规则的系统需要花费大量的专业的人力资源，并且缺乏适应性。

基于统计的命名实体识别方法，是机器学习方法在自然语言处理领域的应用。条件随机场(Condition一种基于语义信息的机构名抽取方法和装置l R一种基于语义信息的机构名抽取方法和装置ndom Fields—CRF)是目前条件最好的序列标注的模型，其中最常用的是简单的一阶线性模型。基于统计的方法利用语料进行训练，然后根据训练好的模型进行识别。标注语料不需要专业人员，并且花费时间较短。这类系统可移植性较好。基于统计方法的系统其效果常常会受到语料库规模和质量的影响，并且在自然语言处理领域，往往因为语料规模小而产生过拟合。

机构名中存在大量的缩写现象，缩写经常出现在以下两种情况下：(1)这个缩写广为所知，例如全球著名的公司、机构，品牌等(2)该缩写并未广为所知，在前文中已经提到过该缩写的全称，并且有提及其简称。机构名简称的识别也是比较困难的问题。

维基百科是一个开放的、动态的、全球合作编辑的具有丰富知识的资源。维基百科通过模板规范化、协同编辑、邀请优秀学者编辑学术条目等方法来保证条目的可靠性、准确性和规范性，因此是非常好的无标注的训练语料，目前已有大量的研究基于维基百科来获取知识，最常见的是开放的关系抽取、命名实体消歧、本体构建以及语义网。

在各种评测会议上已经取得了较好的效果，也有学者认为命名实体识别这个问题并没有很好的解决，并且呼吁继续研究命名实体识别问题，原因如下：

命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名)中取得了效果。与其它信息检索领域相比，命名实体评测语料比较小，容易产生过拟合。通用的识别多种命名实体的系统性能很差。中文的命名实体识别与英文的相比，挑战更大，目前未解决的难题更多。此外，从评测效果来看，中文机构名的识别效果最差。

命名实体是一个开放集合，因此存在大量的未登录词(语料中不存在的词)。在评测的训练语料上有很好的效果，而在真实的环境中效果较差，其中的主要原因是算法过度拟合了训练语料，而泛化能力差。

MCL(The M一种基于语义信息的机构名抽取方法和装置rkov Cluster一种基于语义信息的机构名抽取方法和装置lgorithm)算法是一种图结构算法。在图中，一个聚类中的节点相互连接更加紧密，不同聚类之间的节点相互连接不太紧密。在图中进行随机游走，那么在一个聚类中进行游走的概率大于在不同聚类之中进行游走的概率。

Biem一种基于语义信息的机构名抽取方法和装置nn提出的CW(Chinese Whisper)算法是对MCL算法的改进，进行了更加严格的限制，使其收敛更快，从而能处理更多的场景。CW算法比较简单，其数学公式描述如下：

D0＝In；//将D0初始化为单位矩阵

for e一种基于语义信息的机构名抽取方法和装置ch iter一种基于语义信息的机构名抽取方法和装置tion://每一次迭代

Dt-1＝m一种基于语义信息的机构名抽取方法和装置xrow(Dt-1)；//m一种基于语义信息的机构名抽取方法和装置xrow将矩阵汇总每一行的最大值设为1，其余设为0

Dt＝Dt-1一种基于语义信息的机构名抽取方法和装置G；

CW算法的时间复杂度为O(k*|E|)，与图中边的个数有关，而与节点个数无关。CW算法已经被应用在语言识别、词性标注和词义消解等任务中。因此CW算法比较适合具有稀疏性的NLP任务中。

发明内容

本发明的技术任务是提供一种基于语义信息的机构名抽取方法和装置。

本发明的技术任务是按以下方式实现的，一种基于语义信息的机构名抽取方法,方法步骤如下：

第一步，从维基百科中自动抽取机构名，进行简称词典的构建，利用简称词典，形成机构名简称特征；

第二步，从训练数据中，结合传统的分词、词性标注和依存树特征，形成最终的特征；

第三步，从维基百科文档中，进行正文提取、分词等预处理，使用CW聚类方法进行词语的聚类，使用词语的类别特征作为语义特征；

第四步，基于CRF进行训练时，提取机构名简称特征和词语类别的语义特征，利用CRF算法对标注的训练数据生成机构名是别的CRF模型，进行算法的测试和评估，标注结果；

第五步，对于未标注的数据，利用CRF识别进行算法的测试和评估，标注结果。

优选的，包括震荡监测的CW算法；

对于每一条边，除了存储权重信息之外，还需要存储端点的类别信息，以及震荡的次数；

在节点中增加震荡次数检验，当震荡超过一定阈值时，把该节点标记为同一类别。

优选的，包括简称词典的构建方法：

从维基百科中构建机构名简称词典，首先需要识别哪些条目是表示机构名，然后从该条目的文字内容中识别机构名的简称，或者从重定向关系中识别机构名的简称，或者从其它条目的锚文本中获取机构名的简称。

优选的，包括特征模板的设计，根据以下规则设计特征模板：

从句子中出现机构名的尾词位置开始向前所形成的名词短语，有可能是机构名；

某些特定词语可以指示其上下文可能包含机构名，这些词语成为边界词；

某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名，这些词语称为依赖词；

所述的特征模板为：

T01 W[n] 当前词语；

T02 W[n-1] 当前位置前一位置的词语；

T03 W[n+1] 当前位置后一位置的词语；

T04 POS[n] 当前词语的词性；

T05 POS[n-1] 当前位置前一位置的词语的词性；

T06 POS[n+1] 当前位置后一位置的词语的词性；

T07 Class[n] 当前位置的聚类类别；

T08 InDict[n] 当前位置的词语是否在简称词典中；

T09 LDDependency[n] 当前位置的词语的左边直接依赖词语；

T10 RDDependency[n] 当前位置的词语的右边直接依赖词语；

T11 LIDDependency[n] 当前位置的词语的左边间接依赖词语；

T12 RIDDependency[n] 当前位置的词语的右边间接依赖词语；

T13 W[n]&&Pos[n-1] 当前位置的词语与其前一个位置的词语的词性；

T14 W[n]&&Class[n-1] 当前位置的词语与其前一个位置的词语的类别；

每一个特征模板对应着所有具有该含义的特征的集合；其中T1-T3是基于词语的上下文的特征，T4-T6是基于词语的词性特征，T7是基于词语的类别特征，T8是为了处理简称的问题，T9-T12是基于依存句法的特征，T13-T14是组合特征。

一种基于语义信息的机构名抽取装置，包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块；

其中，简称词典构建模块和词语聚类模块用于生成更加丰富的特征；

CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型；

CRF识别模块是利用训练好的模型对未标注的数据进行识别，也可以用来进行算法的测试和评估。

本发明的一种基于语义信息的机构名抽取方法和装置和现有技术相比，主要贡献如下：

1、提出了基于语义信息的机构名抽取装置，并且提出了使用维基百科自动构建机构名词典的方法；

2、使用了基于图的聚类算法进行词语聚类，并且使用词语的类别特征作为语义特征；

3、改进了图聚类算法CW，提出的震荡检测CW算法，并未改变CW的时间复杂度，所以其时间复杂度仍然为O(k*|E|)，由于使用了更加复杂的结构表示图中的边，空间占用略微提高，但是空间复杂度并没有改变。因此，本文提出的震荡检测CW算法保留了CW算法的高效性，又解决了其由于震荡而不能收敛的问题；

4、构建了包含大量未登录机构名的测试语料，该语料更具有说服力；

5、本发明提出的装置与目前最好的开源工具相比，F1值提高了8％左右。

附图说明

附图1为一种基于语义信息的机构名抽取方法的系统结构图；

附图2为CW算法的震荡现象的初始状态示意图；

附图3为CW算法的震荡现象的震荡中状态示意图；

具体实施方式

实施例1：

一种基于语义信息的机构名抽取方法,方法步骤如下：

使用词语聚类算法CW对大量语料进行处理，自动得到词语的类别。

震荡监测的CW算法；

本发明提出了一种震荡检测算法，当震荡出现时，把震荡的点的类别设置为相同的类别。

见附图2，对于每一条边，除了存储权重信息之外，还需要存储端点的类别信息，以及震荡的次数。对于图中的第j条边Ej，Ej用一个元组表示Ej＝{W，CNi，CNk，NC}。其中W表示Ej的权重，Ej连接Ni和Nk两个节点，并假设Ej有一个隐式的方向，从Ni连向Nk，而CNi和CNk分别表示上一次迭代中Ni和Nk的类别，而NC表示本次迭代之前，边Ej上存在的震荡次数。

对于每一次迭代，使用CW算法计算出Ni和Nk的新的类别CNi'和CNk'，那么Ej更新规则如下：

如果CNi'＝＝CNk'，则同一条边连接的两个点的类别相同，不属于震荡，Ej＝{W，CNi'，CNk'，0}

如果CNi'＝CNk并且CNk'＝CNi，那么发生震荡，Ej＝{W，CNi'，CNk'，NC+1}

否则，没有发生震荡，Ej＝{W，CNi'，CNk'，0}

如果震荡次数超过某一阈值之后，可以设置Ej＝{W，CNi'，CNi'，0}或Ej＝{W，CNk'，CNi'，0}。

如附图2、3中，附图2是初始状态，附图3是震荡中的另一状态，震荡现象发生时，在附图2和附图3中的状态之间循环切换。

如图中的节点中增加震荡次数检验，震荡超过一定阈值时，把图中的点标记为同一类别。

简称词典的构建方法：

维基百科可以从Media Wiki中下载原始的数据，也可以从DBPedia中获取解析好的元数据，包括连接信息，摘要信息，目录信息，参考信息等。

从维基百科中构建机构名简称词典，首先需要识别哪些条目是表示机构名，然后从该条目的文字内容中识别机构名的简称，或者从重定向关系中识别机构名的简称，或者从其它条目的锚文本中获取。

机构名简称特征，基于维基百科的语料自动取大量的机构名的简称。

机构名简称的自动抽取，使用维基百科中的条目的描述信息、使用维基百科中的链接锚节点进行抽取。

机构名条目的识别比较简单，可以根据条目的目录信息来进行构建。机构名的类别是个有限集，例如，“纳斯达克上市公司”，“美国软件公司”，等。使用规则的方法，如果该条目所属于的所有目录都是与机构名有关的，就说明该条目表示的是机构名，否则该条目表示的不是机构名。

基于条目的摘要信息抽取机构名简称。维基百科中的条目都具有一定的描述规范，摘要简要地描述条目的主要信息，对于机构名，一般会包括机构名的简称信息。维基百科的页面的摘要通常是以条目名称开头，或者是条目名称的全称或简称，并且以特殊的格式显示，例如黑体。本文使用正则表达式来抽取文本中所包含的机构名简称。

此外，利用条目之间的重定向关系补充简称词典。重定向关系，例如，当检索“WTO”时，会重定向到“世界卫生组织”。

由于分词的原因，简称词典中的机构名简称不一定都在一个词语中，例如“电子科大位于成都。”，被分词成“电子科大位于成都。”。，而“电子”和“科大”并不是简称词典中的一个条目。所以判断当前词语是否在简称词典中需要进行特殊处理，对句子进行提前匹配和标注，本文使用了基于字典树的方法。每一个特征模板对应着所有具有该含义的特征的集合。其中，T1-T3是基于词语的上下文的特征，T4-T6是基于词语的词性。

特征模板

条件随机场算法中最重要的是特征模板的设计。特征可以认为是训练语料的数据分布，可以从多个维度分析训练语料的分布。

NLP中的特征一般都是二值特征函数，只取0和1。基于词的机构名识别方法中，当前词标记为E_ORG，并且下一个位置的词为“学校”，可以表示为：

(公式1)

机构名识别中可以使用非常丰富的特征，例如句法特征，文法特征等。特征是专家通过对数据的理解来设计的，本发明提出几条规则来引导特征的设计。

从句子中出现机构名的尾词位置开始向前所形成的名词短语，有可能是机构名。

某些特定词语可以指示其上下文可能包含机构名，这些词语成为边界词。

某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名，这些词语称为依赖词。

根据以上三条指示规则以及经验，本发明设计的基于词的机构名的特征模板如表1所示。

表1特征模板

每一个特征模板对应着所有具有该含义的特征的集合。其中，T1-T3是基于词语的上下文的特征，T4-T6是基于词语的词性

特征，T7是基于词语的类别特征，T8是为了处理简称的问题，T9-T12是基于依存句法的特征，T13-T14是组合特征。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

Claims

1.一种基于语义信息的机构名抽取方法，其特征在于,方法步骤如下：

第二步，从训练数据中，结合分词、词性标注和依存树特征，形成最终的特征；

2.根据权利要求1所述的一种基于语义信息的机构名抽取方法，其特征在于，包括震荡监测的CW算法；

3.根据权利要求1所述的一种基于语义信息的机构名抽取方法，其特征在于，包括简称词典的构建方法：

4.根据权利要求1所述的一种基于语义信息的机构名抽取方法，其特征在于，包括特征模板的设计，根据以下规则设计特征模板：