CN106250524A - 一种基于语义信息的机构名抽取方法和装置 - Google Patents
一种基于语义信息的机构名抽取方法和装置 Download PDFInfo
- Publication number
- CN106250524A CN106250524A CN201610634682.0A CN201610634682A CN106250524A CN 106250524 A CN106250524 A CN 106250524A CN 201610634682 A CN201610634682 A CN 201610634682A CN 106250524 A CN106250524 A CN 106250524A
- Authority
- CN
- China
- Prior art keywords
- word
- name
- abbreviation
- words
- crf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义信息的机构名抽取方法和装置,该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比,提出了基于语义信息的机构名抽取装置,并且提出了使用维基百科自动构建机构名词典的方法;使用了基于图的聚类算法进行词语聚类,并且使用词语的类别特征作为语义特征;改进了图聚类算法CW,解决了其存在的震荡问题;构建了包含大量未登录机构名的测试语料,该语料更具有说服力;而且本发明提出的装置与目前最好的开源工具相比,F1值提高了8%左右。
Description
技术领域
本发明涉及一种机构名识别领域,具体地说是一种基于语义信息的机构名抽取方法和装置。
背景技术
命名实体识别及其关系抽取就是从文本中抽取出实体相关的知识的过程,是信息抽取的重要任务,是众多自然语言处理领域的基础,具有重要的研究意义和应用价值。
命名实体识别最初使用的方法就是基于规则的方法,是通过使用词法规则、语法规则甚至语义规则来进行命名实体的识别。规则一般都是由领域专家进行人工编写的,或者在人工编写的基础上从训练语料中学习得到新的规则。命名实体识别的过程即规则匹配的过程。基于规则的方法实现简单,准确率较高,然而由于规则的有限性,召回率较低。基于规则的系统需要花费大量的专业的人力资源,并且缺乏适应性。
基于统计的命名实体识别方法,是机器学习方法在自然语言处理领域的应用。条件随机场(Condition一种基于语义信息的机构名抽取方法和装置l R一种基于语义信息的机构名抽取方法和装置ndom Fields—CRF)是目前条件最好的序列标注的模型,其中最常用的是简单的一阶线性模型。基于统计的方法利用语料进行训练,然后根据训练好的模型进行识别。标注语料不需要专业人员,并且花费时间较短。这类系统可移植性较好。基于统计方法的系统其效果常常会受到语料库规模和质量的影响,并且在自然语言处理领域,往往因为语料规模小而产生过拟合。
机构名中存在大量的缩写现象,缩写经常出现在以下两种情况下:(1)这个缩写广为所知,例如全球著名的公司、机构,品牌等(2)该缩写并未广为所知,在前文中已经提到过该缩写的全称,并且有提及其简称。机构名简称的识别也是比较困难的问题。
维基百科是一个开放的、动态的、全球合作编辑的具有丰富知识的资源。维基百科通过模板规范化、协同编辑、邀请优秀学者编辑学术条目等方法来保证条目的可靠性、准确性和规范性,因此是非常好的无标注的训练语料,目前已有大量的研究基于维基百科来获取知识,最常见的是开放的关系抽取、命名实体消歧、本体构建以及语义网。
在各种评测会议上已经取得了较好的效果,也有学者认为命名实体识别这个问题并没有很好的解决,并且呼吁继续研究命名实体识别问题,原因如下:
命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名)中取得了效果。与其它信息检索领域相比,命名实体评测语料比较小,容易产生过拟合。通用的识别多种命名实体的系统性能很差。中文的命名实体识别与英文的相比,挑战更大,目前未解决的难题更多。此外,从评测效果来看,中文机构名的识别效果最差。
命名实体是一个开放集合,因此存在大量的未登录词(语料中不存在的词)。在评测的训练语料上有很好的效果,而在真实的环境中效果较差,其中的主要原因是算法过度拟合了训练语料,而泛化能力差。
MCL(The M一种基于语义信息的机构名抽取方法和装置rkov Cluster一种基于语义信息的机构名抽取方法和装置lgorithm)算法是一种图结构算法。在图中,一个聚类中的节点相互连接更加紧密,不同聚类之间的节点相互连接不太紧密。在图中进行随机游走,那么在一个聚类中进行游走的概率大于在不同聚类之中进行游走的概率。
Biem一种基于语义信息的机构名抽取方法和装置nn提出的CW(Chinese Whisper)算法是对MCL算法的改进,进行了更加严格的限制,使其收敛更快,从而能处理更多的场景。CW算法比较简单,其数学公式描述如下:
D0=In;//将D0初始化为单位矩阵
for e一种基于语义信息的机构名抽取方法和装置ch iter一种基于语义信息的机构名抽取方法和装置tion://每一次迭代
Dt-1=m一种基于语义信息的机构名抽取方法和装置xrow(Dt-1);//m一种基于语义信息的机构名抽取方法和装置xrow将矩阵汇总每一行的最大值设为1,其余设为0
Dt=Dt-1一种基于语义信息的机构名抽取方法和装置G;
CW算法的时间复杂度为O(k*|E|),与图中边的个数有关,而与节点个数无关。CW算法已经被应用在语言识别、词性标注和词义消解等任务中。因此CW算法比较适合具有稀疏性的NLP任务中。
发明内容
本发明的技术任务是提供一种基于语义信息的机构名抽取方法和装置。
本发明的技术任务是按以下方式实现的,一种基于语义信息的机构名抽取方法,方法步骤如下:
第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;
第二步,从训练数据中,结合传统的分词、词性标注和依存树特征,形成最终的特征;
第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;
第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;
第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。
优选的,包括震荡监测的CW算法;
对于每一条边,除了存储权重信息之外,还需要存储端点的类别信息,以及震荡的次数;
在节点中增加震荡次数检验,当震荡超过一定阈值时,把该节点标记为同一类别。
优选的,包括简称词典的构建方法:
从维基百科中构建机构名简称词典,首先需要识别哪些条目是表示机构名,然后从该条目的文字内容中识别机构名的简称,或者从重定向关系中识别机构名的简称,或者从其它条目的锚文本中获取机构名的简称。
优选的,包括特征模板的设计,根据以下规则设计特征模板:
从句子中出现机构名的尾词位置开始向前所形成的名词短语,有可能是机构名;
某些特定词语可以指示其上下文可能包含机构名,这些词语成为边界词;
某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名,这些词语称为依赖词;
所述的特征模板为:
T01 W[n] 当前词语;
T02 W[n-1] 当前位置前一位置的词语;
T03 W[n+1] 当前位置后一位置的词语;
T04 POS[n] 当前词语的词性;
T05 POS[n-1] 当前位置前一位置的词语的词性;
T06 POS[n+1] 当前位置后一位置的词语的词性;
T07 Class[n] 当前位置的聚类类别;
T08 InDict[n] 当前位置的词语是否在简称词典中;
T09 LDDependency[n] 当前位置的词语的左边直接依赖词语;
T10 RDDependency[n] 当前位置的词语的右边直接依赖词语;
T11 LIDDependency[n] 当前位置的词语的左边间接依赖词语;
T12 RIDDependency[n] 当前位置的词语的右边间接依赖词语;
T13 W[n]&&Pos[n-1] 当前位置的词语与其前一个位置的词语的词性;
T14 W[n]&&Class[n-1] 当前位置的词语与其前一个位置的词语的类别;
每一个特征模板对应着所有具有该含义的特征的集合;其中T1-T3是基于词语的上下文的特征,T4-T6是基于词语的词性特征,T7是基于词语的类别特征,T8是为了处理简称的问题,T9-T12是基于依存句法的特征,T13-T14是组合特征。
一种基于语义信息的机构名抽取装置,包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;
其中,简称词典构建模块和词语聚类模块用于生成更加丰富的特征;
CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型;
CRF识别模块是利用训练好的模型对未标注的数据进行识别,也可以用来进行算法的测试和评估。
本发明的一种基于语义信息的机构名抽取方法和装置和现有技术相比,主要贡献如下:
1、提出了基于语义信息的机构名抽取装置,并且提出了使用维基百科自动构建机构名词典的方法;
2、使用了基于图的聚类算法进行词语聚类,并且使用词语的类别特征作为语义特征;
3、改进了图聚类算法CW,提出的震荡检测CW算法,并未改变CW的时间复杂度,所以其时间复杂度仍然为O(k*|E|),由于使用了更加复杂的结构表示图中的边,空间占用略微提高,但是空间复杂度并没有改变。因此,本文提出的震荡检测CW算法保留了CW算法的高效性,又解决了其由于震荡而不能收敛的问题;
4、构建了包含大量未登录机构名的测试语料,该语料更具有说服力;
5、本发明提出的装置与目前最好的开源工具相比,F1值提高了8%左右。
附图说明
附图1为一种基于语义信息的机构名抽取方法的系统结构图;
附图2为CW算法的震荡现象的初始状态示意图;
附图3为CW算法的震荡现象的震荡中状态示意图;
具体实施方式
实施例1:
一种基于语义信息的机构名抽取方法,方法步骤如下:
第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;
第二步,从训练数据中,结合传统的分词、词性标注和依存树特征,形成最终的特征;
第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;
使用词语聚类算法CW对大量语料进行处理,自动得到词语的类别。
第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;
第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。
一种基于语义信息的机构名抽取装置,包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;
其中,简称词典构建模块和词语聚类模块用于生成更加丰富的特征;
CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型;
CRF识别模块是利用训练好的模型对未标注的数据进行识别,也可以用来进行算法的测试和评估。
震荡监测的CW算法;
对于每一条边,除了存储权重信息之外,还需要存储端点的类别信息,以及震荡的次数;
在节点中增加震荡次数检验,当震荡超过一定阈值时,把该节点标记为同一类别。
本发明提出了一种震荡检测算法,当震荡出现时,把震荡的点的类别设置为相同的类别。
见附图2,对于每一条边,除了存储权重信息之外,还需要存储端点的类别信息,以及震荡的次数。对于图中的第j条边Ej,Ej用一个元组表示Ej={W,CNi,CNk,NC}。其中W表示Ej的权重,Ej连接Ni和Nk两个节点,并假设Ej有一个隐式的方向,从Ni连向Nk,而CNi和CNk分别表示上一次迭代中Ni和Nk的类别,而NC表示本次迭代之前,边Ej上存在的震荡次数。
对于每一次迭代,使用CW算法计算出Ni和Nk的新的类别CNi'和CNk',那么Ej更新规则如下:
如果CNi'==CNk',则同一条边连接的两个点的类别相同,不属于震荡,Ej={W,CNi',CNk',0}
如果CNi'=CNk并且CNk'=CNi,那么发生震荡,Ej={W,CNi',CNk',NC+1}
否则,没有发生震荡,Ej={W,CNi',CNk',0}
如果震荡次数超过某一阈值之后,可以设置Ej={W,CNi',CNi',0}或Ej={W,CNk',CNi',0}。
如附图2、3中,附图2是初始状态,附图3是震荡中的另一状态,震荡现象发生时,在附图2和附图3中的状态之间循环切换。
如图中的节点中增加震荡次数检验,震荡超过一定阈值时,把图中的点标记为同一类别。
简称词典的构建方法:
维基百科可以从Media Wiki中下载原始的数据,也可以从DBPedia中获取解析好的元数据,包括连接信息,摘要信息,目录信息,参考信息等。
从维基百科中构建机构名简称词典,首先需要识别哪些条目是表示机构名,然后从该条目的文字内容中识别机构名的简称,或者从重定向关系中识别机构名的简称,或者从其它条目的锚文本中获取。
机构名简称特征,基于维基百科的语料自动取大量的机构名的简称。
机构名简称的自动抽取,使用维基百科中的条目的描述信息、使用维基百科中的链接锚节点进行抽取。
机构名条目的识别比较简单,可以根据条目的目录信息来进行构建。机构名的类别是个有限集,例如,“纳斯达克上市公司”,“美国软件公司”,等。使用规则的方法,如果该条目所属于的所有目录都是与机构名有关的,就说明该条目表示的是机构名,否则该条目表示的不是机构名。
基于条目的摘要信息抽取机构名简称。维基百科中的条目都具有一定的描述规范,摘要简要地描述条目的主要信息,对于机构名,一般会包括机构名的简称信息。维基百科的页面的摘要通常是以条目名称开头,或者是条目名称的全称或简称,并且以特殊的格式显示,例如黑体。本文使用正则表达式来抽取文本中所包含的机构名简称。
此外,利用条目之间的重定向关系补充简称词典。重定向关系,例如,当检索“WTO”时,会重定向到“世界卫生组织”。
由于分词的原因,简称词典中的机构名简称不一定都在一个词语中,例如“电子科大位于成都。”,被分词成“电子科大位于成都。”。,而“电子”和“科大”并不是简称词典中的一个条目。所以判断当前词语是否在简称词典中需要进行特殊处理,对句子进行提前匹配和标注,本文使用了基于字典树的方法。每一个特征模板对应着所有具有该含义的特征的集合。其中,T1-T3是基于词语的上下文的特征,T4-T6是基于词语的词性。
特征模板
条件随机场算法中最重要的是特征模板的设计。特征可以认为是训练语料的数据分布,可以从多个维度分析训练语料的分布。
NLP中的特征一般都是二值特征函数,只取0和1。基于词的机构名识别方法中,当前词标记为E_ORG,并且下一个位置的词为“学校”,可以表示为:
(公式1)
机构名识别中可以使用非常丰富的特征,例如句法特征,文法特征等。特征是专家通过对数据的理解来设计的,本发明提出几条规则来引导特征的设计。
从句子中出现机构名的尾词位置开始向前所形成的名词短语,有可能是机构名。
某些特定词语可以指示其上下文可能包含机构名,这些词语成为边界词。
某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名,这些词语称为依赖词。
根据以上三条指示规则以及经验,本发明设计的基于词的机构名的特征模板如表1所示。
表1特征模板
每一个特征模板对应着所有具有该含义的特征的集合。其中,T1-T3是基于词语的上下文的特征,T4-T6是基于词语的词性
特征,T7是基于词语的类别特征,T8是为了处理简称的问题,T9-T12是基于依存句法的特征,T13-T14是组合特征。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (5)
1.一种基于语义信息的机构名抽取方法,其特征在于,方法步骤如下:
第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;
第二步,从训练数据中,结合分词、词性标注和依存树特征,形成最终的特征;
第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;
第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;
第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。
2.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括震荡监测的CW算法;
对于每一条边,除了存储权重信息之外,还需要存储端点的类别信息,以及震荡的次数;
在节点中增加震荡次数检验,当震荡超过一定阈值时,把该节点标记为同一类别。
3.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括简称词典的构建方法:
从维基百科中构建机构名简称词典,首先需要识别哪些条目是表示机构名,然后从该条目的文字内容中识别机构名的简称,或者从重定向关系中识别机构名的简称,或者从其它条目的锚文本中获取机构名的简称。
4.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括特征模板的设计,根据以下规则设计特征模板:
从句子中出现机构名的尾词位置开始向前所形成的名词短语,有可能是机构名;
某些特定词语可以指示其上下文可能包含机构名,这些词语成为边界词;
某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名,这些词语称为依赖词;
所述的特征模板为:
T01 W[n] 当前词语;
T02 W[n-1] 当前位置前一位置的词语;
T03 W[n+1] 当前位置后一位置的词语;
T04 POS[n] 当前词语的词性;
T05 POS[n-1] 当前位置前一位置的词语的词性;
T06 POS[n+1] 当前位置后一位置的词语的词性;
T07 Class[n] 当前位置的聚类类别;
T08 InDict[n] 当前位置的词语是否在简称词典中;
T09 LDDependency[n] 当前位置的词语的左边直接依赖词语;
T10 RDDependency[n] 当前位置的词语的右边直接依赖词语;
T11 LIDDependency[n] 当前位置的词语的左边间接依赖词语;
T12 RIDDependency[n] 当前位置的词语的右边间接依赖词语;
T13 W[n]&&Pos[n-1] 当前位置的词语与其前一个位置的词语的词性;
T14 W[n]&&Class[n-1] 当前位置的词语与其前一个位置的词语的类别;
每一个特征模板对应着所有具有该含义的特征的集合;其中T1-T3是基于词语的上下文的特征,T4-T6是基于词语的词性特征,T7是基于词语的类别特征,T8是为了处理简称的问题,T9-T12是基于依存句法的特征,T13-T14是组合特征。
5.一种基于语义信息的机构名抽取装置,其特征在于,机构名抽取装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;
其中,简称词典构建模块和词语聚类模块用于生成更加丰富的特征;
CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型;
CRF识别模块是利用训练好的模型对未标注的数据进行识别,也可以用来进行算法的测试和评估。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610634682.0A CN106250524A (zh) | 2016-08-04 | 2016-08-04 | 一种基于语义信息的机构名抽取方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610634682.0A CN106250524A (zh) | 2016-08-04 | 2016-08-04 | 一种基于语义信息的机构名抽取方法和装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN106250524A true CN106250524A (zh) | 2016-12-21 |
Family
ID=58078513
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610634682.0A Pending CN106250524A (zh) | 2016-08-04 | 2016-08-04 | 一种基于语义信息的机构名抽取方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106250524A (zh) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106705974A (zh) * | 2016-12-30 | 2017-05-24 | 华北电力大学(保定) | 一种非受限路径自然语言的语义角色标注及语义提取方法 |
| CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
| CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
| CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
| CN109376202A (zh) * | 2018-10-30 | 2019-02-22 | 青岛理工大学 | 一种基于nlp的企业供应关系自动抽取分析方法 |
| CN111984776A (zh) * | 2020-08-20 | 2020-11-24 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
| CN113868312A (zh) * | 2021-10-13 | 2021-12-31 | 上海市研发公共服务平台管理中心 | 多方法融合的机构匹配方法、装置、设备和存储介质 |
| CN114036951A (zh) * | 2021-11-16 | 2022-02-11 | 北京明略软件系统有限公司 | 企业事件的确定方法、装置、电子设备及可读存储介质 |
| CN115858798A (zh) * | 2022-06-09 | 2023-03-28 | 国家计算机网络与信息安全管理中心 | 一种面向维基百科文本数据的事理图谱构建方法和系统 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2264183A1 (en) * | 2009-06-09 | 2010-12-22 | Gendiag.exe, S.L. | Risk markers for cardiovascular disease |
| CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
| CN104035975A (zh) * | 2014-05-23 | 2014-09-10 | 华东师范大学 | 一种利用中文在线资源实现远程监督人物关系抽取的方法 |
| CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
-
2016
- 2016-08-04 CN CN201610634682.0A patent/CN106250524A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2264183A1 (en) * | 2009-06-09 | 2010-12-22 | Gendiag.exe, S.L. | Risk markers for cardiovascular disease |
| CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
| CN104035975A (zh) * | 2014-05-23 | 2014-09-10 | 华东师范大学 | 一种利用中文在线资源实现远程监督人物关系抽取的方法 |
| CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106705974A (zh) * | 2016-12-30 | 2017-05-24 | 华北电力大学(保定) | 一种非受限路径自然语言的语义角色标注及语义提取方法 |
| CN106705974B (zh) * | 2016-12-30 | 2020-05-12 | 华北电力大学(保定) | 一种非受限路径自然语言的语义角色标注及语义提取方法 |
| CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
| CN107992597B (zh) * | 2017-12-13 | 2020-08-18 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
| CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
| CN108460014B (zh) * | 2018-02-07 | 2022-02-25 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
| CN108763195B (zh) * | 2018-05-02 | 2022-01-18 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
| CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
| CN109376202A (zh) * | 2018-10-30 | 2019-02-22 | 青岛理工大学 | 一种基于nlp的企业供应关系自动抽取分析方法 |
| CN109376202B (zh) * | 2018-10-30 | 2021-08-03 | 青岛理工大学 | 一种基于nlp的企业供应关系自动抽取分析方法 |
| CN111984776A (zh) * | 2020-08-20 | 2020-11-24 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
| CN111984776B (zh) * | 2020-08-20 | 2023-08-11 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
| CN113868312A (zh) * | 2021-10-13 | 2021-12-31 | 上海市研发公共服务平台管理中心 | 多方法融合的机构匹配方法、装置、设备和存储介质 |
| CN114036951A (zh) * | 2021-11-16 | 2022-02-11 | 北京明略软件系统有限公司 | 企业事件的确定方法、装置、电子设备及可读存储介质 |
| CN114036951B (zh) * | 2021-11-16 | 2025-02-18 | 北京明略软件系统有限公司 | 企业事件的确定方法、装置、电子设备及可读存储介质 |
| CN115858798A (zh) * | 2022-06-09 | 2023-03-28 | 国家计算机网络与信息安全管理中心 | 一种面向维基百科文本数据的事理图谱构建方法和系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
| JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
| CN106250524A (zh) | 一种基于语义信息的机构名抽取方法和装置 | |
| CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
| CN111708869B (zh) | 人机对话的处理方法及装置 | |
| CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
| CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
| US8156053B2 (en) | Automated tagging of documents | |
| CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
| CN111460787A (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
| CN110297913A (zh) | 一种电子公文实体抽取方法 | |
| CN108287911B (zh) | 一种基于约束化远程监督的关系抽取方法 | |
| CN103559193B (zh) | 一种基于选择单元的主题建模方法 | |
| Li et al. | A method for resume information extraction using bert-bilstm-crf | |
| CN102609427A (zh) | 舆情垂直搜索分析系统及方法 | |
| CN107133212B (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
| CN107402912A (zh) | 解析语义的方法和装置 | |
| CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
| CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
| CN111522948A (zh) | 一种智能处理公文的方法及其系统 | |
| CN111859887A (zh) | 一种基于深度学习的科技新闻自动写作系统 | |
| CN109241521B (zh) | 一种基于引用关系的科技文献高关注度句子提取方法 | |
| CN101271448A (zh) | 汉语基本名词短语的识别及其规则的生成方法和装置 | |
| CN108268669A (zh) | 一种基于多维词句特征和情感分析的关键新词发现方法 | |
| Outahajala et al. | Pos tagging in Amazighe using support vector machines and conditional random fields |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |
|
| RJ01 | Rejection of invention patent application after publication |