[go: up one dir, main page]

CN104035975A - 一种利用中文在线资源实现远程监督人物关系抽取的方法 - Google Patents

一种利用中文在线资源实现远程监督人物关系抽取的方法 Download PDF

Info

Publication number
CN104035975A
CN104035975A CN201410219184.0A CN201410219184A CN104035975A CN 104035975 A CN104035975 A CN 104035975A CN 201410219184 A CN201410219184 A CN 201410219184A CN 104035975 A CN104035975 A CN 104035975A
Authority
CN
China
Prior art keywords
name
relationship
relation
matrix
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410219184.0A
Other languages
English (en)
Other versions
CN104035975B (zh
Inventor
杨静
潘云
郝娟
杨辰翌
黄保荃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410219184.0A priority Critical patent/CN104035975B/zh
Publication of CN104035975A publication Critical patent/CN104035975A/zh
Application granted granted Critical
Publication of CN104035975B publication Critical patent/CN104035975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种利用中文在线资源实现远程监督人物关系抽取的方法,该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征,并将人名对与知识库中关系实例相互匹配,得到标记关系的人名对集合和未标记的人名对集合。最后,引入标签传播算法实现未标记人名对的关系匹配,从而实现人物关系抽取。本发明能够自动构建人物关系知识库,其中涵盖了更为丰富、准确的关系类型,基于该知识库,引入标签传播算法实现远程监督的中文人物关系抽取,保证了关系抽取结果的准确性。

Description

一种利用中文在线资源实现远程监督人物关系抽取的方法
技术领域
本发明涉及的技术领域包括网页信息爬取、文本预处理、特征提取、人物对相似度计算、标签传播算法等,其中文本预处理包括分句、分词、词性标注和人名识别等技术。总的来说,本发明是关系抽取领域中一种对中文人物关系有效的抽取方法,利用大量在线资源采用远程监督学习方法以抽取人物关系。
背景技术
自然语言处理(NLP)中,信息抽取是一个重要的研究领域,并得到广泛实际应用。信息抽取是指从自然文本中抽取出结构化的信息,以帮助人们从海量信息中快速找到有用的信息。其中,人物关系抽取是信息抽取研究的一个重要方向,被广泛应用于人际网络分析、社交网络服务和犯罪组织关系抽取等实际领域。
现有的人物关系抽取方法可以分为有监督学习、半监督学习和无监督学习,其中最近几年提出的远程监督学习被认为是半监督学习的一种。有监督学习需要依赖领域专家编写关系模式,成本较高且移植性较差。无监督学习采用聚类方法实现关系类型及对应实例的自动抽取,不需要人工干预,但所得关系类型较粗糙,不能合适地表达人物关系,并且准确率较低。常用的半监督学习采用少量种子不断迭代,获取更多人物关系实例,折中了有监督和无监督学习的优缺点,因此被广泛采用。但半监督学习方法存在以下不足:1)不断迭代容易产生语义漂移问题,从而降低准确率;2)需要事先定义人物关系类型,易导致定义的关系类型不够全面,例如以往的方法中所定义的关系类型都没有涵盖“敌对”、“邻里”等出现频率不高的关系。而最近几年提出的远程监督方法利用已有的大量结构化数据,即利用含有关系实例的知识库,来抽取更多的关系实例,由于知识库规模较大,涵盖关系类型丰富,且不需要不断循环迭代,从而保证了准确率。但在中文人物关系抽取中,远程监督方法迟迟没有得到应用,这和没有大规模可用的中文关系知识库有必然联系。
发明内容
本发明的目的是针对现有技术的不足而提供的一种新的中文人物关系抽取方法,利用中文百科网站中的关系信息自动构建人物关系知识库,采用远程监督的方法实现关系抽取。该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征,并将人名对与知识库中关系实例相互匹配,得到标记关系的人名对集合和未标记的人名对集合。最后,引入标签传播算法实现未标记人名对的关系匹配,从而实现人物关系抽取。
实现本发明目的的具体技术方案是:
一种利用中文在线资源实现远程监督人物关系抽取的方法,该方法包括以下具体步骤:
1)构建人物关系知识库 ,利用中文在线百科中人名词条下的人物关系信息自动构建知识库;具体包括:
利用中文在线百科来构建知识库,以人名为关键字提交到在线百科网站的搜索入口,则显示有关大量信息的页面,其中包括的人际关系信息,并以列表形式呈现在网页中。提取出的人物关系信息并存入结构为三元组中,其中为人名,表示人物关系描述词。利用网络爬虫的程序不断获得新的人名词条的人物关系信息,构建大规模的知识库
2)对待抽取人物关系的语料库(生语料库)进行标记处理,具体包括:
首先对语料库进行预处理,包括分句、分词、词性标注以及人名识别。抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过设定阈值的人名对及其上下文窗口中的文本信息,其中表示句子中前的词语集合,表示之间的词语集合,表示后的词语集合。对每一个,依次查找在知识库中是否存在,若存在,则将该人名对标记上对应的关系,并添加到标记人物对集合中;若不存在,则将该人名对添加到未标记的人物对集合中。
3)采用标签传播算法实现为中人物对匹配最可能的关系,且表示标记人名对集合中所有关系类型的集合,具体包括:
采用标签传播算法,并简化其中已标记的样本数据,在集合中根据将人名对分成类。在构造转移矩阵和标签矩阵时,将其中的已标记样本节点替换成为关系类型节点。具体来说,的矩阵中的每个元素根据公式(1)(2)(3)计算,其中表示标记为关系的所有人名对集合,是指人名对和人名对之间的相似度。
由计算公式可知,转移矩阵是一个对称矩阵。而的矩阵,前行为单位矩阵,由于最终收敛,后行的值可随机取值。
(1)
(2)
(3)
转移矩阵与标签矩阵相乘,得到的矩阵校正前行为单位矩阵,如此不断与相乘,得到最终收敛的,将后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上。并且,如果中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”。
从而,实现了对未标记人名对的关系匹配,即实现了中文人物关系抽取任务。
本发明的有益效果
根据本发明的实现步骤,能够自动构建人物关系知识库,其中涵盖了更为丰富、准确的关系类型,基于该知识库,引入标签传播算法实现远程监督的中文人物关系抽取,保证了关系抽取结果的准确性。
附图说明
图1为本发明流程图;
图2为互动百科中以“XX”为输入关键字获得的人物关系图;
图3为本发明标签传播算法的流程图;
图4为本发明实施例中基于互动百科和SogouC语料库的实验结果图。
具体实施方式
本发明利用在线百科中半结构化数据自动构建人物关系知识库,并基于该知识库,与生语料库中人物对相互匹配,得到标记关系的人物对集合和未标记关系的人物对集合,引入标签传播算法利用已标记的人物对为未标记人物对匹配上最恰当的关系类型,从而实现关系抽取。
实施例
本发明利用中文在线百科构建知识库,并在生语料库中实现人物关系抽取。以下的实施例中选取互动百科中数据构建知识库,选取搜狗实验室发布的SogouC语料库作为生语料库,并结合附图,对本发明做进一步阐述。
参阅图1,首先从互动百科中自动构建结构为三元组的知识库
以人名为关键字提交到互动百科搜索入口,则在其介绍页面中含有结构化的人物关系数据。例如输入“XX”,获得与XX相关的人物及其对应关系类型,如图2所示。选取十个不同领域的代表人物作为人名搜索的种子,逐次获得每个种子的人物关系列表,存入知识库中,并将关系人物作为下一轮人物搜索的关键字,如此迭代,不断扩充知识库。最终构建的HDKB中含有14051个人物关系对,共有982种关系描述词。
但由于存在颗粒度太细的关系描述词,不适合用于人物关系抽取,于是采用人机交互的方式对关系描述词按如下规则做处理:
a)对过于细致的描述词,进行泛化,划分到颗粒度较粗的关系类型中。
b)对含有备注的描述词,去除备注部分,再作a)情况的处理。
同时,将泛化前的关系描述词作为对应关系类型的特征词,从而得到每种关系类型的特征词集。最后本实施例中得到18种人物关系类型,有日常生活中最常见的人物关系(包括父母、合作、兄弟姐妹、师生、夫妻、亲戚、祖孙、情侣、好友、同门和上下级)以及社会中出现的概率较小但对于分析人际关系网络具有重要意义的人物关系(包括经纪人、扮演、敌对、崇拜、同行、邻里和共指)。
参阅图1,需要对SogouC语料库进行文本处理,以抽取出人物对和上下文特征。
在本实施例中,采用标点符号对文本进行分句,并采用中科院的分词软件ICTCLAS进行分词和词性标注,并且制定规则获取人名实体。从而抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过一定阈值的人名对及其上下文窗口中的文本信息。根据统计部分共现句中人名的词距,本实施例中设定该阈值为15。
所获得的共现人名对与知识库HDKB相互匹配,以得到标记关系的人名对集合和未标记关系的人名对集合。
参阅图1,接下来引用标签传播算法为未标记关系的人名对都匹配上最恰当的关系类型。
标签传播算法的流程图如图3所示,本实施例中,根据以下三个公式计算的转移矩阵,其中表示标记为关系的所有人名对集合,是指人名对和人名对之间的相似度。
的标签矩阵,前行为单位矩阵,由于最终收敛,后行的值可随机取值。
根据图3的流程得到最终收敛的,将该矩阵后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上。并且,如果中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”。本实施例中,经过不断调优,设定该阈值为0.02。
具体的说,本实施例中,在计算人名对之间的相似度时,考虑以下三种特征:
a)人名对上下文窗口中的词条(过滤掉停用词);
b)人物关系特征词。基于知识库中关系类型泛化处理时所获得的特征词集,人名对间的相似度计算考虑两个人名对的上下文中是否存在同一关系的特征词;
c)人名对上下文窗口中的词性特征。
对未标记人名对匹配上的关系类型进行人工标注,分为匹配正确和匹配错误,从而计算实验结果的准确率。实施例中的实验结果如图4所示,表明本发明的方法,即利用中文在线资源的远程监督人物关系抽取方法,能够在自动获取更丰富、准确的关系类型情况下,保证了较好的准确率。

Claims (1)

1.一种利用中文在线资源实现远程监督人物关系抽取的方法,其特征在于该方法包括以下具体步骤:
1)构建人物关系知识库 ,具体包括:
利用中文在线百科来构建知识库,以人名为关键字提交到在线百科网站的搜索入口,则显示有关大量信息的页面,其中包括的人际关系信息,并以列表形式呈现在网页中;提取出的人物关系信息并以此构建相同结构的人物关系知识库,其中为人名,表示人物关系描述词;
2)对待抽取人物关系的语料库即生语料库进行标记处理,具体包括:
对语料库进行预处理,包括分句、分词、词性标注以及人名识别;抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过所定阈值的人名对及其上下文窗口中的文本信息,其中表示句子中前的词语集合,表示之间的词语集合,表示后的词语集合;对每一个,依次查找在知识库中是否存在,若存在,则将该人名对标记上对应的关系,并添加到标记人物对集合中;若不存在,则将该人名对添加到未标记的人物对集合中;
3) 采用标签传播算法实现为未标记的人物对集合中人物对匹配最可能的关系,且表示标记人名对集合中所有关系类型的集合,具体包括:
利用标签传播算法,并简化其中已标记的样本数据,在集合中根据将人名对分成类;在构造转移矩阵和标签矩阵时,将其中的已标记样本节点替换成为关系类型节点;具体来说,的矩阵中的每个元素根据公式(1)(2)(3)计算,其中表示标记为关系的所有人名对集合,是指人名对和人名对之间的相似度;
由计算公式可知,转移矩阵是一个对称矩阵;而的矩阵,前行为单位矩阵,由于最终收敛,后行的值可随机取值;
(1)
(2)
(3)
转移矩阵与标签矩阵相乘,得到的矩阵校正前行为单位矩阵,如此不断与相乘,得到最终收敛的,将后行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上;并且,如果中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”;实现对未标记人名对的关系匹配,即实现了中文人物关系抽取。
CN201410219184.0A 2014-05-23 2014-05-23 一种利用中文在线资源实现远程监督人物关系抽取的方法 Active CN104035975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410219184.0A CN104035975B (zh) 2014-05-23 2014-05-23 一种利用中文在线资源实现远程监督人物关系抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410219184.0A CN104035975B (zh) 2014-05-23 2014-05-23 一种利用中文在线资源实现远程监督人物关系抽取的方法

Publications (2)

Publication Number Publication Date
CN104035975A true CN104035975A (zh) 2014-09-10
CN104035975B CN104035975B (zh) 2017-07-25

Family

ID=51466745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410219184.0A Active CN104035975B (zh) 2014-05-23 2014-05-23 一种利用中文在线资源实现远程监督人物关系抽取的方法

Country Status (1)

Country Link
CN (1) CN104035975B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488030A (zh) * 2015-12-02 2016-04-13 福建天晴数码有限公司 获取正极性汉字的方法和装置
CN105912579A (zh) * 2016-04-01 2016-08-31 东软集团股份有限公司 一种人物关系图谱的生成方法及装置
CN106250524A (zh) * 2016-08-04 2016-12-21 浪潮软件集团有限公司 一种基于语义信息的机构名抽取方法和装置
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106970981A (zh) * 2017-03-28 2017-07-21 北京大学 一种基于转移矩阵构建关系抽取模型的方法
CN107077463A (zh) * 2014-10-02 2017-08-18 微软技术许可有限责任公司 远程监督关系提取器
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109213750A (zh) * 2017-06-30 2019-01-15 勤智数码科技股份有限公司 一种基于知识库标签的信息资源推荐方法
CN109388648A (zh) * 2018-08-15 2019-02-26 王小易 一种在电子笔录中提取人员信息及关系人的方法
CN109597879A (zh) * 2018-11-30 2019-04-09 京华信息科技股份有限公司 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质
CN113076718A (zh) * 2021-04-09 2021-07-06 苏州爱语认知智能科技有限公司 一种商品属性抽取方法及其系统
CN113255358A (zh) * 2021-07-12 2021-08-13 湖南工商大学 一种基于事件远程监督的多标签人物关系自动标注方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662998A (zh) * 2012-03-14 2012-09-12 华侨大学 一种基于百度百科的文本语义主题抽取方法
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662998A (zh) * 2012-03-14 2012-09-12 华侨大学 一种基于百度百科的文本语义主题抽取方法
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIKE MINTZ等: "Distant supervision for relation extraction without labeled data", 《ACL "09 PROCEEDINGS OF THE JOINT CONFERENCE OF THE 47TH ANNUAL MEETING OF THE ACL AND THE 4TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING OF THE AFNLP》 *
李赟: "基于中文维基百科的语义知识挖掘相关研究", 《中国博士学位论文全文数据库信息科技辑 》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077463A (zh) * 2014-10-02 2017-08-18 微软技术许可有限责任公司 远程监督关系提取器
CN105488030A (zh) * 2015-12-02 2016-04-13 福建天晴数码有限公司 获取正极性汉字的方法和装置
CN105912579A (zh) * 2016-04-01 2016-08-31 东软集团股份有限公司 一种人物关系图谱的生成方法及装置
CN106250524A (zh) * 2016-08-04 2016-12-21 浪潮软件集团有限公司 一种基于语义信息的机构名抽取方法和装置
CN106875014B (zh) * 2017-03-02 2021-06-15 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106970981A (zh) * 2017-03-28 2017-07-21 北京大学 一种基于转移矩阵构建关系抽取模型的方法
CN106970981B (zh) * 2017-03-28 2021-01-19 北京大学 一种基于转移矩阵构建关系抽取模型的方法
CN109213750A (zh) * 2017-06-30 2019-01-15 勤智数码科技股份有限公司 一种基于知识库标签的信息资源推荐方法
CN109213750B (zh) * 2017-06-30 2024-04-16 勤智数码科技股份有限公司 一种基于知识库标签的信息资源推荐方法
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109388648A (zh) * 2018-08-15 2019-02-26 王小易 一种在电子笔录中提取人员信息及关系人的方法
CN109388648B (zh) * 2018-08-15 2022-02-18 王小易 一种在电子笔录中提取人员信息及关系人的方法
CN109597879A (zh) * 2018-11-30 2019-04-09 京华信息科技股份有限公司 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质
CN113076718A (zh) * 2021-04-09 2021-07-06 苏州爱语认知智能科技有限公司 一种商品属性抽取方法及其系统
CN113255358A (zh) * 2021-07-12 2021-08-13 湖南工商大学 一种基于事件远程监督的多标签人物关系自动标注方法
CN113255358B (zh) * 2021-07-12 2021-09-17 湖南工商大学 一种基于事件远程监督的多标签人物关系自动标注方法

Also Published As

Publication number Publication date
CN104035975B (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
CN104035975A (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110825721B (zh) 大数据环境下高血压知识库构建与系统集成方法
CN110502644B (zh) 一种领域层级词典挖掘构建的主动学习方法
CN111813931B (zh) 事件检测模型的构建方法、装置、电子设备及存储介质
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN109325112B (zh) 一种基于emoji的跨语言情感分析方法和装置
Tsarfaty et al. What’s wrong with Hebrew NLP? and how to make it right
WO2020000848A1 (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN103778200B (zh) 一种报文信息源抽取方法及其系统
CN103955531A (zh) 基于命名实体库的在线知识地图
Nasim et al. Sentiment analysis on urdu tweets using markov chains
CN107808278A (zh) 一种基于稀疏自编码器的Github开源项目推荐方法
CN103176963A (zh) 基于crf++汉语句义结构模型自动标注方法
CN112948570A (zh) 无监督的领域知识图谱自动化构建系统
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN103336852A (zh) 跨语言本体构建方法及装置
CN104809105B (zh) 基于最大熵的事件论元及论元角色的识别方法及系统
CN115510242A (zh) 一种中医文本实体关系联合抽取方法
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN108563725A (zh) 一种中文症状体征构成识别方法
Wang et al. RSRNeT: a novel multi-modal network framework for named entity recognition and relation extraction
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115827884B (zh) 文本处理方法、装置、电子设备、介质及程序产品
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant