[go: up one dir, main page]

CN1977261B - 用于字序列处理的方法和系统 - Google Patents

用于字序列处理的方法和系统 Download PDF

Info

Publication number
CN1977261B
CN1977261B CN2005800174144A CN200580017414A CN1977261B CN 1977261 B CN1977261 B CN 1977261B CN 2005800174144 A CN2005800174144 A CN 2005800174144A CN 200580017414 A CN200580017414 A CN 200580017414A CN 1977261 B CN1977261 B CN 1977261B
Authority
CN
China
Prior art keywords
sample
standard
named entity
word
diversity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800174144A
Other languages
English (en)
Other versions
CN1977261A (zh
Inventor
苏俭
沈丹
张捷
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN1977261A publication Critical patent/CN1977261A/zh
Application granted granted Critical
Publication of CN1977261B publication Critical patent/CN1977261B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种命名实体识别的方法和系统。一种方法其组成为:选择一个或多个进行人工标识的样本,其中各样本由包含命名实体及其上下文的字序列组成,以及基于将标识过的样本作为训练数据来对命名实体模型进行再训练。

Description

用于字序列处理的方法和系统
技术领域
本发明广泛涉及用于字序列处理的方法和系统,特别涉及用于命名实体识别的方法和系统、用于实施字序列处理任务的方法和系统,以及数据存储媒介。
背景技术
命名实体(NE)识别是许多复杂的自然语言处理(NLP)任务,比如信息提取,的基本步骤。当前,NE识别器是通过使用基于规则的方法或者被动机器学习方法来进行研发的。对于基于规则的方法,对每个新的域或者任务都需要重建规则集合。对于被动机器学习方法,为了获得较好的性能,需要诸如MUC和GENIA之类的大量的标注语料库。然而,对很大的语料库进行标注是很困难的,而且很花时间。在一组被动机器学习方法中,使用了支持向量机(SVM)。
另一方面,主动学习是基于这样一种假设:在给定的域或任务中,存在着少数的标注样本和大量的未标注样本。与整个语料库都是手工标注的被动学习不同,主动学习选择要标注的样本并将标注过的样本添加到再训练模型的训练集中。这个过程不断重复直到该模型达到特定级别的性能。实际上,再训练该模型同时会选择一批样本,这通常被称为基于批量的样本选择,这是因为如果每次只增加一个样本到训练集中,那对模型进行再训练会是一件很花时间的事。基于批量的采样选择领域内现存的工作集中在两种方法上来选择样本,分别称为基于确定性的方法和基于委员会的方法。在许多低复杂度的NLP任务比如语言模式(POS)标签、场景事件提取、文本分类和统计传递中已经对主动学习进行了探究,而在NE识别器中还没有进行探究或实现。
发明内容
依照本发明的第一方面,提供了一种命名实体识别的方法,该方法包括:选择一个或多个进行人工标记的样本,其中各个样本由含有命名实体及其上下文的字序列组成;以及基于将标记过的样本作为训练数据对命名实体识别模型进行再训练。
该选择可以基于由信息性标准、典型性标准和多样性标准组成的组中的一个或多个标准。
该选择可以更进一步地包括对选中的序列应用两种或多种标准的策略。
该策略可包括合并两种或多种标准为一个单一的标准。
依照本发明的第二方面,提供了一种实施字序列处理任务的方法,该方法包括:基于信息性标准、典型性标准和多样性标准选择进行人工标识的一个或多个样本,以及基于将标识样本作为训练数据对命名实体识别模型进行再训练。
字序列处理任务可以包括一个或多个由POS标注、拆句处理、文本分析和字歧义消除组成的任务组。
依照本发明的第三方面,提供了用于命名实体识别的系统,该系统包括:用于选择一个或多个进行人工标识的样本的选择器,其中各个样本由一个包含命名实体及其上下文的字序列组成;以及一个基于将标识样本作为训练数据对命名实体识别模型进行再训练的处理器.
依照本发明的第四方面,提供了用于实施字序列处理任务的系统,该系统包括:基于信息性标准、典型性标准和多样性标准选择一个或多个进行人工标识的样本的选择器,以及基于将标识样本作为训练数据对命名实体识别模型进行再训练的处理器。
依照本发明的第五方面,提供了在其上存储用于指示计算机执行命名实体识别实施方法的计算机代码工具的数据存储媒介,该方法包括选择一个或多个进行人工标识的样本,其中各个样本由包含命名实体及其上下文的字序列组成;以及基于将标识样本作为训练数据对命名实体识别模型进行再训练。
依照本发明的第六方面,提供了在其上存储了用于指示计算机执行字序列处理任务实施方法的计算机代码工具的数据存储媒介,该方法包括基于信息性标准、典型性标准和多样性标准选择一个或多个进行人工标识的样本,以及基于将标识样本作为训练数据对命名实体识别模型进行再训练。
附图说明
从以下结合附图的实例描述,本发明的实施例将可以更好更清楚地被某一本领域普通熟练人员所理解,其中:
图1表示对本发明一个实施例的处理过程概述进行图示的框图;
图2是依照样本实施例聚集命名实体的K-Means聚群算法的例子。
图3表示依照样本实施例用于选择机器标识的命名实体样本的算法的例子。
图4表示依照样本实施例用于合并标准的样本选择策略的第一算法。
图5表示依照样本实施例用于合并标准的样本选择策略的第二算法。
图6表示依照样本实施例的三种基于信息性标准的选择的效果图,及与之相比较的随机选择的效果图;
图7表示依照样本实施例的两种基于多标准的选择策略的效果图,及与之相比的依照样本实施例的基于信息性标准的选择(Info_Min)的效果图,以及
图8是对依照本发明的一个实施例的NE识别器进行图示的结构图。
具体实施方式
图1表示对一个本发明实施例的处理过程100进行图示的框图。从尚未标识的数据集102中,举例来说,选择出样本103到批量104中。该样本基于信息和典型性标准而被选中。所选中的样本也根据多样性标准与批量104中已有的每个样本,比如106,进行了判别。如果新选中的样本,比如103与已存在的样本,比如106过于相像,在样本实施例中,则会剔除该选中样本103。
样本实施例中的多标准主动学习命名实体识别减少了人工标识的工作量.在命名实体识别任务中,多种标准:信息性、典型性和多样性被用来选出最有用的样本103.提出了两种选择策略结合这三种标准来增强样本批量104的贡献,以提高学习性能,从而进一步分别将批量的体积减少20%和40%.本发明的实施例中的命名实体识别在MUC-6和GENIA上的实验结果表明整个的标识花费相比于被动机器学习方法要少得多,而并不降低性能.
本发明的所述实施例进一步试图在命名实体识别(NER)的主动学习中降低人工标识工作量,而同样达到被动学习方法的性能级别。为此目的,这些实施例对各个样本的贡献做了更全面的考虑,并探求使基于三种标准:信息性、典型性和多样性的批量的贡献最大化。
在样本实施例中,有三种评价函数来对样本的信息性进行量化,以用来选择出最具不确定性的样本。典型性度量用来选择代表多数情况的样本。两种多样性考察(全局和本地)可以避免在批量的样本中产生重复。最终,两种合并策略与上述三种标准一起增强了本发明的不同实施例中的NER主动学习的效果。
1 NER主动学习的多种标准
支持向量机的使用是一种强大的机器学习方法。在此实施例中,对一个简单而有效的SVM模型应用主动学习方法以同时识别一类名称,比如蛋白质名称、人名,等等。在NER中,SVM试图将一个字鉴别成正级“1”以指明该字是实体的一部分,或者鉴别成负级“-1”以指明该字不是实体的一部分。SVM中的每个字都被表示为多维特征向量,包括表面字信息、拼写特征、POS特征和语义触发特征。语义触发特征包括用户提供的实体类中的特殊前缀名词。此外,表示目标字w的本地上下文的一个窗(大小=7)也被用来鉴别w。
在NER主动学习中,更进一步认识到,最好选择包含命名实体及其上下文的字序列,而不是像典型SVM中那样选择单个的字。甚至一个人如果被要求标识单个字,他通常也会花费额外的工作来参考该字的上下文。在样本实施例中的所述主动学习过程中,相比于单个字,最好选择由机器标识的命名实体及其上下文所组成的字序列。本领域熟练人员可以理解这样的过程:将人工标识种子的训练集作为机器标识命名实体的初始模型,再用训练样本的各个附加选择的批量对该模型进行再训练。在样本实施例中,用于主动学习的度量会被应用到机器标识命名实体上。
1.1信息性
在信息性标准中使用基于距离的度量来评估字的信息性,并将其扩展到使用三种评价函数进行的实体度量上。最好使用具有高信息度的样本,此时当前模型具有最大的不确定性。
1.1.1字信息性度量
在最简单的线性形式中,训练SVM在训练集中找到能够分离正和负样本的超平面,并使其具有最大余量。余量是根据超平面与最近的正和负样本之间的距离来定义的。最接近于超平面的训练样本被叫做支持向量。在SVM中,仅有支持向量对于鉴别是有用的,这与统计模型不同。SVM训练通过解二次规划问题而从训练集中得到这些支持向量以及它们的权重。该支持向量接下来可被用于鉴别测试数据。
本发明的实施例中的样本信息性可表示为当将该样本添加进训练集时对支持向量产生的影响。对于学习机来说,一个样本具有信息性,假如其特征向量与超平面的距离少于支持向量与超平面的距离(等于1)。标识一个位于或接近于超平面的样本通常肯定会影响结果。从而,在此实施例中,使用距离来度量样本的信息性。
样本特征向量与超平面的距离计算如下:
Dist ( x ) = | Σ i = 1 N α i y i K ( s i , x ) + b | - - - ( 1 )
其中x是样本特征向量,αi、yi、si分别对应于权重、类别和第ith个支持向量的特征向量。N是当前模型的支持向量的数目。
具有最小距离的样本,表明它在特征空间中距离超平面最近,而会被选中。该样本对于当前模型被认为具有最大的信息性。
1.1.2命名实体的信息性度量
基于上述对于字的信息性度量,命名实体NE的整体信息度可以基于选定的包含命名实体及其上下文的字序列进行计算。如下所示,提供了三种评价函数。
令NE=w1...wN
其中N是选定的字序列的字数。
Info_Avg:NE的信息性,Info(NE),以序列中的字与超平面的平均距离进行评价。
Info ( NE ) = N Σ w i ∈ NE Dist ( w i ) - - - ( 2 )
其中wi是字序列中的第i个字的特征向量。
Info_Min:NE的信息性通过字序列中的字的最小距离进行评价。
Info ( NE ) = 1 Min w i ∈ NE { Dist ( w i ) } - - - ( 3 )
Info_S/N:如果字与超平面的距离小于阈值a(在实施例任务样本中=1),该字会被认为是短距字。接下来,计算出短距字的数目与字序列中的字总数之间的比例,然后使用该比例作为该命名实体的信息性的评价。
Info ( NE ) = NUM ( Dist w i &Element; NE ( w i ) < &alpha; ) N - - - ( 4 )
接下来会评估样本实施例中的这些评价函数的效果。样本实施例中使用的信息性度量相对具有一般性,并可很容易地进行修改以适应其他的选定的样本是一个字序列的任务,比如拆句处理、POS标识,等等。
1.2典型性
在样本实施例中,除了最大信息性样本,同样需要最大典型性样本。给定样本的典型性可以基于有多少样本类似于或接近于给定样本来进行评估。具有高典型度的样本不太可能成为局外人。增加高典型度样本到训练集中将会影响大量的未标识样本。在此实施例中,字间的相似性是通过使用一种通用的基于向量的度量来计算的,该度量使用动态时间包络算法并可扩展到命名实体级别,而且命名实体的典型性是通过该NE的密度进行量化的。这个实施例中使用的典型性度量相对具有一般性,并可很容易地进行修改以适应其他的选定样本是字序列的任务,比如拆句处理、POS标识,等等。
1.2.1字间相似性度量
在一般性向量空间模型中,两个向量之间的相似性可以通过计算它们夹角的余弦值来度量.这种度量,叫做余弦相似性度量,在信息检索任务中被用来计算两篇文档之间或文档和查询之间的相似性.角度越小,向量之间的相似性越大.在样本实施例任务中,使用了余弦相似性度量来量化两个字之间的相似性,在SVM中表达为多维特征向量的形式.特别指出,SVM构架中的计算可写为如下的核心函数形式.
Sim ( x i , x j ) = | K ( x i , x j ) | K ( x i , x i ) K ( x j , x j ) - - - ( 5 )
其中xi和yi是字i和j的特征向量。
1.2.2命名实体间的相似性度量
在此部分,两个机器标注命名实体间的相似性是通过给定的字间相似性来计算的。考虑作为一个字序列的实体,依照本发明的样本实施例,这种计算类似于两个序列的对齐。在样本实施例中,使用了动态时间包络(DTW)算法(正如L.R.Rabiner,A.E.Rosenberg和S.E.Levinson于1978年在IEEE声学、语音与信号处理学报,Vol.ASSP-26,NO.6中描述的,用于离散字识别的动态时间包络算法的考虑)来寻找序列中的字间的最优排列,而使序列间的累积相似度最大化。不过,该算法可作如下调整:
令NE1=w11w12...w1n...w1N,(n=1,...,N)以及NE2=w21w22...w2m...w2M,(m=1,...,M)代表要被比较的两个字序列。NE1和NE2分别由N和M个字组成。NE1(n)=w1n且NE2(m)=w2m。用公式(5)可计算出NE1和NE2中的每对字(w1n,w2m)的相似值Sim(w1n,w2m)。DTW的目标是找到一个路径,m=map(n),将n映射到对应的m,从而沿此路径的累积相似性Sim*最大。
Sim * = Max ( map ( n ) ) { &Sigma; n = 1 N Sim ( NE 1 ( n ) , NE 2 ( map ( n ) ) } - - - ( 6 )
接下来使用DTW算法确定优化路径map(n)。任意栅格点(n,m)上的累积相似性SimA可如下递归计算
Sim A ( n , m ) = Sim ( w 1 n , w 2 m ) + Max q &le; m Sim A ( n - 1 , q ) - - - ( 7 )
最终,
Sim*=SimA(N,M) (8)
由于较长的序列通常会有较高的相似度值,对整体相似性度量Sim*进行归一化。从而,两个序列NE1和NE2之间的相似性可被计算为:
Sim ( NE 1 , NE 2 ) = Sim * Max ( N , M ) - - - ( 9 )
1.2.3命名实体的典型性度量
给定一个机器标注命名实体集NESet=(NE1,...,NEN),在样本实施例中,NESet中的命名实体NE1的典型性以NE的密度来量化。NE1的密度定义为NEi和NESet中的所有其余实体NEj之间的平均相似度,如下所示。
Density ( NE i ) = &Sigma; j &NotEqual; i Sim ( NE i , NE j ) N - 1 - - - ( 10 )
如果在NESet中的所有实体中,NEi具有最大密度,就可以将其看作NESet的重心,以及NESet中的最具典型性的样本。
1.3多样性
在样本实施例中,多样性标准被用来使批量中的训练功效最大化。较好的批量中的样本相互之间具有很高的差异。比如,给定批量大小为5,最好不要同时选择5个类似的样本。在各种实施例中,对批量中的样本使用了两种方法:本地考察以及全局考察。样本实施例中使用的多样性度量相对具有一般性,并可以很容易针对选中的样本是字序列的其它任务进行调整,比如拆句处理、POS标注,等等。
1.3.1全局考察
全局考察中,NESet中的所有命名实体基于上述(1.2.2)中提出的相似性度量聚合为多个群。同一群中的命名实体可被认为彼此相似,从而同一时刻会选择来自不同群的命名实体。在样本实施例中使用了K-means聚群算法,比如图2中的算法200。可以意识到,在不同的实施例中可以使用其它的聚群方法,包括分级聚群方法,比如单链聚群、全链聚群、组平均凝聚聚群。
在每一轮选择新的样本批量时,为得到群的重心,会计算各个群中的成对相似性。还会计算各个样本和所有重心之间的相似性以重新划分样本。基于N个样本均匀分布在K个群之间的假设,算法的时间复杂度约为O(N2/K+NK)。在下述的一个实验中,NESet(N)的大小约为17000,而K等于50,所以时间复杂度约为O(106)。从效率角度考虑,NESet中的实体可在聚群之前进行过滤,这将在接下来的第2节进一步讨论。
1.3.2本地考察
当在样本实施例中选择机器标注命名实体时,该命名实体会与当前批量中的所有以前选中的命名实体进行比较。如果它们之间的相似性高于阈值β,此样本将不被允许加入该批量。选择样本的顺序基于度量,诸如信息型度量、典型性度量或这些度量的混合。图3表示一个样本本地选择算法300。这样,就有可能避免在批量中选择过于相似(相似值≥β)的样本。阈值β可以是NESet中样本间相似度的平均值。
这种考察仅需要O(NK+K2)的计算时间。在一个实验中(N≈17000且K=50),时间复杂度约为O(105)。
2样本选择策略
本节描述怎样合并和权衡标准,即,信息性、典型性以及多样性标准,以在样本实施例的NER主动学习中达到最大效应。选择策略可基于标准的不同优先级和不同程度来满足标准的要求。
策略1:首先考虑信息性标准,从NESet中以最高信息性评价选择m个样本作为中间集,称之为INTERSet。通过这个前选择,由于INTERSet的数目远小于NESet的数目,而可以在接下来的步骤中加快选择处理。INTERSet中的样本会被集合成不同的群,各群的重心被选中加入被称为BatchSet的批量中。群的重心是该群中最典型的样本,因为它具有最大的密度。此外,不同的群中的样本可以被认为彼此不同。在此策略中,同时考虑了典型性和多样性标准。图4表示此策略的一个样本算法400。
策略2:使用如下函数合并信息性和典型性标准
λInfo(NEi)+(1-λ)Density(NEi),(11)
其中NEi的信息和密度值首先被归一化了。函数(11)中各标准各自的重要性通过权衡参数λ(0<λA<1)调整。(在下面的实验中调整到0.6)。首先,从NESet选中具有此函数的最大值的备选样本NEi.然后,考虑使用如上所述的本地方法(2.3.2)的多样性标准.只有当NEi与本批量中任何以前选中的样本都具有足够的不同时才将备选样本NEi添加到此批量中。阈值β被设置为NESet中的实体的平均成对相似度。图5表示策略2的一个样本算法500。
3试验结果和分析
3.1实验设置
为了评价样本实施例的选择策略的效果,本策略被用于识别生物医学领域的蛋白质(PRT)名称,使用的是GENIA语料库V1.1(Ohta、Y.Tateisi、J.Kim、H.Mima和J.Tsujii.2002.GENIA语料库:HLT2002学报中的分子生物学领域中的一个标注研究文摘语料库。),和新闻专线领域中的人(PER)、位置(LOC)以及组织(ORG)名称,使用MUC-6语料库:见于1995年San Francisco,CA的Morgan Kaufmann出版社的第六届信息理解会议学报。首先,整个语料库被随机地分成三个部分:用来建立初始模型的初始化或种子训练集、评价模型性能的测试集和进行样本选择的未标记集。
表1表示各数据集的大小。
  领域   类别   语料库   初始训练集   测试集   未标记集
  分子生物学   PRT   GENIAL1   已送出10(277字)   已送出900(26K字)   已送出8004(223K字)
  新闻专线   PER   MUC-6   已送出5(131字)   已送出602(14K字)   已送出7809(157K字)
  LOC   已送出5.(130字)   已送出7809(157K字)
  ORG   已送出5(113字)   已送出7809(157K字)
表1:使用GENIA1.1(PRT)和MUC-6(PER、LOC、ORG)的主动学习实验设定
然后,重复地,遵循建议的选择策略选中一个样本批量,对样本批量进行人工专家标记,以及将样本批量加入训练集。GENIA中的批量大小K=50而MUC-6中的为10。各个样本定义为包含机器识别命名实体及其上下文(前3个字和后3个字)的字序列。
本实验的一些参数,诸如批量大小K以及策略2的函数(11)中的λ,可以根据经验决定。然而,最好这些参数的最优值自动地根据训练过程决定。
本发明的实施例探求减少人工注解的工作量以使命名实体识别器学会与被动学习一样的性能指标。该模型的性能通过使用“精度/回忆/F-指标”来进行评价。
3.2GENIA和MUC-6的整体结果
样本实施例的选择策略1和2通过与随机选择方法相比较来进行评估,在随机选择方法中样本批量是在GENIA和MUC-6语料库上随机重复地选择的。表2表示使用不同的选择法,即,随机法、策略1和策略2,为达到被动学习性能而需要的训练数据的数值。策略1和策略2中使用了Info_Min评价函数(3)。
  类别   被动   随机  策略1  策略2
  PRT   223K(F=63.3)   83K  40K  31K
  PER   157K(F=90.4)   11.5K  4.2K  3.5K
  LOC   157K(F=73.5)   13.6K  3.5K  2.1K
  ORG   157K(F=86.0)   20.2K  9.5K  7.8K
表2:GENIA和MUC-6的整体结果
GENIA中:
模型在被动学习中使用223k字达到63.3F-指标。
策略2的表现最好!(31k字),为达到63.3F-指标,比随机法(83k字)需要的训练数据少40%,比被动学习需要的训练数据少14%。
策略1(40k字)稍差于策略2的表现,需要多9k字。
随机法(83k字)需要的训练数据为被动学习需要的训练数据的大约37%。
此外,当该模型被用于新闻专线领域(MUC-6)以识别人、地点和组织名称时,策略1和策略2显示出比被动学习和随机法更好的结果,如表2所示,为达到被动学习在MUC-6中的性能,需要的训练数据可以减少大约95%。
3.3不同的基于信息性的选择法的效果
此外还研究了NER任务中的不同的信息性评价(与(1.1.2)相比)的效果。图6表示基于信息性评价达到的训练数据大小对比F-指标的点图:Info_Avg(曲线600)、Info_Min(曲线602)和Info_S/N(曲线604)以及随机法的点图(曲线606)。该比较是在GENIA语料库上进行的。图6中,水平线是通过被动学习(223k字)达到的性能指标(63.3F-度量单位)。
这三种基于信息性的评价性能相似,并且每个的工作性能都比随机法
好。表3突出了为达到63.3F-指标的性能而需要的不同训练数据大小。
  被动   随机   Info_Avg   Info_Min   Info_S/N
  223K   83K   52.0K   51.9K   52.3K
表3:达到被动学习相同性能指标的不同的选择法的训练数据大小
3.4与单一信息性标准相比较的策略1和2的效果
除信息性标准之外,在不同的实施例中,通过如上所述的两种策略1和2(见2节),主动学习也同样结合了典型性和多样性标准。策略1和2与使用Info_Min评价的基于单一标准的选择法的最好结果的比较阐明了在主动学习中典型性和多样性也是重要的因素。图7表示不同方法的学习曲线:策略1(曲线700)、策略2(曲线702)和Info_Min(曲线704)。在初始迭代中(F-指标<60),这三种方法性能相近。但是在更大的训练集上,策略1和策略2的效率开始显露了。表4总结了结果。
  Info_Min   策略1  策略2
  51.9K   40K  31K
表4:达到与被动学习相同的性能指标的基于多标准选择策略和基于信息性标准选择(Info_Min)的训练数据大小的比较。
为了达到被动学习的性能,策略1(40k字)和策略2(31k字)分别仅需要Info_Min(51.9K)的大约80%和60%的训练数据。
图8是依照本发明的一个实施例的命名实体识别主动学习系统10的原理方框图。该命名实体识别主动学习系统10包括接收和存储从扫描器、因特网或其它网络或其它外部装置通过一个输入/输出端口16输入的数据集14的存储器12。该存储器还可以直接从用户界面18接收数据集。系统10使用包括标准模块22的处理器20,以在接收数据集中学习命名实体。在此实施例中,各元件全部以总线方式互连。该系统可以很容易地内嵌在装载适当软件的桌面或膝上电脑里。
所述实施例涉及复杂NLP任务中的主动学习和命名实体识别。使用基于多标准的方法,根据样本的信息性、典型性和多样性进行样本选择,此三种标准还可相互结合。采用样本实施例的实验表明,在MUC-6和GENIA中,在选择策略中结合这三种标准的工作性能都要比单一标准(信息性)方法好。和被动学习相比标记花费可以显著减少。
和以前的方法相比,样本实施例中描述的对应的度量/计算具有一般性,它可以改编使用于其它的字序列问题,诸如POS标记、拆句处理和文本分析。该样本实施例的多标准策略还可以用于其它的除SVM之外的机器学习方法,例如提升法。
可以为一个所属技术领域的专业人员理解的是,如特殊实施例所示,本发明可具有大量变化和/或修改,而在广泛描述上并没有脱离该发明的精神或范围。所以,无论从哪一点来看,当前实施例都是说明性的而非限制性的。

Claims (8)

1.一种用于字序列处理任务的方法,该方法包括:
从尚未标识的数据集中选择一个或多个进行人工标记的样本,各样本由包含命名实体及其上下文的字序列组成;以及
基于将标定样本作为训练数据对命名实体识别模型进行再训练;
选择是基于由信息性标准、典型性标准以及多样性标准组成的组中的至少两个标准;
其中信息性标准表示:当每个样本添加进训练集时,每个样本对用于命名实体识别的支持向量产生的影响;典型性标准表示:每个样本与尚未标识的数据集中的其他字序列的相似性;多样性标准表示:每个样本相对于尚未标识的数据集中其他字序列的差异性。
2.如权利要求1所述的方法,其中该选择包括首先应用信息性标准。
3.如权利要求1所述的方法,其中该选择包括最后应用多样性标准。
4.如权利要求1所述的方法,其中该选择包括将信息性标准、典型性标准和多样性标准中的两个标准合并为单一标准。
5.如权利要求1所述的方法,还包括基于再训练模式进行命名实体识别处理。
6.如权利要求1所述的方法,其中该字序列处理任务包括一个或多个由语言模式标记、拆句处理和语法分析组成的组。
7.一种用于字序列处理任务的系统,该系统包括
选择装置,用于从尚未标识的数据集中选择一个或多个进行人工标记的样本,各样本由包含命名实体及其上下文的字序列组成;以及
处理装置,基于将标定样本作为训练数据对命名实体识别模型进行再训练;
其中该选择基于由信息性标准、典型性标准以及多样性标准组成的组中的至少两种标准;
其中信息性标准表示:当每个样本添加进训练集时,每个样本对用于命名实体识别的支持向量产生的影响;典型性标准表示:每个样本与尚未标识的数据集中的其他字序列的相似性;多样性标准表示:每个样本相对于尚未标识的数据集中其他字序列的差异性。
8.如权利要求7所述的系统,其中处理装置还基于再训练模式进行命名实体识别处理。
CN2005800174144A 2004-05-28 2005-05-28 用于字序列处理的方法和系统 Expired - Fee Related CN1977261B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
SG200403036 2004-05-28
SG200403036-7 2004-05-28
SG2004030367 2004-05-28
PCT/SG2005/000169 WO2005116866A1 (en) 2004-05-28 2005-05-28 Method and system for word sequence processing

Publications (2)

Publication Number Publication Date
CN1977261A CN1977261A (zh) 2007-06-06
CN1977261B true CN1977261B (zh) 2010-05-05

Family

ID=35451063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800174144A Expired - Fee Related CN1977261B (zh) 2004-05-28 2005-05-28 用于字序列处理的方法和系统

Country Status (4)

Country Link
US (1) US20110246076A1 (zh)
CN (1) CN1977261B (zh)
GB (1) GB2432448A (zh)
WO (1) WO2005116866A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9135238B2 (en) 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US7958067B2 (en) * 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US20080086432A1 (en) * 2006-07-12 2008-04-10 Schmidtler Mauritius A R Data classification methods using machine learning techniques
US7761391B2 (en) * 2006-07-12 2010-07-20 Kofax, Inc. Methods and systems for improved transductive maximum entropy discrimination classification
US7937345B2 (en) * 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
JP5447862B2 (ja) * 2008-04-03 2014-03-19 日本電気株式会社 単語分類システム、方法およびプログラム
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
CN102298646B (zh) * 2011-09-21 2014-04-09 苏州大学 一种主观文本和客观文本分类方法及装置
CN103164426B (zh) * 2011-12-13 2015-10-28 北大方正集团有限公司 一种命名实体识别的方法及装置
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
CN105283884A (zh) 2013-03-13 2016-01-27 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
CN103177126B (zh) * 2013-04-18 2015-07-29 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
EP2992481A4 (en) 2013-05-03 2017-02-22 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
CN103268348B (zh) * 2013-05-28 2016-08-10 中国科学院计算技术研究所 一种用户查询意图识别方法
WO2015073920A1 (en) 2013-11-15 2015-05-21 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10083169B1 (en) * 2015-08-28 2018-09-25 Google Llc Topic-based sequence modeling neural networks
CN105138864B (zh) * 2015-09-24 2017-10-13 大连理工大学 基于生物医学文献的蛋白质交互关系数据库构建方法
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10008218B2 (en) 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN108170670A (zh) * 2017-12-08 2018-06-15 东软集团股份有限公司 待标注语料的分配方法、装置、可读存储介质及电子设备
EP3963520A4 (en) * 2019-04-30 2023-01-11 Soul Machines SEQUENCING AND PLANNING SYSTEM
US10635751B1 (en) * 2019-05-23 2020-04-28 Capital One Services, Llc Training systems for pseudo labeling natural language
US11087086B2 (en) 2019-07-12 2021-08-10 Adp, Llc Named-entity recognition through sequence of classification using a deep learning neural network
CN114746935A (zh) * 2019-12-10 2022-07-12 谷歌有限责任公司 基于注意力的时钟层次变分编码器
US12518100B1 (en) * 2023-09-13 2026-01-06 Suki AI, Inc. Systems and methods to train and utilize an entity recognition model to generate content block recommendations for a note

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050027664A1 (en) * 2003-07-31 2005-02-03 Johnson David E. Interactive machine learning system for automated annotation of information in text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
CN1352774A (zh) * 1999-04-08 2002-06-05 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M.Becker.Active Learning for Named Entity Recognition.National e-Science Centre presentation.2004,1-15. *
Thompson et al.Active Learning for Natural Language Parsing and InformationExtraction.Proc.16th International Machine Learning Conference.1999,406-414. *

Also Published As

Publication number Publication date
US20110246076A1 (en) 2011-10-06
GB0624876D0 (en) 2007-01-24
WO2005116866A1 (en) 2005-12-08
CN1977261A (zh) 2007-06-06
GB2432448A (en) 2007-05-23

Similar Documents

Publication Publication Date Title
CN1977261B (zh) 用于字序列处理的方法和系统
US11816440B2 (en) Method and apparatus for determining user intent
CN108399228B (zh) 文章分类方法、装置、计算机设备及存储介质
US11580119B2 (en) System and method for automatic persona generation using small text components
CN108597519B (zh) 一种话单分类方法、装置、服务器和存储介质
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
CN108416384A (zh) 一种图像标签标注方法、系统、设备及可读存储介质
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN116798417B (zh) 语音意图识别方法、装置、电子设备及存储介质
JP2024518458A (ja) テキスト内の自動トピック検出のシステム及び方法
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
CN112800226A (zh) 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN110298044A (zh) 一种实体关系识别方法
CN114722837A (zh) 一种多轮对话意图识别方法、装置及计算机可读存储介质
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN107305565A (zh) 信息处理装置、信息处理方法以及信息处理设备
CN114925702A (zh) 文本相似度识别方法、装置、电子设备及存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN114817461A (zh) 基于深度学习的智慧客服语义检索方法、装置及系统
CN115099368B (zh) 一种用于计算篇章级文档相似度的方法及可读存储介质
CN116361638A (zh) 问答搜索方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100505

Termination date: 20210528