CN104239286A

CN104239286A - 同义短语的挖掘方法和装置及搜索相关内容的方法和装置

Info

Publication number: CN104239286A
Application number: CN201310253731.2A
Authority: CN
Inventors: 董兴华; 吴克文; 黄鹏; 林锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2014-12-24
Also published as: TW201500944A; US20140379329A1; HK1202675A1; JP2016522524A; WO2014209810A2; WO2014209810A3; EP3014481A2

Abstract

本申请涉及同义短语的挖掘方法和装置及搜索相关内容的方法和装置。该同义短语的挖掘方法包括：（a）依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系；（b）针对当前语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的中间语言的第一对齐短语集合；（c）依据第二短语对齐关系，获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合；以及（d）从第二对齐短语集合中获得所述目标短语的同义短语。由此可以获取大量的、精确的同义短语。

Description

同义短语的挖掘方法和装置及搜索相关内容的方法和装置

技术领域

本申请涉及数据处理领域，具体地涉及一种计算机执行的同义短语的挖掘方法和装置以及一种根据查询请求搜索相关内容的方法和装置。

背景技术

现在大多数搜索引擎一般仍采取简单的字符串匹配策略，对于用户的语义、意图等理解不够。具体而言，进行搜索时，搜索引擎首先要对用户输入的词或短句进行词结构分析，确定搜索关键字。对用户来讲，搜索的目的在于得到他想要的内容，而根据用户提供的关键字进行搜索并不是判定是否达到目标的唯一标准。这是因为，首先用户可能不知道确切的搜索关键字，或者说关键字的选取并不十分准确；其次，对于待搜索的信息源来讲，用户需要的信息可能已经存在，只是不包含用户所提交的关键字而已。例如，如果用户用“racket（球拍）”作为关键字搜索相关内容，而待搜索的信息数据库中只包含“racquet（球拍）”，则因关键字不匹配，用户无法查到相应的信息，得不到理想的查询结果。

事实上，一个好的搜索匹配算法或搜索引擎应该是为用户检索到想要的信息，不管他是否提供了明确而全面的关键字。因此，如何在已有的较为成熟的基于字符串匹配的搜索算法上辅之以语义搜索，成了解决问题的关键。同义词的替换搜索则是语义搜索很重要的一个策略，如何找到大量的、精确的同义词日益成为目前数据挖掘领域中研究的热点。

现有的同义词挖掘技术可以分为两类：

第一类为基于现有知识库的挖掘方法。例如从基于语义词典hownet、wordnet、词林等挖掘同义词。由于这类知识库是由语言学家通过规则的方法建立的，所以此类方法受到规模、准确度、语种和应用场景的限制。

第二类为基于用户搜索点击行为的挖掘方法。针对搜索引擎对同一个查询的词产生的搜索列表，用户可能会点击不同的搜索结果项，因此，可以把这些不同的搜索项之间存在的相似性作为同义词挖掘的依据。但基于这种思路挖掘同义词存在以下缺陷：（1）如果搜索引擎本身并不能返回存在语义关系的搜索结果项，则可以挖掘到的同义词将非常有限。（2）如果查询的是一个宽泛词，通过这种方法挖掘的同义词噪音将非常大，比如用户搜索的关键词为“家具”，则搜索结果项“桌子”、“椅子”、“沙发”等可能都会出现，而它们并不是同义或近义关系。

因此，需求一种新的同义词的挖掘方法来克服上述缺陷。

发明内容

相应地，本申请的主要目的在于提供一种同义词的挖掘方法，以便能够找到大量的、精确的同义词。

根据本申请的一个方面的实施例，提供一种计算机执行的同义短语的挖掘方法，其特征在于，包括：（a）依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系；（b）针对当前语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的中间语言的第一对齐短语集合；（c）依据第二短语对齐关系，获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合；以及（d）从第二对齐短语集合中获得所述目标短语的同义短语。

根据本申请一个方面的实施例，还提供一种计算机执行的同义短语的挖掘装置，其特征在于，包括：对齐关系获得模块，用于依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系；第一集合获得模块，用于针对当前语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的中间语言的第一对齐短语集合；第二集合获得模块，用于依据第二短语对齐关系，获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合；以及同义短语获得模块，用于从第二对齐短语集合中获得所述目标短语的同义短语。

根据本申请的另一方面的实施例，提供一种用于根据查询请求搜索相关内容的方法，其特征在于，包括：根据接收到的查询请求确定搜索关键字；基于上述同义短语的挖掘方法获得搜索关键字的同义短语；以及根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。

根据本申请的另一方面的实施例，还提供一种用于根据查询请求搜索相关内容的装置，其特征在于，包括：搜索关键字确定模块，用于根据接收到的查询请求确定搜索关键字；同义短语挖掘模块，用于基于上述同义短语的挖掘方法获得搜索关键字的同义短语；以及搜索和显示模块，用于根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。

与现有技术相比，本申请的同义短语的挖掘技术，是通过机器学习的方法，从基于网络挖掘、人工收集和校对等方式获取的大量平行语料库中统计出短语翻译表（相当于翻译词典，即两种语言之间的短语翻译/对齐关系），并基于该短语翻译表、根据语义近似度来挖掘同义短语。其中本申请利用平行语料库查询出当前语言至中间语言的第一短语对齐关系，然后再利用平行语料库查询出中间语言至当前语言的第二短语对齐关系，仅仅经过几次简单的查询就可以获得大量、精确的同义短语，使得计算机执行同义短语挖掘时的执行速度非常快，从而挖掘同义短语的效率非常高。

另外，本申请的用于根据查询请求搜索相关内容的方案，是通过获取搜索关键字的大量、精确的同义短语，并搜索这些同义短语的所有相关内容，从而可以针对用户需求扩大搜索范围，提高对用户需求内容的覆盖的可能性和全面性，增强搜索性能，由此可以向用户返回其想要检索的信息，方便用户的使用。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出根据本申请一个实施例的计算机执行的同义短语的挖掘方法的流程图。

图2示出根据本申请一个实施例的词对齐关系的示意图。

图3示出根据本申请一个实施例的短语抽取的示意图。

图4示出根据本申请一个实施例的根据用户查询请求搜索相关内容的方法的流程图。

图5示出根据本申请一个实施例的计算机执行的同义短语的挖掘装置的结构框图。

图6示出根据本申请一个实施例的根据查询请求搜索相关内容的装置的结构框图。

具体实施方式

如上所述，本申请发明人注意到，基于语义词典例如hownet、wordnet、词林等挖掘同义词的方法受到规模、准确度、语种和应用场景的限制。而基于用户搜索点击不同的搜索项之间存在的相似性作为同义词挖掘依据的方法，需要搜索引擎本身返回存在语义关系的搜索结果项，否则可以挖掘到的同义词将非常有限，并且这种方法挖掘的同义词噪音通常比较大。

为此，本申请的主要思想在于，集结上述两种方法的优点于一身，通过机器学习的方法，从基于网络挖掘、人工收集和校对等方式获取的大量平行语料库中统计出短语翻译表（相当于翻译词典，即两种语言之间的短语翻译/对齐关系），并基于该短语翻译表、根据语义近似度来挖掘同义词。其中，由于平行语料库的来源可以是网络、开源平行语料库、文献等等，并且可以不断地动态补充调整，也可以来源于不同的领域、场景、不同的语种，所以其不受语言学家的知识建立的词典的限制、也不受场景、语种的限制，并且当平行语料库不断扩大时，同义词的获得量也能不断扩大。另外，由于基于短语翻译关系、根据语义近似度来挖掘同义词，所以可以确保同义词挖掘的准确度并且减小噪音。综上所述，本申请的方法能够在不受语言学家知识、场景、领域和语种限制的情况下获得大量、准确的同义词。

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

首先为方便描述和理解，下面对本申请中使用的术语解释如下：

短语：本申请中的短语可以指：单个词或者多个连续词的组合。例如：“我”、“保持”、“保持联系”、“I”、“keep contact with”。

同义短语：本申请中的同义短语是指语义相同或相近的短语。本条所述短语，即上文“短语”条目所指短语。

当前语言：指用户当前使用的语言，包括用户输入的文字及获得的输出文字所采用的语言。为使本文简洁，在实施例中，简写为A语言。

中间语言：指本方法为了获得当前语言的同义词进行运算涉及的不同于当前语言的语言，为使本文简洁，在实施例中，简写为B语言。

平行语料库：通过网络挖掘、人工收集和校对等方式获取的两种语言之间的翻译语料库，在统计翻译中一般由大量的平行句对所构成，分别存放在两个文本文件中，每个平行句对有两个句子（或短语或词），其中一个句子以A语言表达，另一个句子以B语言表达，两个句子的语义相同，在文本文件中对应行互为翻译。

短语对齐关系：即短语翻译关系或短语翻译表，是指任意两种语言的短语之间的对齐/翻译关系。更具体而言，如果A语言某短语与B语言某短语在同一平行句对中对齐，则A语言某短语与B语言某短语存在对齐/翻译关系。针对A语言某短语，可以获得与之存在对齐/翻译关系的一个或多个B语言短语，则A语言某短语与该一个或多个B语言短语之间构成短语对齐关系。

对齐概率：在平行语料库的包括A语言某短语的所有平行句对中B语言某短语与该A语言短语对齐的概率，即为该B语言短语的对齐概率。

目标短语：指本申请中将获得其同义短语的短语。

参考图1，图1示出根据本申请一个实施例的计算机执行的同义短语的挖掘方法的流程图。该方法包括步骤S110-步骤S140。

在步骤S110处，依据平行语料库获得当前语言（A语言）的短语至中间语言（B语言）的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系。

如前面提到的，平行语料库一般由大量的平行句对所构成，每个平行句对有两个句子（或短语或词），其中一个句子以A语言表达，另一个句子以B语言表达，两个句子的语义相同。进一步而言，平行句对可以来自于各种文献资料，例如，某些网站以双语言构建，可提取其中对应的词、短语、句子作为平行句对；某些网站提供双语言的文章，可以提取对应的句子作为平行句对；各种词典中的例句也可作为平行句对；还有开源的平行语料库也可以使用。因此平行语料库可以不断地动态补充调整，并且不受领域、场景、语种的限制。

在本申请的一个实施例中，可以获得平行语料库的各平行句对中当前语言的词与中间语言的词的词对齐关系；然后依据所述词对齐关系，获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系。

具体而言，可以通过本领域已知的词对齐算法获取平行句对中的词对齐关系，如图2所示。词对齐算法例如可以参见Peter F.Brown,Stephen A.DellaPietra,Vincent J.Della Pietra,and Robert L.Mercer.在1993年在ComputationalLinguistics,19(2):263-311上发表的论文The Mathematics of StatisticalMachine Translation:Parameter Estimation。

然后，可以按照本领域已知的短语抽取算法，从各平行句对中的词对齐关系进行短语对的抽取，例如可以将句对中A语言句子中的相邻一个或多个词抽取出来形成一个A语言短语，并将与之对齐的B语言句子中的对齐词抽取出来形成一个B语言短语，由此抽取出的该A语言短语与B语言短语就构成了一个对齐的短语对。图3示出了在图2所示词对齐情况下的短语对抽取的示意图。短语抽取算法例如可以参见Franz Josef Och的博士论文Statistical machine translation:From single-word models to alignment templates。以类似的方式，可以从一个平行句对中抽取出所有可能的对齐的短语对，并且可以对平行语料库中的所有平行句对进行类似的短语对抽取，从而可以获得大量的短语对。

然后，基于这些对齐的短语对，针对每个短语对中当前语言的短语，可以统计出与之对齐的所有中间语言的短语，从而形成当前语言的短语至中间语言的短语的第一短语对齐关系。进一步而言，可以统计出其中每个中间语言的短语与该当前语言的短语在平行语料库的包括当前语言短语的所有平行句对中对齐的概率，以下称为第一对齐概率。可以认为，第一短语对齐关系包含该第一对齐概率。该第一短语对齐关系也可以称为第一短语翻译概率表。通过第一对齐概率可以表征第一短语对齐关系中相应短语之间的语义近似度。

与此类似，通过反向的训练，基于这些对齐的短语对，针对每个短语对中中间语言的短语，可以统计出与之对齐的所有当前语言的短语，从而形成中间语言的短语至当前语言的短语的第二短语对齐关系。进一步而言，可以统计出其中每个当前语言的短语与该中间语言的短语在平行语料库的包括该中间语言短语的所有平行句对中对齐的概率，以下称为第二对齐概率。可以认为，第二短语对齐关系包含该第二对齐概率。该第二短语对齐关系也可以称为第二短语翻译概率表。通过第二对齐概率可以表征第二短语对齐关系中相应短语之间的语义近似度。

在上述实施例中是依据平行语料库中各平行句对中的词对齐关系来抽取大量短语对，并从抽取的大量短语对中统计出第一短语对齐关系和第二短语对齐关系，但本申请并不限于此，可以以本领域已知的或未来开发的任意合适方式来从平行语料库中获得第一短语对齐关系和第二短语对齐关系。

例如，针对A语言中的“lamp”这一短语，依据上述统计分析，可得到针对该短语的第一短语对齐关系如表1所示：

表1

通过类似的反向训练，例如，针对汉语短语“灯”、“灯泡”、“电灯”、“灯管”，可以获得与之分别对应的英语的第二短语对齐关系如表2所示：

表2

需要指出的是，尽管上述示例中在第一短语对齐关系中仅示出一个A语言短语的短语对齐关系，在第二短语对齐关系中仅示出四个B语言短语的短语对齐关系，但本领域技术人员将理解到的是，在第一短语对齐关系或第二短语对齐关系中可以包括大量这样的短语对齐关系，以便于后续的同义词的广泛查找，而不限于这些示出的特定数目。

接下来，在步骤S120处，针对A语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的B语言的第一对齐短语集合。

具体而言，当要获取A语言的某短语的同义短语时，以该A语言短语作为A语言的目标短语。针对该A语言的目标短语，从通过步骤S110得到的与之对应的第一短语对齐关系中获得与之对齐的所有B语言的短语，以构成第一对齐短语集合。在一个示例中，例如，针对英语目标短语“lamp”，可以从表1中查找到与之对齐的汉语的第一对齐短语集合（灯、灯泡、电灯、灯管）。

在一个优选实施例中，可以依据第一短语对齐关系中B语言的各短语与A语言目标短语的语义近似度，选取与目标短语对齐的、语义较相近的中间语言短语以形成第一对齐短语集合。通过该优选实施例，可以确保最终同义短语的准确性，也可以减少后续步骤的计算量。

具体而言，可以依据前面提及的第一对齐概率，选取第一对齐概率较高的中间语言短语来形成第一对齐短语集合以备后续使用。在一个更具体实施例中，可以按照第一对齐概率的升序排序，取前N个中间语言的短语形成第一对齐短语集合。在一个备选实施例中，可以取第一对齐概率超过一定阈值的中间语言的短语来形成第一对齐短语集合。例如，在上述示例中，针对英语目标短语“lamp”，根据表1中的对齐概率是否超过0.2，可以从表1中查找到第一对齐短语集合为（灯、电灯）。

在本申请实施例中是以对齐概率来表征语义近似度，但本申请对此不作任何限制，可以使用本领域已知或未来开发的任意合适方式来表征相应短语之间的语义近似度。

接下来，在步骤S130处，依据第二短语对齐关系，获得与所述第一对齐短语集合中的选定短语对齐的A语言的第二对齐短语集合。

具体而言，当获得第一对齐短语集合后，可针对第一对齐短语集合中的一个或多个选定短语，从第二短语对齐关系中查找出与该短语对齐的所有A语言的短语，以构成第二对齐短语集合。在上述示例中，例如，针对第一对齐短语集合（灯、灯泡、电灯、灯管），可以从如表2所示的第二短语对齐关系中查找到与其中一个或多个短语分别对齐的英语短语（本例中查找与第二短语对齐关系中的每个短语分别对齐的英语短语）以共同构成第二对齐短语集合（light，lamp，lights，lamps，bulb，bulbs，light bulb，light bulbs，electric light，led lamp，light，led light）。

在一个优选实施例中，可以依据第二短语对齐关系中A语言的各短语与第一对齐短语集合中的选定B语言短语的语义近似度，选取与第一对齐短语集合中的选定短语对齐的、语义较相近的A语言短语以形成第二对齐短语集合。通过该优选实施例，类似地，也可以确保最终同义短语的准确性和减少后续步骤的计算量。

具体而言，与前面提及的方式类似，可以依据第二对齐概率，选取第二对齐概率较高的A语言短语来形成第二对齐短语集合。在一个更具体实施例中，可以按照第二对齐概率的升序排序，取前N个A语言短语形成第二对齐短语集合。在一个备选实施例中，可以取第二对齐概率超过一定阈值的A语言短语来形成第二对齐短语集合。例如，在上述示例中，针对第一对齐短语集合（灯、灯泡、电灯、灯管），可以根据表2中的对齐概率是否超过0.2，查找到第二对齐短语集合为（light，lamp，bulb，light bulb，electric light，led lamp，led light）。

类似地，在本申请实施例中是以对齐概率来表征语义近似度，但本申请对此不作任何限制，可以使用本领域已知或未来开发的任意合适方式来表征相应短语之间的语义近似度。

接下来，在步骤S140处，从第二对齐短语集合中选取所述目标短语的同义短语。

在一个实施例中，通过步骤S130获得第二对齐短语集合之后，可以将第二对齐短语集合中的短语全部作为目标短语的同义短语。

在另一个实施例中，可以根据第二对齐短语集合中每个短语与目标短语的语义近似度，选取目标短语的同义短语。

具体而言，以与上述类似的方式，考虑以对齐概率表征语义近似度，则可以根据A语言短语至B语言短语的第一短语对齐关系中的第一对齐概率和B语言短语至A语言短语的第二短语对齐关系中的第二对齐概率，来判定第二对齐短语集合中每个短语与目标短语的语义近似度。优选地，针对第二对齐短语集合中的每个短语和目标短语的语义近似度，可以利用与之关联的第一对齐概率和第二对齐概率的乘积和来表征。

例如，在上述示例中，lamp与light的语义近似度为：

lamp→灯→light0.16（0.4*0.4）+lamp→灯管→light0.02（0.2*0.1）=0.18。lamp与bulbs的语义近似度为：lamp→灯泡→bulbs0.01（0.1*0.1）。

在一个实施例中，可以根据计算出的语义近似度，对第二对齐短语集合中的各短语进行升序排序，并且选取前N个短语作为目标短语的同义短语。

在另一个实施例中，可以选取语义近似度大于一定阈值的短语作为目标短语的同义短语。

在上述实施例中，是以第一对齐概率和第二对齐概率的乘积和表征第二对齐短语集合中的每个短语与目标短语的语义近似度，但本申请并不限于此，可以采用其他合适方式表征该语义近似度。

至此描述了根据本申请实施例的同义短语的挖掘方法。根据本实施例的计算机执行的同义短语的挖掘方法，可以从大量的平行语料库中获取短语翻译概率表，并且可以基于短语翻译概率表找到语义相近的目标短语的同义短语，由此可以得到大量、精确的同义短语，而不受语言学家知识、场景、领域和语种的限制。另外，本申请利用平行语料库查询出当前语言至中间语言的第一短语对齐关系，然后再利用平行语料库查询出中间语言至当前语言的第二短语对齐关系，仅仅经过几次简单的查询就可以获得大量、精确的同义短语，使得计算机执行同义短语挖掘时的执行速度非常快，从而挖掘同义短语的效率非常高。

根据本申请的另一实施例，为了进一步拓展同义短语的范围，在通过上面结合图1所述的计算机执行的同义短语的挖掘方法获取到目标短语的同义短语之后，可以进一步以同义短语中的一个或多个短语分别作为目标短语，重复前述图1所示的方法步骤，从而获取到同义短语中一个或多个短语的同义短语。然后将同义短语和同义短语中一个或多个短语的同义短语一起作为目标短语的同义短语。根据不同的应用需求，可以将这样的过程重复更多次，优选地，可以将该过程重复2-3次。与上述结合图1所述的方法相比，通过本实施例的挖掘方法，可以进一步扩大同义短语的范围。

在上述实施例的计算机执行的同义短语的挖掘方法中，获取到的同义短语可能存在停用、包含标点符号、重叠等情况，因此，为了获得更精确的同义短语，根据本申请的又一实施例，在通过上述计算机执行的同义短语的挖掘方法获取到目标短语的同义短语（目标短语的同义短语和/或各同义短语的同义短语）之后，可以根据预定规则对目标短语的同义短语进行过滤处理。

具体而言，预定规则可以包括以下中的至少一种：

判断同义短语是否包含停用词表中的词；

判断同义短语是否包含禁用词表中的词；

判断同义短语中是否包括标点符号；

判断同义短语与目标短语之间是否存在包含关系；

判断同义短语中的任意两个短语取词根后是否相同。

换言之，可以根据以上预定规则中的一种或多种，对目标短语的同义短语进行过滤处理。相应地，该过滤处理可以包括以下中的一种或多种：

当判定同义短语包含停用词表中的词时，去除该同义短语，否则保留该同义短语；

当判定同义短语包含禁用词表中的词时，去除该同义短语，否则保留该同义短语；

当判定同义短语中包括标点符号时，去除该同义短语，否则保留该同义短语；

当判定同义短语与目标短语之间存在包含关系时，去除该同义短语，否则保留该同义短语；

当判定同义短语中的两个短语取词根后相同时，去除这两个短语中的一个，并保留另一个。

这里需要说明的是，预定规则并不限于上述实施例中所列举的具体示例，而是可以为任意合适规则，本申请并不对此作任何限制。

与前面所述实施例相比，根据本实施例所述的同义短语的挖掘方法，通过过滤处理可以滤除不必要的同义短语，从而获得更精确的同义短语集合。

根据本申请上述实施例的计算机执行的同义短语的挖掘方法可以应用于各种适当场景中。下面结合图4描述其在搜索引擎领域中的运用。

参考图4，图4示出了根据本申请一个实施例的用于根据查询请求搜索相关内容的方法的流程图。

如图4所示，在步骤S410处，可以根据接收到的查询请求确定搜索关键字。

具体而言，搜索引擎可以接收来自任意客户端的查询请求，该查询请求可以包括客户端用户想要查询的任意内容，例如用户输入的词语或短句。

之后，搜索引擎对用户输入的词语或短句进行短语结构分析，确定搜索关键词。该短语结构分析可以通过本领域已知技术实现，这里不再赘述，以免混淆本申请。

接下来，在步骤S420处，可以基于前述的计算机执行的同义短语的挖掘方法来获得搜索关键字的同义短语。

该步骤的具体处理可以参见之前描述的根据本申请实施例的同义短语的挖掘方法的处理过程，这里不再赘述，以保持本文简洁。

之后，在步骤S430处，可以根据步骤S410确定的搜索关键字和步骤S420获得的搜索关键字的同义短语来搜索并显示相关内容。

在本申请实施例的用于根据查询请求搜索相关内容的方法中，通过获取搜索关键字的大量、精确的同义短语，并搜索这些同义短语的所有相关内容，从而可以针对用户需求扩大搜索范围，提高对用户需求内容的覆盖的可能性和全面性，增强搜索性能，由此可以向用户返回其想要检索的信息，方便用户的使用。

与上述计算机执行的同义短语的挖掘方法和用于根据查询请求搜索相关内容的方法类似，本申请实施例还分别提供相应的计算机执行的同义短语的挖掘装置和用于根据查询请求搜索相关内容的装置。

参考图5，图5示出根据本申请一个实施例的计算机执行的同义短语的挖掘装置500的结构框图。

如图5所示，装置500可以包括对齐关系获得模块510、第一集合获得模块520、第二集合获得模块530和同义短语获得模块540。

具体而言，对齐关系获得模块510可以用于依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系。第一集合获得模块520可以用于针对当前语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的中间语言的第一对齐短语集合。第二集合获得模块530可以用于依据第二短语对齐关系，获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合。同义短语获得模块540可以用于从第二对齐短语集合中获得所述目标短语的同义短语。

更具体而言，对齐关系获得模块510可以进一步包括：词对齐关系获得子模块，用于获得平行语料库的各平行句对中当前语言的词与中间语言的词的词对齐关系；短语对抽取子模块，用于依据所述词对齐关系，抽取出对齐的短语对；第一对齐关系获得子模块，用于依据所述抽取出的短语对，针对每个短语对中的当前语言的短语，获得与该当前语言的短语对齐的所有中间语言的短语，从而获得当前语言的短语至中间语言的短语的第一短语对齐关系；以及第二对齐关系获得子模块，用于依据所述抽取出的短语对，针对每个短语对中的中间语言的短语，获得与该中间语言的短语对齐的所有当前语言的短语，从而获得中间语言的短语至当前语言的短语的第二短语对齐关系。

第一集合获得模块520可以进一步包括：第一选取子模块，用于依据第一短语对齐关系中中间语言的各短语与当前语言的目标短语的语义近似度，选取与目标短语对齐的中间语言的短语以形成第一对齐短语集合。

第二集合获得模块530可以进一步包括：第二选取子模块，用于依据第二短语对齐关系中当前语言的各短语与所述第一对齐短语集合中的选定短语的语义近似度，选取与第一对齐短语集合中的选定短语对齐的当前语言的短语以形成第二对齐短语集合。

同义短语获得模块540可以进一步包括：第三选取子模块，用于根据第二对齐短语集合中每个短语与目标短语的语义近似度，选取目标短语的同义短语。

根据本申请的另一实施例，装置500还可以包括重复模块（未示出），用于：以所述选取的同义短语中的一个或多个短语分别作为当前语言的目标短语，重复步骤（b）-（d），从而获取所述选取的同义短语中一个或多个短语的同义短语；以及将所述选取的同义短语和所述选取的同义短语中一个或多个短语的同义短语一起作为目标短语的同义短语。

根据本申请的又一实施例，装置500还可以包括：过滤模块（未示出），用于根据预定规则对目标短语的同义短语进行过滤处理。

具体而言，所述预定规则包括以下中的至少一种：

判断同义短语中是否包含停用词表中的词；

判断同义短语中是否包含禁用词表中的词；

判断同义短语中是否包括标点符号；

判断同义短语与目标短语之间是否存在包含关系；

判断同义短语中的任意两个短语取词根后是否相同。

由于本申请实施例的装置所实现的功能基本相应于前述图1所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，这里不再赘述。

与上述同义短语的挖掘方法类似，通过本申请的同义短语的挖掘装置同样可以获得大量的且精确的同义短语。

图6示出根据本申请一个实施例的用于根据查询请求搜索相关内容的装置600的结构框图。

如图6所示，装置600可以包括搜索关键字确定模块610、同义短语挖掘模块620以及搜索和显示模块630。

具体而言，搜索关键字确定模块610可以用于根据接收到的查询请求确定搜索关键字。同义短语挖掘模块620可以用于根据前述图1的方法获得搜索关键字的同义短语。搜索和显示模块630可以用于根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。

由于本申请实施例的装置所实现的功能基本相应于前述图4所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，这里不再赘述。

与上述根据查询请求搜索相关内容的方法类似，通过本申请的根据查询请求搜索相关内容的装置同样可以针对用户需求扩大搜索范围，提高对用户需求内容的覆盖的可能性和全面性，增强搜索性能，可以向用户返回其想要检索的信息，方便用户的使用。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种计算机执行的同义短语的挖掘方法，其特征在于，包括：

（a）依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系；

（b）针对当前语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的中间语言的第一对齐短语集合；

（c）依据第二短语对齐关系，获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合；以及

（d）从第二对齐短语集合中获得所述目标短语的同义短语。

2.如权利要求1所述的方法，其特征在于，步骤（a）进一步包括：

获得平行语料库的各平行句对中当前语言的词与中间语言的词的词对齐关系；

依据所述词对齐关系，抽取出对齐的短语对；

依据所述抽取出的短语对，针对每个短语对中的当前语言的短语，获得与该当前语言的短语对齐的所有中间语言的短语，从而获得当前语言的短语至中间语言的短语的第一短语对齐关系；以及

依据所述抽取出的短语对，针对每个短语对中的中间语言的短语，获得与该中间语言的短语对齐的所有当前语言的短语，从而获得中间语言的短语至当前语言的短语的第二短语对齐关系。

3.如权利要求1所述的方法，其特征在于，步骤（b）进一步包括：

依据第一短语对齐关系中中间语言的各短语与当前语言的目标短语的语义近似度，选取与目标短语对齐的中间语言的短语以形成第一对齐短语集合。

4.如权利要求1所述的方法，其特征在于，步骤（c）进一步包括：

依据第二短语对齐关系中当前语言的各短语与所述第一对齐短语集合中的选定短语的语义近似度，选取与第一对齐短语集合中的选定短语对齐的当前语言的短语以形成第二对齐短语集合。

5.如权利要求1所述的方法，其特征在于，步骤（d）进一步包括：

根据第二对齐短语集合中每个短语与目标短语的语义近似度，选取目标短语的同义短语。

6.如权利要求1所述的方法，其特征在于，还包括：

（e）以所述选取的同义短语中的一个或多个短语分别作为当前语言的目标短语，重复步骤（b）-（d），从而获取所述选取的同义短语中一个或多个短语的同义短语；

将所述选取的同义短语和所述选取的同义短语中一个或多个短语的同义短语一起作为目标短语的同义短语。

7.如权利要求1-6中任一项所述的方法，其特征在于，还包括：

（f）根据预定规则对目标短语的同义短语进行过滤处理。

8.如权利要求7所述的方法，其特征在于，所述预定规则包括以下中的至少一种：

判断同义短语是否包含停用词表中的词；

判断同义短语是否包含禁用词表中的词；

判断同义短语中是否包括标点符号；

判断同义短语与目标短语之间是否存在包含关系；

判断同义短语中的任意两个短语取词根后是否相同。

9.一种用于根据查询请求搜索相关内容的方法，其特征在于，包括：

根据接收到的查询请求确定搜索关键字；

基于权利要求1-8所述的方法获得搜索关键字的同义短语；以及

根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。

10.一种计算机执行的同义短语的挖掘装置，其特征在于，包括：

对齐关系获得模块，用于依据平行语料库获得当前语言的短语至中间语言的短语的第一短语对齐关系以及中间语言的短语至当前语言的短语的第二短语对齐关系；

第一集合获得模块，用于针对当前语言的目标短语，依据第一短语对齐关系，获得与目标短语对齐的中间语言的第一对齐短语集合；

第二集合获得模块，用于依据第二短语对齐关系，获得与第一对齐短语集合中的选定短语对齐的当前语言的第二对齐短语集合；以及

同义短语获得模块，用于从第二对齐短语集合中获得所述目标短语的同义短语。

11.如权利要求10所述的装置，其特征在于，对齐关系获得模块进一步包括：

词对齐关系获得子模块，用于获得平行语料库的各平行句对中当前语言的词与中间语言的词的词对齐关系；

短语对抽取子模块，用于依据所述词对齐关系，抽取出对齐的短语对；

第一对齐关系获得子模块，用于依据所述抽取出的短语对，针对每个短语对中的当前语言的短语，获得与该当前语言的短语对齐的所有中间语言的短语，从而获得当前语言的短语至中间语言的短语的第一短语对齐关系；以及

第二对齐关系获得子模块，用于依据所述抽取出的短语对，针对每个短语对中的中间语言的短语，获得与该中间语言的短语对齐的所有当前语言的短语，从而获得中间语言的短语至当前语言的短语的第二短语对齐关系。

12.如权利要求10所述的装置，其特征在于，第一集合获得模块进一步包括：

第一选取子模块，用于依据第一短语对齐关系中中间语言的各短语与当前语言的目标短语的语义近似度，选取与目标短语对齐的中间语言的短语以形成第一对齐短语集合。

13.如权利要求10所述的装置，其特征在于，第二集合获得模块进一步包括：

第二选取子模块，用于依据第二短语对齐关系中当前语言的各短语与所述第一对齐短语集合中的选定短语的语义近似度，选取与第一对齐短语集合中的选定短语对齐的当前语言的短语以形成第二对齐短语集合。

14.如权利要求10所述的装置，其特征在于，同义短语获得模块进一步包括：

第三选取子模块，用于根据第二对齐短语集合中每个短语与目标短语的语义近似度，选取目标短语的同义短语。

15.如权利要求10所述的装置，其特征在于，还包括重复模块，用于：

以所述选取的同义短语中的一个或多个短语分别作为当前语言的目标短语，重复步骤（b）-（d），从而获取所述选取的同义短语中一个或多个短语的同义短语；

16.如权利要求10-15中任一项所述的装置，其特征在于，还包括：

过滤模块，用于根据预定规则对目标短语的同义短语进行过滤处理。

17.如权利要求16所述的装置，其特征在于，所述预定规则包括以下中的至少一种：

判断同义短语是否包含停用词表中的词；

判断同义短语是否包含禁用词表中的词；

判断同义短语中是否包括标点符号；

判断同义短语与目标短语之间是否存在包含关系；

判断同义短语中的任意两个短语取词根后是否相同。

18.一种用于根据查询请求搜索相关内容的装置，其特征在于，包括：

搜索关键字确定模块，用于根据接收到的查询请求确定搜索关键字；

同义短语挖掘模块，用于基于权利要求1-8所述的方法获得搜索关键字的同义短语；以及

搜索和显示模块，用于根据所述搜索关键字和所述搜索关键字的同义短语来搜索并显示相关内容。