[go: up one dir, main page]

CN1871605A - 问答式文献检索系统和方法 - Google Patents

问答式文献检索系统和方法 Download PDF

Info

Publication number
CN1871605A
CN1871605A CNA2004800313320A CN200480031332A CN1871605A CN 1871605 A CN1871605 A CN 1871605A CN A2004800313320 A CNA2004800313320 A CN A2004800313320A CN 200480031332 A CN200480031332 A CN 200480031332A CN 1871605 A CN1871605 A CN 1871605A
Authority
CN
China
Prior art keywords
question
document
retrieval
extracted
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800313320A
Other languages
English (en)
Other versions
CN100535898C (zh
Inventor
小林贤治
松井大辅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Solutions Corp filed Critical Toshiba Solutions Corp
Publication of CN1871605A publication Critical patent/CN1871605A/zh
Application granted granted Critical
Publication of CN100535898C publication Critical patent/CN100535898C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种检索装置(22),其基于包含在作为来自用户的问题形式的检索请求的问题中的关键字来检索相关的文献。所述检索装置(22)提取与所述关键字相关并且包含在所述检索到的文献中的描述作为第一概要。概要提取单元(232)从形成由文献检索结果指示的文献的原始文献数据中提取对应于与由问题类型确定单元(231)确定的所述问题的问题类型相匹配的回答的描述作为第二概要。所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中。接口(21)在显示装置上显示所述文献检索结果以及所述提取的第二概要的列表。所述文献检索结果包括所述提取的第一概要的列表。

Description

问答式文献检索系统和方法
技术领域
本发明涉及问答式文献检索系统和方法,其适于分析来自用户的作为问题形式的检索请求的问题的语义角色(SR),从文献中提取作为所述问题的回答的描述,并通过显示窗口向所述用户呈现所提取的描述。
背景技术
常规地,已经开发出了依照来自用户的检索请求检索文献的各种文献检索系统。作为这种类型的文献检索系统,已经知道了一种通过利用全文搜索技术或词法分析技术,以字为基础检索文献的文献检索系统。然而,可能有大量的文献和大量的文献数据满足一个检索请求。在这种情况下,用户需要检查显示窗口上的检索到的大量文献中每一篇的内容,并从中选择需要的文献或提取需要的信息。因此,近来,已开发了一种用户界面,其除了显示各检索到的文献的标题、作者等,还显示检索到的文献的概要(或摘要)列表,以减少用户的工作。在这种情况下,通常使用包含了检索的文献的关键字的句子、检索到的文献的第一个句子等作为概要。
然而,确定所显示的每一文献的概要是否为用户所需受到所述用户之间的观点差异或个体差异的影响。因此,在日本专利申请公开公报8-255172(参考1)中公开了以下文献检索技术。根据参考1中公开的文献检索技术,从构成作为检索目标的许多文献中的每一篇的文献数据(原始文献数据)中提取句子或信息作为摘录(摘录数据)。在这种情况下,基于称为句子模式的各种观点或参考,预先从存储在原始文献数据库中的每篇文献的原始文献数据中为每个句子模式提取摘录数据。将所述为每个句子模式提取的摘录数据存储在基于文献的数据库(摘录数据库)中。在从所述检索到的文献的文献数据中提取的所述摘录数据中,显示由用户选择的匹配句子模式的摘录数据列表。根据这种文献检索技术,可以显示用户很可能需要的摘录(概要)。
日本专利申请公开公报2002-132811(参考2)公开了如下的问答式文献检索系统。根据参考2中公开的文献检索技术,为检索系统(问答式文献检索系统)提供了来自用户的问题形式的检索请求。这种问题形式的检索请求是类似自然语言的检索请求,例如,“XXX的价格是多少?”或“谁是YYY公司的总裁?”等问题。在这种情况下,从问题确定检索字集(retrieval word set)和问题分类。然后,基于所述检索字集和所述问题分类从文献集检索相关文献集。从所述相关文献集提取所述问题的回答(字)。检索系统向用户示出所述提取的回答和包含所述回答的文献(或所述文献的文献编号)的对,作为所述问题的回答结果。
发明内容
根据参考1中公开的文献检索技术(此后称为第一文献检索技术),在从所述检索到的文献的文献数据中提取的所述摘录数据中,显示与由用户选择的句子模式相匹配的摘录数据的列表。这样可以显示用户很可能需要的摘录(概要),从而减少用户进行文献检索的工作负荷。然而,在所述第一文献检索技术中,对于每个句子模式预先从存储在原始文献数据库中的每一篇文献的原始文献数据中提取作为摘录(概要)的摘录数据。为此,所述第一文献检索技术不能处理句子模式的加入/改变。
根据专利参考2中公开的问答式文献检索技术(此后成为第二文献检索技术),向所述用户示出问题(自然语言形式的检索请求)的直接回答以及该回答所基于的文献。因此,所述用户可以检查所述回答的可靠性。在所述第二文献检索技术中,不需要预先准备用作回答的数据。这使得可以容易地处理问题分类的加入/改变。然而,在所述第二文献检索技术中,如果问题仅包括关键字,并且由于问题的模糊性而不能确定问题分类,则不能向用户示出回答结果(检索结果)。
本发明的目的在于向用户示出第一概要的列表,其中从通过关键字检索技术利用从问题提取的关键字而检索的文献中提取所述第一概要,以及对应于所述问题的回答的第二概要的列表,其中通过利用所述问答式文献检索技术从所述检索到的文献提取所述第二概要。
根据本发明的一个方面,提供了一种问答式文献检索系统,其依照问题形式的检索请求执行文献检索。此系统包括检索装置,其基于从作为问题形式的检索请求的问题提取出的关键字来检索相关的文献,提取与所述关键字相关并包含在所述检索到的文献中的描述作为第一概要,并且获取包括所述提取的第一概要的列表的文献检索结果,问题类型确定装置,其通过分析所述问题的语义角色来确定所述问题的问题类型,概要提取装置,通过从形成由所述文献检索结果指示的文献的原始文献数据中提取对应于与由所述问题类型确定装置确定的所述问题类型相匹配的回答的描述作为第二概要来获取所述第二概要的列表,所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中,所述概要提取装置获取所述提取的第二概要的列表,并且接口被配置为在检索请求源的显示装置的显示窗口上显示包括由所述检索装置获取的所述第一概要的列表的文献检索结果以及由所述概要提取装置获取的所述第二概要的列表,作为对所述检索请求的回答。
附图说明
图1是框图,其示出了实现根据本发明实施例的问答式文献检索系统的计算机系统的结构;
图2是框图,其示出了由图1中的计算机系统实现的问答式文献检索系统的结构;
图3是流程图,其示出了在所述相同实施例中的检索装置22中的处理顺序;
图4是流程图,其示出了在所述相同实施例中的问题类型确定单元231中的处理顺序;
图5是流程图,其示出了在所述相同实施例中的概要提取单元232中的处理顺序;
图6是视图,用于解释由所述问题类型确定单元231利用模式确定字典204进行的问题类型确定;
图7是视图,用于解释由所述概要提取单元232利用所述模式确定字典204进行的概要提取;
图8是视图,其示出了在所述相同实施例中的显示窗口例子。
具体实施方式
下面将参照附图描述本发明的实施例。图1是框图,示出了实现根据本发明实施例的问答式文献检索系统的计算机系统的硬件结构。图1所示的计算机系统包括CPU 1、存储装置2、显示装置3以及输入装置4。CPU1控制与文献检索相关的各种处理以及全部系统。存储装置2包括主存储器和磁盘驱动器(例如,硬盘驱动器)。如何选择地使用所述主存储器和所述硬盘驱动器与本发明没有直接关系,因此省略其描述。利用存储装置2存储由CPU 1执行的各种程序。这些程序中的一个是用于实现问答式文献检索的问答式文献检索程序。可注意到,所述问答式文献检索程序可以是一个应用程序的一个组成部分,而不必是独立的程序。存储装置2也被用于存储原始文献数据库201、字索引数据202、词素字典203,以及模式确定字典204。
原始文献数据库201存储原始文献数据(文献数据),所述文献数据组成了作为检索目标的多篇文献中的每一篇。字索引数据202是用来根据关键字检索文献的索引信息。关于包含在作为检索目标的每一篇文献中的字,字索引数据202指示在其中包含所述字的文献以及所述字在所述文献中的位置。词素字典203是用于对问题形式的作为检索问题的问题(即,自然语言表达的问题)的进行词法分析的字典。词素字典203对于每个词素包括所述词素与指示所述词素的词性的词性信息的对。模式确定字典204用于通过分析问题的语义角色来确定问题模式(问题类型)。显示装置3包括典型为液晶显示器的显示器,以及控制所述显示器的显示器控制器。显示装置3被用来显示用于输入文献检索请求(例如,问题形式的文献检索请求)的输入区,以及对应于所述检索请求的检索结果等。输入装置4包括键盘和鼠标。输入装置4被用来依照用户的操作输入文献检索请求、进行各种选择等等。
图2是框图,其示出了由图1中的计算机系统实现的问答式文献检索系统的结构。此问答式文献检索系统主要包括接口21、检索装置22以及摘录装置23。所述问答式文献检索系统还包括原始文献数据库201、字索引数据202、词素字典203以及图1所示的模式确定字典204。当图1所示的CPU 1执行所述问答式文献检索程序时,实现接口21、检索装置22以及摘录装置23。接口21具有接受来自所述用户的检索请求(在这种情况下是问题形式的检索请求)并向检索装置22传送所述检索请求的功能。当所述用户操作输入装置4时,从图1所示的输入装置4输入此检索请求。接口21还具有接收来自检索装置22的检索结果并向摘录装置23传送所述检索结果和对应于所述检索结果的检索请求的功能。接口21进一步具有接收来自摘录装置23的与检索请求相匹配的概要的列表并使得显示装置3在检索结果列表窗口上显示所述概要列表连同来自检索装置22的检索结果的功能。
检索装置22具有从接口21传送的问题形式的检索请求中提取关键字的关键字提取功能。检索装置22还具有通过利用字索引205检索包含所述提取的关键字的文献的文献检索功能。利用这样的关键字的检索被称为关键字检索。在这种情况下,基于所述关键字的出现频率对由所述关键字检索而检索到的文献的每一篇赋予得分。即,计算表示关于所述关键字的相关程度的得分。检索装置22从已被赋予得分的文献中选择上位的(upper)M(M是大于1的整数)篇文献,并向接口21传送检索结果,该结果包括选择文献的标题和概要的列表。
摘录装置23包括问题类型确定单元21和概要提取单元232。问题类型确定单元231通过基于模式确定字典204分析从接口21传送的问题形式的检索请求的语义角色(即,问题的语义角色)来确定所述问题的问题类型。概要提取单元232指定对于由问题类型确定单元231基于模式确定字典204确定的所述问题类型唯一的句子结构。概要提取单元232从由接口21传送的所述检索结果指示的最大M篇文献的原始文献数据中提取具有指定的句子结构的句子。概要提取单元232进一步为每个提取的句子赋予得分,并选择上位的N(N为整数,满足N≤M)个句子作为匹配所述问题的概要。将所选择的N个概要传送给接口21。
下面将参照图3到8,通过对当依照用户操作从输入装置4输入问题形式的检索请求时所进行的操作进行举例来描述此实施例的操作。图3是流程图,其示出了在检索装置22中的处理顺序。图4是流程图,其示出了在问题类型确定单元231中的处理顺序。图5是流程图,其示出了在概要提取单元232中的处理顺序。图6是视图,用于解释由所述问题类型确定单元231利用模式确定字典204进行的问题类型确定。图7是视图,用于解释由所述概要提取单元232利用所述模式确定字典204进行的概要提取。图8是视图,其示出了显示窗口的例子。
假设如图8所示,在显示装置3的显示窗口上显示问题输入区81。区81被用来输入问题形式的检索请求。假设所述用户已经进行了向问题输入区81输入作为问题形式的检索请求的问题的操作。通过利用输入装置4进行此操作。假设在这种情况下,所述用户已输入了使用自然语言的问题82,用于询问“XXX的价格”,类似“XXX的价格是多少?”,如图8所示。在这种情况下,假设问题82,即,“XXX的价格是多少?”被以日文输入。图8还示出了以罗马字母表示的日文表述“XXX no nedan waikura”,其对应于问题82“XXX的价格是多少?”。所述以罗马字母表示的日文字“nedan”和“ikura”分别意谓“价格”和“价格多少”(“多少钱”)。从输入装置4输入的问题82被作为问题形式的检索请求传送到接口21。接收到从输入装置4传送来的所述问题形式的检索请求之后,接口21向检索装置22传送所述检索请求。
检索装置22基于词素字典203对从接口21传送来的所述问题形式的检索请求,即,问题82进行词法分析(步骤S1)。在这种情况下,对问题82,即,“XXX no nedan wa ikura”进行词法分析得到“/XXX<名词>+/no<功能字>+/nedan<名词>+/wa<功能字>+/ikura<副词>”。在此词法分析结果中的<名词>、<功能字>和<副词>分别指示名词、功能字以及副词的相应词素。然后,检索装置22基于所述语法分析结果提取包含在所述问题中的关键字(步骤S2)。在这种情况下,提取词性为名词的关键字,即,“XXX”和“nedan”(即,“价格”)。
然后,检索装置22通过所谓的关键字检索技术进行文献检索,以检索包含了从问题82中提取的关键字的文献(步骤S3)。检索装置22通过参照字索引数据202检索包含了所述关键字的文献。常规地认为所述利用字索引数据202的文献检索技术是一种快速检索包含关键字的文献的技术。由于此技术与本发明并非直接相关,在此省略对其的详细描述。
然后,检索装置22对所有检索到的文献赋予得分(步骤S4)。在这种情况下,基于所述关键字在所述文献中的出现频率通过利用常规地称为“TFIDF”的算法对每篇检索到的文献赋予得分。注意到,除“TFIDF”外,已知还有各种对检索到的文献赋以得分的方法。例如,可预先为作为关键字的每一项准备得分,以赋给相应的检索到的文献。
检索装置22基于赋予所有检索到的文献的得分从所有检索到的文献中选择M篇具有高得分的文献作为以得分降序排列的文献检索结果(步骤S5)。如果检索到的文献数目小于M,则选择所有检索到的文献。在这种情况下,仅将得分超出预定得分的文献选择作为以得分降序排列的文献检索结果。
然后,检索装置22从根据得分顺序选择的所有文献(在这种情况下为M篇文献)的每一篇中提取与上述关键字相关联的描述,例如,包含所述关键字的句子,作为概要(第一概要)。通过参照存储在原始文献数据库201中的用于形成所述文献的所述原始文献数据从根据得分顺序选择的M篇文献的每一篇中提取所述第一概要。检索装置22向接口21传送检索结果,其中所述检索结果包含以得分顺序选择的所述M篇文献中每一篇的第一概要(步骤S7)。从检索装置22接收到所述检索结果之后,接口21向摘录装置23传送所述检索结果连同所述问题形式的检索请求。
然后,摘录装置23的问题类型确定单元231对从接口21传送的问题形式的检索请求,即,问题82,进行词法分析(步骤S11)。利用此操作,如图6所示,得到问题82“XXX no nedan wa ikura”(即,“XXX的价格是多少?”)的词法分析结果61,即,“/XXX<名词>+/no<功能字>+/nedan<名词>+/wa<功能字>+/ikura<副词>”。问题类型确定单元231基于所述词法分析结果61提取包含在问题82中的关键字(步骤S12)。在这种情况下,除了名词“XXX”和名词“nedan”(即,“价格”)之外,提取了副词“ikura”(即,“价格是多少”(“多少钱”))。
模式确定字典204为每个预定的问题类型存储问题类型确定规则信息,其为用于确定问题类型的关键字。在此实施例中,如图6所示,模式确定字典204存储问题类型确定规则信息,其包括问题类型确定规则信息204a和204b。问题类型确定规则信息204a被用来确定与人相关的问题类型。问题类型确定规则信息204a包括指示与人相关联的问题类型的问题类型信息以及对于与人,例如,“谁”,相关联的问题类型唯一的字信息。在这种情况下,如果“谁”被包含在从所述问题提取的一组关键字中,信息204a指示所述问题是与人相关联的问题类型。问题类型确定规则信息204b被用来确定与钱,诸如价格或费用,相关联的问题类型。信息204b包括指示与钱相关联的问题类型的问题类型信息以及对于与钱,诸如“价格”、“费用”、“数量”,或“多少钱”,相关联的问题类型唯一的字信息。在此实施例中,作为信息204b,使用日文信息。参照图6,所述以罗马字母表示的日文字“nedan”(即,“价格”),“kakaku”(即,“费用”),“kingaku”(即,“数量”),以及“ikura”(即,“多少钱”)连同“价格”、“费用”、“数量”,以及“多少钱”一起被写出,作为包含在所述信息204b中的字信息。在这种情况下,信息204b包括被写为类似“(价格|费用|数量)&多少钱”的确定条件。在这种情况下,“|”指示OR条件,而“&”指示AND条件。如果“价格”、“费用”和“数量”中的至少一个与“多少钱”均出现在从所述问题提取的一组关键字中,则信息204b指示所述问题是与钱相关的问题类型。“价格”、“费用”以及“数量”是准同义词(quasi-synonyms)。
如图6所示,当执行步骤S12时,问题类型确定单元231在从问题提取出的关键字和存储在模式确定字典204中的问题类型确定规则信息之间进行模式匹配62。问题类型确定单元231通过模式匹配62分析所述问题的语义角色,并确定由所述语义角色所表示的问题类型(步骤S13)。在这种情况下,从所述问题提取的关键字“价格”和“多少钱”命中在问题类型来确定规则信息204b中包含的“(价格|费用|数量)&多少钱”。在这种情况下,问题类型确定单元231确定所述问题类型为“钱”。问题类型确定单元231向摘录装置23中的概要提取单元232通知所确定的问题类型(步骤S14)。
概要提取单元232从接口21向摘录装置23传送的检索结果所指示的M篇文献中选择一篇未处理的文献,并提取存储在原始文献数据库201中的形成所述选择的文献的原始文献数据(步骤S21)。概要提取单元232基于词素字典203对所提取的原始文献数据进行词法分析(步骤S22)。假设如图7所示,原始文献数据包括以罗马字母表示的日文表述的句子71“XXX wa 12 gatsu 1 nichi hatsubai de,kakaku wa 125 manen karadesu.”(即,“XXX将于12月1日以至少1,250,000日元的价格发行”)。在此情况下,句子71的词法分析结果72是“/XXX<名词>+wa<功能字>/12<数词>/gatsu<计数后缀>/1<数词>/nichi<计数后缀>/hatsubai<名词>+de<功能字>/,<标点符号>/kakaku<名词>+wa<功能字>/125<数词>/manen<计数后缀>+karadesu<功能字>/.<标点符号>”。
除了上述问题类型确定规则信息之外,模式确定字典204为每种预定的问题类型存储指示与所述问题类型相匹配的句子的句子结构的句子结构信息。在此实施例中,如图7所示,模式确定字典204存储对于与人相关联的问题类型唯一的句子结构信息204c以及对于与钱相关的问题类型唯一的句子结构信息204d。如果所述问题类型是“人”,句子结构信息204c指示与匹配所述问题类型的推荐的句子(描述)共同的日语句子结构“{(<姓(专有名词)>|<名(专有名词)>|<人的姓名后缀>|<姓后缀>}/(kun<后缀>|uji<后缀>)”。在这种情况下,“kun”和“uji”对应于英语中的“先生”或“夫人”。然而,可注意到,“kun”或“uji”被置于“姓(专有名词)”和“名(专有名词)”等等之后。另外,“|”和“/”分别指示OR条件和AND条件。利用句子结构信息204c,可将包括句子结构“{<姓(专有名词)>或<名(专有名词)>或<人的姓名后缀>或<姓后缀>}+{(kun<后缀>)或(uji<后缀>)}”的句子提取出来作为匹配与人相关的问题类型的句子。
如果问题类型是“钱”,句子结构信息204d指示与匹配所述问题类型的推荐的句子(描述)共同的句子结构“<数词>/{(en|manen|oku<名词>/en|doru}<计数后缀>”(即,“<数词>/(日元/万日元|亿<名词>/日元|美元)<计数后缀>”)。在这种情况下,为简便起见,将以罗马字母表示的日语单词“en”(即,“日元”),“manen”(即,“万日元”),“oku”(即,“亿”),以及“doru”(即,“美元”)用于一些句子结构信息204d。利用所述句子结构信息204d,可提取包括句子结构“数词+(日元或万日元或(亿+名词+日元)或美元)+计数后缀”的句子作为匹配与钱相关的问题类型的句子。
概要提取单元232对在步骤S21提取的原始文献数据的每一个句子(即,由检索装置22检索的文献的每一个句子)进行词法分析(步骤S22)。然后,所述流程进行到步骤S23。在步骤S23中,概要提取单元232在步骤S21提取的每个句子和句子结构信息之间进行模式匹配73,所述句子结构信息对于问题类型确定单元231基于步骤S22中得到的词法分析结果所确定的问题类型唯一(步骤S23)。在这种情况下,概要提取单元232在步骤S21提取的每一个句子和存储在模式确定字典204中的每一种问题类型的句子结构信息的句子结构信息204d之间进行模式匹配73。利用模式匹配73,概要提取单元232提取匹配的句子作为与所述问题类型相匹配的句子(即,与所述问题的语义角色相匹配的句子)的候选(步骤S24)。在这种情况下,如图7所示,由于句子71“XXX将于12月1日以至少1,250,000日元的价格发行”中的“1,250,000日元”命中由句子结构信息204d指示的句子结构,句子71被提取作为匹配所述问题类型的句子的候选。然后,概要提取单元232从问题82提取例如名词作为关键字(步骤S25)。概要提取单元232从在步骤S24中提取的候选(句子71)中选择包含在步骤S25提取的关键字的候选(步骤S26)。在这种情况下,从问题82“XXX的价格是多少?”中提取“XXX”和“价格”作为关键字。“XXX”被包含在前述的句子71(“XXX将于12月1日以至少1,250,000日元的价格发行”)中。因此,在步骤S25中,选择句子71“XXX将于12月1日以至少1,250,000日元的价格发行”。这样,概要提取单元232从由检索装置22检索到的文献的句子中选择包括对于所述问题的问题类型唯一的句子结构并且包含从所述问题提取的关键字的句子(步骤S23到S26)。可注意到,作为关键字从所述问题中提取出的“价格”的准同义词“费用”和“数量”也可以作为关键字使用。这种准同义词被包含在与钱相关的问题类型确定规则信息204b中。所述信息204b被存储在模式确定字典204中。
与步骤S24中一样,概要提取单元232基于所述关键字的出现频率对选择的句子赋以得分(步骤S27)。概要提取单元232对于由检索结果指示的M篇文献重复步骤S21到S27(步骤S28)。概要提取单元232从所述赋予了得分的句子(候选)中例如以得分的降序排列选择上位的N(N为整数,满足N≤M)个句子作为匹配所述问题的推荐的概要(第二概要)(步骤S29)。如果所述被赋予得分的句子的数目少于N,则选择所有被赋予得分的句子。在这种情况下,仅以得分的降序排列选择所赋得分超过预定得分的句子。概要提取单元232向接口21传送以得分的顺序选择的概要(上位的N个第二概要)(步骤S30)。
接口21使得显示装置3的显示器控制器在显示装置3的显示窗口上显示之前从检索装置22传送的所述检索结果以及从概要提取单元232传送的第二概要。在这种情况下,如图8所示,从检索装置22传送的所述检索结果,即,包括以得分的顺序选择的各文献的第一概要的列表的所述检索结果被显示在所述显示窗口的第一区域83。另外,从概要提取单元232传送的第二概要,即,以得分的顺序选择的第二概要的列表被显示在所述显示窗口的第二区域84。
当包括所述第一概要的列表的检索结果将被显示时,接口21的显示顺序决定单元210决定所述第一概要的显示顺序。当由检索装置22检索到相关的文献时,基于所计算的得分根据得分的顺序决定此显示顺序。接口21以决定的显示顺序(即,所述得分的顺序)在所述显示窗口的第一区域83中显示所述第一概要的列表。类似地,当所述第二概要的列表将被显示时,显示顺序决定单元210决定所述第二概要的显示顺序。当由概要提取单元232提取出所述第二概要时,基于所计算的得分根据得分的顺序决定此显示顺序。接口21以决定的显示顺序(即,所述得分的顺序)在所述显示窗口的第二区域84中显示所述第二概要的列表。在这种情况下,如果不能立刻显示所述第一或第二概要的完整列表,则分割显示所述列表。在这种情况下,首先显示对应于具有最高得分的组的第一或第二概要。当所述用户指示切换将被显示的概要时,将当前显示切换到对应于具有次最高得分的组的第一或第二概要的显示。
可注意到,如果检索装置22被配置为向接口21传送所述第一概要(以及标题)的列表,其中,以得分的顺序排列所述第一概要(和标题),显示顺序决定单元210可以根据得分的顺序而无需考虑所述得分来决定所述第一概要(和标题)的显示顺序。类似地,如果概要提取单元232被配置为向接口21传送所述第二概要的列表,其中,以得分的顺序排列所述第二概要,显示顺序决定单元210可以根据得分的顺序而无需考虑所述得分来决定所述第二概要的显示顺序。
如上所述,在此实施例中,通过关键字检索方法利用从作为输入到问题输入区81的问题形式的检索请求的问题中提取出的关键字检索文献。从检索到的文献的上位的M篇文献的每一篇中提取出作为与所述关键字相关的描述的第一概要。以得分的顺序在显示窗口的第一区域83中显示所述提取的第一概要。从所述M篇文献中的每一篇提取对应于匹配所述问题类型的回答的描述。通过利用问答式检索技术分析所述问题的语义角色来确定此问题类型。将从上述M篇文献提取的所述描述的上位的N个描述(句子)提取作为对应于所述问题的回答的所述第二概要。以得分的顺序在所述显示窗口的第二区域84中显示所述提取的第二概要。
如上所述,在此实施例中,如果通过问答式检索找到对应于问题的回答的描述作为所述第二概要,可以明确地向用户示出所述第二概要的列表。因此,用户可以容易地在所述第二概要的列表访问其正要搜索的信息。另外,在此实施例中,由于仅对由文献检索结果指示的文献进行问答式检索处理,可以抑制问答式检索的响应速度降低。此外,在此实施例中,可以以得分的降序排列参照具有不同属性的两种概要的列表,即,所述第一概要的列表和所述第二概要的列表。这使得可能容易地访问他们正在搜索的信息。在这种情况下,用户可以通过进行从所述第一或第二概要的列表中选择所要的概要的操作,来显示对应于所要的概要的文献。
假设基本上只显示所述第二概要的列表。在这种情况下,仅当在由文献检索结果指示的文献中找不到第二概要时,将与关键字相关的描述作为第一概要从所述将被显示的文献中提取出来作为代替所述第二概要的概要。然而,在此显示方法中,不能将所述第一概要从所述第二概要中区别出来。可选地,可以以结合的方式显示从相同文献中提取的所述第一和第二概要。然而,根据此显示方法,即使根据检索文献时计算的得分的顺序或提取所述第二概要时计算的得分的顺序来确定所述显示顺序,也不以所述得分的顺序显示所述第一或第二概要。这使得用户使用此方法比较困难。
在问答式检索中,例如,由于以下因素:(1)所述问题句子仅由关键字组成,(2)所述问题句子语义模糊,(3)问题类型的确定规则不充分,以及(4)对应于匹配问题类型的回答的描述的提取规则不充分,有可能找不到所述第二概要。然而,在此实施例中,向用户示出了包括通过利用所述关键字检索技术获取的所述第一概要的列表的文献检索结果。因此,即使找不到第二概要,所述用户也可以从所述第一概要的列表容易地访问其正在搜索的信息。
以上实施例基于这样的假设,即在相同的计算机系统中存在显示装置3,输入装置4,以及处理部分(接口21,检索装置22,以及摘录装置23),其中所述处理部分依照从输入装置4输入的文献检索请求进行例如文献检索。然而,例如,可以在客户终端中提供所述显示装置3和所述输入装置4,并且,例如,可以在通过网络与所述客户终端相连接的检索服务器计算机中提供上述处理部分。另外,例如,可以在通过网络与所述检索服务器计算机相连接的数据库服务器计算机中提供所述原始文献数据库201。
本领域技术人员可以容易地得到其它优点和修改。因此,本发明在广义上不限于在此处示出和描述的具体细节和代表性实施例。于是,无需脱离由所附权利要求及其等同所定义的一般发明概念的精神和范围即可作出各种修改。
工业实用性
根据本发明,由于可以向用户示出第一概要的列表和第二概要的列表,其中,从通过关键字检索技术利用从问题提取的关键字而检索到的文献中提取所述第一概要,从通过利用问答式检索技术检索到的文献中提取对应于所述问题的回答的所述第二概要,所述用户能够容易地访问其正在搜索的信息。

Claims (10)

1.一种依照问题形式的检索请求来执行文献检索的问答式文献检索系统,包括:
检索装置,其基于从作为来自用户的问题形式的检索请求的问题中提取的关键字来检索相关的文献,所述检索装置提取与所述关键字相关并包含在所述检索到的文献中的描述作为第一概要,从而获取包括所述提取的第一概要的列表的文献检索结果;
问题类型确定装置,用于通过分析所述问题的语义角色来确定所述问题的问题类型;
概要提取装置,用于从形成由所述文献检索结果指示的文献的原始文献数据中提取对应于与所述确定的问题类型相匹配的回答的描述作为第二概要,所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中,所述概述提取装置获取所述提取的第二概述的列表;以及
接口,其被配置为在所述用户能够使用的显示装置上显示所述文献检索结果以及所述第二概要的列表,作为对来自所述用户的所述检索请求的回答,所述文献检索结果包括所述第一概要的列表。
2.根据权利要求1所述的问答式文献检索系统,进一步包括:模式确定字典,其为每个预定的问题类型存储表示对于所述问题类型唯一的句子结构的句子结构信息,
并且,其中所述概要提取装置包括:
这样的单元,用于通过在形成由所述文献检索结果指示的每篇文献的所述原始文献数据和存储在所述模式确定字典中并对于所述确定的问题类型唯一的文献结构信息之间进行模式匹配,以提取具有对于所述确定的问题类型唯一的句子结构的描述,作为对应于与所述问题类型相匹配的回答的描述的候选;
得分赋予单元,用于为每一个所述提取的候选来计算表示与从所述问题提取的关键字的相关程度的得分;以及
这样的单元,基于由所述得分赋予单元计算的所述得分提取相应的描述作为所述第二概要。
3.根据权利要求1所述的问答式文献检索系统,其中:
所述检索装置包括:第一得分赋予单元,当基于从所述问题提取的关键字检索到相关的文献时,为每篇文献计算表示与所述关键字的相关程度的第一得分,选择单元,基于由所述第一得分赋予单元计算的所述第一得分来选择相关的文献,以及第一提取单元,用于从由所述选择单元选择的所述文献中提取所述第一概要;并且
所述概要提取装置包括:第二得分赋予单元,用于为每一个对应于与所述确定的问题类型相匹配的回答的描述的候选计算表示与从所述问题提取出的关键字的相关程度的第二得分,以及,第二提取单元,基于由所述第二得分赋予单元计算的所述第二得分来提取相应的描述作为所述第二概要。
4.根据权利要求3所述的问答式文献检索系统,其中,所述接口包括显示顺序决定单元,其被配置为基于由所述第一得分赋予单元计算的对应于包含所述第一概要的所述文献的所述第一得分来决定由所述第一提取单元提取的所述第一概要的显示顺序,并且基于由所述第二得分赋予单元计算的对应于所述第二概要的所述第二得分来决定由所述第二提取单元提取的所述第二概要的显示顺序。
5.根据权利要求3所述的问答式文献检索系统,其中:
所述选择单元基于由所述第一得分赋予单元计算的所述第一得分以所述得分的顺序来选择相关的文献;
所述第一提取单元向所述接口传送包括从以所述得分的顺序选择的所述文献中提取的所述第一概要的列表的文献检索结果,其中以所述相应得分的顺序来排列所述列表中的所述第一概要;并且
所述第二提取单元向所述接口传送基于由所述第二得分赋单元计算的所述第二得分而提取的所述第二概要的列表,其中,以所述相应得分的顺序来排列所述列表中的所述第二概要。
6.根据权利要求3所述的问答式文献检索系统,进一步包括:模式确定字典,其为每一个预定的问题类型存储表示对于所述问题类型唯一的句子结构的句子结构信息,
并且,其中:
所述概要提取装置包括这样的单元,其用于通过在形成由所述文献检索结果指示的每篇文献的所述原始文献数据和存储在所述模式确定字典中并对于所述确定的问题类型唯一的文献结构信息之间进行模式匹配,来提取具有对于所述确定的问题类型唯一的句子结构的描述作为对应于与所述问题类型相匹配的回答的描述的候选;以及
所述第二得分赋予单元为所述提取的候选的每一个计算表示与从所述问题提取的关键字的相关程度的得分。
7.一种依照问题形式的检索请求来检索文献的问答式文献检索方法,包括以下步骤:
基于从来自用户的作为问题形式的检索请求的问题中提取的关键字来检索相关的文献;
提取与所述关键字相关并包含在检索到的文献中的描述作为第一概要;
获取包括所述提取的第一概要的列表的文献检索结果;
通过分析所述问题的语义角色来确定所述问题的问题类型;
从原始文献数据中提取对应于与所述确定的问题类型相匹配的回答的描述作为第二概要,其中所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中并且形成由所述文献检索结果指示的文献;以及
在所述用户能够使用的显示装置上显示所述文献检索结果以及所述提取的第二概要的列表,作为对来自所述用户的所述检索请求的回答,所述文献检索结果包括所述获取的第一概要的列表。
8.根据权利要求7所述的方法,其中:
所述检索包括:当基于从所述问题提取的关键字检索到相关的文献时,为每篇文献计算表示与所述关键字的相关程度的第一得分,并基于所述计算的第一得分选择相关的文献,作为检索到的文献;以及
所述提取作为所述第二概要包括:为对应于与所述确定的问题类型相匹配的回答的描述的每一个候选计算表示与从所述问题提取的关键字的相关程度的第二得分,以及,基于所述计算的第二得分提取相应的描述作为所述第二概要。
9.根据权利要求8所述的方法,其中,所述显示包括:基于对应于包含所述第一概要的所述文献的所述第一得分来决定所述提取的第一概要的显示顺序,并且基于对应于所述第二概要的所述第二得分来决定所述提取的第二概要的显示顺序。
10.一种用于依照问题形式的检索请求来检索文献的问答式文献检索的计算机程序产品,包括:
计算机可读代码装置,基于从来自用户的作为问题形式的检索请求的问题中提取的关键字来检索相关的文献;
计算机可读代码装置,用于提取与所述关键字相关并包含在检索到的文献中的描述作为第一概要;
计算机可读代码装置,用于获取包括所述提取的第一概要的列表的文献检索结果;
计算机可读代码装置,用于通过分析所述问题的语义角色来确定所述问题的问题类型;
计算机可读代码装置,用于从形成每一篇由所述文献检索结果指示的文献的原始文献数据中提取对应于与所述确定的问题类型相匹配的回答的描述作为第二概要,其中所述原始文献数据被包括在存储于原始文献数据库中并且形成每一篇作为检索目标的文献的原始文献数据中;以及
计算机可读代码装置,用于在所述用户能够使用的显示装置上显示所述文献检索结果以及所述提取的第二概要的列表,作为对来自所述用户的所述检索请求的回答,所述文献检索结果包括所述获取的第一概要的列表。
CNB2004800313320A 2003-10-24 2004-10-22 问答式文献检索系统和方法 Expired - Fee Related CN100535898C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP364949/2003 2003-10-24
JP2003364949A JP3820242B2 (ja) 2003-10-24 2003-10-24 質問応答型文書検索システム及び質問応答型文書検索プログラム

Publications (2)

Publication Number Publication Date
CN1871605A true CN1871605A (zh) 2006-11-29
CN100535898C CN100535898C (zh) 2009-09-02

Family

ID=34510140

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800313320A Expired - Fee Related CN100535898C (zh) 2003-10-24 2004-10-22 问答式文献检索系统和方法

Country Status (4)

Country Link
US (1) US7587420B2 (zh)
JP (1) JP3820242B2 (zh)
CN (1) CN100535898C (zh)
WO (1) WO2005041068A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456060A (zh) * 2010-10-28 2012-05-16 株式会社日立制作所 信息处理装置及信息处理方法
CN111400485A (zh) * 2018-12-28 2020-07-10 罗伯特·博世有限公司 用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入
CN119128119A (zh) * 2024-11-13 2024-12-13 北京奇虎科技有限公司 代码仓库问答方法、装置、设备及介质

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983977B2 (en) * 2006-03-01 2015-03-17 Nec Corporation Question answering device, question answering method, and question answering program
US20100287162A1 (en) * 2008-03-28 2010-11-11 Sanika Shirwadkar method and system for text summarization and summary based query answering
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
WO2012040677A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Efficient passage retrieval using document metadata
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
EP2616974A4 (en) 2010-09-24 2016-03-02 Ibm ESTIMATION AND CONFIDENCE APPLICATION OF LEXICAL TYPE OF RESPONSE
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
US8738617B2 (en) 2010-09-28 2014-05-27 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622510A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
US9317586B2 (en) 2010-09-28 2016-04-19 International Business Machines Corporation Providing answers to questions using hypothesis pruning
WO2013142493A1 (en) * 2012-03-19 2013-09-26 Mayo Foundation For Medical Education And Research Analyzing and answering questions
US9229974B1 (en) 2012-06-01 2016-01-05 Google Inc. Classifying queries
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9244952B2 (en) 2013-03-17 2016-01-26 Alation, Inc. Editable and searchable markup pages automatically populated through user query monitoring
US20140344259A1 (en) * 2013-05-15 2014-11-20 Google Inc. Answering people-related questions
CN103577556B (zh) * 2013-10-21 2017-01-18 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN103577558B (zh) * 2013-10-21 2017-04-26 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
US20150186527A1 (en) * 2013-12-26 2015-07-02 Iac Search & Media, Inc. Question type detection for indexing in an offline system of question and answer search engine
US10061861B2 (en) 2014-08-19 2018-08-28 Intuit Inc. Common declarative representation of application content and user interaction content processed by a user experience player
US10891696B2 (en) 2014-11-26 2021-01-12 Intuit Inc. Method and system for organized user experience workflow
US10417717B2 (en) 2014-11-26 2019-09-17 Intuit Inc. Method and system for generating dynamic user experience
US10175997B2 (en) 2014-11-26 2019-01-08 Intuit Inc. Method and system for storage retrieval
US9678936B2 (en) 2014-11-26 2017-06-13 Intuit Inc. Dynamic user experience workflow
JP6270747B2 (ja) * 2015-01-16 2018-01-31 日本電信電話株式会社 質問応答方法、装置、及びプログラム
US20180005248A1 (en) * 2015-01-30 2018-01-04 Hewlett-Packard Development Company, L.P. Product, operating system and topic based
US9953265B2 (en) 2015-05-08 2018-04-24 International Business Machines Corporation Visual summary of answers from natural language question answering systems
US10402035B1 (en) 2015-07-29 2019-09-03 Intuit Inc. Content-driven orchestration of multiple rendering components in user interfaces of electronic devices
US10802660B1 (en) 2015-07-29 2020-10-13 Intuit Inc. Metadata-driven binding of platform-agnostic content to platform-specific user-interface elements
US10732782B1 (en) 2015-07-29 2020-08-04 Intuit Inc. Context-aware component styling in user interfaces of electronic devices
CN106909573A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 一种评价问答对质量的方法和装置
US10572726B1 (en) * 2016-10-21 2020-02-25 Digital Research Solutions, Inc. Media summarizer
JP6789860B2 (ja) * 2017-03-14 2020-11-25 ヤフー株式会社 情報提供装置、情報提供方法、および情報提供プログラム
US10127323B1 (en) * 2017-07-26 2018-11-13 International Business Machines Corporation Extractive query-focused multi-document summarization
US10878193B2 (en) * 2018-05-01 2020-12-29 Kyocera Document Solutions Inc. Mobile device capable of providing maintenance information to solve an issue occurred in an image forming apparatus, non-transitory computer readable recording medium that records an information processing program executable by the mobile device, and information processing system including the mobile device
CN108920488B (zh) * 2018-05-14 2021-09-28 平安科技(深圳)有限公司 多系统相结合的自然语言处理方法及装置
US11238027B2 (en) * 2019-03-22 2022-02-01 International Business Machines Corporation Dynamic document reliability formulation
US11586973B2 (en) 2019-03-22 2023-02-21 International Business Machines Corporation Dynamic source reliability formulation
KR20210043884A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111241267B (zh) * 2020-01-10 2022-12-06 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
US12299050B2 (en) 2020-03-11 2025-05-13 International Business Machines Corporation Multi-model, multi-task trained neural network for analyzing unstructured and semi-structured electronic documents
JP7168963B2 (ja) * 2020-04-28 2022-11-10 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
JP7112107B2 (ja) * 2020-04-28 2022-08-03 株式会社Askプロジェクト 自然言語処理装置及び自然言語処理方法
CN118349622A (zh) * 2024-04-17 2024-07-16 联想(北京)有限公司 一种数据库建立方法、信息检索方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2937521B2 (ja) 1991-03-08 1999-08-23 株式会社東芝 文書検索装置
JPH08255172A (ja) 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
US7058624B2 (en) * 2001-06-20 2006-06-06 Hewlett-Packard Development Company, L.P. System and method for optimizing search results

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102456060A (zh) * 2010-10-28 2012-05-16 株式会社日立制作所 信息处理装置及信息处理方法
CN111400485A (zh) * 2018-12-28 2020-07-10 罗伯特·博世有限公司 用于诊断和维修的进入半众源非结构化数据摘录中的领域知识注入
CN119128119A (zh) * 2024-11-13 2024-12-13 北京奇虎科技有限公司 代码仓库问答方法、装置、设备及介质

Also Published As

Publication number Publication date
JP2005128873A (ja) 2005-05-19
US20070073683A1 (en) 2007-03-29
CN100535898C (zh) 2009-09-02
JP3820242B2 (ja) 2006-09-13
US7587420B2 (en) 2009-09-08
WO2005041068A1 (ja) 2005-05-06

Similar Documents

Publication Publication Date Title
CN1871605A (zh) 问答式文献检索系统和方法
Christian et al. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF)
Resnik et al. The web as a parallel corpus
US10452718B1 (en) Locating meaningful stopwords or stop-phrases in keyword-based retrieval systems
Ide et al. Essie: a concept-based search engine for structured biomedical text
CA2536265C (en) System and method for processing a query
US7890500B2 (en) Systems and methods for using and constructing user-interest sensitive indicators of search results
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US20090319257A1 (en) Translation of entity names
CN101563685A (zh) 利用用户反馈处理查询的系统和方法
AU2014285073B9 (en) Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN103678576A (zh) 基于动态语义分析的全文检索系统
Chen et al. Template detection for large scale search engines
JPH11102374A (ja) データベースの文書表示方法およびその装置
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
EP1979835A2 (en) Method for ranking and sorting electronic documents in a search result list based on relevance
KR20080066965A (ko) 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체
Billerbeck Efficient query expansion
Zhong et al. Concept-based biomedical text retrieval
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
TWI290684B (en) Incremental thesaurus construction method
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Paramartha et al. The Development of search engine service for official academic documents
US7805291B1 (en) Method of identifying topic of text using nouns
KR102820763B1 (ko) 사용자 검색어 설정 의도 파악에 따른 검색 결과 제공방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090902

Termination date: 20201022

CF01 Termination of patent right due to non-payment of annual fee