JP2004355550A - Natural sentence retrieval apparatus, method and program - Google Patents
Natural sentence retrieval apparatus, method and program Download PDFInfo
- Publication number
- JP2004355550A JP2004355550A JP2003155561A JP2003155561A JP2004355550A JP 2004355550 A JP2004355550 A JP 2004355550A JP 2003155561 A JP2003155561 A JP 2003155561A JP 2003155561 A JP2003155561 A JP 2003155561A JP 2004355550 A JP2004355550 A JP 2004355550A
- Authority
- JP
- Japan
- Prior art keywords
- question
- document
- search
- sentence
- search keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】自然言語により表現された質問文を情報検索要求として入力し、当該質問文に対する回答を含み、かつ適合度の高い文書を出力することができる自然文検索装置を提供することにある。
【解決手段】自然言語で表現された質問文から適合度の高い文書を検索する自然文検索装置10が開示されている。本装置10は、質問文から検索キーワード集合を作成する質問解析部101と、検索された文書及びその文書におけるKWICを抽出する文書検索部102と、質問への回答を文書が含む期待値を文書の適合度の尺度として文書を順位付けする文書再ランキング部103とを有する。
【選択図】 図1An object of the present invention is to provide a natural sentence search device capable of inputting a question sentence expressed in a natural language as an information search request and outputting a document having a high degree of relevance including an answer to the question sentence.
Kind Code: A1 A natural sentence search device for searching a document having a high degree of relevance from a question sentence expressed in a natural language is disclosed. The apparatus 10 includes a question analysis unit 101 that creates a search keyword set from a question sentence, a document search unit 102 that extracts a searched document and a KWIC in the document, and a document that includes an expected value including an answer to the question. And a document re-ranking unit 103 for ranking documents as a measure of the degree of relevance.
[Selection diagram] Fig. 1
Description
【0001】
【発明の属する技術分野】
本発明は、一般的には自然言語により表現された情報検索要求に応じて情報を検索する自然文検索装置に関し、特に、キーワード検索方式を利用して適合度の高い文書情報を獲得できる自然文検索装置に関する。
【0002】
【従来の技術】
従来の文書検索システムは、基本的にキーワード検索システムであり、キーワード集合で表現された情報検索要求を入力とし、それに適合する文書集合を検索結果として出力する。この際、適合度の尺度としては、TF−IDF法のようなキーワード集合と文書の類似度を使用し、入力されたキーワード集合との類似度が高い順番に文書を出力することが多い(例えば、非特許文献1を参照)。
【0003】
さらに、WWW(World Wide Web)上の文書を検索対象とするインターネット検索エンジンの場合には、多くのサイトからリンクを張られているサイトの情報は信頼できるというような、WWWのトポロジー(相互接続性)に基づくヒューリスティクスを利用することにより適合度の判定の精度を高めている。この方法はPageRankと呼ばれている(例えば、非特許文献2を参照)。
【0004】
しかし、例えば、「歴史上、一番背が高いアメリカの大統領は誰か?」というような自然言語により表現された質問文に対する回答を与える文書を検索したい場合、キーワード検索システムに入力すべきキーワード集合をこの質問文から作成するのは必ずしも容易ではない。
【0005】
そこで、キーワード集合ではなく自然言語で情報検索要求を文書検索システムに入力する方法が従来より研究されており、これはキーワード検索に対して自然文検索と呼ばれている。インターネット検索エンジンには、キーワード検索に加えて自然文検索が可能なものが存在する。
【0006】
自然文検索は、ユーザが知りたい情報を話し言葉で(しゃべるように)検索できるので、キーワード検索に比べてAND−ORなどの論理演算に関する専門知識を必要としないので、ユーザにとっては情報検索要求を自然に表現できるという利点がある。また、情報検索サービスを提供する側からみると、検索キーワードよりも自然文の方が、ユーザが欲しい情報をより正確に把握することができるという利点がある。
【0007】
従来の自然文検索の研究開発では、例えば以下の特許文献のように、自然言語で表現された情報検索要求、すなわち質問文から検索キーワードや検索式を作成する方法、および、シソーラス(同義語・関連語辞書)を利用してユーザが使用する語彙と検索対象となる文書で使用されている語彙の違いを吸収する方法(いわいる「概念検索」)などが考案されている(例えば、特許文献1)。
【0008】
また英語の自然文検索では、ユーザが入力した質問文に対して、システムがその意味を解釈して複数の言い換えの可能性を提示し、ユーザにその中から一つを選ばせることによって、システムが回答可能な質問へユーザを誘導する手法もある。
【0009】
しかし、従来の自然文検索では、質問文からユーザが何をどういう情報が知りたいかを判定し、その質問文に対する回答が文書中に含まれているかどうかを質問文と文書の適合度の尺度とするような方法は存在しない。
【0010】
近年、ユーザの質問文に対する回答をシステムが直接提示する質問応答システムが盛んに研究されている(例えば、特許文献2を参照)。
【0011】
質問応答システムでは、例えば、ユーザが「一番背が高いアメリカの大統領は誰ですか?」という質問文を入力すると、システムは、「一番背が高いアメリカの大統領」に関する文書を検索するのではなく、「リンカーン」という回答を出力する点に特徴がある。
【0012】
一般に、質問応答システムでは、質問文に対する回答を表示するだけではなく、以下の表示例のように、回答を抽出した文書もユーザに提示する。これは、例えば「一番背が高いアメリカの大統領は誰ですか?」という質問文に対して、「リンカーン」という回答だけが出力されても、ユーザは本当に「リンカーン」が正しい回答かどうかを確認できないからである。
(表示例)
「2月12日
…流血のカンザス事件」などが相次いで起った。リンカーン=ダグラス論争 1858年のアメリカ中間選挙でイリノイ州…リンカーンは身長が193.0cmもあり、歴代大統領で一番背が高かく、顔もかなり面長で端から見ると…」
従って、「回答および回答を抽出した文書の組」を出力する質問応答システムは、質問文を入力として文書を出力するところから、自然文検索システムの一種と見なせる。
【0013】
しかし、質問応答システムは、回答の尤もらしさが大きい順に、回答および回答を抽出した文書の組を出力するものであり、文書は、必ずしも質問文に対する適合度の順に出力されない。
【0014】
例えば、「一番背が高いアメリカの大統領は誰ですか?」という質問文に対して、「アメリカ」と「大統領」という2つのキーワードしか含まない(質問文に対する適合度が低い)文書が大量に存在し、その中に「ブッシュ」という人名が高頻度で出現した場合、質問応答システムでは、回答候補の第1位として「ブッシュ」が選択され、「ブッシュ大統領」に関する文書が回答の根拠として出力されてしまう可能性がある。
【0015】
すなわち、従来の質問応答システムでは、質問文解析、固有表現抽出、回答候補選択など、文書検索以外の様々な処理が原因となって回答を誤る場合が相当数あり、このような誤りが発生した場合には、非常に「的はずれ」な回答とともに、質問文に対する適合度が低い文書が表示されるという問題点がある。従って、質問応答システムを、そのまま自然文検索システムとして使用するには問題が多い。
【0016】
【非特許文献1】
北 研二,津田 和彦,獅々堀 正幹 著「情報検索アルゴリズム」共立出版、2002年。
【0017】
【非特許文献2】
Sergey Brin and Lawrence Page, The Anatomy of a Large−Scale Hypertextual Web Search Engine, Proceedings of the Seventh International World Wide Web Conference(WWW7),1998。
【0018】
【特許文献1】
特開2002−63203号公報。
【0019】
【特許文献2】
特開2002−132811号公報。
【0020】
【発明が解決しようとする課題】
従来の自然文検索システムでは、ユーザの質問文に対する回答を文書が含んでいるかどうかを質問文と文書の適合度の尺度とするものは存在しなかった。一方、従来の質問応答システムは、質問文に対する回答を出力することができるので、回答を抽出した文書を回答と同時に出力すれば、ユーザの質問文に対する回答を与えることができる文書を出力する自然文検索とみなすことができる。しかし、質問応答システムでは、質問文解析、固有表現抽出、回答候補選択など、文書検索以外の様々な処理が原因となって回答を誤る可能性を無視できず、もし誤った回答を質問応答システムが選択した場合には、質問文に対する適合度が低い文書が出力されるという問題があった。
【0021】
本発明は、このような事情に鑑みてなされたものであり、質問文から検索キーワード集合を作成してキーワード検索により文書集合を検索し、検索された文書における検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値が大きい順に、検索された文書と検索キーワードの周囲のテキストの組を表示することにより、検索キーワードの周囲のテキストが質問に対する回答および回答の根拠を含むと期待される文書を上位に順位付けて出力する自然文検索装置を提供することを目的とする。
【0022】
【課題を解決するための手段】
本発明の観点は、自然言語により表現された情報検索要求を入力とする自然文検索装置であって、特に、自然言語による質問文から検索キーワード集合を作成して、当該検索キーワード集合を用いて文書集合を検索する装置である。
【0023】
本発明の観点に従った自然文検索装置は、自然文で表現された情報検索要求として質問文を入力し、当該質問文に適合する文書集合を適合度の順に出力する自然文検索装置であって、入力された質問文から検索キーワード集合を作成する質問解析手段と、前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び当該各文書における検索キーワードの周囲のテキストを獲得する文書検索インターフェース手段と、前記検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値に基づいて、前記検索された文書と検索キーワードの周囲のテキストの組を前記質問文に対する文書の適合度の尺度として順位付けする文書再ランキング手段とを備えたものである。
【0024】
【発明の実施の形態】
以下図面を参照して、本発明の実施の形態を説明する。
(システム構成)
図1は、本実施形態に関する自然文検索装置の原理的システム構成を示すブロック図である。
【0025】
本装置10は、文書データベース100と、質問解析部101と、文書検索部102と、文書再ランキング部103とを有する。
【0026】
文書データベース100は、検索対象となる文書情報を蓄積している情報記憶装置を主要素とする。質問解析部101は、ユーザが自然言語で表現した情報検索要求、すなわち質問文から検索キーワード集合を作成する。文書検索部102は、質問解析部101により作成された検索キーワード集合に基づいて、文書データベース100から文書を検索し、さらに、検索された文書から検索キーワードの周囲のテキスト(KWIC)を抽出する。文書再ランキング部103は、当該KWICが質問文に対する回答を含むという事象の期待値に基づいて、文書検索部102により検索された文書を順位付けて、当該文書とKWICとの組み合わせ情報を出力する。
【0027】
なお、本システムは、ソフトウェア及び当該ソフトウェアを実行するCPUとメモリからなるハードウエアを含むコンピュータシステムにより実現される。
(本実施形態の原理的動作)
以下図1に示すシステムの原理的動作を、図2に示すフローチャートを参照して説明する。
【0028】
まず、システム10に対して、ユーザが自然言語で質問文を入力する(ステップS201)。質問解析部101は、入力された質問文を形態素解析し、検索キーワード集合を作成する(ステップS202)。文書検索部102は、質問解析部101により作成された検索キーワード集合に基づいて、文書データベース100から文書を検索し、さらに、各文書から検索キーワードの周囲のテキスト(KWIC)を抽出する(ステップS203)。
【0029】
次に、文書再ランキング部103は、各文書のKWICを形態素解析し、質問文に対する回答が当該KWICの中に含まれている期待値を計算する。そして、文書再ランキング部103は、算出した期待値の大きさに基づいて、検索された文書の順位付け処理(再ランキング)を実行する(ステップS204)。最後に、文書再ランキング部103は、文書とKWICの組をステップ204で求めた期待値の大きい順に出力する(ステップ205)。
【0030】
以上要するに本実施形態のシステムによれば、ユーザが自然言語で入力した質問文に対して、文書データベース100から、期待値の大きい順に文書とKWICとの組み合わせを取得する事ができる。当該期待値は、当該KWICが質問文に対する回答を含むという事象の期待値であり、質問文に対する文書の適合度の尺度としてみることができる。
【0031】
従って、本システムであれば、ユーザからの質問文に対して、回答を含む期待値の大きい順に、即ち適合度の大きい順に、検索された文書と検索キーワードの周囲のテキスト(KWIC)の組を、例えばディスプレイ上に表示できる。この場合、KWICは、ユーザの質問に対する回答を含む期待値が大きい文書に関して、その回答の根拠を示す役割を果たす。
【0032】
また、従来の質問応答システムが回答の尤もらしさの順に文書を順位付ける方式に対して、本実施形態のシステムは、回答を含む可能性の大きさの順に文書を順位付けるので、回答選択などの処理における誤りの影響を受けることがなく、より質問文に対する適合度の高い文書を検索結果とすることができる。
(本実施形態を適用する具体例)
図3は、本実施形態のシステムを適用した具体的な自然文検索装置30のシステム構成を示すブロック図である。
【0033】
本システムは、質問解析部301と、文書検索インターフェース部302、文書再ランキング部303と、形態素解析器305と、固有表現抽出器306と、意味カテゴリ辞書307と、統計的分類器308とを有する。
【0034】
質問解析部301は、形態素解析器305を用いて、自然言語からなる質問文の単語分割および品詞付与などの処理を実行して、検索キーワード集合を抽出する。具体的には、名詞・形容詞・副詞などの内容語、及びカタカナ文字列、英文字列、数字列などのキーワードになりやすい未知語を検索キーワードとして抽出する。例えば、「M(選手名)とY(球団名)との契約金は?」という質問文に対しては、「M」、「Y」、「契約」、「金」が検索キーワード集合として抽出される。
【0035】
また、質問解析部301は、意味カテゴリ辞書307および統計的分類器308を用いて質問タイプを判定する。質問タイプは、質問文が要求している回答の種類に基づいて質問文を分類するもので、例えば「組織名、人名、地名、固有物名、日付、時間、金額、割合」の8種類を使用する。質問タイプの分類は、固有表現抽出器306が抽出する固有表現の分類と同じである。
【0036】
質問文の質問タイプを判定する問題は、基本的にはテキスト分類問題である。従って、質問文を大量に収集し、各質問文に対して人手により質問タイプを付与したデータを大量に用意すれば、これを学習データとして統計的分類器308を学習させることにより、任意の質問文に対して質問タイプを付与することができる。
【0037】
本実施形態の具体例としては、様々な語彙を含む質問文に対して高精度に質問タイプの分類を行うために、統計的分類器308としてサポートベクトルマシン(SVM)を使用する。SVMについては、例えば、文献「Vladimir N.Vapnik ,“The Nature of Statistical Learning Theory”,Springer,1995」に開示されている。また、統計的分類器308としては、サポートベクトルマシン以外に、最近隣法、ブースティング、最大エントロピー法、決定木などを使用した方法でもよい。
【0038】
また、サポートベクトルマシンの入力となる特徴ベクトルを質問文から作成する際には、名詞の意味カテゴリを特徴として利用するために意味カテゴリ辞書307を使用する。意味カテゴリ辞書307としては、例えば文献(NTTコミュニケーション科学研究所監修,“日本語語彙体系”,岩波書店,1997)に開示されている。この日本語語彙体系では、名詞を12段、2715カテゴリに分類し、1単語につき、最大5個のカテゴリが割り当てられている。
【0039】
意味カテゴリ辞書307と統計的分類器308(サポートベクトルマシン)を用いて、質問文の質問タイプを判定する方法については、例えば文献「鈴木潤,佐々木裕,前田英作,“統計的機械学習による質問タイプ同定”,情報科学技術フォーラム(FIT2002),情報技術レターズ,pp.89−90,2002」に開示されている。
【0040】
この開示されている方法では、各意味カテゴリに対応する2715次元の特徴ベクトルを作成し、あるカテゴリに所属する名詞が質問文中に出現したら、そのカテゴリおよびその上位のすべてのカテゴリに対応する特徴ベクトルの位置のビットに1を立てる。質問タイプの判定に使用する特徴ベクトルには、意味カテゴリ辞書307のカテゴリ以外に、必要に応じて、質問文の学習データに出現した高頻度の単語や、固有表現抽出器306を用いて抽出した固有表現の種類別での出現の有無などを使用してもよい。
【0041】
形態素解析器305および固有表現抽出器306としては、形態素解析(単語分割と品詞付与)および固有表現抽出(固有名詞および数値表現の認識と分類)ができるものならば何を使用してもよい。固有表現抽出器306としては、例えば文献「齋藤邦子,永田昌明,“HMMに基づく多言語固有表現抽出システムの開発”,言語処理学会 第9回年次大会 発表論文集,pp.5−8,2002」に開示されている隠れマルコフモデル(HMM)を用いた固有表現抽出器306が使用される。
【0042】
文書検索インターフェース部302は、質問解析部301が作成した検索キーワード集合を用いて、文書検索エンジン304を介して検索された文書及びKWIC(即ち、検索キーワードの周囲のテキスト)を獲得する。
【0043】
ここで、文書検索エンジン304は、例えばインターネット(Web)からWeb文書を検索するインターネット検索エンジンとして、本システム30の外部に設けられた要素である。また、文書検索エンジン304は、本システム30の内部に設けられて、内部または外部の文書データベースからキーワード検索を実行するテキスト検索システムに相当するものでもよい。要するに、文書検索エンジン304としては、文書データベースからキーワード検索が可能で、かつKWICを取得できるものならば何でもよい。
【0044】
ここでは、文書データベースとしてインターネット(Web)を使用し、文書検索エンジン304は、インターネット検索エンジンとして本システム30の外部要素の場合を想定する。
【0045】
ここで、KWICを抽出する方法は、一般的には「パッセージ検索」と呼ばれる方法であり、長い文書の中の関連する一部分を抜き出す技術を利用する。パッセージ検索の実現法については、例えば文献「Marcin Kaszkiel and Justin Zobel,“Passage Retrieval Revisited”,SIGIR−97,pp.178−185」に開示されている。
【0046】
文書再ランキング部303は、文書検索インターフェース部302により獲得された検索文書とKWICの組を入力として、当該KWICの中に正しい回答が含まれる期待値を算出し、この期待値が大きい順に文書を順位付けする。この処理は、文書検索エンジン304が出力する文書の順位とは別の順位を計算するため、「再ランキング」処理と呼ぶ。
【0047】
ここで、実際にはKWICの中に正しい回答が含まれる期待値を厳密に求めることは難しいので、様々なヒューリスティクスを用いてこれを近似する。最も単純なヒューリスティクスは、KWICが質問文により近い表現(同じ単語列)を含むほど、回答を含む可能性が高いというものである。
【0048】
本具体例では、まず質問文を形態素解析し、質問文中に含まれる単語のunigram,bigram,trigramを作成する。次に、以下の計算式(1)により各KWICに回答が含まれる期待値に相当するスコアSを算出する。
【0049】
【数1】
【0050】
ここでNn (n=1,2,3)は、あるKWICに出現する質問文中のunigram,bigram,trigramの異なり数である。tfn はn−gramの出現頻度であり、idfは逆文書頻度である。wn はn−gramへの重みであり、より長いn−gramに対する重みを大きくするように実験的に設定する。Normalized_FactorはKWICの長さの違いを正規化する重みであり、より長いKWICほど大きくなるように実験的に設定する。
【0051】
逆文書頻度を計算する際に分母として必要な総文書数は、文書検索エンジン304から取得する文書数とする。本具体例では、当該文書検索エンジン304から取得する文書数を事前に設定できることを想定し、デフォルトでは例えば10件に設定することができる。
【0052】
また、本具体例では、質問タイプと一致する固有表現タイプを持つ語句がKWIC中に存在するかどうかを、期待値(スコア)の計算に反映させても良い。その場合には、あらかじめ質問解析部301において質問文の質問タイプを判定し、文書検索エンジン304が検索した各文書のKWICから固有表現抽出器306を用いて固有表現を抽出した上で、次式(2)をスコアの計算に用いる。
【0053】
【数2】
【0054】
ここで、Nqtは質問タイプと同じ固有表現タイプを持つKWIC中の語句の異なり数を表す。wqtは質問タイプに対する重みであり、この重みの最適な値は実験的に決定される。
(検索結果の具体例)
図4は、本具体例のシステムにおける検索結果の例を示す機能ブロック図である。ここでは、「M(選手名)とY(球団名)の契約金は?」という質問文が入力された場合を例として示している。
【0055】
まずユーザは、質問文を入力し、インターネット検索エンジンとそこから検索する文書数を選択する(処理401)。この例ではインターネット検索エンジンとして「XXXXX」を選択し、検索件数として10件を指定している。
【0056】
質問解析部301は、入力された質問文から「M、Y、契約、金」というキーワード集合を抽出し、また質問タイプを「金額」と判定する(処理402)。
【0057】
文書検索インターフェース部302は、検索キーワードをインターネット検索エンジン304に送り、当該検索エンジン304から文書のURLおよびKWICを得る(処理403)。
【0058】
文書再ランキング部303は、文書検索インターフェース部302により獲得された検索文書とKWICの組(URLタイトル概要文に相当)を入力として、当該KWICの中に正しい回答が含まれる期待値を算出し、この期待値が大きい順に文書を順位付けを実行する。具体的には、質問文とKWICの類似度、および、質問タイプと同じタイプを持つ固有表現の有無に基づいて、文書を再ランキングし(処理404)、当該結果を例えばディスプレイ上に表示する(表示結果405)。
【0059】
この例では、インターネット検索エンジン304の検索結果では、例えば第9位にあった文書が、再ランキングの結果、「M、Y、契約」というキーワードを含み、かつ、例えば「約2100万ドル(約25億2000万円)」という金額の表現をKWICに含むことから第1位に順位付けられる。
【0060】
従って、ユーザからの例えば「M(選手名)とY(球団名)の契約金は?」という質問文に対して、「約2100万ドル(約25億2000万円)」という回答を含む文書を上位にランキングし、かつ、回答の根拠として当該文書と組となるKWICを表示することができる。
【0061】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0062】
【発明の効果】
以上詳述したように本発明によれば、自然言語により表現された質問文を情報検索要求として入力し、当該質問文に対する回答を含むという事象の期待値に基づいて文書を順位付けする方式を実現することにより、質問文に対して適合度の高い文書を出力することができる自然文検索装置を提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態に関する自然文検索装置の原理的システム構成を示すブロック図。
【図2】本実施形態の原理的動作を説明するためのフローチャート。
【図3】本実施形態のシステムを適用した自然文検索装置の具体例のシステム構成を示すブロック図。
【図4】同具体例のシステムに関する検索結果の表示例を示す図。
【符号の説明】
10…自然文検索装置、100…文書データベース、101…質問解析部、
102…文書検索部、103…文書再ランキング部。
301…質問解析部、302…文書検索インターフェース部、
303…文書再ランキング部、304…文書検索エンジン、
305…形態素解析器、306…固有表現抽出器、307…意味カテゴリ辞書
308…統計的分類器。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention generally relates to a natural sentence search apparatus that searches for information in response to an information search request expressed in a natural language, and more particularly to a natural sentence that can acquire highly suitable document information using a keyword search method. Related to a search device.
[0002]
[Prior art]
A conventional document search system is basically a keyword search system, which receives an information search request expressed by a set of keywords as an input and outputs a set of documents matching the request as a search result. At this time, the similarity between the keyword set and the document as in the TF-IDF method is used as a measure of the degree of conformity, and the documents are often output in the descending order of the similarity with the input keyword set (for example, , Non-Patent Document 1).
[0003]
Furthermore, in the case of an Internet search engine that searches for documents on the WWW (World Wide Web), a WWW topology (interconnection) in which information of sites linked from many sites is reliable. By using heuristics based on gender, the accuracy of the determination of the degree of conformity is improved. This method is called PageRank (for example, see Non-Patent Document 2).
[0004]
However, for example, if you want to search for a document that gives an answer to a question sentence expressed in natural language such as "Who is the tallest US president in history?" Is not always easy to create from this question sentence.
[0005]
Therefore, a method of inputting an information search request to a document search system in a natural language instead of a keyword set has been studied, and this method is called a natural sentence search for a keyword search. Some Internet search engines can perform natural sentence searches in addition to keyword searches.
[0006]
The natural sentence search can search for information that the user wants to know in a spoken language (like speaking), and therefore does not require specialized knowledge on logical operations such as AND-OR as compared with the keyword search. There is an advantage that it can be expressed naturally. In addition, from the viewpoint of the information search service provider, there is an advantage that natural sentence can more accurately grasp the information desired by the user than the search keyword.
[0007]
In the conventional research and development of natural sentence search, for example, as in the following patent document, an information search request expressed in a natural language, that is, a method of creating a search keyword or search expression from a question sentence, and a thesaurus (synonym, A method of using a related word dictionary) to absorb the difference between the vocabulary used by the user and the vocabulary used in the document to be searched (so-called “concept search”) has been devised (eg, Patent Documents). 1).
[0008]
In English natural sentence search, the system interprets the meaning of the question sentence input by the user, presents a plurality of possible paraphrases, and allows the user to select one of them. There is also a method to guide the user to a question that can be answered.
[0009]
However, in a conventional natural sentence search, a user determines what information and what information the user wants to know from a question sentence, and determines whether or not the answer to the question sentence is included in the document. No such method exists.
[0010]
In recent years, a question answering system in which a system directly presents an answer to a user's question sentence has been actively researched (for example, see Patent Document 2).
[0011]
In a question answering system, for example, when a user enters the question "Who is the tallest US president?", The system searches for documents related to "tallest US president." Instead, it outputs the answer "Lincoln".
[0012]
In general, a question answering system not only displays an answer to a question sentence but also presents a user with a document from which an answer has been extracted, as in the following display example. This means that, for example, in response to the question "Who is the tallest US president?", If only the answer "Lincoln" is output, the user can confirm whether "Lincoln" is the correct answer. This is because it cannot be confirmed.
(Display example)
"February 12 ... A bloody Kansas case" etc. occurred one after another. The Lincoln-Douglas Controversy In the 1858 U.S. midterm election, Illinois ... Lincoln is 193.0 cm tall, the tallest president in history, his face is quite tall, and viewed from the end ... "
Therefore, a question answering system that outputs a "set of answers and documents from which answers have been extracted" can be regarded as a type of natural sentence search system because a question sentence is input and a document is output.
[0013]
However, the question answering system outputs an answer and a set of documents from which the answer is extracted in descending order of the likelihood of the answer, and the documents are not necessarily output in the order of the degree of conformity to the question sentence.
[0014]
For example, in response to the question "Who is the tallest President of the United States?", A large number of documents that contain only the two keywords "USA" and "President" (low relevance to the question) If the name “Bush” frequently appears in the questionnaire, the question-and-answer system selects “Bush” as the number one answer candidate, and the document on “President Bush” is used as the basis for the answer. It may be output.
[0015]
In other words, in the conventional question answering system, there are a considerable number of cases where wrong answers are caused due to various processes other than document search, such as question sentence analysis, named entity extraction, and answer candidate selection, and such errors occurred. In such a case, there is a problem that a document having a low degree of relevance to the question sentence is displayed together with a very “out of target” answer. Therefore, there are many problems in using the question answering system as it is as a natural sentence search system.
[0016]
[Non-patent document 1]
Kenji Kita, Kazuhiko Tsuda, Masamiki Shishibori, "Information Retrieval Algorithm," Kyoritsu Publishing, 2002.
[0017]
[Non-patent document 2]
Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proceedings of the WonderWent International Airport.
[0018]
[Patent Document 1]
JP-A-2002-63203.
[0019]
[Patent Document 2]
JP-A-2002-132811.
[0020]
[Problems to be solved by the invention]
In a conventional natural sentence retrieval system, there is no system that uses whether or not a document includes an answer to a user's question sentence as a measure of the degree of matching between the question sentence and the document. On the other hand, the conventional question answering system can output an answer to a question sentence. Therefore, if a document from which an answer is extracted is output at the same time as an answer, a natural answer that outputs a document that can give an answer to the user's question sentence is output. It can be regarded as a sentence search. However, the question answering system cannot ignore the possibility of incorrect answers due to various processes other than document search, such as question sentence analysis, named entity extraction, and answer candidate selection. When there is a problem, there is a problem that a document having a low relevance to the question sentence is output.
[0021]
The present invention has been made in view of such circumstances, and a search keyword set is created from a question sentence, a document set is searched by a keyword search, and the text around the search keyword in the searched document is a question sentence. By displaying the pair of the searched document and the text surrounding the search keyword in the descending order of the expected value of the event that includes the answer to, it is expected that the text surrounding the search keyword includes the answer to the question and the basis of the answer It is an object of the present invention to provide a natural sentence retrieval apparatus that ranks and outputs documents to be ranked higher.
[0022]
[Means for Solving the Problems]
An aspect of the present invention is a natural sentence search apparatus that receives an information search request expressed in a natural language as an input, and in particular, creates a search keyword set from a question sentence in a natural language and uses the search keyword set. This is a device that searches a set of documents.
[0023]
A natural sentence search device according to an aspect of the present invention is a natural sentence search device that inputs a question sentence as an information search request expressed in a natural sentence and outputs a set of documents that match the question sentence in order of relevance. Question analysis means for creating a set of search keywords from the input question text, a set of documents searched from a specified document search engine based on the created set of search keywords, and a search keyword in each document. Document search interface means for acquiring surrounding text, and a set of the searched document and the surrounding text of the search keyword based on an expected value of an event that the surrounding text of the search keyword includes an answer to a question sentence. Document re-ranking means for ranking as a measure of the relevance of the document to the question sentence.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
(System configuration)
FIG. 1 is a block diagram showing a basic system configuration of a natural sentence search device according to the present embodiment.
[0025]
The
[0026]
The main component of the document database 100 is an information storage device that stores document information to be searched. The
[0027]
The present system is realized by a computer system including software and hardware including a CPU for executing the software and a memory.
(Principle operation of this embodiment)
Hereinafter, the principle operation of the system shown in FIG. 1 will be described with reference to the flowchart shown in FIG.
[0028]
First, a user inputs a question sentence to the
[0029]
Next, the document
[0030]
In short, according to the system of the present embodiment, for a question sentence input by a user in a natural language, a combination of a document and KWIC can be acquired from the document database 100 in descending order of expected value. The expected value is an expected value of an event that the KWIC includes an answer to the question sentence, and can be viewed as a measure of the degree of relevance of the document to the question sentence.
[0031]
Therefore, according to the present system, for a question sentence from a user, a set of a retrieved document and a text (KWIC) around a search keyword are arranged in descending order of expected values including answers, that is, in descending order of relevance. , For example, on a display. In this case, the KWIC plays a role of indicating the basis of the answer for a document having a high expected value including the answer to the user's question.
[0032]
Also, in contrast to the conventional question answering system in which documents are ranked in the order of likelihood of answers, the system of the present embodiment ranks documents in the order of the likelihood of containing the answer, so that the answer selection etc. A document having a higher degree of relevance to the question sentence can be used as a search result without being affected by an error in the processing.
(Specific example to which this embodiment is applied)
FIG. 3 is a block diagram showing a system configuration of a specific natural
[0033]
The system includes a
[0034]
The
[0035]
Further, the
[0036]
The problem of determining the question type of a question sentence is basically a text classification problem. Therefore, if a large number of question sentences are collected and a large amount of data to which a question type is manually assigned to each question sentence is prepared, the
[0037]
As a specific example of the present embodiment, a support vector machine (SVM) is used as the
[0038]
When a feature vector to be input to the support vector machine is created from a question sentence, a
[0039]
For a method of determining the question type of a question sentence using the
[0040]
In the disclosed method, a 2715-dimensional feature vector corresponding to each semantic category is created, and when a noun belonging to a certain category appears in a question sentence, a feature vector corresponding to the category and all higher-order categories is generated. Set 1 to the bit at the position. The feature vector used for the determination of the question type was extracted by using the named words in the learning data of the question sentence, or by using the named
[0041]
As the
[0042]
The document
[0043]
Here, the
[0044]
Here, it is assumed that the Internet is used as the document database, and the
[0045]
Here, the method of extracting the KWIC is a method generally called “passage search”, and uses a technique of extracting a relevant part from a long document. The method of implementing the passage search is disclosed in, for example, the document “Marcin Kaszkiel and Justin Zobel,“ Passage Retrieval Revised ”, SIGIR-97, pp. 178-185”.
[0046]
The document
[0047]
Here, since it is actually difficult to exactly determine an expected value in which a correct answer is included in the KWIC, this is approximated using various heuristics. The simplest heuristic is that the more likely the KWIC contains an expression (same word sequence) closer to the question sentence, the more likely it is to include an answer.
[0048]
In this specific example, first, a question sentence is subjected to morphological analysis, and unigrams, bigrams, and trigrams of words included in the question sentence are created. Next, a score S corresponding to an expected value in which an answer is included in each KWIC is calculated by the following formula (1).
[0049]
(Equation 1)
[0050]
Here, N n (n = 1, 2, 3) is the number of different unigrams, bigrams, and trigrams in a question sentence appearing in a certain KWIC. tf n is the appearance frequency of n-gram, and idf is the reverse document frequency. w n is the weight for the n-gram, and is experimentally set so as to increase the weight for the longer n-gram. Normalized_Factor is a weight for normalizing the difference in the length of the KWIC, and is experimentally set so that the longer the KWIC, the larger the value.
[0051]
The total number of documents required as a denominator when calculating the inverse document frequency is the number of documents acquired from the
[0052]
Further, in this specific example, whether or not a word having a named entity type matching the question type exists in the KWIC may be reflected in the calculation of the expected value (score). In that case, the
[0053]
(Equation 2)
[0054]
Here, N qt represents the number of different words in KWIC having the same entity expression type as the question type. w qt is the weight for the question type, and the optimal value of this weight is determined experimentally.
(Specific examples of search results)
FIG. 4 is a functional block diagram illustrating an example of a search result in the system according to this specific example. Here, an example is shown in which a question message “What is the contract money between M (player name) and Y (team name)?” Is input.
[0055]
First, a user inputs a question sentence, and selects an Internet search engine and the number of documents to be searched therefrom (process 401). In this example, “XXXXXX” is selected as the Internet search engine, and 10 are specified as the number of search cases.
[0056]
The
[0057]
The document
[0058]
The document
[0059]
In this example, in the search results of the
[0060]
Therefore, in response to a question sentence from a user, for example, "What is the contract amount between M (player name) and Y (team name)?" , And the KWIC paired with the document can be displayed as the basis for the answer.
[0061]
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying constituent elements in an implementation stage without departing from the scope of the invention. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Further, components of different embodiments may be appropriately combined.
[0062]
【The invention's effect】
As described above in detail, according to the present invention, a method of inputting a question sentence expressed in a natural language as an information search request and ranking documents based on an expected value of an event including an answer to the question sentence is provided. By realizing this, it is possible to provide a natural sentence search device capable of outputting a document having a high degree of relevance to a question sentence.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a basic system configuration of a natural sentence search device according to an embodiment of the present invention.
FIG. 2 is a flowchart for explaining the principle operation of the embodiment.
FIG. 3 is a block diagram showing a system configuration of a specific example of a natural sentence search device to which the system of the embodiment is applied.
FIG. 4 is an exemplary view showing a display example of a search result regarding the system of the specific example.
[Explanation of symbols]
10: Natural sentence search device, 100: Document database, 101: Question analysis unit,
102: document search unit; 103: document re-ranking unit.
301: question analysis unit, 302: document search interface unit
303: document re-ranking unit, 304: document search engine,
305: morphological analyzer, 306: named entity extractor, 307: semantic category dictionary 308: statistical classifier.
Claims (15)
入力された質問文から検索キーワード集合を作成する質問解析手段と、
前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び当該各文書における検索キーワードの周囲のテキストを獲得する文書検索インターフェース手段と、
前記検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値に基づいて、前記検索された文書と検索キーワードの周囲のテキストの組を前記質問文に対する文書の適合度の尺度として順位付けする文書再ランキング手段と
を具備したことを特徴とする自然文検索装置。A natural sentence search device that inputs a question sentence as an information search request expressed in a natural sentence and outputs a set of documents that match the question sentence in order of relevance,
Question analysis means for creating a set of search keywords from the input question sentence,
Document search interface means for acquiring a set of documents searched from a designated document search engine based on the created set of search keywords and text around the search keyword in each document;
Based on the expected value of the event that the text surrounding the search keyword includes an answer to the question, the pair of the searched document and the text surrounding the search keyword is ranked as a measure of the relevance of the document to the question. And a document re-ranking means for attaching a natural sentence.
前記文書再ランキング手段は、前記質問タイプおよび検索キーワードの出現分布に基づいて前記期待値を算出することを特徴とする請求項1に記載の自然文検索装置。The question analysis means, while creating a search keyword set from the input question sentence, includes means for determining a question type that is a classification of the question sentence based on the type of answer that the question sentence is requesting,
The natural sentence search device according to claim 1, wherein the document re-ranking means calculates the expected value based on the question type and the appearance distribution of a search keyword.
前記文書再ランキング手段は、前記期待値を算出するときに固有名詞や数値表現の認識処理を実行することを特徴とする請求項1又は請求項2のいずれか1項に記載の自然文検索装置。The question analysis unit executes a recognition process of a proper noun or a numerical expression when determining the question type, and the document re-ranking unit performs a recognition process of a proper noun or a numerical expression when calculating the expected value. The natural sentence search device according to claim 1, wherein the natural sentence search device executes the following.
前記文書再ランキング手段は、前記期待値を算出するときに各単語の意味カテゴリを利用することを特徴とする請求項1から請求項3のいずれか1項に記載の自然文検索装置。The question analysis means uses the meaning category of each word when determining the question type, and the document re-ranking means uses the meaning category of each word when calculating the expected value. The natural sentence search device according to any one of claims 1 to 3, wherein
入力された質問文から検索キーワード集合を作成する質問解析ステップと、
前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び当該各文書における検索キーワードの周囲のテキストを獲得する文書検索ステップと、
前記検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値に基づいて、前記検索された文書と検索キーワードの周囲のテキストの組を前記質問文に対する文書の適合度の尺度として順位付けする文書再ランキングステップと
を有する手順を実行することを特徴とする検索方法。A search method applied to a natural sentence search device that inputs a question sentence as an information search request expressed in a natural sentence and outputs a set of documents that match the question sentence in order of relevance.
A question analysis step of creating a search keyword set from the input question sentence,
A document search step of acquiring a document set searched from a specified document search engine based on the created search keyword set and text around the search keyword in each document;
Based on the expected value of the event that the text surrounding the search keyword includes an answer to the question, the pair of the searched document and the text surrounding the search keyword is ranked as a measure of the relevance of the document to the question. And a document re-ranking step.
前記文書再ランキングステップは、前記質問タイプおよび検索キーワードの出現分布に基づいて前記期待値を算出することを特徴とする請求項6に記載の検索方法。In the question analysis step, a search keyword set is created from the input question sentence, and at the same time, a question type that is a classification of a question sentence based on the type of answer requested by the question sentence is determined, and the document re-ranking is performed. 7. The search method according to claim 6, wherein the step calculates the expected value based on the question type and an appearance distribution of a search keyword.
前記文書再ランキングステップは、前記期待値を算出するときに固有名詞や数値表現の認識処理を実行することを特徴とする請求項6又は請求項7のいずれか1項に記載の検索方法。The question analysis step performs a recognition process of a proper noun or a numerical expression when determining the question type, and the document re-ranking step performs a recognition process of a proper noun or a numerical expression when calculating the expected value. The search method according to claim 6, wherein the search method is executed.
前記文書再ランキングステップは、前記期待値を算出するときに各単語の意味カテゴリを利用することを特徴とする請求項6から請求項8のいずれか1項に記載の検索方法。The question analysis step uses a semantic category of each word when determining the question type, and the document re-ranking step uses a semantic category of each word when calculating the expected value. The search method according to any one of claims 6 to 8, wherein:
入力された質問文から検索キーワード集合を作成する質問解析手順と、
前記作成された検索キーワード集合に基づいて、指定の文書検索エンジンから検索された文書集合、及び当該各文書における検索キーワードの周囲のテキストを獲得する文書検索手順と、
前記検索キーワードの周囲のテキストが質問文に対する回答を含むという事象の期待値に基づいて、前記検索された文書と検索キーワードの周囲のテキストの組を前記質問文に対する文書の適合度の尺度として順位付けする文書再ランキング手順と
を前記コンピュータに実行させるためのプログラム。A program for realizing a natural sentence search method having a computer, inputting a question sentence as an information search request expressed in a natural sentence, and outputting a set of documents matching the question sentence in order of relevance,
A question analysis procedure for creating a set of search keywords from the input question text,
A document search procedure for acquiring a document set searched from a specified document search engine based on the created search keyword set and text around the search keyword in each document;
Based on the expected value of the event that the text surrounding the search keyword includes an answer to the question, the pair of the searched document and the text surrounding the search keyword is ranked as a measure of the relevance of the document to the question. And a program for causing the computer to execute a document re-ranking procedure to be attached.
前記文書再ランキング手順は、前記質問タイプおよび検索キーワードの出現分布に基づいて前記期待値を算出することを特徴とする請求項11に記載のプログラム。The question analysis step creates a search keyword set from the input question sentence, determines a question type that is a classification of the question sentence based on the type of answer requested by the question sentence, and re-ranks the document. The program according to claim 11, wherein the procedure calculates the expected value based on the question type and an appearance distribution of a search keyword.
前記文書再ランキング手順は、前記期待値を算出するときに固有名詞や数値表現の認識処理を実行することを特徴とする請求項11又は請求項12のいずれか1項に記載のプログラム。The question analysis step executes a recognition process of a proper noun or a numerical expression when determining the question type, and the document re-ranking step performs a recognition process of a proper noun or a numerical expression when calculating the expected value. 13. The program according to claim 11, wherein the program is executed.
前記文書再ランキング手順は、前記期待値を算出するときに各単語の意味カテゴリを利用することを特徴とする請求項11から請求項13のいずれか1項に記載のプログラム。The question analysis step uses the semantic category of each word when determining the question type, and the document re-ranking step uses the semantic category of each word when calculating the expected value. The program according to any one of claims 11 to 13, wherein:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003155561A JP4162223B2 (en) | 2003-05-30 | 2003-05-30 | Natural sentence search device, method and program thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003155561A JP4162223B2 (en) | 2003-05-30 | 2003-05-30 | Natural sentence search device, method and program thereof |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2004355550A true JP2004355550A (en) | 2004-12-16 |
| JP4162223B2 JP4162223B2 (en) | 2008-10-08 |
Family
ID=34049906
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003155561A Expired - Lifetime JP4162223B2 (en) | 2003-05-30 | 2003-05-30 | Natural sentence search device, method and program thereof |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4162223B2 (en) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006323733A (en) * | 2005-05-20 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | Method explanation search method, method explanation search apparatus and program |
| JP2006344010A (en) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | Document search device |
| JP2007102723A (en) * | 2005-10-07 | 2007-04-19 | Hitachi Ltd | Document search apparatus, document search method, and document search program |
| WO2009113494A1 (en) * | 2008-03-10 | 2009-09-17 | 国立大学法人横浜国立大学 | Question and answer system which can provide descriptive answer using www as source of information |
| JP5447368B2 (en) * | 2008-03-12 | 2014-03-19 | 日本電気株式会社 | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM |
| JP2015215786A (en) * | 2014-05-12 | 2015-12-03 | 株式会社 ミックウェア | Information processing apparatus, information processing method, and program |
| CN107577689A (en) * | 2016-07-04 | 2018-01-12 | 松下知识产权经营株式会社 | Decision tree generating means, decision tree generation method, non-transitory recording medium and enquirement system |
| JP2018116447A (en) * | 2017-01-18 | 2018-07-26 | ヤフー株式会社 | Information providing apparatus, information providing method, and program |
| JP2020123131A (en) * | 2019-01-30 | 2020-08-13 | 株式会社東芝 | Dialog system, dialog method, program, and storage medium |
| US11475068B2 (en) * | 2019-07-26 | 2022-10-18 | Beijing Boe Technology Development Co., Ltd. | Automatic question answering method and apparatus, storage medium and server |
| JP2023011610A (en) * | 2017-04-13 | 2023-01-24 | フラティロン ヘルス,インコーポレイテッド | Systems and methods for performing model-assisted cohort selection |
| CN119831812A (en) * | 2025-03-19 | 2025-04-15 | 四川省大数据技术服务中心 | Government affair information management system based on data matching |
| US20250218434A1 (en) * | 2023-12-29 | 2025-07-03 | Cx360, Inc. | Automated prompt finder |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7920458B2 (en) | 2005-04-27 | 2011-04-05 | Ricoh Company, Ltd. | Optical recording medium, and recording and reproducing method |
-
2003
- 2003-05-30 JP JP2003155561A patent/JP4162223B2/en not_active Expired - Lifetime
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006323733A (en) * | 2005-05-20 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | Method explanation search method, method explanation search apparatus and program |
| JP2006344010A (en) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | Document search device |
| JP2007102723A (en) * | 2005-10-07 | 2007-04-19 | Hitachi Ltd | Document search apparatus, document search method, and document search program |
| WO2009113494A1 (en) * | 2008-03-10 | 2009-09-17 | 国立大学法人横浜国立大学 | Question and answer system which can provide descriptive answer using www as source of information |
| JP5461388B2 (en) * | 2008-03-10 | 2014-04-02 | 国立大学法人横浜国立大学 | Question answering system capable of descriptive answers using WWW as information source |
| JP5447368B2 (en) * | 2008-03-12 | 2014-03-19 | 日本電気株式会社 | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM |
| JP2015215786A (en) * | 2014-05-12 | 2015-12-03 | 株式会社 ミックウェア | Information processing apparatus, information processing method, and program |
| CN107577689A (en) * | 2016-07-04 | 2018-01-12 | 松下知识产权经营株式会社 | Decision tree generating means, decision tree generation method, non-transitory recording medium and enquirement system |
| JP2018116447A (en) * | 2017-01-18 | 2018-07-26 | ヤフー株式会社 | Information providing apparatus, information providing method, and program |
| JP2023011610A (en) * | 2017-04-13 | 2023-01-24 | フラティロン ヘルス,インコーポレイテッド | Systems and methods for performing model-assisted cohort selection |
| JP7522167B2 (en) | 2017-04-13 | 2024-07-24 | フラティロン ヘルス,インコーポレイテッド | Systems and methods for model-assisted cohort selection |
| JP2020123131A (en) * | 2019-01-30 | 2020-08-13 | 株式会社東芝 | Dialog system, dialog method, program, and storage medium |
| US11475068B2 (en) * | 2019-07-26 | 2022-10-18 | Beijing Boe Technology Development Co., Ltd. | Automatic question answering method and apparatus, storage medium and server |
| US20250218434A1 (en) * | 2023-12-29 | 2025-07-03 | Cx360, Inc. | Automated prompt finder |
| CN119831812A (en) * | 2025-03-19 | 2025-04-15 | 四川省大数据技术服务中心 | Government affair information management system based on data matching |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4162223B2 (en) | 2008-10-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN106663125B (en) | Question generation device and recording medium | |
| US8832064B2 (en) | Answer determination for natural language questioning | |
| JP5710581B2 (en) | Question answering apparatus, method, and program | |
| EP1675025A2 (en) | Systems and methods for generating user-interest sensitive abstracts of search results | |
| US20050080613A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
| US20100205198A1 (en) | Search query disambiguation | |
| US20040117352A1 (en) | System for answering natural language questions | |
| US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
| US20110225180A1 (en) | Guided search based on query model | |
| JP4162223B2 (en) | Natural sentence search device, method and program thereof | |
| US12271691B2 (en) | Linguistic analysis of seed documents and peer groups | |
| CN115718791A (en) | The Specific Sorting of Text Elements and Its Application | |
| Amaral et al. | Priberam’s question answering system for Portuguese | |
| JP4153843B2 (en) | Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium | |
| Ferilli et al. | Automatic stopwords identification from very small corpora | |
| CA2914398A1 (en) | Identification of semantic relationships within reported speech | |
| Tran et al. | A model of vietnamese person named entity question answering system | |
| JP2006139484A (en) | Information retrieval method and system, and computer program | |
| Gunawan et al. | Review of the recent research on automatic text summarization in bahasa indonesia | |
| Bolzonello et al. | Seupd@ clef: Team faderic on a query expansion and reranking approach for the longeval task | |
| EP4260203A1 (en) | Linguistic analysis of seed documents and peer groups | |
| Ataeva et al. | On Synonyms Search Model. | |
| Palahan | Improving Access to Trade and Investment Information in Thailand through Intelligent Document Retrieval | |
| Braun | Information retrieval from Dutch historical corpora | |
| Mohammadi et al. | Identification of explicit features in persian comments |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050701 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080115 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080312 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080408 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080605 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080715 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20080718 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080718 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 3 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 4162223 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130801 Year of fee payment: 5 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |