JP2005128872A - Document retrieving system and document retrieving program - Google Patents
Document retrieving system and document retrieving program Download PDFInfo
- Publication number
- JP2005128872A JP2005128872A JP2003364948A JP2003364948A JP2005128872A JP 2005128872 A JP2005128872 A JP 2005128872A JP 2003364948 A JP2003364948 A JP 2003364948A JP 2003364948 A JP2003364948 A JP 2003364948A JP 2005128872 A JP2005128872 A JP 2005128872A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- list
- search
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、与えられた文書検索要求に応じて該当する文書を検索する文書検索システムに係り、特に、検索された各文書が予め定められた文書分類のいずれに該当するかを示す分類一覧を含む検索結果一覧画面を利用者に提示するのに好適な文書検索システム及び文書検索プログラムに関する。 The present invention relates to a document search system that searches for a corresponding document in response to a given document search request. In particular, the present invention relates to a classification list indicating which of the predetermined document classifications each searched document corresponds to. The present invention relates to a document search system and a document search program suitable for presenting a search result list screen including a user to a search result list screen.
従来から、利用者からの文書検索要求に応じて文書を検索する文書検索システムが種々開発されている。この種の文書検索システムとして、フルテキストサーチ方式、或いは形態素解析を利用して、単語ベースで文書を検索する文書検索システムが知られている。ところが、1つの文書検索要求を満たす文書の数と文書データの量は膨大である。この場合、利用者は、検索された膨大な数の文書の各々の内容を表示画面上で確認し、その中から必要な文書を選定するか、或いは必要な情報を取り出さなければならない。 2. Description of the Related Art Conventionally, various document search systems that search documents in response to a document search request from a user have been developed. As this type of document search system, there is known a document search system that searches a document on a word basis by using a full text search method or morphological analysis. However, the number of documents that satisfy one document search request and the amount of document data are enormous. In this case, the user must confirm the contents of each of a large number of retrieved documents on the display screen, select a necessary document from the contents, or take out necessary information.
そこで近年は、この手間を省くために、検索された各文書のタイトル等の文書情報と合わせて、文書の要約(抜粋文)を一覧表示する技術(以下、第1の先行技術と称する)が開発されている(例えば、特許文献1参照)。特に、この第1の先行技術では、検索された全文書の要約ではなくて、利用者が選択した文型に合致する要約だけが一覧表示される。 Therefore, in recent years, in order to save this effort, there is a technique (hereinafter referred to as the first prior art) that displays a summary of documents (excerpts) together with document information such as a title of each retrieved document. It has been developed (see, for example, Patent Document 1). In particular, according to the first prior art, only the summaries that match the sentence type selected by the user are displayed in a list, not the summaries of all retrieved documents.
また、検索された各文書から特徴的な単語と特徴的な単語の関係を抽出し、その特徴的な単語と特徴的な単語の関係とに基づいて、検索された文書群を互いに類似した文書集合に分類し、分類された文書集合毎に、文書検索結果の一覧(文書の要約、例えばタイトルの一覧)を表示する技術(以下、第2の先行技術と称する)も開発されている(例えば、特許文献2参照)。
上記第1の先行技術によれば、検索された文書の要約のうち、利用者が選択した文型に合致する要約、つまり利用者の必要とする可能性の高い要約だけが一覧表示される。このため、利用者の文書検索作業に要する負荷を軽減し得る。しかし、利用者が所望の文書の情報を取得するためには、一覧表示されている要約を全て読まなければならない。しかも、利用者が選択した文型に合致する要約に、必ずしも利用者が意図した文書の要約が含まれているとは限らない。 According to the first prior art, of the retrieved document summaries, only the summaries that match the sentence type selected by the user, that is, the summaries likely to be required by the user are listed. For this reason, the load required for the user's document search operation can be reduced. However, in order for a user to obtain information on a desired document, all the summaries displayed in a list must be read. Moreover, the summary that matches the sentence pattern selected by the user does not necessarily include the summary of the document intended by the user.
一方、上記第2の先行技術によれば、検索された文書群が互いに類似した文書集合に分類され、その分類された文書集合毎に、文書検索結果の一覧が表示される。このため利用者の文書検索作業に要する負荷を軽減し得る。しかし、利用者が所望の文書の情報を取得するためには、対応する文書集合を特定して、一覧表示されている要約(タイトル)を全て読まなければならない。また利用者は、文書検索結果の一覧の表示画面を一瞥しただけでは、分類された文書集合の特徴を把握できない。 On the other hand, according to the second prior art, the retrieved document groups are classified into similar document sets, and a list of document search results is displayed for each classified document set. For this reason, the load required for the user's document search operation can be reduced. However, in order for the user to obtain information on a desired document, it is necessary to specify the corresponding document set and read all the summaries (titles) displayed in a list. Also, the user cannot grasp the characteristics of the classified document set only by looking at the display screen of the list of document search results.
本発明は上記事情を考慮してなされたものでその目的は、文書検索要求に応じて検索された各文書について、予め定められた文書分類項目毎に、対応する分類に属しているかを示す分類一覧が含まれる検索結果一覧画面の提示により、利用者にとって、その分類一覧を参照するだけで必要とする文書を容易に識別することができる文書検索システム及び文書検索プログラムを提供することにある。 The present invention has been made in consideration of the above circumstances, and its purpose is to classify whether each document retrieved in response to a document retrieval request belongs to a corresponding classification for each predetermined document classification item. An object of the present invention is to provide a document search system and a document search program that allow a user to easily identify a required document simply by referring to the classification list by presenting a search result list screen including a list.
本発明の1つの観点によれば、与えられた文書検索要求に応じて該当する文書を検索する文書検索システムが提供される。この文書検索システムは、検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する分類手段と、文書検索結果の一覧と、前記分類手段による文書分類結果を示す分類結果一覧であって、上記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するインタフェース手段とを備えたことを特徴とする。 According to one aspect of the present invention, a document search system for searching for a corresponding document in response to a given document search request is provided. The document retrieval system includes, for each retrieved document, a classification unit that classifies the document by determining whether the document belongs to a corresponding classification for each predetermined document classification item, and a document A list of search results and a classification result list showing document classification results by the classifying means, wherein each document indicated in the list of document search results is classified as one of the document classification items. And an interface means for generating information on a search result list screen that can be presented to the user, including a classification result list for displaying each document classification item separately.
このような構成においては、文書検索結果の一覧を利用者に提示するときには、当該文書検索結果の一覧で示される各文書が予め定められた文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧が併せて利用者に提示されるため、利用者は分類一覧を参照するだけで検索された各文書の内容を容易に把握して、それぞれ自身が必要とする、目的に合致した文書であるか簡単に判断できる。 In such a configuration, when a list of document search results is presented to the user, it is determined whether each document indicated in the list of document search results is classified as a predetermined document classification item. A list of classification results for each document classification item to be displayed separately is also presented to the user, so the user can easily grasp the contents of each retrieved document simply by referring to the classification list Thus, it is possible to easily determine whether each document is necessary for each purpose.
ここで、上記分類結果一覧を、上記文書検索結果の一覧で示される各文書と上記各文書分類項目とにそれぞれ対応付けて表示され、該当する文書が対応する文書分類項目に分類されるか否かを示す分類マークの集合で構成することにより、各分類マークの表示状態から各文書の内容を一層容易に把握できる。つまり分類結果一覧を一瞥するだけで、各文書の内容を簡単に把握できる。 Here, the classification result list is displayed in association with each document shown in the document search result list and each document classification item, and whether or not the corresponding document is classified into the corresponding document classification item. By configuring with a set of classification marks indicating these, the contents of each document can be more easily grasped from the display state of each classification mark. In other words, it is possible to easily grasp the contents of each document simply by looking at the classification result list.
また、上記分類結果一覧の見出しとしての、上記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を上記検索結果一覧画面に含めると良い。このようにすると、文書検索結果の一覧に含まれる文書を、分類項目一覧から選択された分類項目に分類される文書だけに絞ることができるため、絞り込み検索が容易に実現でき、利用者は目的の文書に簡単に辿りつける。 In addition, a classification item list indicating each document classification item as a heading of the classification result list, which can be selected by the user, may be included in the search result list screen. In this way, the documents included in the list of document search results can be narrowed down to only those classified into the category items selected from the category item list. Easily get to any document.
また、上記分類手段による文書分類に用いられる分類用辞書であって、上記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を用意し、上記分類手段による検索された各文書について、当該文書中に、上記分類用辞書に上記文書分類項目毎に格納されているキーワード集合に含まれている少なくとも1つのキーワードが存在するかを、上記分類手段が当該文書分類項目毎に判定することにより、当該文書が対応する分類に属しているかを判定する構成とするならば、文書分類が容易に行える。 Further, a classification dictionary used for document classification by the classification means, wherein a classification dictionary storing a set of keywords characterizing a classification corresponding to each document classification item is prepared, and each of the retrieval dictionary searched by the classification means For each document classification item, the classification means determines whether there is at least one keyword included in the keyword set stored for each document classification item in the classification dictionary. If it is configured to determine whether the document belongs to the corresponding classification by the determination, the document classification can be easily performed.
また、上記分類手段に、検索された各文書について、当該文書から、上記分類用辞書に上記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するキーワード抽出手段を持たせ、このキーワード抽出手段によって抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を上記検索結果一覧画面に含める構成とすると良い。このようにすると、文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択されたキーワードを含む文書だけに絞ることができるため、絞り込み検索が容易に実現でき、利用者は目的の文書に簡単に辿りつける。 In addition, the classification means includes a keyword extraction means for extracting a keyword included in the keyword set stored for each document classification item in the classification dictionary from the document for each retrieved document. A keyword list indicating a set of keywords selected according to the number of appearances from all keywords extracted by the keyword extracting means, and a keyword list that allows a user to select a keyword It is good to have a configuration to include in the list screen. In this way, the documents included in the list of document search results can be narrowed down to only the documents that include the selected keyword among the searched documents. Easily get to any document.
本発明によれば、文書検索結果の一覧を利用者に提示するときには、当該文書検索結果の一覧で示される各文書が予め定められた文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧が併せて利用者に提示される構成とすることにより、利用者は分類一覧を参照するだけで検索された各文書の内容を容易に把握して、自身が必要とする文書を簡単に判断できる。 According to the present invention, when a list of document search results is presented to the user, it is determined for each document whether each document indicated in the list of document search results is classified into a predetermined document classification item. In addition, by configuring the list of classification results to be displayed separately for each document classification item, the user can view the contents of each retrieved document simply by referring to the classification list. You can easily grasp and easily determine the documents you need.
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る文書検索システムの構成を示すブロック図である。図1の文書検索システムは、主として、検索サーバ計算機10と、検索サーバ計算機10を利用するクライアント端末20とから構成される。検索サーバ計算機10とクライアント端末20とはネットワーク30を介して接続されている。なお、図1では省略されているが、ネットワーク30には、複数のクライアント端末20が接続可能である。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a document search system according to an embodiment of the present invention. The document search system of FIG. 1 is mainly composed of a
検索サーバ計算機10は、クライアント端末20からの検索要求に応じて要求された検索条件に合致する文書を検索する検索サーバ11と、記憶部12とを備えている。記憶部12には、文書データベース121及び分類用辞書122が格納される。文書データベース121は、検索の対象となる文書の文書データを保存する。分類用辞書122は、検索サーバ11によって検索された各文書について、予め定められた文書分類項目毎に、対応する分類に属しているかを判定するのに用いられる。記憶部2にはまた、検索サーバ計算機10のCPU(図示せず)によって実行される各種プログラムが格納される。このプログラムの1つは、文書検索を実現するための文書検索プログラムである。なお、文書検索プログラムが独立のプログラムではなくて、1つのアプリケーションプログラムの一要素であっても構わない。記憶部12は、例えば主メモリ及びディスク装置(例えばハードディスクドライブ)を含む。ここで、主メモリ及びディスク装置をどのように使い分けるかについては、本発明に直接関係しないため説明を省略する。
The
検索サーバ11は、検索サーバ計算機10のCPUが文書検索プログラムを実行することにより実現される。検索サーバ11は、インタフェース部111、検索要求解析部112、文書検索部113、要約抽出部114、及び分類部115の各機能要素を含む。
The
インタフェース部111は、クライアント端末20からの検索要求(文書検索要求)を受け付ける機能と、当該検索要求に対する検索結果の一覧を表す画面情報(検索結果一覧画面情報)を生成して検索要求元に返す機能とを有する。検索結果一覧画面情報は、検索された各文書が予め定められた文書分類項目の何れに属しているかを示す分類一覧の情報を含む。
The interface unit 111 receives a search request (document search request) from the
検索要求解析部112は、クライアント端末20からの検索要求を解析し、例えば検索式を構成するキーワードを抽出する。文書検索部113は、検索要求解析部112によって抽出されたキーワードを含む検索式に従って、文書データベース121から当該検索式に合致する文書を検索する。
The search request analysis unit 112 analyzes a search request from the
要約抽出部114は、文書検索部113によって検索された文書の要約を抽出する。分類部115は、文書検索部113によって検索された各文書について、分類用辞書122によって示される文書分類項目毎に、対応する分類に属しているかを当該分類用辞書122に従って判定する。つまり分類部115は、文書検索部113によって検索された各文書を、予め定められた文書分類項目毎に分類する。ここでは、1つの文書が複数の文書分類項目に分類されることを許している。
The
図2は、分類用辞書122のデータ構造例を示す。同図に示すように、分類用辞書122は、例えば5つの文書分類(文書分類項目)X1〜X5と、当該分類X1〜X5を特徴付けるキーワードの集合(分類X1〜X5のキーワード集合)とから構成される。文書分類(文書分類項目)X1の種別(分類タイプ)は「説明(定義)」である。分類X1のキーワード集合は、「説明」に関する用語(キーワード)、例えば機能「BB」、機能「CC」を含む。文書分類X2の種別は「組織」である。分類X2のキーワード集合は、「組織」に関する用語、例えば会社名「DD」、会社名「EE」を含む。文書分類X3の種別は「地名」である。分類X3のキーワード集合は、「地名、所在地」に関する用語を含む。文書分類X4の種別は「人名」である。分類X4のキーワード集合は、「人名」に関する用語を含む。文書分類X5の種別は「数値」である。分類X5のキーワード集合は、「数値」に関する用語、例えば「価格」、「値段」、「円」を含む。分類Xi(i=1〜5)のキーワード集合で示される用語を少なくとも1つ含む文書は、分類(文書分類項目)Xiとして分類される。なお、図2の分類用辞書122は一例であり、更に多くの文書分類項目を用意することも可能である。例えば、本実施形態では、文書分類X5、即ち「数値」には、「日付」も含まれるものとしている。しかし、「日付」を独立した文書分類項目として用意することも可能である。
FIG. 2 shows an example of the data structure of the
次に、本実施形態の動作について、利用者の操作によりクライアント端末20から検索サーバ計算機10内の検索サーバ11に対してネットワーク30を介して文書検索要求が与えられた場合を例に、図3のフローチャート及び図4乃至図6の表示画面例を参照して説明する。
Next, with respect to the operation of the present embodiment, an example in which a document search request is given from the
まず、クライアント端末20の表示器の表示画面上に、図4に示すように、文書検索要求(検索条件)を入力するための入力フィールド40が表示されているものとする。この状態で、利用者がクライアント端末20のキーボード等の入力手段4を用いて、文書検索要求を入力フィールド40に入力するための操作を行ったものとする。ここでは、図4に示すように、「製品Aについて」という、自然言語を用いた質問文形式の検索要求(つまり質問文)が入力されたものとする。入力フィールド40に入力された検索要求は、クライアント端末20からネットワーク30を介して検索サーバ11に転送される。検索サーバ11内のインタフェース部111は、クライアント端末20から転送された検索要求(利用者からの検索要求)を受け付けて、当該要求を検索要求解析部112に渡す(ステップS1)。
First, it is assumed that an
検索要求解析部112は、インタフェース部111から渡された検索要求、つまり検索条件を表す質問文を解析(例えば形態素解析)し、当該質問文から例えば品詞が名詞の用語を検索用のキーワード(第1のキーワード)として抽出する(ステップS2)。質問文が「製品Aについて」の例では、「製品」と「A」とが検索用キーワードとして抽出される。 The search request analysis unit 112 analyzes a search request passed from the interface unit 111, that is, a question sentence that represents a search condition (for example, morphological analysis), and searches for a term that has a part of speech as a keyword (for example) 1 keyword) (step S2). In the example in which the question sentence is “about product A”, “product” and “A” are extracted as search keywords.
文書検索部113は、検索要求解析部112により抽出された検索用キーワードの集合を用いて文書データベース121から該当する文書を検索する(ステップS3)。ここでは、検索要求解析部112により抽出されたキーワード集合中の少なくとも1つのキーワードを含む文書を検索する。つまり文書検索部113は、検索要求解析部112により抽出されたキーワードの集合を用いてOR検索式により該当する文書を検索する。本実施形態では、説明を簡略化するために文書データベース121から文書を検索している。しかし、検索の対象となる各文書に含まれている単語について、その単語が含まれている文書と当該文書中の位置とを示す単語インデックスを用いて文書検索を行うことも可能である。この単語インデックスを用いた文書検索手法は、文書検索の高速化が図れる手法として良く知られている。
The
さて、文書検索部113による文書検索処理では、例えば“TFIDF”と呼ばれる従来から知られているアルゴリズムを用いて、検索された文書毎に、その文書中におけるキーワードの出現率に基づくスコア付け(スコアリング)が行われる。文書検索部113は、スコア付けされた文書の中から上位N件の文書を選択し、その文書のリスト(例えば文書IDのリスト)を文書検索結果として取得する(ステップS4)。ここで、Nの値を利用者が指定することも可能である。
In the document search processing by the
文書検索部113によって取得された文書検索結果(文書リスト)は、検索に用いられたキーワード集合と共に要約抽出部114及び分類部115に渡される。要約抽出部114は、文書検索結果(文書リスト)で示される、検索された各文書について、その要約を、例えば文書データベース121に格納されている対応する文書データから抽出する(ステップS5)。ここでは、文書検索に用いられたキーワード(第1のキーワード)を最も多く含む記述(例えば文)が要約として抽出される。要約抽出部114により抽出された、文書検索結果(文書リスト)で示される各文書の要約は、当該文書検索結果(文書リスト)と共にインタフェース部111に渡される。
The document search result (document list) acquired by the
一方、分類部115は、文書検索部113から渡された文書検索結果としての文書リストから未処理の文書(の文書ID)を1つ選択する(ステップS6)。次に分類部115は、分類用辞書122によって管理される文書分類項目(分類)X1〜X5のうちの1つを指定するための変数iを、初期値1に設定する(ステップS7)。そして分類部115は、文書データベース121に格納されている文書データのうち、選択された文書の文書IDで指定される文書データから、文書分類項目(分類)Xiのキーワードを全て抽出する(ステップS8)。ここでは、キーワード毎の総出現個数もカウントされる。この文書分類項目(分類)Xiのキーワードは、分類用辞書122に予め格納されている。分類Xiが分類X1のこの例では、分類用辞書122には、分類X1のキーワード集合として、機能「BB」及び機能「CC」を含む、「説明(定義)」に関する用語の集合が格納されている。
On the other hand, the classification unit 115 selects one unprocessed document (its document ID) from the document list as the document search result delivered from the document search unit 113 (step S6). Next, the classification unit 115 sets a variable i for designating one of the document classification items (classifications) X1 to X5 managed by the
次に分類部115は、文書分類項目(分類)Xiのキーワードを少なくとも1つ抽出できたか否かを判定する(ステップS9)。もし、抽出できた場合、分類部115は、ステップS6で選択された文書が文書分類項目(分類)Xiに分類されるか否かを示すフラグFiを“1”(Xiに分類されることを示す状態)に設定する(ステップS10)。これに対し、文書分類項目(分類)Xiのキーワードが抽出できなかった場合、フラグFiを“0”(Xiに分類されないことを示す状態)に設定する(ステップS11)。 Next, the classification unit 115 determines whether or not at least one keyword of the document classification item (classification) Xi has been extracted (step S9). If it can be extracted, the classification unit 115 sets the flag Fi indicating whether or not the document selected in step S6 is classified as the document classification item (classification) Xi to “1” (classified as Xi). (State shown)) (step S10). On the other hand, when the keyword of the document classification item (classification) Xi cannot be extracted, the flag Fi is set to “0” (a state indicating that it is not classified into Xi) (step S11).
分類部115はステップS10またはS11を実行すると、i=5であるか否かを判定する(ステップS12)。分類部115は、i=5でない場合(i<5の場合)、ステップS6で選択された文書について、未判定の文書分類項目が残っていると判断し、次に判定すべき文書分類項目を指定するために、変数iを1だけインクリメントする(ステップS13)。そして、インクリメント後の変数iで指定される文書分類項目(分類)Xiに関し、ステップS8から始まる処理を再び実行する。 After executing step S10 or S11, the classification unit 115 determines whether i = 5 (step S12). If i = 5 is not satisfied (i <5), the classification unit 115 determines that there is an undetermined document classification item for the document selected in step S6, and determines the document classification item to be determined next. In order to specify, the variable i is incremented by 1 (step S13). Then, with respect to the document classification item (classification) Xi designated by the incremented variable i, the process starting from step S8 is executed again.
このようにして、ステップS6で選択された文書について、X1〜X5の各文書分類項目毎に、その文書が当該文書分類項目X1〜X5に分類されるか否かを判定して、その判定結果をフラグF1〜F5に設定する処理(ステップS8,S9,S10またはステップS8,S9,S11)が全て実行されると(ステップS12)、分類部115はステップS14に進む。ステップS14において分類部115は、文書検索部113から渡された文書検索結果(文書リスト)の中に未処理の文書(の文書ID)が残っているか否かを判定する(ステップS14)。もし、未処理の文書が存在するならば、分類部115はステップS6に戻って、未処理の文書(の文書ID)を1つ選択した後、選択された文書について、X1〜X5の各文書分類項目毎に、上記ステップS8,S9,S10またはステップS8,S9,S11を実行する。 In this way, with respect to the document selected in step S6, it is determined whether or not the document is classified into the document classification items X1 to X5 for each of the document classification items X1 to X5. When all the processes for setting the flags F1 to F5 (steps S8, S9, S10 or steps S8, S9, S11) are executed (step S12), the classification unit 115 proceeds to step S14. In step S14, the classification unit 115 determines whether or not an unprocessed document (document ID) remains in the document search result (document list) passed from the document search unit 113 (step S14). If there is an unprocessed document, the classification unit 115 returns to step S6, selects one unprocessed document (document ID), and then selects each document X1 to X5 for the selected document. The above steps S8, S9, S10 or steps S8, S9, S11 are executed for each classification item.
やがて、文書検索結果の文書リストに含まれている全ての文書について、X1〜X5の各文書分類項目毎に、上記ステップS8,S9,S10またはステップS8,S9,S11を実行し終えると(ステップS14)、分類部115は当該文書リストで示される各文書の分類結果(ここでは、文書分類項目(分類)X1〜X5毎のフラグF1〜F5)をインタフェース部111に渡す。このとき分類部115は、各文書から抽出された文書分類項目(分類)Xiのキーワード(第2のキーワード)の群のうち、総出現個数が予め定められた個数を超えるキーワードの集合をインタフェース部111に渡す。なお、総出現個数が多い上位M個のキーワードの集合をインタフェース部111に渡すようにしても構わない。 Eventually, when the above steps S8, S9, S10 or steps S8, S9, S11 are completed for all document classification items X1 to X5 for all documents included in the document list of the document search result (steps). In step S <b> 14, the classification unit 115 passes the classification results (here, the flags F <b> 1 to F <b> 5 for the document classification items (classifications) X <b> 1 to X <b> 5) indicated in the document list to the interface unit 111. At this time, the classifying unit 115 selects a set of keywords whose total appearance number exceeds a predetermined number from the group of keywords (second keywords) of the document classification item (classification) Xi extracted from each document as an interface unit. Pass to 111. Note that a set of top M keywords having a large total number of appearances may be passed to the interface unit 111.
インタフェース部111は、要約抽出部114から文書検索結果(文書リスト)及び当該文書リストで示される各文書の要約を受け取ると共に、分類部115から当該文書リストで示される各文書の分類結果(X1〜X5毎のフラグF1〜F5)及びキーワード(第2のキーワード)の集合を受け取ると、利用者に提示可能な分類結果を含む検索結果一覧画面の情報を生成し、当該情報を検索要求元のクライアント端末20にネットワーク30を介して返す(ステップS15)。この検索結果一覧画面の情報は、第2のキーワードの集合と、文書検索結果(文書リスト)で示される各文書の文書ID(文書名)と、文書分類項目X1〜X5の項目名と、当該各文書の分類結果である当該各文書のX1〜X5毎のフラグF1〜F5と、当該各文書の要約とを含む。
The interface unit 111 receives the document search result (document list) and the summary of each document indicated by the document list from the
クライアント端末20は、検索サーバ11のインタフェース部111から返された検索結果一覧画面の情報を受け取ると、当該情報に従って、例えば図4に示す検索結果一覧画面をクライアント端末20の表示器に表示する。この検索結果一覧画面は、文書検索結果(文書リスト)で示される各文書の文書ID(文書名)の一覧41を含む。図4の例では、文書1、文書2、文書3及び文書4を含む文書の文書IDの一覧(文書検索結果一覧)41が表示されている。
When the
また図4の検索結果一覧画面では、文書検索結果一覧41で示される各文書が文書分類項目X1〜X5のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧42が表示される。この分類結果一覧42は、文書検索結果一覧41で示される各文書とX1〜X5の各文書分類項目とにそれぞれ対応付けて表示される例えば矩形の分類マーク42aの集合である。ここでは、文書jと文書分類項目Xiとにそれぞれ対応付けられた分類マーク42aの矩形枠内を所定の色で塗りつぶすことにより、つまり矩形枠内が塗りつぶされた分類マーク42aの表示により、該当する文書jが文書分類項目Xiに分類されることを示している。また、分類マーク42aの矩形枠内を塗りつぶさないことにより、つまり矩形枠のみの分類マーク42aの表示により、該当する文書jが文書分類項目Xiに分類されないことを示している。この分類マーク42aの表示情報は、該当する文書jの文書分類項目Xiに関する分類結果を示すフラグFiに従って生成される。
Further, in the search result list screen of FIG. 4, it is displayed for each document and for each document classification item whether each document shown in the document
また図4の検索結果一覧画面には、文書分類項目(分類)X1〜X5の項目名(または当該項目名の識別子)の一覧(分類項目名一覧)43が表示されている。分類項目名一覧43は、分類結果一覧42により示される文書分類項目X1〜X5の一種の見出しである。この分類項目名一覧43により示される文書分類項目Xiの項目名の表示位置と文書検索結果一覧41で示される文書jの文書IDの表示位置とにいずれも対応する位置には、文書jが文書分類項目Xiに分類されるか否かを示す分類マーク42aが表示されている。分類結果一覧42中の分類マーク42aの集合は、マトリクス状に配列されている。
In addition, a list (classification item name list) 43 of item names (or identifiers of the item names) of document classification items (classifications) X1 to X5 is displayed on the search result list screen of FIG. The classification
また図4の検索結果一覧画面には、各文書IDに対応付けて、該当する文書の要約が表示されている。ここでは、文書1の要約44-1として「AはBBとCCの機能をもっている」が、文書2の要約44-2として「Aの価格は…」が、そして文書3の要約44-3として「株式会社DD(住所…)は製品Aを発表」が、それぞれ表示されている。図4の検索結果一覧画面の例では、各文書の文書分類項目X1〜X5毎の分類マーク42aの状態から明らかなように、文書1は文書分類項目X1のみに分類され、文書2は文書分類項目X1及びX5に分類される。また、文書3は文書分類項目X1及びX3に分類され、文書4は文書分類項目X5のみに分類される。
In the search result list screen of FIG. 4, a summary of the corresponding document is displayed in association with each document ID. Here, “A has the functions of BB and CC” as the summary 44-1 of the
また図4の検索結果一覧画面には、キーワード一覧45も表示される。キーワード一覧45は、文書検索結果(文書リスト)で示される各文書から抽出された、文書分類項目X1〜X5にそれぞれ固有のキーワード(第2のキーワード)の群のうち、総出現個数が予め定められた個数を超えるキーワードの集合である。
A
本実施形態では、分類項目名一覧43中の分類項目X1〜X5は、クライアント端末20の入力部(例えばマウス)を用いた利用者の操作で選択可能である。今、分類項目Xi(iは1〜5のいずれか)が選択されたものとする。この場合、分類項目名一覧43中の分類項目Xiの表示形態(表示属性)が選択状態を示す特別の形態(表示属性)に切り替えられる。
In the present embodiment, the classification items X1 to X5 in the classification
分類項目名一覧43から分類項目Xiが選択されたことは、クライアント端末20から検索サーバ11のインタフェース部111に通知される。するとインタフェース部111は、要約抽出部114から受け取った検索結果の一覧の中から、選択された分類項目Xiに分類される文書のみを選択して、新たな検索結果一覧画面の情報を生成して、クライアント端末20に返す。ここでは、選択された分類項目XiがX5であるものとする。図4に示す検索結果一覧画面において、分類項目X5に分類される文書の集合は、文書2及び文書4を含む一方、文書1及び文書3を含まない。この場合、新たな検索結果一覧画面(中の文書検索結果一覧41)に検索結果として表示される文書は、図5に示すように、分類項目X5に分類される文書に絞られる。ここでは、文書2及び文書4は表示されるものの、文書1及び文書3は表示されない。これにより、クライアント端末20の利用者は、検索結果の絞り込み検索を行うことができる。なお、分類項目名一覧43から複数の分類項目を選択することも可能である。例えば、図4に示す検索結果一覧画面において、分類項目名一覧43から分類項目X1及びX3が選択された場合、分類項目X1及びX3に分類される文書だけが選択される。この場合、新たな検索結果一覧画面では、文書3は表示されるものの、文書1、文書2及び文書4は表示されない。
The selection of the classification item Xi from the classification
また本実施形態では、キーワード一覧45中のキーワードも、クライアント端末20の入力部を用いた利用者の操作で選択可能である。このキーワード一覧45が、図4に示すようにキーワード「BB」「CC」「DD」を含み、その中からキーワード「BB」が選択されたものとする。この場合、キーワード一覧45中のキーワード「BB」の表示形態が選択状態を示す特別の形態に切り替えられる。
In the present embodiment, keywords in the
キーワード一覧45からキーワード「BB」が選択されたことは、クライアント端末20から検索サーバ11のインタフェース部111に通知される。するとインタフェース部111は、要約抽出部114から受け取った検索結果の一覧の中から、選択されたキーワード「BB」を含む文書のみを選択して、新たな検索結果一覧画面の情報を生成して、クライアント端末20に返す。ここでは、文書1はキーワード「BB」を含むが、文書2、文書3及び文書4はキーワード「BB」を含まない。この場合、新たな検索結果一覧画面では、図6に示すように、文書1は表示されるものの、文書2、文書3及び文書4は表示されない。これにより、クライアント端末20の利用者は、検索結果の絞り込み検索を行うことができる。なお、キーワード一覧45から複数のキーワードを選択することも可能である。
The selection of the keyword “BB” from the
上記実施形態では、検索要求解析部112は、質問文から検索用のキーワードを抽出している。しかし、検索要求解析部112が検索用のキーワードの抽出の他に、質問文の意味役割を解析して、質問のタイプまたは質問文に対する回答のタイプを判定するようにしても良い。この場合、質問タイプまたは回答タイプに合致する文書分類項目Xiに分類される文書は、利用者が必要とする文書である可能性が極めて高い。そこで、文書検索一覧画面からの利用者による文書選択を支援するために、文書検索結果(文書リスト)で示される各文書に対応して文書分類項目X1〜X5毎に表示される分類マーク42aのうち、質問タイプまたは回答タイプに合致する文書分類項目Xiに分類された文書に対応する当該Xiの分類マーク42aを、他の分類マーク42aとは異なる表示形態(属性)で強調表示すると良い。また、質問文形式の検索要求に代えて、キーワードを直接指定することによる検索要求を用いることも可能である。
In the embodiment described above, the search request analysis unit 112 extracts a search keyword from the question sentence. However, the search request analysis unit 112 may analyze the semantic role of the question sentence in addition to extracting the keyword for search, and determine the type of the question or the answer type to the question sentence. In this case, the document classified into the document classification item Xi that matches the question type or the answer type is very likely to be a document required by the user. Therefore, in order to assist the user in selecting a document from the document search list screen, the
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment.
10…検索サーバ計算機、11…検索サーバ、12…記憶部、41…文書検索結果一覧、42…分類結果一覧、42a…分類マーク、43…分類項目名一覧(分類項目一覧)、44-1,44-2,44-3…要約、45…キーワード一覧、111…インタフェース部、112…検索要求解析部、113…文書検索部、114…要約抽出部、115…分類部、121…文書データベース、122…分類用辞書。
DESCRIPTION OF
Claims (10)
検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する分類手段と、
文書検索結果の一覧と、前記分類手段による文書分類結果を示す分類結果一覧であって、前記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するインタフェース手段と
を具備することを特徴とする文書検索システム。 In a document search system that searches for a corresponding document in response to a given document search request,
For each retrieved document, a classification means for classifying the document by determining whether the document belongs to a corresponding classification for each predetermined document classification item;
It is a list of document search results and a list of classification results indicating document classification results by the classification means, and each document indicated in the list of document search results is classified as one of the document classification items. An interface means for generating information on a search result list screen that can be presented to the user, including a classification result list for display separately for each document classification item. system.
前記分類手段は、検索された各文書について、当該文書中に、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれている少なくとも1つのキーワードが存在するかを、当該文書分類項目毎に判定することにより、当該文書が対応する分類に属しているかを判定する
ことを特徴とする請求項1記載の文書検索システム。 A classification dictionary storing a set of keywords characterizing the classification corresponding to each document classification item;
The classification means determines whether or not there is at least one keyword included in the keyword set stored for each document classification item in the classification dictionary in the document for each retrieved document. The document search system according to claim 1, wherein by determining for each document classification item, it is determined whether the document belongs to a corresponding classification.
前記インタフェース手段は、前記キーワード抽出手段によって抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を更に含む検索結果一覧画面の情報を生成することを特徴とする請求項5記載の文書検索システム。 The classification means includes, for each searched document, keyword extraction means for extracting a keyword included in a keyword set stored for each document classification item in the classification dictionary from the document,
The interface means is a keyword list indicating a set of keywords selected according to the number of appearances from all the keywords extracted by the keyword extracting means, and allows a user to select a keyword. The document search system according to claim 5, further comprising: generating information on a search result list screen further including:
前記コンピュータに、
検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類するステップと、
文書検索結果の一覧と、文書分類結果を示す分類結果一覧であって、前記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するステップと
を実行させるための文書検索プログラム。 A document search program used by a computer to execute a document search in response to a given document search request,
In the computer,
For each retrieved document, for each predetermined document classification item, determining whether the document belongs to a corresponding classification, and classifying the document;
A list of document search results and a list of classification results indicating document classification results, and each document indicated in the list of document search results is classified into the document classification item for each document and A document search program for executing a step of generating information on a search result list screen that can be presented to a user, including a classification result list for distinguishing and displaying each document classification item.
前記検索結果一覧画面は、前記キーワードを抽出するステップで抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を更に含む
ことを特徴とする請求項8記載の文書検索プログラム。 The classifying step uses the classification dictionary storing a set of keywords that characterize the classification corresponding to each document classification item, and for each retrieved document, the document classification is performed from the document to the classification dictionary. Extracting a keyword included in the keyword set stored for each item,
The search result list screen is a keyword list indicating a set of keywords selected according to the number of appearances from all keywords extracted in the keyword extracting step, and a keyword selection operation by a user is performed. The document search program according to claim 8, further comprising a list of possible keywords.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003364948A JP2005128872A (en) | 2003-10-24 | 2003-10-24 | Document retrieving system and document retrieving program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003364948A JP2005128872A (en) | 2003-10-24 | 2003-10-24 | Document retrieving system and document retrieving program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005128872A true JP2005128872A (en) | 2005-05-19 |
Family
ID=34643776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003364948A Pending JP2005128872A (en) | 2003-10-24 | 2003-10-24 | Document retrieving system and document retrieving program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005128872A (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007018342A (en) * | 2005-07-08 | 2007-01-25 | Nec Corp | Apparatus and method for providing information |
WO2007060726A1 (en) * | 2005-11-25 | 2007-05-31 | Mitsubishi Space Software Co., Ltd. | Document retrieval device, method, and program |
JP2008009671A (en) * | 2006-06-29 | 2008-01-17 | National Institute Of Information & Communication Technology | Data display device, data display method, and data display program |
JP2008176545A (en) * | 2007-01-18 | 2008-07-31 | Cosmotec Patent Information Systems Inc | Computer system for data retrieval, computer program for realizing data retrieval and method thereof |
JP2009110393A (en) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | Data processing apparatus |
JP2009230648A (en) * | 2008-03-25 | 2009-10-08 | Hitachi East Japan Solutions Ltd | Document group analysis supporting device |
JP2009295186A (en) * | 2009-09-16 | 2009-12-17 | Mitsubishi Space Software Kk | Document search device, document search method, and document search program |
JP2012123603A (en) * | 2010-12-08 | 2012-06-28 | Yahoo Japan Corp | Retrieval support device |
JP2013168177A (en) * | 2013-05-07 | 2013-08-29 | Fujitsu Ltd | Information provision program, information provision apparatus, and provision method of retrieval service |
JP2022114897A (en) * | 2021-01-27 | 2022-08-08 | 株式会社LegalForce | Document processing program, information processing apparatus and document processing method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04106663A (en) * | 1990-08-28 | 1992-04-08 | Matsushita Electric Ind Co Ltd | Patent document classifying device |
JPH0581327A (en) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | Information retrieval support processor |
JPH11161658A (en) * | 1997-11-27 | 1999-06-18 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for calculating priority of additional search word, and storage medium storing priority calculation program for additional search word |
JP2002288189A (en) * | 2001-03-27 | 2002-10-04 | Seiko Epson Corp | Document classification method, document classification device, and recording medium recording document classification processing program |
-
2003
- 2003-10-24 JP JP2003364948A patent/JP2005128872A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04106663A (en) * | 1990-08-28 | 1992-04-08 | Matsushita Electric Ind Co Ltd | Patent document classifying device |
JPH0581327A (en) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | Information retrieval support processor |
JPH11161658A (en) * | 1997-11-27 | 1999-06-18 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for calculating priority of additional search word, and storage medium storing priority calculation program for additional search word |
JP2002288189A (en) * | 2001-03-27 | 2002-10-04 | Seiko Epson Corp | Document classification method, document classification device, and recording medium recording document classification processing program |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007018342A (en) * | 2005-07-08 | 2007-01-25 | Nec Corp | Apparatus and method for providing information |
WO2007060726A1 (en) * | 2005-11-25 | 2007-05-31 | Mitsubishi Space Software Co., Ltd. | Document retrieval device, method, and program |
JP2008009671A (en) * | 2006-06-29 | 2008-01-17 | National Institute Of Information & Communication Technology | Data display device, data display method, and data display program |
JP2008176545A (en) * | 2007-01-18 | 2008-07-31 | Cosmotec Patent Information Systems Inc | Computer system for data retrieval, computer program for realizing data retrieval and method thereof |
JP2009110393A (en) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | Data processing apparatus |
JP2009230648A (en) * | 2008-03-25 | 2009-10-08 | Hitachi East Japan Solutions Ltd | Document group analysis supporting device |
JP2009295186A (en) * | 2009-09-16 | 2009-12-17 | Mitsubishi Space Software Kk | Document search device, document search method, and document search program |
JP2012123603A (en) * | 2010-12-08 | 2012-06-28 | Yahoo Japan Corp | Retrieval support device |
JP2013168177A (en) * | 2013-05-07 | 2013-08-29 | Fujitsu Ltd | Information provision program, information provision apparatus, and provision method of retrieval service |
JP2022114897A (en) * | 2021-01-27 | 2022-08-08 | 株式会社LegalForce | Document processing program, information processing apparatus and document processing method |
JP7548569B2 (en) | 2021-01-27 | 2024-09-10 | 株式会社LegalOn Technologies | Document processing program, information processing device, and document processing method |
JP2024152921A (en) * | 2021-01-27 | 2024-10-25 | 株式会社LegalOn Technologies | Document processing program, information processing device, and document processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122400B (en) | Method, computing system and storage medium for refining query results using visual cues | |
WO2000075809A1 (en) | Information sorting method, information sorter, recorded medium on which information sorting program is recorded | |
US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
JPH0991314A (en) | Information search device | |
TW200805095A (en) | Data product search using related concepts | |
US12099551B2 (en) | Information search system | |
JP4084647B2 (en) | Information search system, information search method, and information search program | |
JP2005128872A (en) | Document retrieving system and document retrieving program | |
US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
US9875298B2 (en) | Automatic generation of a search query | |
JP2011053881A (en) | Document management system | |
JP2012043115A (en) | Document search device, document search method, and document search program | |
US20120317103A1 (en) | Ranking data utilizing multiple semantic keys in a search query | |
JP5269399B2 (en) | Structured document retrieval apparatus, method and program | |
JP2005107931A (en) | Image search device | |
CN100456285C (en) | Method and apparatus for accessing a database | |
JP2014102625A (en) | Information retrieval system, program, and method | |
JP2004102818A (en) | Retrieval support method and retrieval support device | |
WO2018084226A1 (en) | Document search method and device | |
JP5368900B2 (en) | Information presenting apparatus, information presenting method, and program | |
JP2006323517A (en) | Text classification device and program | |
JP4787590B2 (en) | Collection search method, collection search system and collection search program | |
JP2004157965A (en) | Search support apparatus, search support method, program, and recording medium | |
JP2005346486A (en) | Document retrieval device | |
JPH06348756A (en) | Index preparing device and index utilizing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20050519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060523 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060724 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060822 |