[go: up one dir, main page]

JP2005128872A - Document retrieving system and document retrieving program - Google Patents

Document retrieving system and document retrieving program Download PDF

Info

Publication number
JP2005128872A
JP2005128872A JP2003364948A JP2003364948A JP2005128872A JP 2005128872 A JP2005128872 A JP 2005128872A JP 2003364948 A JP2003364948 A JP 2003364948A JP 2003364948 A JP2003364948 A JP 2003364948A JP 2005128872 A JP2005128872 A JP 2005128872A
Authority
JP
Japan
Prior art keywords
document
classification
list
search
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003364948A
Other languages
Japanese (ja)
Inventor
Masayuki Takeuchi
正行 竹内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Solutions Corp filed Critical Toshiba Solutions Corp
Priority to JP2003364948A priority Critical patent/JP2005128872A/en
Publication of JP2005128872A publication Critical patent/JP2005128872A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To easily identify a document necessary for a user from the list of documents retrieved in response to a document retrieval request. <P>SOLUTION: A classifying part 115 decides whether each of documents retrieved by a document retrieving part 113 in response to a document retrieval request from a client terminal 20 belongs to corresponding classification for each of predetermined document classification items to classify the documents. An interface part 111 generates the information of a retrieval result list picture which can be provided to a user, including the list of document retrieval results by the document retrieving part 113 and the list of classification results showing document classification results by the classifying part 115, that is, the list of the classification results for displaying which of the document classification items each document shown by the list of the document retrieval results belongs by classifying them for each document and each of the document classification items, and returns the generated information to the client terminal 20. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、与えられた文書検索要求に応じて該当する文書を検索する文書検索システムに係り、特に、検索された各文書が予め定められた文書分類のいずれに該当するかを示す分類一覧を含む検索結果一覧画面を利用者に提示するのに好適な文書検索システム及び文書検索プログラムに関する。   The present invention relates to a document search system that searches for a corresponding document in response to a given document search request. In particular, the present invention relates to a classification list indicating which of the predetermined document classifications each searched document corresponds to. The present invention relates to a document search system and a document search program suitable for presenting a search result list screen including a user to a search result list screen.

従来から、利用者からの文書検索要求に応じて文書を検索する文書検索システムが種々開発されている。この種の文書検索システムとして、フルテキストサーチ方式、或いは形態素解析を利用して、単語ベースで文書を検索する文書検索システムが知られている。ところが、1つの文書検索要求を満たす文書の数と文書データの量は膨大である。この場合、利用者は、検索された膨大な数の文書の各々の内容を表示画面上で確認し、その中から必要な文書を選定するか、或いは必要な情報を取り出さなければならない。   2. Description of the Related Art Conventionally, various document search systems that search documents in response to a document search request from a user have been developed. As this type of document search system, there is known a document search system that searches a document on a word basis by using a full text search method or morphological analysis. However, the number of documents that satisfy one document search request and the amount of document data are enormous. In this case, the user must confirm the contents of each of a large number of retrieved documents on the display screen, select a necessary document from the contents, or take out necessary information.

そこで近年は、この手間を省くために、検索された各文書のタイトル等の文書情報と合わせて、文書の要約(抜粋文)を一覧表示する技術(以下、第1の先行技術と称する)が開発されている(例えば、特許文献1参照)。特に、この第1の先行技術では、検索された全文書の要約ではなくて、利用者が選択した文型に合致する要約だけが一覧表示される。   Therefore, in recent years, in order to save this effort, there is a technique (hereinafter referred to as the first prior art) that displays a summary of documents (excerpts) together with document information such as a title of each retrieved document. It has been developed (see, for example, Patent Document 1). In particular, according to the first prior art, only the summaries that match the sentence type selected by the user are displayed in a list, not the summaries of all retrieved documents.

また、検索された各文書から特徴的な単語と特徴的な単語の関係を抽出し、その特徴的な単語と特徴的な単語の関係とに基づいて、検索された文書群を互いに類似した文書集合に分類し、分類された文書集合毎に、文書検索結果の一覧(文書の要約、例えばタイトルの一覧)を表示する技術(以下、第2の先行技術と称する)も開発されている(例えば、特許文献2参照)。
特開平8−255172号公報(段落0030) 特開2001−306594号公報(段落0007,0030〜0041)
In addition, a characteristic word and a relationship between characteristic words are extracted from each retrieved document, and the retrieved documents are similar to each other based on the characteristic word and the characteristic word relationship. A technique (hereinafter referred to as the second prior art) that displays a list of document search results (document summary, for example, a list of titles) for each classified document set is also developed (for example, referred to as a second prior art) (for example, , See Patent Document 2).
JP-A-8-255172 (paragraph 0030) JP 2001-306594 A (paragraphs 0007, 0030 to 0041)

上記第1の先行技術によれば、検索された文書の要約のうち、利用者が選択した文型に合致する要約、つまり利用者の必要とする可能性の高い要約だけが一覧表示される。このため、利用者の文書検索作業に要する負荷を軽減し得る。しかし、利用者が所望の文書の情報を取得するためには、一覧表示されている要約を全て読まなければならない。しかも、利用者が選択した文型に合致する要約に、必ずしも利用者が意図した文書の要約が含まれているとは限らない。   According to the first prior art, of the retrieved document summaries, only the summaries that match the sentence type selected by the user, that is, the summaries likely to be required by the user are listed. For this reason, the load required for the user's document search operation can be reduced. However, in order for a user to obtain information on a desired document, all the summaries displayed in a list must be read. Moreover, the summary that matches the sentence pattern selected by the user does not necessarily include the summary of the document intended by the user.

一方、上記第2の先行技術によれば、検索された文書群が互いに類似した文書集合に分類され、その分類された文書集合毎に、文書検索結果の一覧が表示される。このため利用者の文書検索作業に要する負荷を軽減し得る。しかし、利用者が所望の文書の情報を取得するためには、対応する文書集合を特定して、一覧表示されている要約(タイトル)を全て読まなければならない。また利用者は、文書検索結果の一覧の表示画面を一瞥しただけでは、分類された文書集合の特徴を把握できない。   On the other hand, according to the second prior art, the retrieved document groups are classified into similar document sets, and a list of document search results is displayed for each classified document set. For this reason, the load required for the user's document search operation can be reduced. However, in order for the user to obtain information on a desired document, it is necessary to specify the corresponding document set and read all the summaries (titles) displayed in a list. Also, the user cannot grasp the characteristics of the classified document set only by looking at the display screen of the list of document search results.

本発明は上記事情を考慮してなされたものでその目的は、文書検索要求に応じて検索された各文書について、予め定められた文書分類項目毎に、対応する分類に属しているかを示す分類一覧が含まれる検索結果一覧画面の提示により、利用者にとって、その分類一覧を参照するだけで必要とする文書を容易に識別することができる文書検索システム及び文書検索プログラムを提供することにある。   The present invention has been made in consideration of the above circumstances, and its purpose is to classify whether each document retrieved in response to a document retrieval request belongs to a corresponding classification for each predetermined document classification item. An object of the present invention is to provide a document search system and a document search program that allow a user to easily identify a required document simply by referring to the classification list by presenting a search result list screen including a list.

本発明の1つの観点によれば、与えられた文書検索要求に応じて該当する文書を検索する文書検索システムが提供される。この文書検索システムは、検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する分類手段と、文書検索結果の一覧と、前記分類手段による文書分類結果を示す分類結果一覧であって、上記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するインタフェース手段とを備えたことを特徴とする。   According to one aspect of the present invention, a document search system for searching for a corresponding document in response to a given document search request is provided. The document retrieval system includes, for each retrieved document, a classification unit that classifies the document by determining whether the document belongs to a corresponding classification for each predetermined document classification item, and a document A list of search results and a classification result list showing document classification results by the classifying means, wherein each document indicated in the list of document search results is classified as one of the document classification items. And an interface means for generating information on a search result list screen that can be presented to the user, including a classification result list for displaying each document classification item separately.

このような構成においては、文書検索結果の一覧を利用者に提示するときには、当該文書検索結果の一覧で示される各文書が予め定められた文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧が併せて利用者に提示されるため、利用者は分類一覧を参照するだけで検索された各文書の内容を容易に把握して、それぞれ自身が必要とする、目的に合致した文書であるか簡単に判断できる。   In such a configuration, when a list of document search results is presented to the user, it is determined whether each document indicated in the list of document search results is classified as a predetermined document classification item. A list of classification results for each document classification item to be displayed separately is also presented to the user, so the user can easily grasp the contents of each retrieved document simply by referring to the classification list Thus, it is possible to easily determine whether each document is necessary for each purpose.

ここで、上記分類結果一覧を、上記文書検索結果の一覧で示される各文書と上記各文書分類項目とにそれぞれ対応付けて表示され、該当する文書が対応する文書分類項目に分類されるか否かを示す分類マークの集合で構成することにより、各分類マークの表示状態から各文書の内容を一層容易に把握できる。つまり分類結果一覧を一瞥するだけで、各文書の内容を簡単に把握できる。   Here, the classification result list is displayed in association with each document shown in the document search result list and each document classification item, and whether or not the corresponding document is classified into the corresponding document classification item. By configuring with a set of classification marks indicating these, the contents of each document can be more easily grasped from the display state of each classification mark. In other words, it is possible to easily grasp the contents of each document simply by looking at the classification result list.

また、上記分類結果一覧の見出しとしての、上記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を上記検索結果一覧画面に含めると良い。このようにすると、文書検索結果の一覧に含まれる文書を、分類項目一覧から選択された分類項目に分類される文書だけに絞ることができるため、絞り込み検索が容易に実現でき、利用者は目的の文書に簡単に辿りつける。   In addition, a classification item list indicating each document classification item as a heading of the classification result list, which can be selected by the user, may be included in the search result list screen. In this way, the documents included in the list of document search results can be narrowed down to only those classified into the category items selected from the category item list. Easily get to any document.

また、上記分類手段による文書分類に用いられる分類用辞書であって、上記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を用意し、上記分類手段による検索された各文書について、当該文書中に、上記分類用辞書に上記文書分類項目毎に格納されているキーワード集合に含まれている少なくとも1つのキーワードが存在するかを、上記分類手段が当該文書分類項目毎に判定することにより、当該文書が対応する分類に属しているかを判定する構成とするならば、文書分類が容易に行える。   Further, a classification dictionary used for document classification by the classification means, wherein a classification dictionary storing a set of keywords characterizing a classification corresponding to each document classification item is prepared, and each of the retrieval dictionary searched by the classification means For each document classification item, the classification means determines whether there is at least one keyword included in the keyword set stored for each document classification item in the classification dictionary. If it is configured to determine whether the document belongs to the corresponding classification by the determination, the document classification can be easily performed.

また、上記分類手段に、検索された各文書について、当該文書から、上記分類用辞書に上記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するキーワード抽出手段を持たせ、このキーワード抽出手段によって抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を上記検索結果一覧画面に含める構成とすると良い。このようにすると、文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択されたキーワードを含む文書だけに絞ることができるため、絞り込み検索が容易に実現でき、利用者は目的の文書に簡単に辿りつける。   In addition, the classification means includes a keyword extraction means for extracting a keyword included in the keyword set stored for each document classification item in the classification dictionary from the document for each retrieved document. A keyword list indicating a set of keywords selected according to the number of appearances from all keywords extracted by the keyword extracting means, and a keyword list that allows a user to select a keyword It is good to have a configuration to include in the list screen. In this way, the documents included in the list of document search results can be narrowed down to only the documents that include the selected keyword among the searched documents. Easily get to any document.

本発明によれば、文書検索結果の一覧を利用者に提示するときには、当該文書検索結果の一覧で示される各文書が予め定められた文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧が併せて利用者に提示される構成とすることにより、利用者は分類一覧を参照するだけで検索された各文書の内容を容易に把握して、自身が必要とする文書を簡単に判断できる。   According to the present invention, when a list of document search results is presented to the user, it is determined for each document whether each document indicated in the list of document search results is classified into a predetermined document classification item. In addition, by configuring the list of classification results to be displayed separately for each document classification item, the user can view the contents of each retrieved document simply by referring to the classification list. You can easily grasp and easily determine the documents you need.

以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る文書検索システムの構成を示すブロック図である。図1の文書検索システムは、主として、検索サーバ計算機10と、検索サーバ計算機10を利用するクライアント端末20とから構成される。検索サーバ計算機10とクライアント端末20とはネットワーク30を介して接続されている。なお、図1では省略されているが、ネットワーク30には、複数のクライアント端末20が接続可能である。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a document search system according to an embodiment of the present invention. The document search system of FIG. 1 is mainly composed of a search server computer 10 and a client terminal 20 that uses the search server computer 10. The search server computer 10 and the client terminal 20 are connected via a network 30. Although omitted in FIG. 1, a plurality of client terminals 20 can be connected to the network 30.

検索サーバ計算機10は、クライアント端末20からの検索要求に応じて要求された検索条件に合致する文書を検索する検索サーバ11と、記憶部12とを備えている。記憶部12には、文書データベース121及び分類用辞書122が格納される。文書データベース121は、検索の対象となる文書の文書データを保存する。分類用辞書122は、検索サーバ11によって検索された各文書について、予め定められた文書分類項目毎に、対応する分類に属しているかを判定するのに用いられる。記憶部2にはまた、検索サーバ計算機10のCPU(図示せず)によって実行される各種プログラムが格納される。このプログラムの1つは、文書検索を実現するための文書検索プログラムである。なお、文書検索プログラムが独立のプログラムではなくて、1つのアプリケーションプログラムの一要素であっても構わない。記憶部12は、例えば主メモリ及びディスク装置(例えばハードディスクドライブ)を含む。ここで、主メモリ及びディスク装置をどのように使い分けるかについては、本発明に直接関係しないため説明を省略する。   The search server computer 10 includes a search server 11 that searches for a document that matches a search condition requested in response to a search request from the client terminal 20, and a storage unit 12. The storage unit 12 stores a document database 121 and a classification dictionary 122. The document database 121 stores document data of a document to be searched. The classification dictionary 122 is used to determine whether each document searched by the search server 11 belongs to a corresponding classification for each predetermined document classification item. The storage unit 2 also stores various programs executed by the CPU (not shown) of the search server computer 10. One of the programs is a document search program for realizing document search. The document search program may be an element of one application program instead of an independent program. The storage unit 12 includes, for example, a main memory and a disk device (for example, a hard disk drive). Here, how to properly use the main memory and the disk device is not directly related to the present invention, and the description thereof will be omitted.

検索サーバ11は、検索サーバ計算機10のCPUが文書検索プログラムを実行することにより実現される。検索サーバ11は、インタフェース部111、検索要求解析部112、文書検索部113、要約抽出部114、及び分類部115の各機能要素を含む。   The search server 11 is realized by the CPU of the search server computer 10 executing a document search program. The search server 11 includes functional elements of an interface unit 111, a search request analysis unit 112, a document search unit 113, a summary extraction unit 114, and a classification unit 115.

インタフェース部111は、クライアント端末20からの検索要求(文書検索要求)を受け付ける機能と、当該検索要求に対する検索結果の一覧を表す画面情報(検索結果一覧画面情報)を生成して検索要求元に返す機能とを有する。検索結果一覧画面情報は、検索された各文書が予め定められた文書分類項目の何れに属しているかを示す分類一覧の情報を含む。   The interface unit 111 receives a search request (document search request) from the client terminal 20, and generates screen information (search result list screen information) representing a list of search results for the search request and returns the screen information to the search request source. With functions. The search result list screen information includes information on a classification list indicating which of the predetermined document classification items each searched document belongs to.

検索要求解析部112は、クライアント端末20からの検索要求を解析し、例えば検索式を構成するキーワードを抽出する。文書検索部113は、検索要求解析部112によって抽出されたキーワードを含む検索式に従って、文書データベース121から当該検索式に合致する文書を検索する。   The search request analysis unit 112 analyzes a search request from the client terminal 20 and extracts, for example, keywords constituting a search expression. The document search unit 113 searches the document database 121 for a document that matches the search formula according to the search formula including the keyword extracted by the search request analysis unit 112.

要約抽出部114は、文書検索部113によって検索された文書の要約を抽出する。分類部115は、文書検索部113によって検索された各文書について、分類用辞書122によって示される文書分類項目毎に、対応する分類に属しているかを当該分類用辞書122に従って判定する。つまり分類部115は、文書検索部113によって検索された各文書を、予め定められた文書分類項目毎に分類する。ここでは、1つの文書が複数の文書分類項目に分類されることを許している。   The summary extraction unit 114 extracts the summary of the document searched by the document search unit 113. The classification unit 115 determines whether each document searched by the document search unit 113 belongs to the corresponding classification for each document classification item indicated by the classification dictionary 122 according to the classification dictionary 122. That is, the classification unit 115 classifies each document searched by the document search unit 113 for each predetermined document classification item. Here, one document is allowed to be classified into a plurality of document classification items.

図2は、分類用辞書122のデータ構造例を示す。同図に示すように、分類用辞書122は、例えば5つの文書分類(文書分類項目)X1〜X5と、当該分類X1〜X5を特徴付けるキーワードの集合(分類X1〜X5のキーワード集合)とから構成される。文書分類(文書分類項目)X1の種別(分類タイプ)は「説明(定義)」である。分類X1のキーワード集合は、「説明」に関する用語(キーワード)、例えば機能「BB」、機能「CC」を含む。文書分類X2の種別は「組織」である。分類X2のキーワード集合は、「組織」に関する用語、例えば会社名「DD」、会社名「EE」を含む。文書分類X3の種別は「地名」である。分類X3のキーワード集合は、「地名、所在地」に関する用語を含む。文書分類X4の種別は「人名」である。分類X4のキーワード集合は、「人名」に関する用語を含む。文書分類X5の種別は「数値」である。分類X5のキーワード集合は、「数値」に関する用語、例えば「価格」、「値段」、「円」を含む。分類Xi(i=1〜5)のキーワード集合で示される用語を少なくとも1つ含む文書は、分類(文書分類項目)Xiとして分類される。なお、図2の分類用辞書122は一例であり、更に多くの文書分類項目を用意することも可能である。例えば、本実施形態では、文書分類X5、即ち「数値」には、「日付」も含まれるものとしている。しかし、「日付」を独立した文書分類項目として用意することも可能である。   FIG. 2 shows an example of the data structure of the classification dictionary 122. As shown in the figure, the classification dictionary 122 includes, for example, five document classifications (document classification items) X1 to X5, and a set of keywords that characterize the classifications X1 to X5 (a keyword set of classifications X1 to X5). Is done. The type (classification type) of the document classification (document classification item) X1 is “explanation (definition)”. The keyword set of classification X1 includes terms (keywords) related to “explanation”, for example, the function “BB” and the function “CC”. The type of the document classification X2 is “organization”. The keyword set of classification X2 includes terms related to “organization”, for example, company name “DD” and company name “EE”. The type of the document classification X3 is “place name”. The keyword set of classification X3 includes terms related to “place name, location”. The type of the document classification X4 is “person name”. The keyword set of classification X4 includes terms related to “person name”. The type of the document classification X5 is “numerical value”. The keyword set of classification X5 includes terms related to “numerical values”, for example, “price”, “price”, and “yen”. A document including at least one term indicated by the keyword set of classification Xi (i = 1 to 5) is classified as classification (document classification item) Xi. Note that the classification dictionary 122 in FIG. 2 is merely an example, and it is possible to prepare more document classification items. For example, in the present embodiment, the document classification X5, that is, “numerical value” includes “date”. However, “date” can be prepared as an independent document classification item.

次に、本実施形態の動作について、利用者の操作によりクライアント端末20から検索サーバ計算機10内の検索サーバ11に対してネットワーク30を介して文書検索要求が与えられた場合を例に、図3のフローチャート及び図4乃至図6の表示画面例を参照して説明する。   Next, with respect to the operation of the present embodiment, an example in which a document search request is given from the client terminal 20 to the search server 11 in the search server computer 10 via the network 30 by the user's operation will be described with reference to FIG. This will be described with reference to the flowchart of FIG. 4 and the display screen examples of FIGS.

まず、クライアント端末20の表示器の表示画面上に、図4に示すように、文書検索要求(検索条件)を入力するための入力フィールド40が表示されているものとする。この状態で、利用者がクライアント端末20のキーボード等の入力手段4を用いて、文書検索要求を入力フィールド40に入力するための操作を行ったものとする。ここでは、図4に示すように、「製品Aについて」という、自然言語を用いた質問文形式の検索要求(つまり質問文)が入力されたものとする。入力フィールド40に入力された検索要求は、クライアント端末20からネットワーク30を介して検索サーバ11に転送される。検索サーバ11内のインタフェース部111は、クライアント端末20から転送された検索要求(利用者からの検索要求)を受け付けて、当該要求を検索要求解析部112に渡す(ステップS1)。   First, it is assumed that an input field 40 for inputting a document search request (search condition) is displayed on the display screen of the display of the client terminal 20 as shown in FIG. In this state, it is assumed that the user performs an operation for inputting a document search request into the input field 40 using the input unit 4 such as a keyboard of the client terminal 20. Here, as shown in FIG. 4, it is assumed that a search request (that is, a question sentence) in a question sentence format using a natural language “About Product A” is input. The search request input in the input field 40 is transferred from the client terminal 20 to the search server 11 via the network 30. The interface unit 111 in the search server 11 receives the search request (search request from the user) transferred from the client terminal 20, and passes the request to the search request analysis unit 112 (step S1).

検索要求解析部112は、インタフェース部111から渡された検索要求、つまり検索条件を表す質問文を解析(例えば形態素解析)し、当該質問文から例えば品詞が名詞の用語を検索用のキーワード(第1のキーワード)として抽出する(ステップS2)。質問文が「製品Aについて」の例では、「製品」と「A」とが検索用キーワードとして抽出される。   The search request analysis unit 112 analyzes a search request passed from the interface unit 111, that is, a question sentence that represents a search condition (for example, morphological analysis), and searches for a term that has a part of speech as a keyword (for example) 1 keyword) (step S2). In the example in which the question sentence is “about product A”, “product” and “A” are extracted as search keywords.

文書検索部113は、検索要求解析部112により抽出された検索用キーワードの集合を用いて文書データベース121から該当する文書を検索する(ステップS3)。ここでは、検索要求解析部112により抽出されたキーワード集合中の少なくとも1つのキーワードを含む文書を検索する。つまり文書検索部113は、検索要求解析部112により抽出されたキーワードの集合を用いてOR検索式により該当する文書を検索する。本実施形態では、説明を簡略化するために文書データベース121から文書を検索している。しかし、検索の対象となる各文書に含まれている単語について、その単語が含まれている文書と当該文書中の位置とを示す単語インデックスを用いて文書検索を行うことも可能である。この単語インデックスを用いた文書検索手法は、文書検索の高速化が図れる手法として良く知られている。   The document search unit 113 searches for a corresponding document from the document database 121 using the set of search keywords extracted by the search request analysis unit 112 (step S3). Here, a document including at least one keyword in the keyword set extracted by the search request analysis unit 112 is searched. That is, the document search unit 113 searches for a corresponding document using an OR search formula using the set of keywords extracted by the search request analysis unit 112. In the present embodiment, a document is searched from the document database 121 to simplify the description. However, for a word included in each document to be searched, it is also possible to perform a document search using a word index indicating a document including the word and a position in the document. This document search method using the word index is well known as a method for speeding up document search.

さて、文書検索部113による文書検索処理では、例えば“TFIDF”と呼ばれる従来から知られているアルゴリズムを用いて、検索された文書毎に、その文書中におけるキーワードの出現率に基づくスコア付け(スコアリング)が行われる。文書検索部113は、スコア付けされた文書の中から上位N件の文書を選択し、その文書のリスト(例えば文書IDのリスト)を文書検索結果として取得する(ステップS4)。ここで、Nの値を利用者が指定することも可能である。   In the document search processing by the document search unit 113, for example, a conventionally known algorithm called “TFIDF” is used for scoring (score) for each searched document based on the keyword appearance rate in the document. Ring) is performed. The document search unit 113 selects the top N documents from the scored documents, and acquires a list of the documents (for example, a list of document IDs) as a document search result (step S4). Here, the user can also specify the value of N.

文書検索部113によって取得された文書検索結果(文書リスト)は、検索に用いられたキーワード集合と共に要約抽出部114及び分類部115に渡される。要約抽出部114は、文書検索結果(文書リスト)で示される、検索された各文書について、その要約を、例えば文書データベース121に格納されている対応する文書データから抽出する(ステップS5)。ここでは、文書検索に用いられたキーワード(第1のキーワード)を最も多く含む記述(例えば文)が要約として抽出される。要約抽出部114により抽出された、文書検索結果(文書リスト)で示される各文書の要約は、当該文書検索結果(文書リスト)と共にインタフェース部111に渡される。   The document search result (document list) acquired by the document search unit 113 is passed to the summary extraction unit 114 and the classification unit 115 together with the keyword set used for the search. The summary extraction unit 114 extracts a summary of each searched document indicated by the document search result (document list) from, for example, corresponding document data stored in the document database 121 (step S5). Here, a description (for example, a sentence) including the largest number of keywords (first keyword) used for document search is extracted as a summary. The summary of each document indicated by the document search result (document list) extracted by the summary extraction unit 114 is transferred to the interface unit 111 together with the document search result (document list).

一方、分類部115は、文書検索部113から渡された文書検索結果としての文書リストから未処理の文書(の文書ID)を1つ選択する(ステップS6)。次に分類部115は、分類用辞書122によって管理される文書分類項目(分類)X1〜X5のうちの1つを指定するための変数iを、初期値1に設定する(ステップS7)。そして分類部115は、文書データベース121に格納されている文書データのうち、選択された文書の文書IDで指定される文書データから、文書分類項目(分類)Xiのキーワードを全て抽出する(ステップS8)。ここでは、キーワード毎の総出現個数もカウントされる。この文書分類項目(分類)Xiのキーワードは、分類用辞書122に予め格納されている。分類Xiが分類X1のこの例では、分類用辞書122には、分類X1のキーワード集合として、機能「BB」及び機能「CC」を含む、「説明(定義)」に関する用語の集合が格納されている。   On the other hand, the classification unit 115 selects one unprocessed document (its document ID) from the document list as the document search result delivered from the document search unit 113 (step S6). Next, the classification unit 115 sets a variable i for designating one of the document classification items (classifications) X1 to X5 managed by the classification dictionary 122 to an initial value 1 (step S7). Then, the classification unit 115 extracts all keywords of the document classification item (classification) Xi from the document data specified by the document ID of the selected document among the document data stored in the document database 121 (step S8). ). Here, the total number of appearances for each keyword is also counted. The keywords of the document classification item (classification) Xi are stored in the classification dictionary 122 in advance. In this example where the classification Xi is the classification X1, the classification dictionary 122 stores a set of terms related to “explanation (definition)” including the function “BB” and the function “CC” as the keyword set of the classification X1. Yes.

次に分類部115は、文書分類項目(分類)Xiのキーワードを少なくとも1つ抽出できたか否かを判定する(ステップS9)。もし、抽出できた場合、分類部115は、ステップS6で選択された文書が文書分類項目(分類)Xiに分類されるか否かを示すフラグFiを“1”(Xiに分類されることを示す状態)に設定する(ステップS10)。これに対し、文書分類項目(分類)Xiのキーワードが抽出できなかった場合、フラグFiを“0”(Xiに分類されないことを示す状態)に設定する(ステップS11)。   Next, the classification unit 115 determines whether or not at least one keyword of the document classification item (classification) Xi has been extracted (step S9). If it can be extracted, the classification unit 115 sets the flag Fi indicating whether or not the document selected in step S6 is classified as the document classification item (classification) Xi to “1” (classified as Xi). (State shown)) (step S10). On the other hand, when the keyword of the document classification item (classification) Xi cannot be extracted, the flag Fi is set to “0” (a state indicating that it is not classified into Xi) (step S11).

分類部115はステップS10またはS11を実行すると、i=5であるか否かを判定する(ステップS12)。分類部115は、i=5でない場合(i<5の場合)、ステップS6で選択された文書について、未判定の文書分類項目が残っていると判断し、次に判定すべき文書分類項目を指定するために、変数iを1だけインクリメントする(ステップS13)。そして、インクリメント後の変数iで指定される文書分類項目(分類)Xiに関し、ステップS8から始まる処理を再び実行する。   After executing step S10 or S11, the classification unit 115 determines whether i = 5 (step S12). If i = 5 is not satisfied (i <5), the classification unit 115 determines that there is an undetermined document classification item for the document selected in step S6, and determines the document classification item to be determined next. In order to specify, the variable i is incremented by 1 (step S13). Then, with respect to the document classification item (classification) Xi designated by the incremented variable i, the process starting from step S8 is executed again.

このようにして、ステップS6で選択された文書について、X1〜X5の各文書分類項目毎に、その文書が当該文書分類項目X1〜X5に分類されるか否かを判定して、その判定結果をフラグF1〜F5に設定する処理(ステップS8,S9,S10またはステップS8,S9,S11)が全て実行されると(ステップS12)、分類部115はステップS14に進む。ステップS14において分類部115は、文書検索部113から渡された文書検索結果(文書リスト)の中に未処理の文書(の文書ID)が残っているか否かを判定する(ステップS14)。もし、未処理の文書が存在するならば、分類部115はステップS6に戻って、未処理の文書(の文書ID)を1つ選択した後、選択された文書について、X1〜X5の各文書分類項目毎に、上記ステップS8,S9,S10またはステップS8,S9,S11を実行する。   In this way, with respect to the document selected in step S6, it is determined whether or not the document is classified into the document classification items X1 to X5 for each of the document classification items X1 to X5. When all the processes for setting the flags F1 to F5 (steps S8, S9, S10 or steps S8, S9, S11) are executed (step S12), the classification unit 115 proceeds to step S14. In step S14, the classification unit 115 determines whether or not an unprocessed document (document ID) remains in the document search result (document list) passed from the document search unit 113 (step S14). If there is an unprocessed document, the classification unit 115 returns to step S6, selects one unprocessed document (document ID), and then selects each document X1 to X5 for the selected document. The above steps S8, S9, S10 or steps S8, S9, S11 are executed for each classification item.

やがて、文書検索結果の文書リストに含まれている全ての文書について、X1〜X5の各文書分類項目毎に、上記ステップS8,S9,S10またはステップS8,S9,S11を実行し終えると(ステップS14)、分類部115は当該文書リストで示される各文書の分類結果(ここでは、文書分類項目(分類)X1〜X5毎のフラグF1〜F5)をインタフェース部111に渡す。このとき分類部115は、各文書から抽出された文書分類項目(分類)Xiのキーワード(第2のキーワード)の群のうち、総出現個数が予め定められた個数を超えるキーワードの集合をインタフェース部111に渡す。なお、総出現個数が多い上位M個のキーワードの集合をインタフェース部111に渡すようにしても構わない。   Eventually, when the above steps S8, S9, S10 or steps S8, S9, S11 are completed for all document classification items X1 to X5 for all documents included in the document list of the document search result (steps). In step S <b> 14, the classification unit 115 passes the classification results (here, the flags F <b> 1 to F <b> 5 for the document classification items (classifications) X <b> 1 to X <b> 5) indicated in the document list to the interface unit 111. At this time, the classifying unit 115 selects a set of keywords whose total appearance number exceeds a predetermined number from the group of keywords (second keywords) of the document classification item (classification) Xi extracted from each document as an interface unit. Pass to 111. Note that a set of top M keywords having a large total number of appearances may be passed to the interface unit 111.

インタフェース部111は、要約抽出部114から文書検索結果(文書リスト)及び当該文書リストで示される各文書の要約を受け取ると共に、分類部115から当該文書リストで示される各文書の分類結果(X1〜X5毎のフラグF1〜F5)及びキーワード(第2のキーワード)の集合を受け取ると、利用者に提示可能な分類結果を含む検索結果一覧画面の情報を生成し、当該情報を検索要求元のクライアント端末20にネットワーク30を介して返す(ステップS15)。この検索結果一覧画面の情報は、第2のキーワードの集合と、文書検索結果(文書リスト)で示される各文書の文書ID(文書名)と、文書分類項目X1〜X5の項目名と、当該各文書の分類結果である当該各文書のX1〜X5毎のフラグF1〜F5と、当該各文書の要約とを含む。   The interface unit 111 receives the document search result (document list) and the summary of each document indicated by the document list from the summary extraction unit 114, and the classification result (X1 to X1) of each document indicated by the document list from the classification unit 115. When receiving a set of flags F1 to F5) and keywords (second keywords) for each X5, information on a search result list screen including classification results that can be presented to the user is generated, and the information is sent to the client of the search request source. It returns to the terminal 20 via the network 30 (step S15). The information on the search result list screen includes the second keyword set, the document ID (document name) of each document indicated by the document search result (document list), the item names of document classification items X1 to X5, It includes flags F1 to F5 for each document X1 to X5, which are the classification results of each document, and a summary of each document.

クライアント端末20は、検索サーバ11のインタフェース部111から返された検索結果一覧画面の情報を受け取ると、当該情報に従って、例えば図4に示す検索結果一覧画面をクライアント端末20の表示器に表示する。この検索結果一覧画面は、文書検索結果(文書リスト)で示される各文書の文書ID(文書名)の一覧41を含む。図4の例では、文書1、文書2、文書3及び文書4を含む文書の文書IDの一覧(文書検索結果一覧)41が表示されている。   When the client terminal 20 receives the search result list screen information returned from the interface unit 111 of the search server 11, the client terminal 20 displays the search result list screen shown in FIG. 4 on the display of the client terminal 20 according to the information. This search result list screen includes a list 41 of document IDs (document names) of each document indicated by the document search result (document list). In the example of FIG. 4, a list (document search result list) 41 of document IDs of documents including document 1, document 2, document 3, and document 4 is displayed.

また図4の検索結果一覧画面では、文書検索結果一覧41で示される各文書が文書分類項目X1〜X5のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧42が表示される。この分類結果一覧42は、文書検索結果一覧41で示される各文書とX1〜X5の各文書分類項目とにそれぞれ対応付けて表示される例えば矩形の分類マーク42aの集合である。ここでは、文書jと文書分類項目Xiとにそれぞれ対応付けられた分類マーク42aの矩形枠内を所定の色で塗りつぶすことにより、つまり矩形枠内が塗りつぶされた分類マーク42aの表示により、該当する文書jが文書分類項目Xiに分類されることを示している。また、分類マーク42aの矩形枠内を塗りつぶさないことにより、つまり矩形枠のみの分類マーク42aの表示により、該当する文書jが文書分類項目Xiに分類されないことを示している。この分類マーク42aの表示情報は、該当する文書jの文書分類項目Xiに関する分類結果を示すフラグFiに従って生成される。   Further, in the search result list screen of FIG. 4, it is displayed for each document and for each document classification item whether each document shown in the document search result list 41 is classified into one of the document classification items X1 to X5. A classification result list 42 is displayed. The classification result list 42 is a set of, for example, rectangular classification marks 42a displayed in association with the documents shown in the document search result list 41 and the document classification items X1 to X5. Here, the classification mark 42a associated with the document j and the document classification item Xi is filled with a predetermined color within the rectangular frame, that is, by displaying the classification mark 42a with the rectangular frame filled. It shows that the document j is classified into the document classification item Xi. Further, by not filling the rectangular frame of the classification mark 42a, that is, by displaying the classification mark 42a of only the rectangular frame, it indicates that the corresponding document j is not classified into the document classification item Xi. The display information of the classification mark 42a is generated according to the flag Fi indicating the classification result regarding the document classification item Xi of the corresponding document j.

また図4の検索結果一覧画面には、文書分類項目(分類)X1〜X5の項目名(または当該項目名の識別子)の一覧(分類項目名一覧)43が表示されている。分類項目名一覧43は、分類結果一覧42により示される文書分類項目X1〜X5の一種の見出しである。この分類項目名一覧43により示される文書分類項目Xiの項目名の表示位置と文書検索結果一覧41で示される文書jの文書IDの表示位置とにいずれも対応する位置には、文書jが文書分類項目Xiに分類されるか否かを示す分類マーク42aが表示されている。分類結果一覧42中の分類マーク42aの集合は、マトリクス状に配列されている。   In addition, a list (classification item name list) 43 of item names (or identifiers of the item names) of document classification items (classifications) X1 to X5 is displayed on the search result list screen of FIG. The classification item name list 43 is a kind of heading of the document classification items X1 to X5 indicated by the classification result list 42. Document j is a document at a position corresponding to both the display position of the item name of document classification item Xi indicated by this classification item name list 43 and the display position of the document ID of document j indicated by document search result list 41. A classification mark 42a indicating whether or not to be classified into the classification item Xi is displayed. A set of classification marks 42a in the classification result list 42 is arranged in a matrix.

また図4の検索結果一覧画面には、各文書IDに対応付けて、該当する文書の要約が表示されている。ここでは、文書1の要約44-1として「AはBBとCCの機能をもっている」が、文書2の要約44-2として「Aの価格は…」が、そして文書3の要約44-3として「株式会社DD(住所…)は製品Aを発表」が、それぞれ表示されている。図4の検索結果一覧画面の例では、各文書の文書分類項目X1〜X5毎の分類マーク42aの状態から明らかなように、文書1は文書分類項目X1のみに分類され、文書2は文書分類項目X1及びX5に分類される。また、文書3は文書分類項目X1及びX3に分類され、文書4は文書分類項目X5のみに分類される。   In the search result list screen of FIG. 4, a summary of the corresponding document is displayed in association with each document ID. Here, “A has the functions of BB and CC” as the summary 44-1 of the document 1, “Price of A ...” as the summary 44-2 of the document 2, and as the summary 44-3 of the document 3 “DD Co., Ltd. (address…) announces product A” is displayed. In the example of the search result list screen of FIG. 4, as is clear from the state of the classification mark 42a for each document classification item X1 to X5 of each document, document 1 is classified only into document classification item X1, and document 2 is document classification. It is classified into items X1 and X5. Document 3 is classified into document classification items X1 and X3, and document 4 is classified only into document classification item X5.

また図4の検索結果一覧画面には、キーワード一覧45も表示される。キーワード一覧45は、文書検索結果(文書リスト)で示される各文書から抽出された、文書分類項目X1〜X5にそれぞれ固有のキーワード(第2のキーワード)の群のうち、総出現個数が予め定められた個数を超えるキーワードの集合である。   A keyword list 45 is also displayed on the search result list screen of FIG. In the keyword list 45, the total number of appearances is determined in advance from a group of keywords (second keywords) extracted from each document indicated by the document search result (document list) and unique to the document classification items X1 to X5. It is a set of keywords exceeding the specified number.

本実施形態では、分類項目名一覧43中の分類項目X1〜X5は、クライアント端末20の入力部(例えばマウス)を用いた利用者の操作で選択可能である。今、分類項目Xi(iは1〜5のいずれか)が選択されたものとする。この場合、分類項目名一覧43中の分類項目Xiの表示形態(表示属性)が選択状態を示す特別の形態(表示属性)に切り替えられる。   In the present embodiment, the classification items X1 to X5 in the classification item name list 43 can be selected by a user operation using an input unit (for example, a mouse) of the client terminal 20. Assume that the classification item Xi (i is any one of 1 to 5) is selected. In this case, the display form (display attribute) of the classification item Xi in the classification item name list 43 is switched to a special form (display attribute) indicating the selected state.

分類項目名一覧43から分類項目Xiが選択されたことは、クライアント端末20から検索サーバ11のインタフェース部111に通知される。するとインタフェース部111は、要約抽出部114から受け取った検索結果の一覧の中から、選択された分類項目Xiに分類される文書のみを選択して、新たな検索結果一覧画面の情報を生成して、クライアント端末20に返す。ここでは、選択された分類項目XiがX5であるものとする。図4に示す検索結果一覧画面において、分類項目X5に分類される文書の集合は、文書2及び文書4を含む一方、文書1及び文書3を含まない。この場合、新たな検索結果一覧画面(中の文書検索結果一覧41)に検索結果として表示される文書は、図5に示すように、分類項目X5に分類される文書に絞られる。ここでは、文書2及び文書4は表示されるものの、文書1及び文書3は表示されない。これにより、クライアント端末20の利用者は、検索結果の絞り込み検索を行うことができる。なお、分類項目名一覧43から複数の分類項目を選択することも可能である。例えば、図4に示す検索結果一覧画面において、分類項目名一覧43から分類項目X1及びX3が選択された場合、分類項目X1及びX3に分類される文書だけが選択される。この場合、新たな検索結果一覧画面では、文書3は表示されるものの、文書1、文書2及び文書4は表示されない。   The selection of the classification item Xi from the classification item name list 43 is notified from the client terminal 20 to the interface unit 111 of the search server 11. Then, the interface unit 111 selects only documents classified into the selected classification item Xi from the list of search results received from the summary extraction unit 114, and generates information on a new search result list screen. Return to the client terminal 20. Here, it is assumed that the selected classification item Xi is X5. In the search result list screen shown in FIG. 4, the set of documents classified into the classification item X5 includes the document 2 and the document 4, but does not include the document 1 and the document 3. In this case, as shown in FIG. 5, the documents displayed as search results on the new search result list screen (internal document search result list 41) are limited to documents classified into the classification item X5. Here, document 2 and document 4 are displayed, but document 1 and document 3 are not displayed. As a result, the user of the client terminal 20 can perform a search refinement of the search results. A plurality of classification items can be selected from the classification item name list 43. For example, when the classification items X1 and X3 are selected from the classification item name list 43 on the search result list screen shown in FIG. 4, only the documents classified into the classification items X1 and X3 are selected. In this case, the document 3 is displayed on the new search result list screen, but the documents 1, 2, and 4 are not displayed.

また本実施形態では、キーワード一覧45中のキーワードも、クライアント端末20の入力部を用いた利用者の操作で選択可能である。このキーワード一覧45が、図4に示すようにキーワード「BB」「CC」「DD」を含み、その中からキーワード「BB」が選択されたものとする。この場合、キーワード一覧45中のキーワード「BB」の表示形態が選択状態を示す特別の形態に切り替えられる。   In the present embodiment, keywords in the keyword list 45 can also be selected by a user operation using the input unit of the client terminal 20. It is assumed that the keyword list 45 includes the keywords “BB”, “CC”, and “DD” as shown in FIG. 4, and the keyword “BB” is selected from the keywords. In this case, the display form of the keyword “BB” in the keyword list 45 is switched to a special form indicating the selected state.

キーワード一覧45からキーワード「BB」が選択されたことは、クライアント端末20から検索サーバ11のインタフェース部111に通知される。するとインタフェース部111は、要約抽出部114から受け取った検索結果の一覧の中から、選択されたキーワード「BB」を含む文書のみを選択して、新たな検索結果一覧画面の情報を生成して、クライアント端末20に返す。ここでは、文書1はキーワード「BB」を含むが、文書2、文書3及び文書4はキーワード「BB」を含まない。この場合、新たな検索結果一覧画面では、図6に示すように、文書1は表示されるものの、文書2、文書3及び文書4は表示されない。これにより、クライアント端末20の利用者は、検索結果の絞り込み検索を行うことができる。なお、キーワード一覧45から複数のキーワードを選択することも可能である。   The selection of the keyword “BB” from the keyword list 45 is notified from the client terminal 20 to the interface unit 111 of the search server 11. Then, the interface unit 111 selects only a document including the selected keyword “BB” from the list of search results received from the summary extraction unit 114, generates information on a new search result list screen, Return to client terminal 20. Here, document 1 includes the keyword “BB”, but document 2, document 3, and document 4 do not include the keyword “BB”. In this case, on the new search result list screen, as shown in FIG. 6, document 1 is displayed, but document 2, document 3 and document 4 are not displayed. As a result, the user of the client terminal 20 can perform a search refinement of the search results. A plurality of keywords can be selected from the keyword list 45.

上記実施形態では、検索要求解析部112は、質問文から検索用のキーワードを抽出している。しかし、検索要求解析部112が検索用のキーワードの抽出の他に、質問文の意味役割を解析して、質問のタイプまたは質問文に対する回答のタイプを判定するようにしても良い。この場合、質問タイプまたは回答タイプに合致する文書分類項目Xiに分類される文書は、利用者が必要とする文書である可能性が極めて高い。そこで、文書検索一覧画面からの利用者による文書選択を支援するために、文書検索結果(文書リスト)で示される各文書に対応して文書分類項目X1〜X5毎に表示される分類マーク42aのうち、質問タイプまたは回答タイプに合致する文書分類項目Xiに分類された文書に対応する当該Xiの分類マーク42aを、他の分類マーク42aとは異なる表示形態(属性)で強調表示すると良い。また、質問文形式の検索要求に代えて、キーワードを直接指定することによる検索要求を用いることも可能である。   In the embodiment described above, the search request analysis unit 112 extracts a search keyword from the question sentence. However, the search request analysis unit 112 may analyze the semantic role of the question sentence in addition to extracting the keyword for search, and determine the type of the question or the answer type to the question sentence. In this case, the document classified into the document classification item Xi that matches the question type or the answer type is very likely to be a document required by the user. Therefore, in order to assist the user in selecting a document from the document search list screen, the classification mark 42a displayed for each of the document classification items X1 to X5 corresponding to each document indicated by the document search result (document list). Among them, the Xi classification mark 42a corresponding to the document classified into the document classification item Xi that matches the question type or the answer type may be highlighted with a display form (attribute) different from the other classification marks 42a. Further, a search request by directly specifying a keyword can be used instead of the search request in the question sentence format.

なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment.

本発明の一実施形態に係る文書検索システムの構成を示すブロック図。1 is a block diagram showing a configuration of a document search system according to an embodiment of the present invention. 図1中の分類用辞書122のデータ構造例を示す図。The figure which shows the example of a data structure of the dictionary 122 for classification | category in FIG. 同実施形態における検索サーバ11の動作手順を示すフローチャート。The flowchart which shows the operation | movement procedure of the search server 11 in the embodiment. 同実施形態における検索結果一覧画面例を示す図。The figure which shows the example of a search result list screen in the embodiment. 図4中の分類項目名一覧43から分類項目X5が選択された場合の検索結果一覧画面例を示す図。The figure which shows the example of a search result list screen when the classification item X5 is selected from the classification item name list 43 in FIG. 図4中のキーワード一覧45からキーワード「BB」が選択された場合の検索結果一覧画面例を示す図。The figure which shows the example of a search result list screen when the keyword "BB" is selected from the keyword list 45 in FIG.

符号の説明Explanation of symbols

10…検索サーバ計算機、11…検索サーバ、12…記憶部、41…文書検索結果一覧、42…分類結果一覧、42a…分類マーク、43…分類項目名一覧(分類項目一覧)、44-1,44-2,44-3…要約、45…キーワード一覧、111…インタフェース部、112…検索要求解析部、113…文書検索部、114…要約抽出部、115…分類部、121…文書データベース、122…分類用辞書。   DESCRIPTION OF SYMBOLS 10 ... Search server computer, 11 ... Search server, 12 ... Memory | storage part, 41 ... Document search result list, 42 ... Classification result list, 42a ... Classification mark, 43 ... Classification item name list (category item list), 44-1, 44-2, 44-3 ... summary, 45 ... keyword list, 111 ... interface unit, 112 ... search request analysis unit, 113 ... document search unit, 114 ... summary extraction unit, 115 ... classification unit, 121 ... document database, 122 ... a dictionary for classification.

Claims (10)

与えられた文書検索要求に応じて該当する文書を検索する文書検索システムにおいて、
検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類する分類手段と、
文書検索結果の一覧と、前記分類手段による文書分類結果を示す分類結果一覧であって、前記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するインタフェース手段と
を具備することを特徴とする文書検索システム。
In a document search system that searches for a corresponding document in response to a given document search request,
For each retrieved document, a classification means for classifying the document by determining whether the document belongs to a corresponding classification for each predetermined document classification item;
It is a list of document search results and a list of classification results indicating document classification results by the classification means, and each document indicated in the list of document search results is classified as one of the document classification items. An interface means for generating information on a search result list screen that can be presented to the user, including a classification result list for display separately for each document classification item. system.
前記分類結果一覧が、前記文書検索結果の一覧で示される各文書と前記各文書分類項目とにそれぞれ対応付けて表示され、該当する文書が対応する文書分類項目に分類されるか否かを示す分類マークの集合であることを特徴とする請求項1記載の文書検索システム。   The classification result list is displayed in association with each document shown in the document search result list and each document classification item, and indicates whether the corresponding document is classified into the corresponding document classification item. The document retrieval system according to claim 1, wherein the document retrieval system is a set of classification marks. 前記インタフェース手段は、前記分類結果一覧の見出しとしての、前記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を更に含む検索結果一覧画面の情報を生成することを特徴とする請求項1記載の文書検索システム。   The interface means includes a classification item list indicating each document classification item as a heading of the classification result list, and further including a classification item list that allows a user to select a classification item. 2. The document retrieval system according to claim 1, wherein information is generated. 前記インタフェース手段は、前記分類項目一覧中の任意の分類項目が選択された場合、前記文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択された分類項目に分類される文書だけに絞ることを特徴とする請求項3記載の文書検索システム。   The interface means, when an arbitrary classification item in the list of classification items is selected, documents included in the list of document search results are classified into the selected classification item among the searched documents. 4. The document search system according to claim 3, wherein the document search system is limited to only. 前記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を更に具備し、
前記分類手段は、検索された各文書について、当該文書中に、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれている少なくとも1つのキーワードが存在するかを、当該文書分類項目毎に判定することにより、当該文書が対応する分類に属しているかを判定する
ことを特徴とする請求項1記載の文書検索システム。
A classification dictionary storing a set of keywords characterizing the classification corresponding to each document classification item;
The classification means determines whether or not there is at least one keyword included in the keyword set stored for each document classification item in the classification dictionary in the document for each retrieved document. The document search system according to claim 1, wherein by determining for each document classification item, it is determined whether the document belongs to a corresponding classification.
前記分類手段は、検索された各文書について、当該文書から、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するキーワード抽出手段を含み、
前記インタフェース手段は、前記キーワード抽出手段によって抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を更に含む検索結果一覧画面の情報を生成することを特徴とする請求項5記載の文書検索システム。
The classification means includes, for each searched document, keyword extraction means for extracting a keyword included in a keyword set stored for each document classification item in the classification dictionary from the document,
The interface means is a keyword list indicating a set of keywords selected according to the number of appearances from all the keywords extracted by the keyword extracting means, and allows a user to select a keyword. The document search system according to claim 5, further comprising: generating information on a search result list screen further including:
前記インタフェース手段は、前記キーワード一覧中の任意のキーワードが選択された場合、前記文書検索結果の一覧に含まれる文書を、検索された文書のうちの選択されたキーワードを含む文書だけに絞ることを特徴とする請求項6記載の文書検索システム。   When an arbitrary keyword in the keyword list is selected, the interface means narrows down the documents included in the list of document search results to only documents including the selected keyword among the searched documents. The document search system according to claim 6, wherein: 与えられた文書検索要求に応じてコンピュータが文書検索を実行するのに用いられる文書検索プログラムであって、
前記コンピュータに、
検索された文書の各々について、予め定められた文書分類項目毎に、当該文書が対応する分類に属しているかを判定することにより、当該文書を分類するステップと、
文書検索結果の一覧と、文書分類結果を示す分類結果一覧であって、前記文書検索結果の一覧で示される各文書が前記文書分類項目のいずれに分類されるかを、当該文書毎で且つ当該文書分類項目毎に区別して表示するための分類結果一覧とを含む、利用者に提示可能な検索結果一覧画面の情報を生成するステップと
を実行させるための文書検索プログラム。
A document search program used by a computer to execute a document search in response to a given document search request,
In the computer,
For each retrieved document, for each predetermined document classification item, determining whether the document belongs to a corresponding classification, and classifying the document;
A list of document search results and a list of classification results indicating document classification results, and each document indicated in the list of document search results is classified into the document classification item for each document and A document search program for executing a step of generating information on a search result list screen that can be presented to a user, including a classification result list for distinguishing and displaying each document classification item.
前記検索結果一覧画面は、前記分類結果一覧の見出しとしての、前記各文書分類項目を示す分類項目一覧であって、利用者による分類項目の選択操作が可能な分類項目一覧を更に含むことを特徴とする請求項8記載の文書検索プログラム。   The search result list screen further includes a classification item list that indicates each document classification item as a heading of the classification result list, and allows a user to select a classification item. The document search program according to claim 8. 前記分類するステップは、前記文書分類項目毎に対応する分類を特徴付けるキーワードの集合を格納した分類用辞書を利用して、検索された各文書について、当該文書から、前記分類用辞書に前記文書分類項目毎に格納されているキーワード集合に含まれているキーワードを抽出するステップを含み、
前記検索結果一覧画面は、前記キーワードを抽出するステップで抽出される全てのキーワードの中から出現個数に応じて選択されるキーワードの集合を示すキーワード一覧であって、利用者によるキーワードの選択操作が可能なキーワード一覧を更に含む
ことを特徴とする請求項8記載の文書検索プログラム。
The classifying step uses the classification dictionary storing a set of keywords that characterize the classification corresponding to each document classification item, and for each retrieved document, the document classification is performed from the document to the classification dictionary. Extracting a keyword included in the keyword set stored for each item,
The search result list screen is a keyword list indicating a set of keywords selected according to the number of appearances from all keywords extracted in the keyword extracting step, and a keyword selection operation by a user is performed. The document search program according to claim 8, further comprising a list of possible keywords.
JP2003364948A 2003-10-24 2003-10-24 Document retrieving system and document retrieving program Pending JP2005128872A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003364948A JP2005128872A (en) 2003-10-24 2003-10-24 Document retrieving system and document retrieving program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003364948A JP2005128872A (en) 2003-10-24 2003-10-24 Document retrieving system and document retrieving program

Publications (1)

Publication Number Publication Date
JP2005128872A true JP2005128872A (en) 2005-05-19

Family

ID=34643776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003364948A Pending JP2005128872A (en) 2003-10-24 2003-10-24 Document retrieving system and document retrieving program

Country Status (1)

Country Link
JP (1) JP2005128872A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018342A (en) * 2005-07-08 2007-01-25 Nec Corp Apparatus and method for providing information
WO2007060726A1 (en) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. Document retrieval device, method, and program
JP2008009671A (en) * 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology Data display device, data display method, and data display program
JP2008176545A (en) * 2007-01-18 2008-07-31 Cosmotec Patent Information Systems Inc Computer system for data retrieval, computer program for realizing data retrieval and method thereof
JP2009110393A (en) * 2007-10-31 2009-05-21 Toshiba Corp Data processing apparatus
JP2009230648A (en) * 2008-03-25 2009-10-08 Hitachi East Japan Solutions Ltd Document group analysis supporting device
JP2009295186A (en) * 2009-09-16 2009-12-17 Mitsubishi Space Software Kk Document search device, document search method, and document search program
JP2012123603A (en) * 2010-12-08 2012-06-28 Yahoo Japan Corp Retrieval support device
JP2013168177A (en) * 2013-05-07 2013-08-29 Fujitsu Ltd Information provision program, information provision apparatus, and provision method of retrieval service
JP2022114897A (en) * 2021-01-27 2022-08-08 株式会社LegalForce Document processing program, information processing apparatus and document processing method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04106663A (en) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd Patent document classifying device
JPH0581327A (en) * 1991-09-19 1993-04-02 Fujitsu Ltd Information retrieval support processor
JPH11161658A (en) * 1997-11-27 1999-06-18 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for calculating priority of additional search word, and storage medium storing priority calculation program for additional search word
JP2002288189A (en) * 2001-03-27 2002-10-04 Seiko Epson Corp Document classification method, document classification device, and recording medium recording document classification processing program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04106663A (en) * 1990-08-28 1992-04-08 Matsushita Electric Ind Co Ltd Patent document classifying device
JPH0581327A (en) * 1991-09-19 1993-04-02 Fujitsu Ltd Information retrieval support processor
JPH11161658A (en) * 1997-11-27 1999-06-18 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for calculating priority of additional search word, and storage medium storing priority calculation program for additional search word
JP2002288189A (en) * 2001-03-27 2002-10-04 Seiko Epson Corp Document classification method, document classification device, and recording medium recording document classification processing program

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018342A (en) * 2005-07-08 2007-01-25 Nec Corp Apparatus and method for providing information
WO2007060726A1 (en) * 2005-11-25 2007-05-31 Mitsubishi Space Software Co., Ltd. Document retrieval device, method, and program
JP2008009671A (en) * 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology Data display device, data display method, and data display program
JP2008176545A (en) * 2007-01-18 2008-07-31 Cosmotec Patent Information Systems Inc Computer system for data retrieval, computer program for realizing data retrieval and method thereof
JP2009110393A (en) * 2007-10-31 2009-05-21 Toshiba Corp Data processing apparatus
JP2009230648A (en) * 2008-03-25 2009-10-08 Hitachi East Japan Solutions Ltd Document group analysis supporting device
JP2009295186A (en) * 2009-09-16 2009-12-17 Mitsubishi Space Software Kk Document search device, document search method, and document search program
JP2012123603A (en) * 2010-12-08 2012-06-28 Yahoo Japan Corp Retrieval support device
JP2013168177A (en) * 2013-05-07 2013-08-29 Fujitsu Ltd Information provision program, information provision apparatus, and provision method of retrieval service
JP2022114897A (en) * 2021-01-27 2022-08-08 株式会社LegalForce Document processing program, information processing apparatus and document processing method
JP7548569B2 (en) 2021-01-27 2024-09-10 株式会社LegalOn Technologies Document processing program, information processing device, and document processing method
JP2024152921A (en) * 2021-01-27 2024-10-25 株式会社LegalOn Technologies Document processing program, information processing device, and document processing method

Similar Documents

Publication Publication Date Title
CN107122400B (en) Method, computing system and storage medium for refining query results using visual cues
WO2000075809A1 (en) Information sorting method, information sorter, recorded medium on which information sorting program is recorded
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
JPH0991314A (en) Information search device
TW200805095A (en) Data product search using related concepts
US12099551B2 (en) Information search system
JP4084647B2 (en) Information search system, information search method, and information search program
JP2005128872A (en) Document retrieving system and document retrieving program
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
JP2011053881A (en) Document management system
JP2012043115A (en) Document search device, document search method, and document search program
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
JP5269399B2 (en) Structured document retrieval apparatus, method and program
JP2005107931A (en) Image search device
CN100456285C (en) Method and apparatus for accessing a database
JP2014102625A (en) Information retrieval system, program, and method
JP2004102818A (en) Retrieval support method and retrieval support device
WO2018084226A1 (en) Document search method and device
JP5368900B2 (en) Information presenting apparatus, information presenting method, and program
JP2006323517A (en) Text classification device and program
JP4787590B2 (en) Collection search method, collection search system and collection search program
JP2004157965A (en) Search support apparatus, search support method, program, and recording medium
JP2005346486A (en) Document retrieval device
JPH06348756A (en) Index preparing device and index utilizing device

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060724

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060822