JP2002099558A - Information retrieval system, information retrieval method, and recording medium - Google Patents
Information retrieval system, information retrieval method, and recording mediumInfo
- Publication number
- JP2002099558A JP2002099558A JP2000287593A JP2000287593A JP2002099558A JP 2002099558 A JP2002099558 A JP 2002099558A JP 2000287593 A JP2000287593 A JP 2000287593A JP 2000287593 A JP2000287593 A JP 2000287593A JP 2002099558 A JP2002099558 A JP 2002099558A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- information
- word
- search
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索結果の表示量等の制限に対応した情報検
索を実現すること。
【解決手段】 検索文字列に基づいて情報を検索した
後、検索された情報に含まれる文字列を、予め設定され
た文字数の範囲で、抽出し、これを検索結果として表示
する。文字列の抽出においては、検索された情報に含ま
れる単語のうち、検索文字列から抽出した単語に対して
関連性のある少なくとも一つ、好ましくは複数の単語を
含むようにする。
(57) [Summary] [Problem] To realize an information search corresponding to a limitation such as a display amount of a search result. After searching for information based on a search character string, a character string included in the searched information is extracted within a range of a predetermined number of characters, and the extracted character string is displayed as a search result. In the extraction of the character string, at least one, preferably, a plurality of words relevant to the word extracted from the search character string among words included in the searched information is included.
Description
【0001】[0001]
【発明の属する技術分野】本発明は、情報の検索技術に
関する。[0001] The present invention relates to an information retrieval technique.
【0002】[0002]
【従来の技術】文書、図形、画像などの情報検索では、
あらかじめ検索対象の文書や図形などのデータに付与し
たキーワードや、文書内の全てもしくは一部の単語や文
字列を検索対象として、これらについて利用者の入力し
た情報をもとに検索を行うことで、該当する文書や図形
などの情報を選びだす方式が採用されている。2. Description of the Related Art In information retrieval of documents, figures, images, and the like,
By performing a search based on information entered by the user with keywords attached to data such as documents and graphics to be searched in advance, and all or some words and character strings in the documents as search targets And a method of selecting information such as a corresponding document or graphic.
【0003】この場合、利用者が検索時に入力する情報
として、キーワード、単語や文、情報の分類コードなど
があり、検索結果としては、検索対象の文章、図形など
の情報、もしくは、それを指示できるシリアルコードな
どがある。In this case, information input by a user at the time of a search includes a keyword, a word or a sentence, a classification code of information, and the like, and the search result is information such as a sentence or a figure to be searched or an instruction for the information. There are serial codes that can be used.
【0004】一方、情報検索装置の検索機能の高度化に
伴い、入力されたキーワードや単語について、その表現
の曖昧性や意味的に類似した表現も検索できるようにな
り、カタカナ語や同義語や類義語が含まれる情報であっ
ても、検索結果に含むことが可能となった。これによ
り、利用者の欲しい情報の見落としが起きにくくなって
きている。On the other hand, with the advancement of the search function of the information search device, it becomes possible to search for ambiguity of expressions and expressions similar in meaning to input keywords and words, and to search for katakana, synonyms, and the like. Even information containing synonyms can be included in search results. As a result, oversight of information desired by the user is less likely to occur.
【0005】とはいえ、情報の内容を理解して検索を行
っているわけではないので、どうしても、検索結果をユ
ーザに見せて、欲しい情報の取捨選択を行ってもらった
り、検索条件を追加/変更/削除を行う際に再度検索を
行う、いわゆる追検索をしないと、利用者の欲しいもの
を提供できるようにはなっていない。However, since the search is not performed while understanding the contents of the information, the user is inevitably shown the search result, and is required to select desired information or to add / retrieve search conditions. Unless a search is performed again when the change / deletion is performed, that is, a so-called additional search is performed, what the user wants cannot be provided.
【0006】したがって、検索結果を見易くし、検索結
果を有効に活用して、情報の選択や追検索を行いやすく
する必要がある。このため、図形などの検索の場合に
は、その検索結果の図形をたくさん画面に表示できるよ
うに、検索対象の図形を小さくしたものを表示する、サ
ムネイル表示などの機能も提案されており、また、文書
の検索などの場合には、文書の要約等の一部を部分的に
表示するなどの機能も提案されている。[0006] Therefore, it is necessary to make it easy to view the search results, to make effective use of the search results, and to easily perform information selection and additional search. For this reason, in the case of searching for figures and the like, functions such as displaying a reduced version of the figure to be searched, a thumbnail display, etc. have been proposed so that a lot of figures of the search result can be displayed on the screen, In the case of document search, for example, a function of partially displaying a part of a document summary or the like has been proposed.
【0007】[0007]
【発明が解決しようとしている課題】しかし、いずれの
場合においても、検索結果を表示する表示画面等には、
表示領域に制限があり、特に、近年開発が進められてい
る携帯型の小型端末等に検索結果を表示する場合には、
それが顕著である。このように表示領域が小さければ、
長い文などの情報は全体を見るのに手間がかかり、逆
に、情報量を削減する場合は、どのような情報を検索結
果として提供するかが重要な問題となる。However, in any case, a display screen or the like for displaying a search result includes:
There is a limited display area, especially when displaying search results on portable small terminals etc., which are being developed recently.
It is remarkable. If the display area is small like this,
Information such as long sentences takes a lot of trouble to see the whole, and conversely, when reducing the amount of information, what kind of information is provided as a search result is an important issue.
【0008】従って、本発明の目的は、検索結果の表示
量等の制限に対応した情報検索を実現し得る情報検索シ
ステム、情報検索方法及び記録媒体を提供することにあ
る。Accordingly, it is an object of the present invention to provide an information search system, an information search method, and a recording medium that can realize an information search corresponding to a limitation on a display amount of a search result or the like.
【0009】[0009]
【課題を解決するための手段】本発明によれば、検索対
象である情報の内容を示す文書を入手する手段と、前記
情報のうち、検索条件として与えられた検索文字列に関
連する情報を検索する検索手段と、前記検索文字列に含
まれる単語を抽出する単語抽出手段と、検索された前記
情報に係る前記文書に含まれる文字列を、予め設定され
た文字数の範囲で、抽出する文字列抽出手段と、を備
え、前記文字列抽出手段は、前記文書に含まれる単語の
うち、前記検索文字列から抽出された単語に対して関連
性のある少なくとも一つの単語、を含むように前記文字
列を抽出することを特徴とする情報検索システムが提供
される。According to the present invention, there is provided a means for obtaining a document indicating the contents of information to be searched, and, among the information, information relating to a search character string given as a search condition. Searching means for searching, word extracting means for extracting words included in the search character string, and characters for extracting a character string included in the document relating to the searched information within a predetermined number of characters String extracting means, wherein the character string extracting means includes at least one word relevant to a word extracted from the search character string among words included in the document. An information retrieval system characterized by extracting a character string is provided.
【0010】また、本発明によれば、検索対象である情
報の内容を示す文書を入手する工程と、前記情報のう
ち、検索条件として与えられた検索文字列に関連する情
報を検索する工程と、前記検索文字列に含まれる単語を
抽出する工程と、検索された前記情報に係る前記文書に
含まれる文字列を、予め設定された文字数の範囲で、抽
出する文字列抽出工程と、を含み、前記文字列抽出工程
では、前記文書に含まれる単語のうち、前記検索文字列
から抽出された単語に対して関連性のある少なくとも一
つの単語、を含むように前記文字列を抽出することを特
徴とする情報検索方法が提供される。According to the present invention, a step of obtaining a document indicating the contents of the information to be searched, and a step of searching the information related to a search character string given as a search condition from the information are provided. Extracting a word included in the search character string, and extracting a character string included in the document related to the searched information within a preset number of characters. In the character string extracting step, extracting the character string so as to include at least one word that is relevant to the word extracted from the search character string among words included in the document. A featured information retrieval method is provided.
【0011】また、本発明によれば、コンピュータを、
検索対象である情報の内容を示す文書を入手する手段、
前記情報のうち、検索条件として与えられた検索文字列
に関連する情報を検索する検索手段、前記検索文字列に
含まれる単語を抽出する単語抽出手段、検索された前記
情報に係る前記文書に含まれる文字列を、予め設定され
た文字数の範囲で、抽出する文字列抽出手段、として機
能させるプログラムを記録した記録媒体であって、前記
文字列抽出手段は、前記文書に含まれる単語のうち、前
記検索文字列から抽出された単語に対して関連性のある
少なくとも一つの単語、を含むように前記文字列を抽出
することを特徴とする記録媒体が提供される。According to the present invention, a computer is
A means for obtaining a document indicating the content of the information to be searched;
Search means for searching for information related to a search character string given as a search condition, word extraction means for extracting words included in the search character string, included in the document related to the searched information A character string to be extracted, in a range of a predetermined number of characters, a character string extracting means for extracting, a recording medium recording a program to function as, the character string extracting means, of the words included in the document, A recording medium is provided, wherein the character string is extracted so as to include at least one word relevant to the word extracted from the search character string.
【0012】[0012]
【発明の実施の形態】以下、本発明の好適な実施の形態
について図面を参照して説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below with reference to the drawings.
【0013】図1は、本発明の一実施形態に係る情報検
索装置Aのブロック図である。FIG. 1 is a block diagram of an information retrieval apparatus A according to one embodiment of the present invention.
【0014】情報検索装置Aは、汎用的なコンピュータ
上に実現可能であり、主として以下の構成を備える。The information retrieval apparatus A can be realized on a general-purpose computer, and mainly has the following configuration.
【0015】CPU1は、マイクロプロセッサであり、
文字処理のための演算、論理判断等を行い、バス8を介
して他の各構成要素を制御する。ROM2は、読出し専
用の固定メモリである。ROM2には、CPU1により
実行される後述する検索処理のためのプログラムが格納
される。RAM3は、書込み可能のランダムアクセスメ
モリであって、CPU1の処理により生じる各種データ
の一時記憶エリアとして用いられるが、上記検索処理の
ためのプログラムを格納するために用いることもでき
る。The CPU 1 is a microprocessor,
It performs calculations for character processing, makes logical decisions, and controls other components via the bus 8. The ROM 2 is a read-only fixed memory. The ROM 2 stores a program for a search process to be described later, which is executed by the CPU 1. The RAM 3 is a writable random access memory, and is used as a temporary storage area for various data generated by the processing of the CPU 1, but can also be used to store a program for the search processing.
【0016】ディスク5は、様々なデータ等を記憶する
ための外部メモリである。各種データ等は必要に応じて
このディスク5に保管され、また、保管されたデータは
キーボード6からの指示や、各種プログラムの指示によ
り、必要な時にRAM3上に呼び出されてCPU1によ
り処理される。The disk 5 is an external memory for storing various data and the like. Various data and the like are stored on the disk 5 as needed, and the stored data is called up on the RAM 3 when necessary according to instructions from the keyboard 6 and instructions of various programs and processed by the CPU 1.
【0017】このディスク5には、検索の対象となる情
報の実体及び該情報の内容を示す文書を格納するデータ
ベース5aと、情報の検索等のために用いられるインデ
ックス情報を格納するデータベース5bと、が構築され
ている。上記情報の内容を示す文書(以下、情報文書と
いう。)とは、情報の種類が画像データの場合は、その
画像の内容を示す予め作成されたキーワード、要約文、
説明文等であり、情報の種類が専らテキストデータ等の
文字データの場合は、その情報自身(この場合はデータ
が重複するのでいずれか一方を格納すれば足りる。)若
しくは、その情報の内容を示す予め作成されたキーワー
ド、要約文、説明文等とすることができる。この情報文
書に含まれる文字列は、検索結果として活用されること
となる。The disk 5 has a database 5a for storing the entity of the information to be searched and a document indicating the contents of the information, a database 5b for storing index information used for searching information, and the like. Has been built. When the type of information is image data, a document indicating the content of the information (hereinafter, referred to as an information document) is a pre-created keyword indicating the content of the image, an abstract,
If the type of information is character data such as text data, the information itself (in this case, the data is duplicated, so it is sufficient to store one of them) or the content of the information. The keyword may be a pre-created keyword, a summary sentence, an explanation sentence, or the like. The character string included in this information document is used as a search result.
【0018】キーボード6は、アルファベットキー、ひ
らがなキー、カタカナキー、句点等の文字記号入力キ
ー、及び、カーソル移動を指示するカーソル移動キー等
のような各種の機能キーを備えており、検索条件の入力
等のために使用される。ディスプレイ7は、例えば、陰
極線管等を用いたCRT等であり、キーボード6から入
力される検索条件や検索結果等が表示される。The keyboard 6 is provided with various function keys such as an alphabet key, a hiragana key, a katakana key, a character symbol input key such as a punctuation mark, and a cursor movement key for instructing a cursor movement. Used for input etc. The display 7 is, for example, a CRT using a cathode ray tube or the like, and displays search conditions, search results, and the like input from the keyboard 6.
【0019】通信インターフェース4は、ネットワーク
9を介して他のコンピュータ10と情報通信を行うため
のものである。本実施形態では、情報検索装置A単独
で、検索条件の入力、検索処理の実行及び検索結果の表
示を行うことができるが、通信インターフェース4を備
えたことにより、ネットワーク9を介してコンピュータ
10において入力された検索条件を受け取り、検索処理
を実行して検索結果をコンピュータ10へ返すことも可
能である。The communication interface 4 is for performing information communication with another computer 10 via the network 9. In this embodiment, the information search device A alone can input search conditions, execute search processing, and display search results. However, since the communication interface 4 is provided, the computer 10 It is also possible to receive input search conditions, execute search processing, and return search results to the computer 10.
【0020】コンピュータ10としては、情報検索装置
Aと同様な構成を有する汎用コンピュータや携帯型端末
器であり、キーボード6のような検索条件を入力するた
めのデバイスや情報検索装置Aと情報通信を行うための
通信インターフェース4のような通信デバイス、及び、
検索結果を表示するディスプレイ7のような表示デバイ
スを具備するようなものが考えられる。本実施形態で
は、コンピュータ10が携帯型端末器であることを想定
して説明する。<全体的な処理の流れ>次に、情報検索
装置Aにおいて実行される情報検索処理の全体的な流れ
について説明する。図2は、情報検索装置Aにおいて実
行される情報検索処理の流れを示すフローチャートであ
る。ステップS1では、検索条件となる文字列(以下、
検索文字列という。)を受け付けて、受け付けた検索文
字列からその後の処理に必要な情報を取得すべく、その
解析を行う。ステップS2では、受け付けた文字列の解
析結果に従って、情報の検索を行う。The computer 10 is a general-purpose computer or a portable terminal having a configuration similar to that of the information search device A. A device such as a keyboard 6 for inputting search conditions and information communication with the information search device A are performed. A communication device such as a communication interface 4 for performing
It is conceivable to provide a display device such as a display 7 for displaying search results. In the present embodiment, the description will be made assuming that the computer 10 is a portable terminal. <Overall Process Flow> Next, the overall flow of the information search process executed in the information search device A will be described. FIG. 2 is a flowchart illustrating a flow of an information search process performed in the information search device A. In step S1, a character string serving as a search condition (hereinafter, a character string)
It is called a search string. ) Is received and analyzed in order to obtain information necessary for subsequent processing from the received search character string. In step S2, information search is performed according to the analysis result of the received character string.
【0021】ステップS3では、検索結果として出力す
るための、情報文書に含まれる一連の文字列(以下、出
力文字列ともいう。)の抽出を行う。ここで、一般に、
検索結果をディスプレイ等に出力して表示する場合に
は、表示量に一定の制限があるため、検索した各情報の
内容の全てを表示することは困難であり、また、各情報
文書の全てを表示することは検索の利便性に欠ける。そ
こで、本実施形態では、後で説明するように、ユーザが
理解し易いように、情報文書に含まれる文字列のうち、
検索文字列と一定の関係のある文字列を抽出して検索結
果とする。ステップS4では、検索結果を出力し、処理
が終了する。以下、各処理について詳細に説明する。 <検索文字列の受付・解析>情報検索装置Aでは、検索
条件として文字列を採用する。従って、ユーザは、例え
ばキーボード6から又はコンピュータ10から検索文字
列を入力することとなる。In step S3, a series of character strings (hereinafter, also referred to as output character strings) included in the information document to be output as search results are extracted. Where, in general,
When a search result is output and displayed on a display or the like, it is difficult to display all of the contents of each searched information because there is a certain limit on a display amount. Displaying is not convenient for searching. Therefore, in the present embodiment, as described later, in order to make it easy for the user to understand, of the character strings included in the information document,
A character string having a certain relationship with the search character string is extracted as a search result. In step S4, the search result is output, and the process ends. Hereinafter, each process will be described in detail. <Reception and Analysis of Search Character String> The information search device A employs a character string as a search condition. Therefore, the user inputs a search character string from the keyboard 6 or the computer 10, for example.
【0022】図3は、コンピュータ10の図示しないデ
ィスプレイの表示画面例であり、検索文字列を入力する
画面例を示した図である。コンピュータ10は携帯型端
末器を想定するので、その表示画面も小さいものとなっ
ている。FIG. 3 is an example of a display screen of a display (not shown) of the computer 10, which is an example of a screen for inputting a search character string. Since the computer 10 is assumed to be a portable terminal, its display screen is also small.
【0023】入力欄31は、検索文字列を入力するため
の欄であり、ユーザはここに検索した情報に関連する文
字列を入力する。図3では、「京都の庭園」という文字
列が検索文字列として入力されている。検索キー32
は、情報の検索を情報検索装置Aに指示するためのキー
であり、このキーが押されると、入力欄31に入力され
た検索文字列が情報検索装置Aに送信され、これを受け
付けた情報検索装置Aは情報検索を開始することとな
る。The input field 31 is a field for inputting a search character string, and the user inputs a character string related to the searched information here. In FIG. 3, a character string "Kyoto Garden" is input as a search character string. Search key 32
Is a key for instructing the information search device A to search for information. When this key is pressed, the search character string entered in the input box 31 is transmitted to the information search device A, and the information received The search device A starts information search.
【0024】ここで、情報検索装置Aでは、その後の処
理のために、始めに与えられた検索文字列を解析する。
本実施形態では、以下に述べる自然言語解析を実行す
る。Here, the information search device A analyzes the search character string given first for subsequent processing.
In the present embodiment, the following natural language analysis is executed.
【0025】情報検索装置Aでは、まず、与えられた検
索文字列を単語に分割し、その個々の単語の性質を示す
情報、例えば、品詞、活用形、接辞等の文法上の情報
や、その単語の種類等の情報を抽出する。これは、いわ
ゆる形態素解析と呼ばれる処理である。In the information retrieval apparatus A, first, a given search character string is divided into words, and information indicating the nature of each word, for example, grammatical information such as part of speech, inflected forms, affixes, etc. Extract information such as the type of word. This is a process called so-called morphological analysis.
【0026】図4は、文字列「京都の庭園」に対して、
係る形態素解析を実行した解析結果を示す図であり、そ
の文字列に含まれる単語毎に、その単語の性質を示す情
報が列挙されいる。図4中の単語番号は、この解析情報
内でのみユニークな識別番号である。FIG. 4 shows the character string “Kyoto Garden”
It is a figure showing the analysis result which performed such morphological analysis, and the information which shows the property of the word is listed for every word contained in the character string. The word numbers in FIG. 4 are unique identification numbers only in this analysis information.
【0027】また、情報検索装置Aでは、形態素解析の
結果に基づいて、検索文字列の単語間の関係に関する情
報を抽出する。これは、いわゆる構文解析と呼ばれる処
理である。The information retrieval apparatus A extracts information on the relationship between words in the retrieval character string based on the result of the morphological analysis. This is a process called so-called syntax analysis.
【0028】図5は、文字列「京都の庭園を散策する」
に対して、形態素解析及び構文解析を実行した解析結果
を示す図である。形態素解析を実行することにより、
「京都」、「庭園」、「散策」、及び、「する」という
単語が得られ、これに構文解析を実行することにより、
図5に示すように各単語間の構文上の関係が得られる。
なお、図5の例では、2つの単語間の関係を示してお
り、また、図5中の関係番号は、この解析情報内でのみ
ユニークな識別番号である。FIG. 5 shows a character string “Walking through the gardens of Kyoto”.
FIG. 14 is a diagram showing an analysis result obtained by executing morphological analysis and syntax analysis on. By performing morphological analysis,
The words "Kyoto", "Garden", "Walk" and "Suru" are obtained, and by performing parsing on these words,
As shown in FIG. 5, a syntactic relationship between the words is obtained.
In the example of FIG. 5, the relationship between two words is shown, and the relationship number in FIG. 5 is a unique identification number only in this analysis information.
【0029】このような自然言語解析処理の具体的な手
法については、既に種々提案されており、その詳細な説
明は省略するが、本実施形態では、手法の種類に関わら
ず、上述したような形態素解析程度の機能を持つもの
と、構文解析程度の機能を持つものであれば、いずれも
採用可能である。Various specific techniques for such natural language analysis processing have already been proposed, and detailed descriptions thereof will be omitted. However, in the present embodiment, regardless of the type of technique, the above-described method is used. Either one having a function of morphological analysis or one having a function of parsing can be adopted.
【0030】また、本実施形態では、このような自然言
語解析処理のプログラムがROM2に格納されており、
該プログラムをCPU1が実行することを想定するが、
これに限られず、情報検索装置Aが、同様の自然言語解
析処理を実行する独立したハードウエアを具備するか、
若しくは、これに通信可能に接続されるように構成する
ことも考えられる。また、このような自然言語解析処理
を実行するためには、辞書等の情報が必要となるのが一
般的であるが、これらは、RAM3やディスク5等の記
憶装置上に適時、その格納領域が確保され利用されるこ
とになる。<情報の検索>次に、与えられた検索文字列
に関連する情報の検索手順について説明する。本実施形
態の情報検索装置Aでは、検索文字列に対する自然言語
解析処理を実行して得た結果と、各情報に付された情報
文書に対して自然言語解析処理を実行して得た結果と、
に基づいて、情報の検索を行う。尤も、情報の検索は他
の手法を採用してもよいことはいうまでもない。In this embodiment, a program for such a natural language analysis process is stored in the ROM 2.
It is assumed that the CPU 1 executes the program,
The present invention is not limited to this, and the information search device A includes independent hardware for executing a similar natural language analysis process,
Alternatively, it may be configured to be communicably connected thereto. Further, in order to execute such a natural language analysis process, information such as a dictionary is generally required, and these information are stored in a storage device such as the RAM 3 or the disk 5 in a timely manner. Will be secured and used. <Search of Information> Next, a description will be given of a search procedure of information related to a given search character string. In the information search device A of the present embodiment, a result obtained by executing a natural language analysis process on a search character string and a result obtained by executing a natural language analysis process on an information document attached to each piece of information. ,
Search for information based on. Needless to say, other methods may be used for information retrieval.
【0031】ここで、情報検索装置Aでは、各情報文書
に対して、予め自然言語解析処理を施して得たインデッ
クス情報をデータベース5bに格納している。このイン
デックス情報は、これから説明する情報の検索や後で説
明する文字列の抽出(ステップS3)に用いることがで
き、また、情報検査装置A上で作成できるようにしても
よいし、他の装置で作成した者をデータベース5bに格
納するようにしてもよい。図6及び図7は、インデック
ス情報の一例を示している。Here, in the information retrieval apparatus A, index information obtained by subjecting each information document to natural language analysis processing in advance is stored in the database 5b. This index information can be used for searching for information to be described below or extracting a character string to be described later (step S3), and may be created on the information inspection device A, or may be used for other devices. May be stored in the database 5b. 6 and 7 show examples of the index information.
【0032】図6は、予め各情報文書に対して形態素解
析を行うことにより得た、各単語、その品詞、及び、そ
の各情報文書中の出現位置を示すインデックス情報を示
す図であり、各単語毎に単語IDなる識別番号が付され
ている。このインデックス情報により、単語又は単語I
Dが分かれば、検索文字列に含まれる各単語が、どの情
報文書のどの位置に存在するかを検索することが可能と
なる。これによって情報検索の機能を実現するのであ
る。例えば、図6の例で言えば、「京都」なる単語は、
情報文書3の3行目の4番目や、文書7の4行目の1番
目に存在することがわかる。FIG. 6 is a diagram showing each word, its part of speech, and index information indicating its appearance position in each information document, obtained by performing a morphological analysis on each information document in advance. An identification number, which is a word ID, is assigned to each word. With this index information, the word or word I
If D is known, it is possible to search for each word included in the search character string at which position in which information document. This implements an information retrieval function. For example, in the example of FIG. 6, the word "Kyoto" is
It can be seen that it exists at the fourth line of the third line of the information document 3 and the first line of the document 7.
【0033】また、本実施形態では、各情報文書に対し
て、更に構文解析を行うことにより得たインデックス情
報をもデータベース5bに格納し、情報文書中の各単語
の構文解析結果が容易に取り出せるようにしている。図
7は、予め各情報文書に対して形態素解析を行った後、
構文解析を行うことにより得た、各情報文書中に含まれ
る各単語間の構文上の関係を示すインデックス情報を示
す図である。図7のインデックス情報によれば、各情報
文書中の出現位置により特定された各単語間の構文上の
関係が示されていること(関係欄)が分かる。In the present embodiment, index information obtained by further performing a syntax analysis on each information document is also stored in the database 5b, and the syntax analysis result of each word in the information document can be easily retrieved. Like that. FIG. 7 shows that after performing a morphological analysis on each information document in advance,
FIG. 9 is a diagram illustrating index information obtained by performing a syntax analysis and indicating a syntactic relationship between words included in each information document. According to the index information of FIG. 7, it is understood that the syntactic relationship between the words specified by the appearance position in each information document is shown (relation column).
【0034】なお、本実施形態では、このようなインデ
ックス情報を予め作成し、データベース5bに格納する
こととしたが、そうではなく、情報の検索処理の度に情
報文書に自然言語解析処理を実行するようにしてもよい
し、このインデックス情報をネットワーク9を介した他
の機器などに格納してもよいことはいうまでもない。ま
た、データベース5aには、検索の対象となる情報の実
体及び該情報の内容を示す文書を格納することとした
が、そうではなく、ネットワークを介した他の一つもし
くは複数の機器などに格納してある場合でもかまわな
い。In the present embodiment, such index information is created in advance and stored in the database 5b. However, a natural language analysis process is performed on the information document every time the information search process is performed. It is needless to say that the index information may be stored in another device or the like via the network 9. In addition, the database 5a stores the entity of the information to be searched and the document indicating the content of the information, but instead stores the document in one or more other devices via a network. Even if you do.
【0035】次に、係るインデックス情報を利用した情
報検索の手順について説明する。図8は、情報検索処理
を示すフローチャートである。Next, a procedure of an information search using the index information will be described. FIG. 8 is a flowchart showing the information search process.
【0036】ステップS11では、与えられた検索文字
列の自然言語解析結果に基づいて、その検索文字列に関
連のある情報(情報文書)をピックアップする。具体的
には、図6に示したインデックス情報を用いることによ
り、与えられた検索文字列に対して形態素解析を行った
ことにより得た、該検索文字列に含まれる各単語の少な
くともいずれかを含む情報文書をピックアップする。In step S11, based on the natural language analysis result of the given search character string, information (information document) related to the search character string is picked up. Specifically, by using the index information shown in FIG. 6, at least one of the words included in the search character string obtained by performing a morphological analysis on the given search character string is obtained. Pick up information documents that contain.
【0037】この場合、単語には、例えば「コンピュー
タ」と「コンピューター」等に見られる表現のゆれや、
似たような意味を持つが表現が異なる単語などがあるの
で、こういった単語に関する情報を、あらかじめ辞書と
して保有しておき、これを利用して、検索文字列に対す
る形態素解析から得られた単語を展開し、これらの単語
を有する情報文書を、図6のインデックス情報から探す
ようにしてもよい。In this case, the words include, for example, fluctuations in expressions such as “computer” and “computer”,
Because there are words that have similar meanings but different expressions, etc., information about these words is stored in a dictionary in advance, and the words obtained by morphological analysis on the search character string using this are used. May be expanded, and an information document having these words may be searched from the index information in FIG.
【0038】例えば、検索文字列に「コンピュータ」と
いう単語があったとすれば、「コンピュータ」、「コン
ピューター」、「計算機」等の単語を有する情報文書を
検索することになる。また、検索文字列は通常複数の単
語で構成されていると考えられるので、それらの単語に
ついて同様のことを繰り返すと、検索文字列と関係のあ
りそうな単語、表現を含む情報文書を集めることが可能
となる。For example, if the word "computer" is included in the search character string, an information document having words such as "computer", "computer", and "computer" is searched. Also, since a search string is usually considered to consist of multiple words, repeating the same for those words will collect information documents containing words and expressions likely to be related to the search string. Becomes possible.
【0039】次に、ステップS12では、与えられた検
索文字列の内容に最も即した情報文書を識別すべく、与
えられた検索文字列と、ピックアップした情報文書との
類似度(内容の近似の程度)を計算する。Next, in step S12, in order to identify the information document that most closely matches the content of the given search character string, the similarity between the given search character string and the picked-up information document (the approximation of the content is approximated). Degree).
【0040】類似度は、例えば、各情報文書が、検索文
字列に含まれる各単語に対応する単語をどれだけたくさ
ん有するか、又は、検索文字列に含まれる各単語に対応
する単語が、その情報文書内でどのくらい近い位置にあ
るか、若しくは、検索文字列に含まれる各単語とこれに
対応する情報文書の各単語との間の類似度がどのくらい
あるのか、などを基準に計算することができる。The degree of similarity is determined, for example, as to how many words each information document has corresponding to each word included in the search character string, or whether each word included in the search character string corresponds to the word. It can be calculated based on how close it is in the information document, or how much similarity is between each word included in the search string and each word of the corresponding information document. it can.
【0041】更に、図7に示したインデックス情報に基
づいて、検索文字列に含まれる各単語間の構文上の関係
が、これに対応する情報文書内の単語間の関係と同一か
否か、等に基づいて計算することもできる。これらによ
り、ピックアップされた各情報文書には、類似度の値が
割り当てられるようになる。Further, based on the index information shown in FIG. 7, whether or not the syntactic relationship between words included in the search character string is the same as the relationship between words in the corresponding information document, It can also be calculated based on the above. As a result, a value of the similarity is assigned to each of the information documents picked up.
【0042】次に、ステップS13では、ピックアップ
された各情報文書を、上述した類似度の高いものから順
番に並べかえる。これは、なるべく類似度が高い情報か
ら順番に、利用者に提供できるようにするためである。
また、各情報文書には、利用者が識別しやすいように、
IDナンバが振られる。Next, in step S13, the information documents picked up are rearranged in descending order of similarity. This is so that information can be provided to the user in ascending order of similarity.
In addition, each information document should be easily identified by the user.
An ID number is assigned.
【0043】次に、ステップS14では、検索結果を表
示する場合に、一の表示画面、すなわち各ページに表示
する情報文書の範囲を決定する。類似度の高い情報が、
最初の方のページに表示されるように決定されることと
なる。<検索結果として出力する文字列の抽出>次に、
検索した各々の情報文書から、出力文字列を抽出する手
順について説明する。上述した通り、検索結果をディス
プレイ等に出力して表示する場合には、表示量に一定の
制限があるため、情報文書の内容の全てを検索結果とし
て出力することは困難であり、各情報文書の検索結果と
しては、予め設定された文字数(以下、制限文字数とも
いう。)の範囲の制限を受けることとなる。Next, in step S14, when displaying the search result, the range of the information document to be displayed on one display screen, that is, each page, is determined. Information with high similarity
It will be determined to be displayed on the first page. <Extraction of character string output as search result>
A procedure for extracting an output character string from each searched information document will be described. As described above, when a search result is output and displayed on a display or the like, since the display amount has a certain limit, it is difficult to output all the contents of the information document as the search result. As a result of the search, the number of characters set in advance (hereinafter, also referred to as a limited number of characters) is limited.
【0044】そこで、本実施形態では、係る文字数の範
囲に収まるように情報文書中の一連の文字列(出力文字
列)を抽出して検索結果として出力し、特に、ユーザに
検索結果として適切な情報を与えるべく、検索文字列と
関連性の高い文字列を抽出する。Therefore, in the present embodiment, a series of character strings (output character strings) in the information document are extracted and output as a search result so as to fall within the range of the number of characters, and particularly suitable for the user as the search result. To provide information, a character string that is highly relevant to the search character string is extracted.
【0045】図9は、係る文字抽出処理の概略を示すフ
ローチャートである。FIG. 9 is a flowchart showing an outline of the character extracting process.
【0046】ステップS21では、検索された情報文書
に含まれる単語のうち、一の単語を選択する。ここで選
択される単語(以下、必須単語ともいう。)は、出力文
字列に必ず含ませる単語であり、この単語を基準とし
て、制限文字数の範囲で、文字列の抽出を行うこととな
る。In step S21, one word is selected from the words included in the searched information document. The word selected here (hereinafter, also referred to as an essential word) is a word that is always included in the output character string, and the character string is extracted within the range of the limited number of characters based on this word.
【0047】必須単語は、検索文字列に含まれる単語と
関連性のある単語であって、例えば、検索文字列に含ま
れる単語と同一の単語の他、検索文字列に含まれる単語
と同一又は近似する複数の単語のうち、その品詞やそれ
らの単語間の構文上の関係に基づいて優先順位を定め、
最も優先順位の高い単語、若しくは、構文構造上重要な
単語等、を挙げることができる。The essential words are words that are related to the words included in the search character string, and include, for example, the same words as the words included in the search character string and the same or the same words as the words included in the search character string. Priorities are determined based on the parts of speech and syntactic relationships between those words,
The word having the highest priority or the word important in the syntax structure can be cited.
【0048】このような必須単語の選択にあっては、デ
ータベース5bに格納したインデックス情報を活用する
こともできるし、或いは、単語の選択の度に上述した自
然言語解析処理を情報文書に対して行って、その解析結
果を活用してもよい。In selecting such an essential word, the index information stored in the database 5b can be used, or the above-described natural language analysis processing is performed on the information document every time a word is selected. And use the analysis results.
【0049】なお、必須単語の文字数が制限文字数を越
える場合も考えられるが、この場合は、別の単語を選択
するか、若しくは、必須単語を切り詰めて出力文字列と
することもできる。It is possible that the number of characters of the essential word exceeds the limit number of characters. In this case, another word can be selected or the essential word can be truncated to form an output character string.
【0050】次に、本実施形態では、出力文字列として
は、ここで選択された必須単語を含み、かつ、制限文字
数の範囲にある一連の文字列、例えば、必須単語を中心
として、その前後の、制限文字数の範囲にある文字列を
採用するようにすることもできるが、より適切な出力文
字列を抽出するため、以下の手順を更に行うこともでき
る。Next, in this embodiment, the output character string includes a series of character strings including the essential word selected here and within the range of the limited number of characters, for example, centering on the essential word and before and after it. Although a character string in the range of the limited number of characters can be adopted, the following procedure can be further performed to extract a more appropriate output character string.
【0051】すなわち、ステップS22では、検索され
た情報文書に含まれる単語のうち、出力文字列に含ませ
る他の単語を選択する。この単語は、ステップS21で
選択された必須単語とは別の単語であり、複数の単語を
選択することもできる。That is, in step S22, of the words included in the searched information document, another word to be included in the output character string is selected. This word is different from the required word selected in step S21, and a plurality of words can be selected.
【0052】このように他の単語をも含まれるように出
力文字列を抽出することにより、必須単語と制限文字数
とにより単純に出力文字列を抽出する場合よりも、検索
結果としてより有益な情報を構成し得る。By extracting the output character string so as to include other words as described above, more useful information as a search result can be obtained than by simply extracting the output character string based on the required words and the limited number of characters. Can be constructed.
【0053】他の単語の選択にあっては、必須単語と何
らかの関連性を有する単語を選択することが望ましく、
種々の手法が考えられるが、例えば、必須単語と構文上
一定の関係のある単語を選択することができる。具体的
には、必須単語を否定する単語(「ない」等)、必須単
語を修飾する単語、等を挙げることができる。In selecting another word, it is desirable to select a word having some relevance to the essential word.
Although various methods are conceivable, for example, a word having a certain syntactic relationship with an essential word can be selected. Specifically, words that negate essential words (such as “no”), words that modify essential words, and the like can be given.
【0054】また、他の単語の選択にあっては、例え
ば、検索文字列に含まれる単語と同一の単語等、検索文
字列に含まれる単語に対応する単語を選択することがで
きる。検索文字列に含まれる単語に対応する単語が複数
存在する場合は、優先順位を付して順番に選択するよう
にしてもよい。優先順位は、例えば、その情報文書内に
おける必須単語の位置との距離、その品詞、それらの単
語間の構文上の関係、等に基づいて定めることができ
る。When selecting another word, for example, a word corresponding to a word included in the search character string, such as the same word as a word included in the search character string, can be selected. When there are a plurality of words corresponding to the words included in the search character string, priority may be assigned and the words may be selected in order. The priority order can be determined based on, for example, the distance from the position of the essential word in the information document, the part of speech, the syntactic relationship between the words, and the like.
【0055】なお、他の単語の選択にあっては、いくつ
かの手法を組合せることも可能であることはいうまでも
ない。また、この場合の単語の選択においても、適宜、
データベース5bに格納したインデックス情報を活用
し、或いは、単語の選択の度に上述した自然言語解析処
理を情報文書に対して行って、その解析結果を活用する
ようにしてもよいことはいうまでもない。It is needless to say that some methods can be combined in selecting other words. Also, in selecting the word in this case,
Needless to say, the index information stored in the database 5b may be used, or the above-described natural language analysis processing may be performed on the information document every time a word is selected, and the analysis result may be used. Absent.
【0056】次に、ステップS23では、必須単語とス
テップS22で選択した単語とを含む一連の文字列の文
字数が、制限文字数の範囲にあるか否かを判定する。制
限文字数の範囲にある場合はステップS24へ進み、制
限文字数の範囲にない場合は、ステップS22へ戻り、
再び他の単語の選択をすることとなる。Next, in step S23, it is determined whether or not the number of characters of a series of character strings including the essential word and the word selected in step S22 is within the range of the limited number of characters. If the number of characters is within the range, the process proceeds to step S24. If the number of characters is not within the range, the process returns to step S22.
You will have to select another word again.
【0057】次に、ステップS24では、必須単語とス
テップS22で選択した単語とを含む一連の文字列を出
力文字列として情報文書から切り出す。この場合、切り
出した文字列の最初と最後とが、それぞれなるべく構文
上の区切りになるように制限文字数の範囲で切り出すこ
とが好ましい。これにより、制限文字数を最大限活用し
得ると共に、ユーザが読み易い検索結果を提供できるこ
ととなる。Next, in step S24, a series of character strings including the essential word and the word selected in step S22 are cut out from the information document as output character strings. In this case, it is preferable to cut out the cut-out character string within the range of the limited number of characters so that the beginning and the end of the cut-out character string become syntactical breaks as much as possible. As a result, the maximum number of characters can be utilized to the maximum, and search results that are easy for the user to read can be provided.
【0058】次に、このような文字列抽出処理の具体例
について説明する。図10は、文字列抽出処理の具体例
を示すフローチャートである。Next, a specific example of such a character string extraction process will be described. FIG. 10 is a flowchart illustrating a specific example of the character string extraction process.
【0059】ここでは、検索文字列が「京都の庭園」で
あり、検索された情報文書の内容が「○○社の新しい仮
想現実のシステムによって、有名な京都の庭園をインタ
ーネットで散策できるサービスが開始されることとなっ
た。」であり、また、制限文字数が20文字である場合
を想定する。In this case, the search character string is “Kyoto Garden” and the content of the searched information document is “A new service of virtual reality by XX Company. It is assumed that the process is started. "And that the limit character number is 20 characters.
【0060】ステップS31では、必須単語の選択を行
う。ここで、検索文字列「京都の庭園」には、「京
都」、「の」、及び、「庭園」なる単語が含まれてお
り、これに対応する情報文書中の単語としては、「京
都」、「の」、及び、「庭園」のいずれもが含まれてい
る。品詞を見ると、これらのうち、「の」は格助詞であ
るから重要性が低い。また、「京都」と「庭園」とで
は、前者が後者を修飾する関係にあることから、「庭
園」の方が重要性が高い。そこで、「庭園」が必須単語
として選択される。In step S31, essential words are selected. Here, the search character string “Kyoto Garden” includes the words “Kyoto”, “No”, and “Garden”, and the corresponding words in the information document are “Kyoto”. , “No”, and “garden” are all included. Looking at the parts of speech, of these, “no” is a case particle, so its importance is low. Also, between "Kyoto" and "Garden", "Garden" is more important because the former qualifies the latter. Therefore, "garden" is selected as an essential word.
【0061】ステップS32では、必須単語が制限文字
数を越えるか否かを判定する。必須単語が非常に長い単
語であった場合、この時点で制限文字数を超える場合が
あるので、この分岐を設けたものである。必須文字数が
制限文字数を超えていた場合には、ステップS41へ進
み、制限文字数内に収まるように文字を切り詰めること
が行われ、これが出力文字列とされて処理が終了する。In step S32, it is determined whether or not the required word exceeds the limit character number. If the essential word is a very long word, the number of characters may exceed the limit at this point, so this branch is provided. If the required number of characters exceeds the limited number of characters, the process proceeds to step S41, where characters are truncated so as to be within the limited number of characters, this is set as an output character string, and the process ends.
【0062】本例の場合、必須文字は「庭園」であり制
限文字数である20文字を越えていない。よって、ステ
ップS33へ進む。In this example, the essential character is "garden" and does not exceed the limit of 20 characters. Therefore, the process proceeds to step S33.
【0063】ステップS33では、情報文書に含まれる
単語のうち、必須単語と構文上関係のある他の単語を選
択する。ここでは、否定の「ない」等、必須単語を否定
するような構文上の関係にある単語を選択するものとす
る。また、ステップS34では、必須単語と選択した他
の単語とを含む文字列が、制限文字数を越えるか否かの
判定を行う。文字列の文字数は、必須単語の文字数と、
選択した他の単語の文字数と、必須単語と選択した他の
単語との間に存在する文字の文字数と、を加算すること
により算出できる。In step S33, of the words included in the information document, another word having a syntactical relationship with the essential word is selected. Here, it is assumed that a word having a syntactical relationship that negates an essential word, such as negation “no”, is selected. In step S34, it is determined whether or not the character string including the essential word and the selected other word exceeds the limited number of characters. The number of characters in a string is determined by the number of characters in a required word,
It can be calculated by adding the number of characters of the selected other word and the number of characters of the character existing between the essential word and the selected other word.
【0064】制限文字数を超える場合は、選択した他の
単語をキャンセルしてステップS36へ進み、超えない
場合は、ステップS35へ進み、選択した他の単語を出
力文字列に含める単語として取り扱う。If the number of characters exceeds the limit, the selected other word is canceled and the process proceeds to step S36. If not, the process proceeds to step S35 and the selected word is handled as a word to be included in the output character string.
【0065】本例の場合、必須単語「庭園」を否定する
ような単語は情報文書中に存在しない。よって、ステッ
プS34及びS35をスルーしてステップS36へ進
む。In the case of this example, there is no word in the information document that denies the essential word "garden". Therefore, the process goes through steps S34 and S35 and proceeds to step S36.
【0066】ステップS36では、情報文書に含まれる
単語のうち、検索文字列の単語に対応する他の単語を選
択する。本例の場合、「京都」及び「の」なる単語が挙
げられるが、品詞を見ると「京都」の方が重要性が高
い。よって、「京都」を選択する。また、ステップS3
7では、必須単語「庭園」と他の単語「京都」とを含む
一連の文字列が制限文字数を越えているか否かを判定す
る。制限文字数を越える場合は、選択した他の単語、す
なわち、「京都」をキャンセルしてステップS39へ進
み、超えない場合は、ステップS38へ進み、選択した
「京都」を出力文字列に含める単語として取り扱う。In step S36, of the words included in the information document, another word corresponding to the word in the search character string is selected. In the case of this example, the words "Kyoto" and "no" are given, but "Kyoto" is more important in terms of part of speech. Therefore, "Kyoto" is selected. Step S3
At 7, it is determined whether or not a series of character strings including the essential word “garden” and another word “Kyoto” exceeds the limit number of characters. If the number of characters exceeds the limit, the selected other word, that is, "Kyoto" is canceled and the process proceeds to step S39. If not, the process proceeds to step S38 and the selected "Kyoto" is included in the output character string as a word. handle.
【0067】本例では、必須単語「庭園」と他の単語
「京都」とを含む情報文書内の一連の文字列は、「京都
の庭園」であるから5文字であり制限文字数の範囲内に
ある。よって、ステップS38へ進み、「京都」を出力
文字列に含める単語として取り扱う。In this example, since a series of character strings in the information document including the essential word “garden” and another word “Kyoto” is “Kyoto garden”, it is 5 characters and is within the limit number of characters. is there. Therefore, the process proceeds to step S38, and "Kyoto" is handled as a word to be included in the output character string.
【0068】なお、本例では、ステップS36乃至ステ
ップS38において、他の単語を一つだけ選択したが、
品詞・構文上の関係等を基準として複数の他の単語に優
先順位を付すことにより、これらのステップをループさ
せて複数の単語を出力文字列に含めるようにしてもよ
い。この場合、本例では、単語「の」が次の候補とな
る。In this example, only one other word is selected in steps S36 to S38.
By assigning priorities to a plurality of other words based on parts of speech, syntactical relationships, and the like, these steps may be looped to include a plurality of words in the output character string. In this case, in this example, the word “no” is the next candidate.
【0069】ステップS39では、出力文字列に含める
単語として、制限文字数の範囲内で、構文上の切れ目ま
で単語を追加する。本例の場合、情報文書中の文字列
「京都の庭園」が出力文字列に含まれることが確定して
いるが、制限文字数に至るまでに、15文字ある。そこ
で、15文字分の単語を追加する。In step S39, as a word to be included in the output character string, a word is added up to a syntactic break within the limit of the number of characters. In the case of this example, it is determined that the character string "Kyoto Garden" in the information document is included in the output character string, but there are 15 characters before the character limit is reached. Therefore, a word for 15 characters is added.
【0070】ここで、情報文書中の「京都の庭園」より
前の文字列を見ると、「...よって、有名な京都の庭
園を..」とあり、構文上、「有名な」というところで
区切りがある。よって、ここまでを、すなわち、一連の
文字列である「有名な京都の庭園」を出力文字列に含め
る。この結果、現在文字数は8文字であり、制限文字数
まで残り12文字である。Here, looking at the character string before “Kyoto Garden” in the information document, it is found that “..., The famous Kyoto garden”. By the way, there is a break. Therefore, the output character string includes the above, that is, “a famous Kyoto garden” which is a series of character strings. As a result, the current number of characters is eight, and the remaining twelve characters up to the limited number of characters.
【0071】一方、情報文書中の「有名な京都の庭園」
より後の文字列について、20文字分抜き出すと、「有
名な京都の庭園をインターネットで散策で」となるが、
末尾の構文上の区切れが悪いので「散策」で区切るのが
妥当である。On the other hand, "Famous Kyoto Garden" in the information document
If you extract 20 characters from the later character string, it will be "Walk through the famous Kyoto garden on the Internet",
Since the syntactical delimitation at the end is bad, it is appropriate to delimit by "walk".
【0072】以上により、「有名な」と「をインターネ
ットで散策」とを出力文字列に追加することとなる。As described above, “famous” and “walk the Internet” are added to the output character string.
【0073】ステップS40では、情報文書から最終的
な出力文字列の切りだしを行い出力文字列を確定する。
本例では、上述した通り、「有名な京都の庭園をインタ
ーネットで散策」という一連の文字列が出力文字列とし
て確定することとなる。In step S40, a final output character string is cut out from the information document to determine the output character string.
In this example, as described above, a series of character strings “walk around the famous Kyoto garden on the Internet” is determined as an output character string.
【0074】以上により、文字列抽出処理が終了する。
なお、文字列を抽出する際には、特定の単語等を加えな
いようにすることで、制限文字数内の情報を有用にする
ことが可能である。加えないようにする特定の単語等と
しては、「とても」、「かなり」等の副詞など、あまり
意味のない表現について行うことが効果的である。こう
することで、検索結果の候補の内容の情報が多く示され
るようになる。例えば、本例で言えば、「有名な」を排
除して、他の単語等を追加するようにすることが考えら
れる。 <検索結果の出力>最後に、検索結果として抽出した出
力文字列をリスト形式でディスプレイ7に、若しくは、
コンピュータ10へ送出してそのディスプレイに表示し
て出力する。図11は、コンピュータ10のディスプレ
イ(図示しない)における表示画面例を示す図である。With the above, the character string extraction processing is completed.
When extracting a character string, it is possible to make information within the limited number of characters useful by not adding a specific word or the like. As a specific word or the like not to be added, it is effective to perform an expression that does not have much meaning, such as an adverb such as “very” or “very”. By doing so, a lot of information on the contents of the search result candidates is shown. For example, in this example, it is conceivable to exclude "famous" and add another word or the like. <Output of search result> Finally, the output character string extracted as the search result is displayed on the display 7 in the form of a list, or
It is sent to the computer 10 and displayed on its display for output. FIG. 11 is a diagram illustrating an example of a display screen on a display (not shown) of the computer 10.
【0075】検索結果の表示は、検索された情報のID
ナンバと、情報のタイトルと、出力文字列と、が併記さ
れたリスト形式が採用されており、図11の例では、2
つの情報が表示されている。一つの表示画面には、上述
したステップS14で決定された範囲の情報に関する事
項がそれぞれ表示され、類似度が高いと判定された情報
から順に表示される。図11中の「次へ」ボタンを押す
と、表示画面が次のページに移行し、検索された情報が
順次表示されることとなる。The display of the search result indicates the ID of the searched information.
A list format in which a number, an information title, and an output character string are described is adopted. In the example of FIG.
Information is displayed. Items related to the information in the range determined in step S14 described above are displayed on one display screen, and are displayed in order from the information determined to have a high degree of similarity. When the “next” button in FIG. 11 is pressed, the display screen shifts to the next page, and the searched information is sequentially displayed.
【0076】ユーザは、この検索結果を見て、自分の欲
しい情報を候補内から選び、その情報の詳細を見るか、
若しくは、検索条件を変えて再度検索に望むかを決定す
ることになる。前者の場合、検索結果の候補のうちのい
ずれかを選択すると、その情報の実体若しくはその情報
の情報文書の全文を表示するようにすることもできる。The user looks at the search result, selects the information he or she wants from the candidates, and sees the details of the information or
Alternatively, it is determined whether the search conditions are changed and the search is desired again. In the former case, when any of the search result candidates is selected, the entity of the information or the entire text of the information document of the information can be displayed.
【0077】このように、本実施形態によれば、検索の
対象である情報(情報文書)に含まれる一連の文字列
を、文字数の制限に対応して抽出し、検索結果としてユ
ーザに提供するので、情報検索の利便性が向上されるこ
ととなる。As described above, according to the present embodiment, a series of character strings included in the information (information document) to be searched is extracted according to the limitation of the number of characters, and is provided to the user as a search result. Therefore, the convenience of information retrieval is improved.
【0078】また、一連の文字列の抽出では、検索条件
である検索文字列に含まれる単語に対応する単語を必須
単語として含めるようにしたので、ユーザが指定した検
索文字列に関連する情報が、検索された情報中の位置付
け若しくはどのように出現しているかを知る目安ともな
り、情報検索の利便性が向上されることとなる。この場
合、必須単語に関連する単語も含めることにより、より
正確な情報の位置付け等を知る目安ともなり得、ユーザ
において利用のし易い情報検索を提供し得る。In the extraction of a series of character strings, a word corresponding to a word included in the search character string as a search condition is included as an indispensable word. It also serves as an indication of the position in the retrieved information or how it appears, and the convenience of information retrieval is improved. In this case, by including a word related to the essential word, it can be a guide to know more accurate information positioning and the like, and an information search that can be easily used by the user can be provided.
【0079】以上、本発明の好適な実施の形態について
説明したが、本発明の目的は、前述した実施形態の機能
を実現するソフトウェアのプログラムコードを記録した
記憶媒体(または記録媒体)を、システムあるいは装置
に供給し、そのシステムあるいは装置のコンピュータ
(またはCPUやMPU)が記憶媒体に格納されたプログラム
コードを読み出し実行することによっても、達成される
ことは言うまでもない。この場合、記憶媒体から読み出
されたプログラムコード自体が前述した実施形態の機能
を実現することになり、そのプログラムコードを記憶し
た記憶媒体は本発明を構成することになる。また、コン
ピュータが読み出したプログラムコードを実行すること
により、前述した実施形態の機能が実現されるだけでな
く、そのプログラムコードの指示に基づき、コンピュー
タ上で稼働しているオペレーティングシステム(OS)など
が実際の処理の一部または全部を行い、その処理によっ
て前述した実施形態の機能が実現される場合も含まれる
ことは言うまでもない。Although the preferred embodiment of the present invention has been described above, an object of the present invention is to provide a storage medium (or a recording medium) on which a program code of software for realizing the functions of the above-described embodiment is stored in a system. Alternatively, it is needless to say that this can be achieved by supplying the program code to the device and causing the computer (or CPU or MPU) of the system or device to read and execute the program code stored in the storage medium. In this case, the program code itself read from the storage medium implements the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention. By executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) running on the computer based on the instructions of the program code. It goes without saying that a case where a part or all of the actual processing is performed and the function of the above-described embodiment is realized by the processing is also included.
【0080】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。Further, after the program code read from the storage medium is written in a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the program code is read based on the instruction of the program code. Needless to say, the CPU included in the function expansion card or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
【0081】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、例えば、先に説明した(図2、図8乃
至図10に示す)フローチャートに対応するプログラム
コードを格納することができる。When the present invention is applied to the storage medium, the storage medium can store, for example, program codes corresponding to the above-described flowcharts (shown in FIGS. 2, 8 to 10). .
【0082】[0082]
【発明の効果】以上に説明したように、本発明によれ
ば、検索結果の表示量等の制限に対応した情報検索を実
現し得る。As described above, according to the present invention, it is possible to realize an information search corresponding to the limitation of the display amount of the search result and the like.
【図1】本発明の一実施形態に係る情報検索装置Aのブ
ロック図である。FIG. 1 is a block diagram of an information search device A according to an embodiment of the present invention.
【図2】情報検索装置Aにおいて実行される情報検索処
理の流れを示すフローチャートである。FIG. 2 is a flowchart showing a flow of an information search process executed in the information search device A.
【図3】検索文字列を入力する画面例を示した図であ
る。FIG. 3 is a diagram showing an example of a screen for inputting a search character string.
【図4】文字列「京都の庭園」に対して、形態素解析を
実行して得た結果を示す図である。FIG. 4 is a diagram illustrating a result obtained by performing a morphological analysis on a character string “Kyoto Garden”.
【図5】文字列「京都の庭園に散策する」に対して、形
態素解析及び構文解析を実行して得た結果を示す図であ
る。FIG. 5 is a diagram showing a result obtained by executing a morphological analysis and a syntax analysis on a character string “Walk in a garden in Kyoto”.
【図6】インデックス情報の一例を示す図である。FIG. 6 is a diagram illustrating an example of index information.
【図7】インデックス情報の一例を示す図である。FIG. 7 is a diagram illustrating an example of index information.
【図8】情報検索処理を示すフローチャートである。FIG. 8 is a flowchart illustrating an information search process.
【図9】文字列抽出処理の概略を示すフローチャートで
ある。FIG. 9 is a flowchart illustrating an outline of a character string extraction process.
【図10】文字列抽出処理の具体例を示すフローチャー
トである。FIG. 10 is a flowchart illustrating a specific example of a character string extraction process.
【図11】検索結果の表示画面例を示す図である。FIG. 11 is a diagram showing an example of a search result display screen.
Claims (17)
入手する手段と、 前記情報のうち、検索条件として与えられた検索文字列
に関連する情報を検索する検索手段と、 前記検索文字列に含まれる単語を抽出する単語抽出手段
と、 検索された前記情報に係る前記文書に含まれる文字列
を、予め設定された文字数の範囲で、抽出する文字列抽
出手段と、を備え、 前記文字列抽出手段は、前記文書に含まれる単語のう
ち、前記検索文字列から抽出された単語に対して関連性
のある少なくとも一つの単語、を含むように前記文字列
を抽出することを特徴とする情報検索システム。1. A means for obtaining a document indicating the contents of information to be searched, a search means for searching information related to a search character string given as a search condition among the information, and the search character string Word extracting means for extracting a word included in the document; and a character string extracting means for extracting a character string included in the document relating to the searched information within a preset number of characters. The string extracting means extracts the character string so as to include at least one word that is relevant to the word extracted from the search character string among the words included in the document. Information retrieval system.
段を備えたことを特徴とする請求項1に記載の情報検索
システム。2. The information retrieval system according to claim 1, further comprising display means for displaying the extracted character string.
に、抽出された前記文字列をリスト形式で表示すること
を特徴とする請求項2に記載の情報検索システム。3. The information search system according to claim 2, wherein the display unit displays the extracted character string in a list format for each piece of the searched information.
れる一連の文字列を抽出することを特徴とする請求項1
に記載の情報検索システム。4. The apparatus according to claim 1, wherein the character string extracting unit extracts a series of character strings included in the document.
Information retrieval system described in.
列から抽出された単語と同一の単語であることを特徴と
する請求項1に記載の情報検索システム。5. The information search system according to claim 1, wherein the relevant word is the same word as a word extracted from the search character string.
ーワード、要約文、若しくは、説明文が含まれることを
特徴とする請求項1に記載の情報検索システム。6. The information retrieval system according to claim 1, wherein the document includes a keyword, a summary sentence, or an explanatory sentence indicating the content of the information.
れる単語のうち、前記関連性のある単語に対して構文上
一定の関係にある単語、を含むように、前記文字数の範
囲で、前記文字列を抽出することを特徴とする請求項1
に記載の情報検索システム。7. The character string extracting unit may include, within the range of the number of characters, a word included in the document so as to include a word having a syntactically constant relationship with the relevant word. 2. The method according to claim 1, wherein the character string is extracted.
Information retrieval system described in.
語と前記構文上一定の関係にある単語とを含む文字列の
文字数を算出する手段と、 算出された文字数が前記予め設定された文字数の範囲に
あるか否かを判定する手段と、を備え、 前記文字数の範囲にないと判定された場合には、前記構
文上一定の関係にある単語を含まない前記一連の文字列
を抽出することを特徴とする請求項7に記載の情報検索
システム。8. The character string extracting means, for calculating the number of characters in a character string including the relevant word and the syntactically constant word among the character strings included in the document. Means for determining whether or not the calculated number of characters is within the range of the preset number of characters. If it is determined that the number of characters is not within the range of the number of characters, the syntax is fixed. The information retrieval system according to claim 7, wherein the series of character strings that do not include a word are extracted.
記関連性のある単語を、構文上否定する単語であること
を特徴とする請求項7又は8に記載の情報検索システ
ム。9. The information retrieval system according to claim 7, wherein the words having a certain syntactic relationship are words that syntactically negate the relevant word.
記関連性のある単語に対して優先順位を付し、該優先順
位が最も高い単語を必須単語として、これを含む前記文
字列を抽出することを特徴とする請求項1に記載の情報
検索システム。10. When there are a plurality of related words, the character string extracting means assigns a priority to each of the related words, and assigns a priority to the word having the highest priority. The information search system according to claim 1, wherein the character string including the essential word is extracted.
語の品詞、若しくは、前記関連性のある単語間の構文上
の関係、に基づいて定められることを特徴とする請求項
に記載の情報検索システム。11. The information according to claim 11, wherein the priority order is determined based on a part of speech of the relevant word or a syntactical relationship between the relevant words. Search system.
文字数の範囲で前記優先順位に従って、これらを含む前
記文字列を抽出することを特徴とする請求項10に記載
の情報検索システム。12. The character string extracting means extracts the character string including the essential word and other related words in accordance with the priority in the range of the number of characters. The information retrieval system according to claim 10.
記優先順位が最も高い単語と、を含む前記文書中の文字
列の文字数を算出する手段と、 算出された文字数が前記文字数の範囲にあるか否かを判
定する手段と、を備え、 前記文字数の範囲にないと判定された場合には、他の前
記関連性のある単語を含まない文字列を抽出することを
特徴とする請求項10に記載の情報検索システム。13. The character string extracting unit calculates the number of characters of a character string in the document including the essential word and the word having the highest priority among other relevant words. Means for determining whether or not the calculated number of characters is within the range of the number of characters. If it is determined that the calculated number of characters is not within the range of the number of characters, the calculated number of characters includes the other relevant words. The information retrieval system according to claim 10, wherein a character string that does not exist is extracted.
が、構文上の区切れとなるように、前記文字数の範囲
で、前記文字列を抽出することを特徴とする請求項1に
記載の情報検索システム。14. The character string extracting means extracts the character string within the range of the number of characters so that at least one of the first and last characters of the character string is syntactically delimited. The information retrieval system according to claim 1, wherein:
トワークを介して通信可能に接続された、第1のコンピ
ュータと、第2のコンピュータと、を備え、 前記第1のコンピュータが、 前記検索文字列を入力する手段と、 入力された前記検索文字列を前記第2のコンピュータへ
提供する手段と、 前記表示手段と、を備え、 前記第2のコンピュータが、 前記第1のコンピュータから提供された前記検索文字列
を取得する手段と、 前記文書を入手する手段と、前記検索手段と、前記単語
抽出手段と、前記文字列抽出手段と、を備えたことを特
徴とする請求項2に記載の情報検索システム。15. The information retrieval system, comprising: a first computer and a second computer communicably connected to each other via a network, wherein the first computer has the retrieval character string. , A means for providing the input search character string to the second computer, and a display means, wherein the second computer is provided from the first computer. 3. The information according to claim 2, further comprising: means for obtaining a search character string; means for obtaining the document; the search means; the word extraction means; and the character string extraction means. Search system.
を入手する工程と、 前記情報のうち、検索条件として与えられた検索文字列
に関連する情報を検索する工程と、 前記検索文字列に含まれる単語を抽出する工程と、 検索された前記情報に係る前記文書に含まれる文字列
を、予め設定された文字数の範囲で、抽出する文字列抽
出工程と、を含み、 前記文字列抽出工程では、前記文書に含まれる単語のう
ち、前記検索文字列から抽出された単語に対して関連性
のある少なくとも一つの単語、を含むように前記文字列
を抽出することを特徴とする情報検索方法。16. A step of obtaining a document indicating the content of the information to be searched, a step of searching for information related to a search character string given as a search condition among the information, A step of extracting included words; and a step of extracting a character string included in the document relating to the retrieved information within a preset number of characters. In the information search method, among the words included in the document, the character string is extracted so as to include at least one word relevant to the word extracted from the search character string. .
に関連する情報を検索する検索手段、 前記検索文字列に含まれる単語を抽出する単語抽出手
段、 検索された前記情報に係る前記文書に含まれる文字列
を、予め設定された文字数の範囲で、抽出する文字列抽
出手段、として機能させるプログラムを記録した記録媒
体であって、 前記文字列抽出手段は、前記文書に含まれる単語のう
ち、前記検索文字列から抽出された単語に対して関連性
のある少なくとも一つの単語、を含むように前記文字列
を抽出することを特徴とする記録媒体。17. A computer, comprising: means for obtaining a document indicating the content of information to be searched; search means for searching, among the information, information related to a search character string given as a search condition; A program for functioning as word extracting means for extracting words included in a string, and character string extracting means for extracting a character string included in the document relating to the searched information within a preset number of characters. The character string extracting means, wherein the character string extracting means includes at least one of words included in the document that is related to a word extracted from the search character string. A recording medium for extracting a column.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000287593A JP2002099558A (en) | 2000-09-21 | 2000-09-21 | Information retrieval system, information retrieval method, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000287593A JP2002099558A (en) | 2000-09-21 | 2000-09-21 | Information retrieval system, information retrieval method, and recording medium |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002099558A true JP2002099558A (en) | 2002-04-05 |
Family
ID=18771315
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000287593A Withdrawn JP2002099558A (en) | 2000-09-21 | 2000-09-21 | Information retrieval system, information retrieval method, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2002099558A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007188225A (en) * | 2006-01-12 | 2007-07-26 | Yafoo Japan Corp | Summary sentence extraction system |
| JP2019128850A (en) * | 2018-01-25 | 2019-08-01 | 株式会社リクルート | Information processing device, moving-image search method, generation method, and program |
-
2000
- 2000-09-21 JP JP2000287593A patent/JP2002099558A/en not_active Withdrawn
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007188225A (en) * | 2006-01-12 | 2007-07-26 | Yafoo Japan Corp | Summary sentence extraction system |
| JP2019128850A (en) * | 2018-01-25 | 2019-08-01 | 株式会社リクルート | Information processing device, moving-image search method, generation method, and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
| US9501557B2 (en) | Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method | |
| US11468346B2 (en) | Identifying sequence headings in a document | |
| JP4967037B2 (en) | Information search device, information search method, terminal device, and program | |
| JP2000148748A (en) | Japanese syllbary-to-chinese character conversion and image retrieval and display system | |
| JP2000200281A (en) | Information retrieval apparatus, information retrieval method, and recording medium recording information retrieval program | |
| JP2006099428A (en) | Document summary creation system, method, and program | |
| JP2937520B2 (en) | Document search device | |
| US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
| JP7104390B2 (en) | Document creation device, document creation method, database construction device, database construction method, and program | |
| US6620207B1 (en) | Method and apparatus for processing chinese teletext | |
| JP5345987B2 (en) | Document search apparatus, document search method, and document search program | |
| JPH10289240A (en) | Image processing apparatus and control method thereof | |
| JPH0844771A (en) | Information retrieval device | |
| JPH08314966A (en) | Document creating apparatus index creation method and document searching apparatus | |
| JP2001265774A (en) | Information retrieval method and apparatus, recording medium recording information retrieval program, and hypertext information retrieval system | |
| JP5439028B2 (en) | Information search apparatus, information search method, and program | |
| JP4499179B1 (en) | Terminal device | |
| JP2000148754A (en) | Multilingual system, multilingual processing method, and medium storing multilingual processing program | |
| JP6549173B2 (en) | Computer system and text data search method | |
| JP2002099558A (en) | Information retrieval system, information retrieval method, and recording medium | |
| JP4783563B2 (en) | Index generation program, search program, index generation method, search method, index generation device, and search device | |
| JP2009104475A (en) | Similar document search device, similar document search method and program | |
| JPH10289241A (en) | Image processing apparatus and control method thereof | |
| JP3056810B2 (en) | Document search method and apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071204 |