JP2002032394A - Related word information creation device, related word presentation device, document search device, related word information creation method, related word presentation method, document search method, and storage medium - Google Patents
Related word information creation device, related word presentation device, document search device, related word information creation method, related word presentation method, document search method, and storage mediumInfo
- Publication number
- JP2002032394A JP2002032394A JP2000217270A JP2000217270A JP2002032394A JP 2002032394 A JP2002032394 A JP 2002032394A JP 2000217270 A JP2000217270 A JP 2000217270A JP 2000217270 A JP2000217270 A JP 2000217270A JP 2002032394 A JP2002032394 A JP 2002032394A
- Authority
- JP
- Japan
- Prior art keywords
- word
- related word
- words
- cluster
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 関連語の提示において、関連語を相互に関連
度の高いクラスタ(グループ)ごとに提示することで、
利用者の関連語の効率的な選択を支援する。
【解決手段】 単語クラスタリング部3は、単語をノー
ド、単語間にある関連をアークとしたグラフの全体から
関連性の高い部分グラフをクラスタとして抽出し、得ら
れたクラスタのノード集合を得ることで、文書データベ
ース部2の登録文書中の単語のクラスタリングを行な
い、関連語情報を作成し、関連語情報記憶部4に記憶す
る。関連語情報取得部6は、関連語情報記憶部4を参照
して、単語入力部5で入力された単語の関連語を、相互
に関連度の高いクラスタごとに提示できるように求め
る。
(57) [Summary] [Problem] In presenting related words, by presenting related words in clusters (groups) having a high degree of mutual relevance,
Help users select relevant words efficiently. A word clustering unit extracts a highly relevant subgraph as a cluster from a whole graph in which a word is a node and an association between words is an arc, and a node set of the obtained cluster is obtained. Then, the words in the registered documents in the document database unit 2 are clustered to create related word information and stored in the related word information storage unit 4. The related word information acquisition unit 6 refers to the related word information storage unit 4 and obtains related words of the word input by the word input unit 5 so that the related words can be presented for each cluster having a high degree of mutual relation.
Description
【0001】[0001]
【発明の属する技術分野】この発明は、与えられた単語
の関連語を取得するために参照する関連語情報を作成す
る関連語情報作成装置および関連語情報作成方法、この
関連語情報から単語の関連語を求める関連語提示装置お
よび関連語提示方法、文書検索を行う文書検索装置およ
び文書検索方法、ならびに、これらの処理をコンピュー
タに実行させるプログラムを記憶した記憶媒体に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a related word information creating apparatus and a related word information creating method for creating related word information to be referred to in order to obtain a related word of a given word, and a method for creating a word from the related word information. The present invention relates to a related word presentation device and a related word presentation method for finding a related word, a document search device and a document search method for performing a document search, and a storage medium storing a program for causing a computer to execute these processes.
【0002】[0002]
【従来の技術】文書の電子化やインターネットの普及に
より、文書検索システムのニーズが高まってきている。2. Description of the Related Art With the digitization of documents and the spread of the Internet, the need for document retrieval systems has increased.
【0003】このような文書検索システムでは、通常、
検索語や検索文字列を並べ、あるいは、AND/OR論
理演算子で組み合わせた検索条件や自然言語文(“「文
書検索システムInforiumにおける自然言語処理ベースの
支援機能」,亀田他,言語処理学会第3回年次大会発表論
文集pp357-350,1997.3”および“「CBSearch1000Ver.1.
3」ホームページ,http://www.justsystem.co.jp/produc
t/system/cb13/cb13.html,1999”を参照)等の検索文を
利用者が指定して、その検索文に合致する文書を検索対
象となる文書データベースから検索する。In such a document search system, usually,
Search terms and natural language sentences ("" Natural language processing based support function in document search system Inforium "), by arranging search words and search character strings or combining them with AND / OR logical operators, Kameda et al. Proceedings of the 3rd Annual Conference pp357-350,1997.3 ”and“ CBSearch1000Ver.1.
3 '' homepage, http://www.justsystem.co.jp/produc
The user specifies a search sentence such as “t / system / cb13 / cb13.html, 1999”), and searches for a document that matches the search sentence from a document database to be searched.
【0004】検索文で実質的に重要なのは、自立語単語
であるが、適切な単語を選択するのは難しかったり、検
索結果を絞り込んだり、検索漏れを防ぐために、さらに
単語を追加することが必要になる。そこで、検索対象と
なる文書データベースをあらかじめ分析し、単語間の関
連度等を計算しておき、検索文の入力があった際に、検
索文中の単語の関連語を提示し、検索文を入力する利用
者を支援する機能を備えた技術が提案されている(特開
平10-334106号公報参照)。また、この支援機能を備え
たパッケージソフトが製品化されている(「CBSearch10
00Ver.1.3」ホームページ,http://www.justsystem.co.j
p/product/system/cb13/cb13.html,1999を参照)。[0004] Although the important words in the search sentence are the independent words, it is difficult to select an appropriate word, it is necessary to narrow down the search results, and it is necessary to add more words in order to prevent search omission. become. Therefore, the document database to be searched is analyzed in advance, the relevance between words is calculated, and when a search sentence is input, the related words of the word in the search sentence are presented, and the search sentence is input. There has been proposed a technology having a function of supporting a user who performs the operation (see Japanese Patent Application Laid-Open No. 10-334106). In addition, packaged software with this support function has been commercialized ("CBSearch10
00Ver.1.3 '' homepage, http: //www.justsystem.co.j
p / product / system / cb13 / cb13.html, 1999).
【0005】[0005]
【発明が解決しようとする課題】しかしながら、前記従
来の関連語を提示する技術は、単語の関連語を閾値とし
た関連度以上の単語を一覧、あるいは、関連度の順に一
覧するものであるが、実際は、一つの単語であっても、
さまざまな意味や分野で用いられる「多義性」がある。However, in the related art for presenting related words, a list of words whose relevance is equal to or higher than the relevance using the related word of a word as a threshold or a list of words in order of relevance is provided. , In fact, even a single word,
There is "polysemy" used in various meanings and fields.
【0006】たとえば、「競技場」という単語に対する
関連語として、 ・Jリーグ、花園、トラック、鹿島、ゴール、トライ、
陸上競技、… といった関連語の一覧が提示される。これらの関連語
は、ラグビー、サッカー、陸上競技の3分野の単語が混
在しており、利用者にとってはわかりにくいという不具
合がある。For example, as related words for the word “stadium”, J-League, Hanazono, Truck, Kashima, Goal, Try,
A list of related words such as athletics, ... is presented. These related words include words in three fields of rugby, soccer, and athletics, and are inconvenient for users.
【0007】そこで、前記例においては、「競技場」の
関連語を、 ・花園、ゴール、トライ、… ・鹿島、Jリーグ、ゴール、… ・トラック、陸上競技、… のように提示できれば、利用者の関連語の効率的な選択
を支援することができる(これらは、ラグビー、サッカ
ー、陸上競技の3分野にそれぞれ対応している)。Therefore, in the above example, if the related words of the "stadium" can be presented as follows: flower garden, goal, try,..., Kashima, J-League, goal,. Can assist the player in selecting related words efficiently (these correspond to the three fields of rugby, soccer, and athletics, respectively).
【0008】この発明の目的は、関連語の提示におい
て、関連語を相互に関連度の高いクラスタ(グループ)
ごとに提示することで、利用者の関連語の効率的な選択
を支援することである。[0008] An object of the present invention is to provide a method for presenting related words in which related words are expressed in clusters (groups) having a high degree of mutual relation.
It is to support the user's efficient selection of the related word by presenting each related word.
【0009】この発明の目的は、単語間の関連度に基づ
いて作成した関連語情報を用いて、関連語を相互に関連
度の高いクラスタごとに提示することを可能として、利
用者の関連語の効率的な選択を支援できるようにするこ
とである。An object of the present invention is to make it possible to present related words in clusters having a high degree of mutual relevance by using related word information created based on the degree of relevance between words. To be able to support the efficient selection of
【0010】この発明の目的は、排他的でないクラスタ
リングを行って、関連語を相互に関連度の高いクラスタ
ごとに提示することを可能として、利用者の関連語の効
率的な選択を支援できるようにすることである。[0010] An object of the present invention is to perform non-exclusive clustering so that related words can be presented for each cluster having a high degree of mutual relevance, thereby supporting efficient selection of related words by a user. It is to be.
【0011】この発明の目的は、クラスタ辞書および単
語クラスタ辞書を参照して、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。An object of the present invention is to make it possible to present related words for each cluster having a high degree of mutual relevance by referring to a cluster dictionary and a word cluster dictionary, thereby enabling a user to efficiently select related words. I can help.
【0012】この発明の目的は、作成した関連語情報を
用いて関連語を相互に関連度の高いクラスタごとに提示
することを可能として、利用者の関連語の効率的な選択
を支援することである。An object of the present invention is to make it possible to present related words for each cluster having a high degree of mutual relevance by using created related word information, and to assist a user in efficiently selecting related words. It is.
【0013】この発明の目的は、関連語を求めたい単語
との関連度が高いものだけを関連語として求めることが
できるようにすることである。An object of the present invention is to enable only words having a high degree of relevance to a word for which a related word is to be obtained to be obtained as a related word.
【0014】この発明の目的は、関連語を求めたい単語
との関連度が高いものだけを関連語として出力できるよ
うにすることである。It is an object of the present invention to output only a word having a high degree of relevance to a word whose related word is to be obtained as a related word.
【0015】この発明の目的は、関連語を求めたい単語
との関連度に基づいた指標の順に関連語を出力できるよ
うにすることである。It is an object of the present invention to output related words in the order of indices based on the degree of relevance to a word for which a related word is to be obtained.
【0016】この発明の目的は、検索文に含まれる単語
の関連語を相互に関連度の高いクラスタごとに提示する
ことを可能として、検索漏れの防止や、検索の絞り込み
の効率を向上させることである。An object of the present invention is to make it possible to present related words of a word included in a search sentence for each cluster having a high degree of mutual relevance, thereby preventing search omissions and improving the efficiency of search narrowing. It is.
【0017】[0017]
【課題を解決するための手段】請求項1に記載の発明
は、与えられた単語の関連語を取得するために参照する
関連語情報を作成する関連語情報作成装置において、複
数の文書を記憶する文書データベース部を参照して、前
記複数の文書に含まれる単語をクラスタリングし、当該
単語をその意味または分野ごとのクラスタに分類して前
記関連語情報を作成する単語クラスタリング部を備えて
いることを特徴とする関連語情報作成装置である。According to a first aspect of the present invention, a plurality of documents are stored in a related word information creating apparatus for creating related word information to be referred to in order to acquire a related word of a given word. A word clustering unit that clusters words included in the plurality of documents with reference to a document database unit that generates the related word information by classifying the words into clusters for each meaning or field. Is a related word information creating apparatus.
【0018】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。Therefore, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, and it is possible to assist the user in efficiently selecting related words.
【0019】請求項2に記載の発明は、請求項1に記載
の関連語情報作成装置において、前記単語クラスタリン
グ部は、前記単語間の関連度に基づき前記クラスタリン
グを行うことを特徴とする。According to a second aspect of the present invention, in the related word information creating apparatus according to the first aspect, the word clustering unit performs the clustering based on a degree of association between the words.
【0020】したがって、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。Therefore, by using the related word information created based on the degree of relevance between words, it is possible to present related words for each cluster having a high degree of relevance to each other, and to provide the user with an efficient method of retrieving related words. We can help you make a choice.
【0021】請求項3に記載の発明は、請求項2に記載
の関連語情報作成装置において、前記単語クラスタリン
グ部は、前記単語をノード、単語間にある関連をアーク
としたグラフの全体から関連性の高い部分グラフをクラ
スタとして抽出し、得られたクラスタのノード集合を得
ることで前記クラスタリングを行うことを特徴とする。According to a third aspect of the present invention, in the related word information creating apparatus according to the second aspect, the word clustering unit associates the words from the entire graph in which the words are nodes and the relationships between the words are arcs. The clustering is performed by extracting a subgraph having high possibility as a cluster and obtaining a node set of the obtained cluster.
【0022】したがって、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。Therefore, by performing non-exclusive clustering, it is possible to present related words for each cluster having a high degree of mutual relevance, thereby supporting the user to efficiently select related words.
【0023】請求項4に記載の発明は、請求項1〜3の
いずれかの一に記載の関連語情報作成装置において、前
記単語クラスタリング部は、前記クラスタを識別するク
ラスタIDと当該クラスタに所属する前記単語を識別す
る単語IDとを関連付けたクラスタ辞書および前記単語
ごとにその単語の前記単語IDと当該単語が所属する前
記クラスタの前記クラスタIDとを関連付けた単語クラ
スタ辞書を、前記関連語情報として作成することを特徴
とする。According to a fourth aspect of the present invention, in the related-word information creating apparatus according to any one of the first to third aspects, the word clustering unit includes a cluster ID for identifying the cluster and a cluster ID belonging to the cluster. A word dictionary for associating the word ID identifying the word with the word dictionary and a word cluster dictionary associating the word ID of the word with the cluster ID of the cluster to which the word belongs for each word. It is characterized by being created as.
【0024】したがって、クラスタ辞書および単語クラ
スタ辞書を参照して、関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。Therefore, referring to the cluster dictionary and the word cluster dictionary, it is possible to present related words for each cluster having a high degree of mutual relevance, thereby supporting the user to efficiently select related words. it can.
【0025】請求項5に記載の発明は、請求項1〜4の
いずれかの一に記載の関連語情報作成装置と、この関連
語情報作成装置で作成した前記関連語情報を記憶する関
連語情報記憶部と、関連語を取得したい単語の入力を受
付ける単語入力部と、この関連語情報記憶部を参照し
て、与えられた単語の関連語を求める関連語情報取得部
と、この得られた関連語を出力する関連語情報出力部
と、を備えていることを特徴とする関連語提示装置であ
る。According to a fifth aspect of the present invention, there is provided a related-word information creating apparatus according to any one of the first to fourth aspects, and a related-word storing the related-word information created by the related-word information creating apparatus. An information storage unit, a word input unit that receives an input of a word for which a related word is to be obtained, a related word information acquisition unit that refers to the related word information storage unit and obtains a related word of a given word, And a related word information output unit for outputting related words.
【0026】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。Therefore, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, and it is possible to assist the user in efficiently selecting related words.
【0027】請求項6に記載の発明は、請求項5に記載
の関連語提示装置において、前記関連語情報取得部は、
前記関連語情報記憶部の参照により前記関連語として求
めうる単語のうち前記単語入力部で入力した単語との関
連度が高いものに限定して前記関連語として求めること
を特徴とする。According to a sixth aspect of the present invention, in the related word presenting apparatus according to the fifth aspect, the related word information acquiring section includes:
It is characterized in that, among words that can be obtained as the related words by referring to the related word information storage unit, only those having a high degree of relevance to the word input by the word input unit are obtained as the related words.
【0028】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。Therefore, only words having a high degree of relevance to the word for which a related word is to be obtained can be obtained as related words.
【0029】請求項7に記載の発明は、請求項5に記載
の関連語提示装置において、前記関連語情報出力部は、
前記関連語情報取得部で求めた前記関連語のうち前記単
語入力部で入力した単語との関連度が高いものに限定し
て出力することを特徴とする。According to a seventh aspect of the present invention, in the related word presenting apparatus according to the fifth aspect, the related word information output unit includes:
The related words obtained by the related word information acquisition unit are limited to those having a high degree of relevance to the word input by the word input unit, and are output.
【0030】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。Therefore, only words having a high degree of relevance to the word for which a related word is to be obtained can be output as related words.
【0031】請求項8に記載の発明は、請求項5〜7の
いずれかの一に記載の関連語提示装置において、前記関
連語情報出力部は、同一の前記クラスタ内にある前記関
連語は前記単語入力部で入力した単語との関連度に基づ
いた指標の順に出力することを特徴とする。According to an eighth aspect of the present invention, in the related word presenting apparatus according to any one of the fifth to seventh aspects, the related word information output unit includes the related word present in the same cluster. The output is performed in the order of indices based on the degree of relevance to the word input by the word input unit.
【0032】したがって、関連語を求めたい単語との関
連度に基づいた指標の順に関連語を出力することができ
る。Therefore, related words can be output in the order of indices based on the degree of relevance to the word whose related word is to be obtained.
【0033】請求項9に記載の発明は、検索文の入力を
受付ける検索文入力部と、この入力された検索文に照合
する文書を、複数の文書を記憶した文書データベース部
を参照して検索する検索部と、この得られた検索結果を
出力する検索結果出力部と、前記単語入力部に代えて、
前記検索文入力部で入力された前記検索文から単語を抽
出し、この抽出した単語を前記関連語情報取得部に入力
する単語取得部を備えている請求項5〜8のいずれかの
一に記載の関連語提示装置と、前記全てまたは指定され
た単語に基づいて関連語提示装置で求めた前記関連語に
基づいて前記前記検索文入力部で入力された前記検索文
を修正する検索文修正部と、を備えていることを特徴と
する文書検索装置である。According to a ninth aspect of the present invention, a search sentence input unit for receiving a search sentence input, and a document to be matched with the input search sentence are searched by referring to a document database unit storing a plurality of documents. A search unit, a search result output unit that outputs the obtained search result, and a word input unit,
9. The apparatus according to claim 5, further comprising a word acquisition unit that extracts a word from the search sentence input by the search sentence input unit and inputs the extracted word to the related word information acquisition unit. 9. And a search sentence correction unit that corrects the search sentence input by the search sentence input unit based on the related words obtained by the related word presentation device based on all or specified words. And a document search device.
【0034】したがって、検索文に含まれる単語の関連
語を相互に関連度の高いクラスタごとに提示することを
可能として、検索漏れの防止や、検索の絞り込みの効率
を向上させることができる。Therefore, it is possible to present related words of words included in a search sentence for each cluster having a high degree of mutual relevance, thereby preventing search omissions and improving the efficiency of search narrowing.
【0035】請求項10に記載の発明は、与えられた単
語の関連語を取得するために参照する関連語情報を作成
する関連語情報作成方法において、複数の文書を登録し
た文書データベース部を参照することにより、前記複数
の文書に含まれる単語をクラスタリングし、当該単語を
その意味または分野ごとのクラスタに分類して前記関連
語情報を作成する単語クラスタリング工程を含んでなる
ことを特徴とする関連語情報作成方法である。According to a tenth aspect of the present invention, in a related word information creating method for creating related word information to be referred to to obtain a related word of a given word, a reference is made to a document database section in which a plurality of documents are registered. A word clustering step of clustering words included in the plurality of documents, classifying the words into clusters for each meaning or field, and creating the related word information. This is a word information creation method.
【0036】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。Accordingly, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, and it is possible to assist the user in efficiently selecting related words.
【0037】請求項11に記載の発明は、請求項10に
記載の関連語情報作成方法において、前記単語クラスタ
リング工程は、前記単語間の関連度に基づき前記クラス
タリングを行うことを特徴とする。According to an eleventh aspect of the present invention, in the related word information creating method according to the tenth aspect, the word clustering step performs the clustering based on a degree of association between the words.
【0038】したがって、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。Therefore, it is possible to present related words for each cluster having a high degree of mutual relevance by using related word information created based on the degree of relevance between words, and to provide a user with an efficient method of relevance of related words. We can help you make a choice.
【0039】請求項12に記載の発明は、前記単語クラ
スタリング工程は、前記単語をノード、単語間にある関
連をアークとしたグラフの全体から完全グラフやそれを
やや緩めた推移律グラフをクラスタとして抽出し、得ら
れたクラスタのノード集合を得ることで前記クラスタリ
ングを行うことを特徴とする請求項11に記載の関連語
情報作成方法である。According to a twelfth aspect of the present invention, in the word clustering step, a complete graph or a transitivity graph slightly loosened from the whole graph in which the word is a node and the relationship between the words is an arc is defined as a cluster. 12. The related-word information creating method according to claim 11, wherein the clustering is performed by extracting and obtaining a node set of the obtained cluster.
【0040】したがって、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。Therefore, non-exclusive clustering is performed, and related words can be presented for each cluster having a high degree of mutual relevance, so that the user can be efficiently selected.
【0041】請求項13に記載の発明は、請求項10〜
12のいずれかの一に記載の関連語情報作成方法におい
て、前記単語クラスタリング工程は、前記クラスタを識
別するクラスタIDと当該クラスタに所属する前記単語
を識別する単語IDとを関連付けたクラスタ辞書および
前記単語ごとにその単語の前記単語IDと当該単語が所
属する前記クラスタの前記クラスタIDとを関連付けた
単語クラスタ辞書を、前記関連語情報として作成するこ
とを特徴とする。The thirteenth aspect of the present invention relates to the tenth aspect.
12. In the related-word information creating method according to any one of the first to twelfth, the word clustering step includes: a cluster dictionary in which a cluster ID for identifying the cluster is associated with a word ID for identifying the word belonging to the cluster; For each word, a word cluster dictionary in which the word ID of the word and the cluster ID of the cluster to which the word belongs is created as the related word information.
【0042】したがって、クラスタ辞書および単語クラ
スタ辞書を参照して、関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。Therefore, referring to the cluster dictionary and the word cluster dictionary, it is possible to present related words for each cluster having a high degree of mutual relevance, thereby assisting the user in efficiently selecting related words. it can.
【0043】請求項14に記載の発明は、関連語を取得
したい単語の入力を受付ける単語入力工程と、請求項1
0〜13のいずれかの一に記載の関連語情報作成方法で
作成した前記関連語情報を記憶している関連語情報記憶
部を参照して、前記単語入力工程で与えられた単語の関
連語を求める関連語情報取得工程と、この得られた関連
語を出力する関連語情報出力工程と、を含んでなること
を特徴とする関連語提示方法である。According to a fourteenth aspect of the present invention, there is provided a word input step for receiving an input of a word whose related word is to be obtained,
A related word information storage unit that stores the related word information created by the related word information creating method according to any one of 0 to 13; , And a related word information output step of outputting the obtained related word.
【0044】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。Accordingly, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, and it is possible to assist the user in efficiently selecting related words.
【0045】請求項15に記載の発明は、請求項14に
記載の関連語提示方法において、前記関連語情報取得工
程は、前記関連語情報記憶部の参照により前記関連語と
して求めうる単語のうち前記単語入力部で入力した単語
との関連度が高いものに限定して前記関連語として求め
ることを特徴とする。According to a fifteenth aspect of the present invention, in the related word presentation method according to the fourteenth aspect, the related word information obtaining step includes the step of obtaining the related word by referring to the related word information storage unit. The word related to the word input by the word input unit is limited to those having a high degree of relevance, and is determined as the related word.
【0046】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。Therefore, only words having a high degree of relevance to the word for which a related word is to be obtained can be obtained as related words.
【0047】請求項16に記載の発明は、請求項14に
記載の関連語提示方法において、前記関連語情報出力工
程は、前記関連語情報取得部で求めた前記関連語のうち
前記単語入力部で入力した単語との関連度が高いものに
限定して出力することを特徴とする。According to a sixteenth aspect of the present invention, in the related word presentation method according to the fourteenth aspect, the related word information output step includes the step of outputting the related word information of the related word obtained by the related word information acquisition unit. And output only those having a high degree of association with the input word.
【0048】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。Therefore, only words having a high degree of relevance to the word for which a related word is to be obtained can be output as related words.
【0049】請求項17に記載の発明は、請求項14〜
16のいずれかの一に記載の関連語提示方法において、
前記関連語情報出力工程は、同一の前記クラスタ内にあ
る前記関連語は前記単語入力部で入力した単語との関連
度に基づいた指標の順に出力することを特徴とする。According to the seventeenth aspect of the present invention,
16. The related-word presentation method according to any one of 16.
In the related word information output step, the related words in the same cluster are output in the order of indices based on the degree of relevance to the word input by the word input unit.
【0050】したがって、関連語を求めたい単語との関
連度に基づいた指標の順に関連語を出力することができ
る。Therefore, related words can be output in the order of indices based on the degree of relevance to the word whose related word is to be obtained.
【0051】請求項18に記載の発明は、検索文の入力
を受付ける検索文入力工程と、この入力された検索文に
照合する文書を、複数の文書を記憶した文書データベー
ス部を参照して検索する検索工程と、この得られた検索
結果を出力する検索結果出力工程と、前記単語入力工程
に代えて、前記検索文入力部で入力された前記検索文か
ら単語を抽出し、この抽出した単語を前記関連語情報取
得工程に供する単語取得工程と含んでなる請求項14〜
17のいずれかの一に記載の関連語提示方法により、前
記全てまたは指定された単語に基づいて前記関連語を求
める関連語提示工程と、この求めた関連語に基づいて前
記検索文入力工程で入力された前記検索文を修正する検
索文修正工程と、を含んでなることを特徴とする文書検
索方法である。According to an eighteenth aspect of the present invention, there is provided a search sentence input step of receiving a search sentence input, and searching for a document to be collated with the input search sentence by referring to a document database section storing a plurality of documents. A search step, a search result output step of outputting the obtained search result, and a word extracted from the search sentence input in the search sentence input unit instead of the word input step. And a word obtaining step of providing the related word information obtaining step.
17. The related-word presenting method according to any one of No. 17, wherein the related-word presenting step of obtaining the related word based on the all or specified words, and the search sentence input step based on the obtained related word And a search sentence correcting step of correcting the input search sentence.
【0052】したがって、検索文に含まれる単語の関連
語を相互に関連度の高いクラスタごとに提示することを
可能として、検索漏れの防止や、検索の絞り込みの効率
を向上させることができる。Therefore, it is possible to present related words of words included in a search sentence for each cluster having a high degree of mutual relevance, thereby preventing search omissions and improving the efficiency of search narrowing.
【0053】請求項19に記載の発明は、与えられた単
語の関連語を取得するために参照する関連語情報の作成
をコンピュータに実行させる関連語情報作成プログラム
を記憶しているコンピュータに読取可能な記憶媒体にお
いて、前記関連語情報作成プログラムは、複数の文書を
登録した文書データベース部を参照することにより、前
記複数の文書に含まれる単語をクラスタリングし、当該
単語をその意味または分野ごとのクラスタに分類して前
記関連語情報を作成する単語クラスタリング工程をコン
ピュータに実行させることを特徴とする記憶媒体であ
る。According to the nineteenth aspect of the present invention, a computer storing a related word information creating program for causing a computer to create related word information to be referred to to acquire a related word of a given word can be read by a computer. In a simple storage medium, the related word information creating program clusters words included in the plurality of documents by referring to a document database unit in which the plurality of documents are registered, and clusters the words in terms of the meaning or the cluster for each field. And causing the computer to execute a word clustering step of classifying the related term information and creating the related term information.
【0054】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。Accordingly, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, and it is possible to assist the user in efficiently selecting related words.
【0055】請求項20に記載の発明は、請求項19に
記載の記憶媒体において、前記単語クラスタリング工程
は、前記単語間の関連度に基づき前記クラスタリングを
行うことを特徴とする。According to a twentieth aspect of the present invention, in the storage medium according to the nineteenth aspect, in the word clustering step, the clustering is performed based on a degree of association between the words.
【0056】したがって、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。Therefore, by using the related word information created based on the degree of relevance between words, it is possible to present related words in clusters having a high degree of relevance to each other, so that the user can efficiently recognize related words. We can help you make a choice.
【0057】請求項21に記載の発明は、請求項20に
記載の記憶媒体において、前記単語クラスタリング工程
は、前記単語をノード、単語間にある関連をアークとし
たグラフの全体から完全グラフやそれをやや緩めた推移
律グラフをクラスタとして抽出し、得られたクラスタの
ノード集合を得ることで前記クラスタリングを行うこと
を特徴とする。According to a twenty-first aspect of the present invention, in the storage medium according to the twentieth aspect, in the word clustering step, a complete graph or a complete graph is obtained from the entire graph in which the word is a node and an association between words is an arc. It is characterized in that the transitivity graph in which is slightly relaxed is extracted as a cluster, and the clustering is performed by obtaining a node set of the obtained cluster.
【0058】したがって、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。Therefore, by performing non-exclusive clustering, it is possible to present related words for each cluster having a high degree of mutual relevance, and it is possible to assist the user in efficiently selecting related words.
【0059】請求項22に記載の発明は、請求項19〜
21のいずれかの一に記載の記憶媒体において、前記単
語クラスタリング工程は、前記クラスタを識別するクラ
スタIDと当該クラスタに所属する前記単語を識別する
単語IDとを関連付けたクラスタ辞書および前記単語ご
とにその単語の前記単語IDと当該単語が所属する前記
クラスタの前記クラスタIDとを関連付けた単語クラス
タ辞書を、前記関連語情報として作成することを特徴と
する。The invention described in claim 22 is the invention according to claims 19 to
21. The storage medium according to any one of 21., wherein the word clustering step includes, for each word, a cluster dictionary that associates a cluster ID for identifying the cluster with a word ID for identifying the word belonging to the cluster. A word cluster dictionary in which the word ID of the word and the cluster ID of the cluster to which the word belongs is created as the related word information.
【0060】したがって、クラスタ辞書および単語クラ
スタ辞書を参照して、関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。Therefore, referring to the cluster dictionary and the word cluster dictionary, it is possible to present related words for each cluster having a high degree of mutual relevance, thereby assisting the user in efficiently selecting related words. it can.
【0061】請求項23に記載の発明は、請求項19〜
22のいずれかの一に記載の記憶媒体において、関連語
を取得したい単語の入力を受付ける単語入力工程と、前
記関連語情報作成プログラムに基づいてコンピュータが
作成した前記関連語情報を記憶している関連語情報記憶
部を参照して、前記単語入力工程で与えられた単語の関
連語を求める関連語情報取得工程と、この得られた関連
語を出力する関連語情報出力工程と、をコンピュータに
実行させる関連語提示プログラムを記憶している。According to the twenty-third aspect of the present invention,
22. The storage medium according to any one of 22., wherein a word input step of receiving an input of a word for which a related word is to be acquired, and the related word information created by a computer based on the related word information creation program are stored. A related word information obtaining step for obtaining a related word of the word given in the word input step with reference to a related word information storage unit, and a related word information outputting step of outputting the obtained related word, to a computer A related word presentation program to be executed is stored.
【0062】したがって、作成した関連語情報を用いて
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。Therefore, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, and it is possible to assist the user in efficiently selecting related words.
【0063】請求項24に記載の発明は、請求項23に
記載の記憶媒体において、前記関連語情報取得工程は、
前記関連語情報記憶部の参照により前記関連語として求
めうる単語のうち前記単語入力部で入力した単語との関
連度が高いものに限定して前記関連語として求めること
を特徴とする。According to a twenty-fourth aspect of the present invention, in the storage medium according to the twenty-third aspect, the related-word information obtaining step includes:
It is characterized in that, among words that can be obtained as the related words by referring to the related word information storage unit, only those having a high degree of relevance to the word input by the word input unit are obtained as the related words.
【0064】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。Therefore, only words having a high degree of relevance to the word for which a related word is to be obtained can be obtained as related words.
【0065】請求項25に記載の発明は、請求項23に
記載の記憶媒体において、前記関連語情報出力工程は、
前記関連語情報取得部で求めた前記関連語のうち前記単
語入力部で入力した単語との関連度が高いものに限定し
て出力することを特徴とする。According to a twenty-fifth aspect of the present invention, in the storage medium according to the twenty-third aspect, the related-word information output step includes:
The related words obtained by the related word information acquisition unit are limited to those having a high degree of relevance to the word input by the word input unit, and are output.
【0066】したがって、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。Therefore, only words having a high degree of relevance to the word for which a related word is to be obtained can be output as related words.
【0067】請求項26に記載の発明は、請求項23〜
25のいずれかの一に記載の記憶媒体において、前記関
連語情報出力工程は、同一の前記クラスタ内にある前記
関連語は前記単語入力部で入力した単語との関連度に基
づいた指標の順に出力することを特徴とする。The invention according to claim 26 is the invention according to claims 23 to
25. The storage medium according to any one of 25, wherein the related word information output step is such that the related words in the same cluster are arranged in the order of indices based on the degree of relevance with the word input in the word input unit. It is characterized by outputting.
【0068】したがって、関連語を求めたい単語との関
連度に基づいた指標の順に関連語を出力することができ
る。Therefore, related words can be output in the order of indices based on the degree of relevance to the word whose related word is to be obtained.
【0069】請求項27に記載の発明は、請求項23〜
26のいずれかの一に記載の記憶媒体において、検索文
の入力を受付ける検索文入力工程と、この入力された検
索文に照合する文書を、複数の文書を記憶した文書デー
タベース部を参照して検索する検索工程と、この得られ
た検索結果を出力する検索結果出力工程と、前記単語入
力工程に代えて、前記検索文入力部で入力された前記検
索文から単語を抽出し、この抽出した単語を前記関連語
情報取得工程に供する単語取得工程とコンピュータに実
行させる前記関連語提示プログラムにより、前記全てま
たは指定された単語に基づいて前記関連語を求める関連
語提示工程と、この求めた関連語に基づいて前記検索文
入力工程で入力された前記検索文を修正する検索文修正
工程と、をコンピュータに実行させる文書検索プログラ
ムを記憶している。The invention according to claim 27 is the invention according to claims 23 to
26. The storage medium according to any one of 26, wherein a search sentence input step of receiving an input of a search sentence and a document to be matched with the input search sentence are referred to by referring to a document database unit storing a plurality of documents. A search step for searching, a search result output step for outputting the obtained search result, and a word extracted from the search sentence input in the search sentence input unit instead of the word input step, and the extracted words are extracted. A related word presenting step of providing the related word information to the related word information acquiring step, and a related word presenting program for causing a computer to execute the related word presenting step of finding the related word based on all or specified words; A document search program for causing a computer to execute a search sentence correcting step of correcting the search sentence input in the search sentence input step based on a word.
【0070】したがって、検索文に含まれる単語の関連
語を相互に関連度の高いクラスタごとに提示することを
可能として、検索漏れの防止や、検索の絞り込みの効率
を向上させることができる。Accordingly, it is possible to present related words of words included in a search sentence for each cluster having a high degree of mutual relevance, thereby preventing search omissions and improving the efficiency of search narrowing.
【0071】[0071]
【発明の実施の形態】[発明の実施の形態1]この発明
の一実施の形態を、発明の実施の形態1として説明す
る。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [First Embodiment of the Invention] One embodiment of the present invention will be described as a first embodiment of the invention.
【0072】図1は、この発明の実施の形態1である関
連語提示装置1の機能ブロック図である。図1に示すよ
うに、この関連語提示装置1は文書データベース部2を
備えている。これは、複数の文書を登録管理する文書デ
ータベースであり、例えばリレーショナルデータベース
管理システムなどを使って管理する。単語クラスタリン
グ部3は、文書データベース部2に登録されている各文
書から単語を抽出し、その単語間の関連を調べ、それに
基づき単語をクラスタリングするもので、関連語情報作
成装置を実現するものである。関連語情報記憶部4は、
単語クラスタリング部3による単語のクラスタリング結
果を関連語情報として記憶する。単語入力部5は、関連
語を得るべき単語の入力を受け付け、その入力を関連語
情報取得部6へ送る。関連語情報取得部6は、単語入力
部5から送られた入力単語について、関連語情報記憶部
4を検索し、関連語情報を取得し、その結果を関連語情
報出力部7に出力する。関連語情報出力部7は、関連語
情報取得部6から送られた関連語情報を出力する。FIG. 1 is a functional block diagram of a related word presentation device 1 according to the first embodiment of the present invention. As shown in FIG. 1, the related word presentation device 1 includes a document database unit 2. This is a document database for registering and managing a plurality of documents, and is managed using, for example, a relational database management system. The word clustering unit 3 extracts words from each document registered in the document database unit 2, checks the relation between the words, and clusters the words based on the extracted words, and implements a related word information creating device. is there. The related word information storage unit 4
The result of word clustering by the word clustering unit 3 is stored as related word information. The word input unit 5 receives an input of a word to obtain a related word, and sends the input to the related word information acquiring unit 6. The related word information acquisition unit 6 searches the related word information storage unit 4 for the input word sent from the word input unit 5, acquires related word information, and outputs the result to the related word information output unit 7. The related word information output unit 7 outputs the related word information sent from the related word information acquisition unit 6.
【0073】図2は、関連語提示装置1のハードウエア
構成を示すブロック図である。図2に示すように、関連
語提示装置1は、CPU11と、ROM12と、RAM
13とが、バスライン14で接続されている。バスライ
ン14には、所定のインターフェイスを介して、LC
D、プリンタなどの出力装置15と、キーボード、ポイ
ンティングデバイスなどの入力装置16と、ハードディ
スク17とを備えている。また、記憶媒体18を読み取
る記憶媒体読取装置19と、関連語提示装置1をインタ
ーネットなどのネットワークに接続する通信制御装置2
0とのうち、少なくとも一方を備えている。FIG. 2 is a block diagram showing a hardware configuration of the related word presentation device 1. As shown in FIG. 2, the related word presentation device 1 includes a CPU 11, a ROM 12, a RAM
13 are connected by a bus line 14. The bus line 14 is provided with an LC through a predetermined interface.
D, an output device 15 such as a printer, an input device 16 such as a keyboard and a pointing device, and a hard disk 17. Further, a storage medium reading device 19 for reading the storage medium 18 and a communication control device 2 for connecting the related word presentation device 1 to a network such as the Internet.
0 and at least one of them.
【0074】ハードディスク17には、関連語提示プロ
グラムがインストールされている。この関連語提示プロ
グラムには、関連語情報作成プログラムを含んでいる。
関連語提示プログラムは、記憶媒体18に記憶されてい
て、記憶媒体読取装置19により読み取ってハードディ
スク17にインストールすることができる。また、イン
ターネットなどのネットワークから関連語提示プログラ
ムをダウンロードしてハードディスク17にインストー
ルすることができる。A related word presentation program is installed on the hard disk 17. This related word presentation program includes a related word information creation program.
The related word presentation program is stored in the storage medium 18 and can be read by the storage medium reading device 19 and installed on the hard disk 17. Further, a related word presentation program can be downloaded from a network such as the Internet and installed on the hard disk 17.
【0075】記憶媒体18は、具体的には、CD,DV
Dなどの各種光ディスク、各種光磁気ディスク、FDな
どの各種磁気ディスクなど、各種方式のメディアを用い
ることができる。記憶媒体読取装置19は、具体的に
は、記憶媒体18としていかなるメディアが用いられる
かにより、CDドライブ装置、DVDドライブ装置、F
Dドライブ装置、MOドライブ装置などが使用される。
インターネットなどのネットワークからダウンロードし
てハードディスク17にインストールする場合に、送信
側のサーバにおいて関連語提示プログラムを記憶してい
る記憶装置も、この発明の記憶媒体である。The storage medium 18 is, specifically, a CD, a DV,
Various types of media such as various types of optical disks such as D, various types of magneto-optical disks, and various types of magnetic disks such as FDs can be used. Specifically, the storage medium reading device 19 includes a CD drive device, a DVD drive device, and a F drive, depending on what medium is used as the storage medium 18.
D drive devices, MO drive devices, and the like are used.
A storage device that stores a related-word presentation program in a server on the transmission side when downloading from a network such as the Internet and installing it on the hard disk 17 is also a storage medium of the present invention.
【0076】文書データベース部2はハードディスク1
7内に構築される。ハードディスク17に関連語提示プ
ログラムがインストールされることにより、CPU11
は、関連語提示プログラムに基づいて、単語クラスタリ
ング部3、関連語情報記憶部4および関連語情報取得部
6の機能を実行する。関連語情報記憶部4の記憶エリア
は、RAM13またはハードディスク17に確保され
る。また、入力装置16を介して単語入力部5の機能を
実行し、出力装置15を介して関連語情報出力部7の機
能を実行する。関連語提示プログラムは、所定のOS上
で動作するものであってもよい。また、OSや他のアプ
リケーションソフトに、その機能の一部を代行させるも
のであってもよい。The document database unit 2 has a hard disk 1
7 is built. By installing the related word presentation program on the hard disk 17, the CPU 11
Executes the functions of the word clustering unit 3, the related word information storage unit 4, and the related word information acquisition unit 6, based on the related word presentation program. The storage area of the related word information storage unit 4 is secured in the RAM 13 or the hard disk 17. Further, the function of the word input unit 5 is executed via the input device 16, and the function of the related word information output unit 7 is executed via the output device 15. The related word presentation program may operate on a predetermined OS. Further, a part of the function may be performed on behalf of the OS or other application software.
【0077】次に、関連語提示プログラムに基づいて関
連語提示装置1が行う処理に付いて説明する。図3は、
関連語提示装置1が行う処理を示すフローチャートであ
る。Next, the processing performed by the related word presentation device 1 based on the related word presentation program will be described. FIG.
4 is a flowchart illustrating a process performed by the related word presentation device 1.
【0078】(A) 関連語情報の作成/格納 関連語提示装置1は、「関連語の関連語情報出力部7へ
の出力」を目的としているが、その準備として、あらか
じめ最初にあるいは文書データベース部2が更新された
場合等の契機に、「関連語情報の作成/格納」の処理を
実行する。図3は、関連語提示装置1が行う「関連語情
報の作成/格納」の処理のフローチャートである。かか
る処理により、関連語情報作成方法を実現している。(A) Creation / Storage of Related Word Information The purpose of the related word presentation device 1 is to “output related words to the related word information output unit 7”. When the unit 2 is updated, the processing of “creation / storage of related word information” is executed. FIG. 3 is a flowchart of the process of “creating / storing related word information” performed by the related word presentation device 1. With this processing, a related word information creating method is realized.
【0079】.文書からの単語抽出 図3に示すように、まず、ステップ1で、文書データベ
ース部2に登録されている各文書に対し、形態素解析処
理により品詞付きの単語分割を施し、単語を抽出する
(ステップS1)。[0079] 3. Word Extraction from Documents As shown in FIG. 3, first, in step 1, each document registered in the document database unit 2 is subjected to word segmentation with part of speech by a morphological analysis process to extract words (step 1). S1).
【0080】抽出する単語は、形容詞や動詞等を含めた
自立語を広く対象にすることもあるが、最も一般的なア
プリケーションである文書検索システムのために関連語
提示装置1を用いる場合には、形式名詞や副詞名詞とい
った機能的な名詞を除いた一般的な名詞だけを対象にす
ることが多い。ここでは、この一般的な名詞だけを対象
にして説明する。また、複合名詞はより基本的な名詞に
分解することができ、どのような単位をとるかという問
題があるが、ここでは、複合名詞は分解せずにそのまま
抽出することにする。The words to be extracted may cover a wide range of independent words including adjectives and verbs, but when the related word presentation device 1 is used for a document search system which is the most common application. Often, only general nouns are excluded, excluding functional nouns such as formal nouns and adverbial nouns. Here, a description will be given of only this general noun. Further, compound nouns can be decomposed into more basic nouns, and there is a problem of what unit is to be taken. In this case, compound nouns are extracted as they are without being decomposed.
【0081】たとえば、下記の文書1(文書ID=1/
朝日新聞 1993年1月21日の記事)に対して、文書内の
各文に形態素解析処理を施し、名詞を抽出することによ
り、下記のリスト1のとおり文書1内に出現した単語
(名詞)のリストが得られ、さらに同一単語の重複を排
除することによって下記のリスト2が得られる。For example, the following document 1 (document ID = 1 /
By performing morphological analysis on each sentence in the document and extracting nouns from the Asahi Shimbun (an article on January 21, 1993), words (nouns) appearing in document 1 as shown in Listing 1 below Is obtained, and the following list 2 is obtained by eliminating duplication of the same word.
【0082】 <文書1> -------------------------------------------------------------- 通常兵器関連の工業製品 輸出規制が始動 4ヶ国対象 通常兵器の部品や加工機械に転用できる工業製品の輸出規制が二十日、日本で も始まった。英米などの主要先進七カ国(G7)の合意に基づいた規制で、イラ クなど四カ国を対象にして、対共産圏輸出統制委員会(ココム)のリストを準用 する形。G7は既に対象となる品目、国を広げるための話し合いを始めており、 冷戦終結で変わる新たな輸出規制に発展しそうだ。<Document 1> ------------------------------------------- ------------------- Export control of industrial products related to conventional weapons has started. Export control for four countries. It began in Japan and Japan. This is a regulation based on the agreement of the seven major advanced nations (G7), including the United Kingdom and the United States, and applies the list of the Communist Border Export Control Committee (COCOM) mutatis mutandis to four countries, including Iraq. The G7 has already begun discussions to expand its target items and nations and is likely to develop new export controls that will change at the end of the Cold War.
【0083】 規制対象となる国は、イラン、イラク、リビア、朝鮮民主主義共和国(北朝鮮 )の四カ国である。北朝鮮は、既に共産圏として特定地域に指定されているため 、新たに追加されるのは三カ国である。また、イラクは経済制裁で禁輸措置が取 られている。今回の措置で輸出に大きな変化が出るのはイランとリビアの二国に なりそうだ。The four regulated countries are Iran, Iraq, Libya, and the Democratic Republic of Korea (North Korea). North Korea has already been designated as a communist bloc, so three new countries will be added. Iraq is also embargoed on economic sanctions. Major changes in exports under this measure are likely to be in Iran and Libya.
【0084】 輸出貿易管理令などに基づいて定められたコンピュータや工作機械などの規制 品目を輸出する時には、通産省に許可申請を行う。その際、特定地域に指定され ている国に対しては、明らかに民生用とわかる場合でなければ許可が下りず、事 実上、規制品は輸出できない。 -------------------------------------------------------------- When exporting a regulated item such as a computer or a machine tool set based on an export trade control order or the like, a license application is made to the Ministry of International Trade and Industry. At that time, permission will not be granted to countries designated as specific areas unless they are clearly for consumer use, and in fact restricted products cannot be exported. -------------------------------------------------- ------------
【0085】 <リスト1> -------------------------------------------------------------- 兵器 輸出規制 通常兵器 工業製品 輸出規制 対象 通常兵器 部品 加工 機械 工業製品 輸出規制 日本 英米 主要先進 G7 合意 規制 イラク 対象 対共産圏輸出統制委員会 ココム リスト G7 対象 品目 話し合 い 冷戦終結 輸出規制 規制対象 イラン イラク リビア 朝鮮民主主義共 和国 北朝鮮 北朝鮮 共産圏 特定地域 イラク 経済制裁 禁輸措置 措置 輸出 変化 イラン リビア 輸出貿易管理令 コンピュータ 工作機械 規 制品目 通産省 許可申請 特定地域 民生用 許可 規制品 ------------------------------------------------------------- <List 1> ------------------------------------------- ------------------- Weapons Export Control Conventional Weapons Industrial Products Export Controls Targets Conventional Weapons Parts Processing Machinery Industrial Products Export Controls Japan UK United States Major Advanced G7 Agreement Regulation Iraq Target Anti-Communist Area Export Control Committee Cocom List G7 Subject Items Discuss Cold War End Export Control Restrictions Iran Iraq Libya North Korea Democratic Republic of the Republic of North Korea Computer Machine tools Controlled items Ministry of International Trade and Industry Permit application Specific area Consumer license Restricted products ---------------------------------- ---------------------------
【0086】 <リスト2> ------------------------------------------------------------- 兵器 輸出規制 通常兵器 工業製品 対象 部品 加工機械 日本 英米 主 要先進 G7 合意 規制 イラク 対共産圏輸出統制委員会 ココム リスト 品目 話し合い 冷戦終結 規制対象 イラン リビア 朝鮮民主主義共和国 北朝鮮 共産圏 特定地域 経済制裁 禁輸措置 措置 輸出 変化 輸出貿 易管理令 コンピュータ 工作機械 規制品目 通産省 許可申請 民生用 許 可 規制品 ------------------------------------------------------------- <List 2> ------------------------------------------- ------------------ Weapons Export Regulations Conventional Weapons Industrial Products Target Parts Processing Machinery Japan UK United States Major Advanced G7 Agreement Regulations Iraq Export Control Committee for Communist Areas Cocom List Items Discuss End of the Cold War Iran Libya DPR Korea North Korea Communist Specified Area Economic Sanctions Embargo Measures Export Changes Export Trade Control Ordinance Computer Machine Tools Controlled Items Ministry of International Trade and Industry Permit application -------------------------------------------------- ---
【0087】さらに、文書ごとに出現する単語を並べる
ことで、表1のような文書ごとの単語リストが得られ
る。Further, by arranging words appearing for each document, a word list for each document as shown in Table 1 is obtained.
【0088】[0088]
【表1】 [Table 1]
【0089】表1で単語をキーに作り直すことで、表2
のような単語IDがキーのインデクスが作成できる。こ
のインデクスは、単語を検索キーワードにとる文書検索
システムで用意する検索インデクスと同様のものであ
る。これは、単語と文書IDの組データを生成し、この
組データを、単語表記をキーにソートした後、同一単語
で並んだ範囲の組データ群から単語とそれを含む文書I
Dリストを得、単語IDは、異なりの単語に対して、順
に振ることで容易に得ることができる。By re-creating the word in Table 1 as a key, Table 2
An index with a word ID as a key can be created. This index is similar to a search index prepared by a document search system that uses words as search keywords. That is, a set of words and a document ID is generated, and the set data is sorted using a word notation as a key.
The D list can be obtained, and the word ID can be easily obtained by sequentially assigning different words to different words.
【0090】尚、単語表示をキーにソートしているの
で、単語IDは、いわゆる辞書順になっている。Since the words are sorted using the word display as a key, the word IDs are in a so-called dictionary order.
【0091】[0091]
【表2】 [Table 2]
【0092】さらに、得られた単語IDを用いて、表1
の文書IDごとの単語リスト中の単語を単語IDに置き
換え、単語ID値でソートすることで、表3のような文
書IDがキーのインデクスが作成できる。Further, using the obtained word ID, Table 1
By replacing the words in the word list for each of the document IDs with the word IDs and sorting by the word ID value, an index with the document ID as a key as shown in Table 3 can be created.
【0093】[0093]
【表3】 [Table 3]
【0094】.単語のクラスタリング 関連語は、従来技術においては、単語間の関連度(類似
度)を定義して、関連度の大きな単語を関連語として選
択している。関連度として用いる指標としては、相互情
報量(“Word association norms,mutual information,
and lexicography”,Kenneth Ward Church and patric
Hanks,Computational Lingusitics,16(1):22-29, 1990
参照)、YuleのY、DiceCofficient等、各種ある。[0094] Word Clustering In the related art, in the related art, a relevance (similarity) between words is defined, and a word having a high relevance is selected as a related word. As an index used as the degree of association, mutual information (“Word association norms, mutual information,
and lexicography ”, Kenneth Ward Church and patric
Hanks, Computational Lingusitics, 16 (1): 22-29, 1990
), Yule Y, DiceCofficient, etc.
【0095】本発明の実施の形態1では、ある単語の関
連語は、意味や分野により、異なったクラスタ(グルー
プ)に属していると考え、そのクラスタごとに整理し
て、関連語を提示することを前提にすることから、前記
ステップS1の処理の後に、単語のクラスタリング処理
を行う(ステップS2)。これにより単語クラスタリン
グ工程を実現している。In the first embodiment of the present invention, it is considered that related words of a certain word belong to different clusters (groups) according to meanings and fields, and the related words are presented by organizing each cluster. Because of this, word clustering is performed after step S1 (step S2). This implements a word clustering step.
【0096】この目的のために、人手による作成でな
く、情報処理により自動的な処理を行う場合は、上記の
単語間の関連度を利用するのが普通である。しかし、最
も一般的に考えられる、関連度の高いもの同士を併合し
ていくクラスタリング法では、排他的なクラスタしか生
成しないため、ある単語について複数のクラスタごとの
提示にならない。重複を許すクラスタリング処理手法の
一つとして、多義性のある単語のクラスタリングを目的
とした「推移律グラフに基づく共起グラフのクラスタ分
け」(「推移率に基づく共起グラフのクラスタ分け」,
田中久美子他,情報処理学会研究会報告自然言語処理115
-15,1996、および、“Clustering Co-occurence Graph
based on Transitivity”,Kumiko TANAKA-Ishii,Hideya
IWASAKI,The 5th Workshop on Very Large Corpora(WV
LC5),1998参照)がある。この単語のクラスタリングで
は、単語をノード、単語間にある関連をアークとしたグ
ラフの全体から関連性の高いグラフをクラスタとして抽
出し、得られたクラスタのノード集合を関連語クラスタ
とするものである。具体的には、単語をノード、単語間
にある関連をアークとした完全グラフやそれをやや緩め
た推移律グラフをクラスタとして抽出し、得られたクラ
スタのノード集合を関連語クラスタとすることが考えら
れる。For this purpose, when automatic processing is performed by information processing instead of manual creation, it is common to use the degree of association between words. However, in the clustering method of merging the most relevant ones, which is most commonly considered, only an exclusive cluster is generated, and therefore, a certain word is not presented for each of a plurality of clusters. As one of the clustering processing methods that allow duplication, "clustering of co-occurrence graph based on transitivity graph"("clustering of co-occurrence graph based on transition rate",
Kumiko Tanaka et al., IPSJ Technical Committee Report Natural Language Processing 115
-15,1996 and “Clustering Co-occurence Graph
based on Transitivity ”, Kumiko TANAKA-Ishii, Hideya
IWASAKI, The 5th Workshop on Very Large Corpora (WV
LC5), 1998). In this word clustering, a highly relevant graph is extracted as a cluster from the entire graph in which a word is a node and an association between words is an arc, and a node set of the obtained cluster is used as a related word cluster. . Specifically, a complete graph in which words are nodes and the relationships between words are arcs, and a transitive rule graph that is slightly relaxed are extracted as clusters, and the node set of the obtained clusters can be used as related word clusters. Conceivable.
【0097】(1)関連度に相互情報量 以下、ここでは、単語のクラスタリングの処理として、
関連度として最も知られた相互情報量を用い、「推移律
グラフに基づく共起グラフのクラスタ分け」を行う処理
を示すが、この発明は当該手段に限定されるものではな
い。(1) Mutual Information Amount of Relevance Hereinafter, here, word clustering is performed as follows:
A process of performing “clustering of co-occurrence graph based on transitive rule graph” using the mutual information amount that is best known as the degree of association will be described, but the present invention is not limited to this means.
【0098】次の式は、N個の文書中における、単語W
aと単語Wbの相互情報量M(Wa,Wb)を定義する
式である。The following equation shows the word W in N documents.
This is an expression that defines the mutual information amount M (Wa, Wb) between a and the word Wb.
【0099】M(Wa,Wb)=log(P(Wa,Wb)
/P(Wa)P(Wb)) ここで、P(Wn)=Nn/N, P(Wa,Wb)=
Nab/N P(Wn)は、単語WnがN個の文書中に出現する確率
であり、Nnは単語Wnが出現する文書数である。ま
た、P(Wa,Wb)は、単語Waと単語WbがN個の
文書中に共出現する確率であり、Nabは共出現する文
書数である。尚、共出現の単位は、文書の部分や複数文
書を単位にすることも考えられるが、ここでは、文書を
単位とする例で説明する。M (Wa, Wb) = log (P (Wa, Wb)
/ P (Wa) P (Wb)) where P (Wn) = Nn / N, P (Wa, Wb) =
Nab / NP (Wn) is the probability that the word Wn appears in N documents, and Nn is the number of documents in which the word Wn appears. P (Wa, Wb) is the probability that the word Wa and the word Wb co-occur in N documents, and Nab is the number of co-appearing documents. The unit of co-occurrence may be a document part or a plurality of documents. However, here, an example in which the document is a unit will be described.
【0100】文書数及び単語ごとの出現文書数は、前記
ステップS1により得られている。相互情報量のために
は、さらに、全単語対ごとに2つの単語が共出現する文
書数が必要である。この値を得るには、例えば、最も簡
易な手段として、単語IDの小さい順から、その単語と
その単語IDより大きい単語の各々の出現文書の文書I
Dのリストを照合して、一致する数を数えればよい。The number of documents and the number of appearing documents for each word are obtained in step S1. For the mutual information amount, the number of documents in which two words co-appear is required for every word pair. In order to obtain this value, for example, as the simplest means, the document I of the appearing document of each of the word and the word larger than the word ID is used in ascending order of the word ID.
What is necessary is to match the list of D and count the number of matches.
【0101】たとえば、表2に示すように、単語IDが
3の「G7」は、単語IDが4の単語から順次調べる
が、たとえば、単語IDが13の「アメリカ」の共出現
文書数は、表2の「G7」の出現文書数6の文書IDの
リストが「1,88,105,288,300,410」であり、「アメリ
カ」の出現文書数42の文書IDのリスト「2,3,5,88,1
05,109,300,310,479,…」と順次比べていけば、「88,10
5,300」が共通していることがわかる。For example, as shown in Table 2, "G7" having a word ID of 3 is sequentially searched from the word having a word ID of 4. For example, the number of co-occurring documents of "America" having a word ID of 13 is as follows. The list of document IDs of the number of appearing documents 6 of “G7” in Table 2 is “1,88,105,288,300,410”, and the list of document IDs of the number of appearing documents of “America” of 42 is “2,3,5,88,1”.
05,109,300,310,479,… ”
5,300 "in common.
【0102】表4は、このようにして求めた全出現単語
間の共出現文書数を表したマトリクス(対角部分より左
下はなし)のうち、「G7」(単語ID=3)、「Jリ
ーグ」(同4)等、10単語の共出現文書数の部分だけ
を抜き出したものである。尚、表4中の「Nn」は、単
語の「出現文書数」であり、その対応欄には値が示され
ている。Table 4 shows, among the matrices indicating the number of co-occurring documents between all the appearing words thus obtained (with no lower left corner from the diagonal portion), “G7” (word ID = 3), “J-League” (4), only the part of the number of co-occurring documents of 10 words is extracted. Note that “Nn” in Table 4 is the “number of appearing documents” of the word, and a value is shown in the corresponding column.
【0103】[0103]
【表4】 [Table 4]
【0104】表4から、たとえば、単語「G7」と単語
「アメリカ」について、各々の単独の出現文書数Nnが
6,42、共出現文書数が3を得て、この2単語の相互
情報量を、次のように得ることができる。From Table 4, for example, for the word “G7” and the word “America”, the number of single appearing documents Nn is 6,42 and the number of co-occurring documents is 3, and the mutual information amount of these two words is obtained. Can be obtained as follows.
【0105】 P(「G7」)=6/2000=0.003 P(「アメリカ」)=42/2000=0.021 P(「G7」,「アメリカ」)=3/2000=0.0015 M(「G7」,「アメリカ」) =log(P(「G7」,「アメリカ」)/P(「G7」)・P(「アメリカ 」) =log(3・2000/(6・42))=log(1000/42)≒4.57 (ここで、logの基底は2とした) 上記の計算を全単語の組合せについて行い、全単語間の
相互情報量を得ることができる。表5は、表4と同様に
10単語間の相互情報量を抜き出した表である。P (“G7”) = 6/2000 = 0.003 P (“America”) = 42/2000 = 0.021 P (“G7”, “America”) = 3/2000 = 0.015 M (“G7”, “G7” America ") = log (P (" G7 "," USA ") / P (" G7 ") P (" America ") = log (3 ・ 2000 / (6.42)) = log (1000/42) ≒ 4.57 (Here, the basis of log is set to 2.) The above calculation is performed for all the combinations of words, and the mutual information between all the words can be obtained. This is a table in which the mutual information amount is extracted.
【0106】[0106]
【表5】 [Table 5]
【0107】相互情報量は、2単語間の関連度を表すと
考えるが、例えば、閾値として3を用いるとすると、表
5では、相互情報量が0を超える単語の組合わせのう
ち、「アメリカ」(13)と「ゴール」(37)、「トラ
イ」(65)と「鹿島」(502)は、関連度が閾値以下な
ので、単語間の関連がないとみなす。The mutual information is considered to indicate the degree of relevance between two words. For example, if a threshold value of 3 is used, in Table 5, among the combinations of words whose mutual information exceeds 0, “US (13) and "goal" (37), "try" (65) and "Kashima" (502) are regarded as having no relationship between words because the relevance is below the threshold.
【0108】(2) 推移律グラフに基づく共起グラフ
のクラスタ分け この方法による全体グラフG(全ノードの集合と全アー
クの集合の組)からクラスタGi(ノード集合とアーク
集合の組)の抽出手順は、以下にようになる(“「推移
率に基づく共起グラフのクラスタ分け」,田中久美子他,
情報処理学会研究会報告 自然言語処理115-15,1996”お
よび“"Clustering Co-occurence Graphbased on Trans
itivity",Kumiko TANAKA-Ishii, Hideya IWASAKI, The
5th Workshop on Very Large Corpora(WVLC5),1998”参
照)。(2) Clustering of co-occurrence graph based on transitivity graph Extraction of cluster Gi (set of node set and arc set) from whole graph G (set of all node set and all arc set) by this method The procedure is as follows ("" Clustering Co-occurrence Graph Based on Transition Rate ", Kumiko Tanaka et al.,
IPSJ SIG Technical Report 115-15, 1996 "and""Clustering Co-occurence Graphbased on Trans
itivity ", Kumiko TANAKA-Ishii, Hideya IWASAKI, The
5th Workshop on Very Large Corpora (WVLC5), 1998 ”).
【0109】[0] i=0として、ノード集合とアー
ク集合がともに空のクラスタGi(G0)を作成する。[0] Assuming that i = 0, a cluster Gi (G0) in which both the node set and the arc set are empty is created.
【0110】[1] G0,…,Giのいずれにも含ま
れないアークe、および、アークeと三角形をなすノー
ドvがあれば、この三角形をなすノードとアークの全て
をクラスタGi+1に入れる。クラスタGi+1に入れ
るグラフ(ノードとアーク)がなければ終了。[1] If there is an arc e which is not included in any of G0,..., Gi and a node v which forms a triangle with arc e, all nodes and arcs forming this triangle are put into cluster Gi + 1. If there is no graph (node and arc) to be put into the cluster Gi + 1, the processing ends.
【0111】[2] クラスタGi+1に含まれるアー
クeがクラスタGi+1に含まれないノードvと三角形
をなし、G0,…,Giのいずれにも含まれないアーク
eがある場合、アークeと三角形をなすノードvがGi
+1に含まれるノードv’と結ばれていれば、この三角
形及びノードvとGi+1中のノードとのアークのすべ
てクラスタGi+1に入れる。クラスタGi+1が拡張
できなければ、[4]に進む。[2] The arc e included in the cluster Gi + 1 forms a triangle with the node v not included in the cluster Gi + 1. If there is an arc e not included in any of G0,... Node v is Gi
If it is connected to the node v 'included in +1, all arcs of this triangle and the arc between the node v and the node in Gi + 1 are put into the cluster Gi + 1. If the cluster Gi + 1 cannot be expanded, the process proceeds to [4].
【0112】[3] [2]に戻る。[3] Return to [2].
【0113】[4] iに1加算して[1]に戻る。[4] Add 1 to i and return to [1].
【0114】上記に示してきた例は、多数の単語からな
るが、以下、説明のために、表5に明示された単語をノ
ードにするグラフを全体グラフとして、上記のクラスタ
の抽出手順の過程を示す。Although the example shown above consists of a large number of words, for the sake of explanation, the process of the above cluster extraction procedure will be described by using a graph having the words specified in Table 5 as nodes as an entire graph. Is shown.
【0115】相互情報量の閾値を3とすれば、ノードと
アークは次のようになる。 ------------------------------------------------------------- ・ノード:(3),(4),(13),(37),(65),(66),(184),(414),(50 2),(974) ・アーク:(3)-(37),(4)-(37),(4)-(414),(4)-(502),(37) -(65),(37)-(184),(37)-(414),(37)-(502),(65)-(184),(65 )-(414),(66)-(414),(66)-(974),(184)-(414),(414)-(502) ,(414)-(974) ------------------------------------------------------------- Assuming that the mutual information threshold is 3, the nodes and arcs are as follows. -------------------------------------------------- ----------- ・ Nodes: (3), (4), (13), (37), (65), (66), (184), (414), (50 2) , (974) ・ Arc: (3)-(37), (4)-(37), (4)-(414), (4)-(502), (37)-(65), (37) -(184), (37)-(414), (37)-(502), (65)-(184), (65)-(414), (66)-(414), (66)-( 974), (184)-(414), (414)-(502), (414)-(974) ------------------------ -------------------------------------
【0116】図4は、この結果のグラフを図示したもの
である。FIG. 4 is a graph showing the result.
【0117】上記に示した手順によって、具体的には次
のようにクラスタ抽出処理が進む。According to the procedure described above, the cluster extraction processing proceeds in the following manner.
【0118】[0]i=0として、ノード集合、クラス
タ集合共に、空のクラスタGiを作成する。[0] With i = 0, an empty cluster Gi is created for both the node set and the cluster set.
【0119】[1:G1の初期設定] G0に含まれな
いアーク(3)-(37)は、これと三角形をなすノードが
ない。次のアーク(4)-(37)を選ぶと、このアークと
ノード(414)が、アーク(4)-(414)、アーク(37)
-(414)とで三角形をなすので、G1として、<
{(4),(37),(414)},{(4)-(37),(4)-(41
4),(37)-(414)}>が初期設定される。[1: Initial Setting of G1] The arc (3)-(37) not included in G0 has no node forming a triangle with the arc (3)-(37). If you select the next arc (4)-(37), this arc and node (414) will be arc (4)-(414), arc (37)
-(414) forms a triangle, so G1 is <
{(4), (37), (414)}, {(4)-(37), (4)-(41
4), (37)-(414)}> is initialized.
【0120】[2:G1の追加] G1に含まれるアー
ク(4)-(37)は、G1に含まれないノード(502)と
アーク(4)-(502)、アーク(37)-(502)とで三角
形をなし、かつG1に含まれるノード(414)とアーク
(414)-(502)とで結ばれている。以上により、G1
には、ノード(502)とアーク(4)-(502)、アーク
(37)-(502)、アーク(414)-(502)が追加され
る。[2: Addition of G1] Arcs (4)-(37) included in G1 are nodes (502) not included in G1, arcs (4)-(502), and arcs (37)-(502). ) Form a triangle, and are connected by nodes (414) included in G1 and arcs (414)-(502). From the above, G1
, A node (502), arcs (4)-(502), arcs (37)-(502), and arcs (414)-(502) are added.
【0121】[3] [2]へ戻る。[3] Return to [2].
【0122】[2:G1の追加] G1に含まれるいず
れのアークもG1に含まれないノードと三角形をなさな
いので、G1の処理は終了する。[2: Addition of G1] Since any arc included in G1 does not form a triangle with a node not included in G1, the processing of G1 ends.
【0123】この時点で、次のようになっている。 ------------------------------------------------------------- G0=<{},{}> G1=<{(4),(37),(414),(502)},{(4)-(37),(4)-(414), (4)-(502),(37)-(414),(37)-(502),(414)-(502)}> いずれのクラスにも属さないアーク:(3)-(37),(37)-(65),(37)- (184),(65)-(184),(65)-(414),(66)-(414),(66)-(974),(18 4)-(414),(414)-(974) ------------------------------------------------------------- At this point, the following is performed. -------------------------------------------------- ----------- G0 = <{}, {}> G1 = <{(4), (37), (414), (502)}, {(4)-(37), (4)-(414), (4)-(502), (37)-(414), (37)-(502), (414)-(502)}> Arc not belonging to any class: (3)-(37), (37)-(65), (37)-(184), (65)-(184), (65)-(414), (66)-(414), (66 )-(974), (184)-(414), (414)-(974) ---------------------------- ---------------------------------
【0124】[4] i=1とする。[4] It is assumed that i = 1.
【0125】[1:G2の初期設定] G0,G1に含
まれないアーク(37)-(65)は、ノード(414)が、ア
ーク(37)-(414)、アーク(65)-(414)とで三角形
をなすので、G2として、<{((37),(65),(41
4)),{(37)-(65),(37)-(414),(65)-(41
4)}>が初期設定される[1: Initial Setting of G2] Arcs (37)-(65) not included in G0 and G1 are nodes (414) having arcs (37)-(414) and arcs (65)-(414). ) And a triangle, so that G2 is <{((37), (65), (41)
4)), {(37)-(65), (37)-(414), (65)-(41
4)}> is initialized
【0126】[2:G2の追加] G2に含まれるアー
ク(65)-(414)は、G2に含まれないノード(184)
とアーク(65)-(184)、アーク(184)-(414)とで
三角形をなし、かつG2に含まれるノード(37)とアー
ク(37)-(184)とで結ばれている。以上により、G2
には、ノード(184)とアーク(37)-(184)、アーク
(65)-(184)、アーク(184)-(414)が追加され
る。[2: Addition of G2] Arcs (65)-(414) included in G2 are nodes (184) not included in G2.
And arcs (65)-(184) and arcs (184)-(414) form a triangle and are connected by a node (37) included in G2 and arcs (37)-(184). From the above, G2
, Nodes (184), arcs (37)-(184), arcs (65)-(184), and arcs (184)-(414) are added.
【0127】[3] [2]へ戻る。[3] Return to [2].
【0128】[2:G2の追加] G2に含まれるいず
れのアークもG2に含まれないノードと三角形をなさな
いので、G2の処理は終了する。[2: Addition of G2] Since any arc included in G2 does not form a triangle with a node not included in G2, the process of G2 ends.
【0129】この時点で、次のようになっている。 ------------------------------------------------------------- G0=<{},{}> G1=<{(4),(37),(414),(502)},{(4)-(37),(4)-(414), (37)-(414),(4)-(502),(37)-(502),(414)-(502)}> G2=<{((37),(65),(184),(414)),{(37)-(65),(37)-(1 84),(37)-(414),(65)-(184),(65)-(414),(184)-(414)}> いずれのクラスにも属さないアーク:(3)-(37),(66)-(414),(66) -(974),(414)-(974) ------------------------------------------------------------- At this point, the following is performed. -------------------------------------------------- ----------- G0 = <{}, {}> G1 = <{(4), (37), (414), (502)}, {(4)-(37), (4)-(414), (37)-(414), (4)-(502), (37)-(502), (414)-(502)}> G2 = <{((37), (65), (184), (414)), {(37)-(65), (37)-(184), (37)-(414), (65)-(184), (65) -(414), (184)-(414)}> Arcs not belonging to any class: (3)-(37), (66)-(414), (66)-(974), (414) -(974) ---------------------------------------------- ---------------
【0130】[4] i=2とする。[4] It is assumed that i = 2.
【0131】[1:G3の初期設定] G0,G1,G
3に含まれないアーク(68)-(414)は、ノード(97
4)が、アーク(68)-(974)、アーク(414)-(974)
とで三角形をなすので、G2として、<{((68),(41
4),(974)),{(68)-(414),(68)-(974),(41
4)-(974)}>が初期設定される。[1: Initial setting of G3] G0, G1, G
Arcs (68)-(414) not included in node 3
4) Arc (68)-(974), Arc (414)-(974)
And a triangle, G <2 (<{((68), (41)
4), (974)), {(68)-(414), (68)-(974), (41
4)-(974)}> is initialized.
【0132】[2:G3の追加] G3に含まれるいず
れのアークもG3に含まれないノードと三角形をなさな
いので、G3の処理は終了する。[2: Addition of G3] Since any arc included in G3 does not form a triangle with a node not included in G3, the processing of G3 ends.
【0133】この時点で、次のようになっている。 ------------------------------------------------------------- G0=<{},{}> G1=<{(4),(37),(414),(502)},{(4)-(37),(4)-(414), (37)-(414),(4)-(502),(37)-(502),(414)-(502)}> G2=<{((37),(65),(184),(414)},{(37)-(65),(37)-(18 4),(37)-(414),(65)-(184),(65)-(414),(184)-(414)}> G3=<{((68),(414),(974)},{(68)-(414),(68)-(974),( 414)-(974)}> いずれのクラスにも属さないアーク:(3)-(37) ------------------------------------------------------------- At this point, the following is performed. -------------------------------------------------- ----------- G0 = <{}, {}> G1 = <{(4), (37), (414), (502)}, {(4)-(37), (4)-(414), (37)-(414), (4)-(502), (37)-(502), (414)-(502)}> G2 = <{((37), (65), (184), (414)}, {(37)-(65), (37)-(184), (37)-(414), (65)-(184), (65) -(414), (184)-(414)}> G3 = <{((68), (414), (974)}, {(68)-(414), (68)-(974), ( 414)-(974)}> Arc not belonging to any class: (3)-(37) -------------------------- -----------------------------------
【0134】[4] i=3とする。[4] It is assumed that i = 3.
【0135】[1:G4の初期設定] G0,G1,G
2,G3に含まれないアーク(3)-(37)は、いずれの
ノードとも三角形をなさない。G4に入れるグラフがな
いので、全体の処理を終了する。[1: Initial setting of G4] G0, G1, G
2. Arcs (3)-(37) not included in G3 do not form a triangle with any node. Since there is no graph to be put in G4, the entire process is terminated.
【0136】以上により、G0を除くと、図5に示す3
つのクラスタができたことになる。ここで、「競技場」
(414)は、G1,G2,G3に共通で、「ゴール」
は、G1,G2に共通である。As described above, when G0 is excluded, 3 shown in FIG.
One cluster is created. Here, "stadium"
(414) is common to G1, G2 and G3, and is a "goal"
Is common to G1 and G2.
【0137】.関連語情報の作成/格納 前記ステップ2の処理終了後、関連語情報として、単語
クラスタリングの結果を整理して、格納する(ステップ
S3)。[0137] Creation / Storage of Related Word Information After the processing in step 2 is completed, the results of word clustering are arranged and stored as related word information (step S3).
【0138】指定された単語の関連語をクラスタごとに
得るためには、単語から所属クラスタを得て、さらに、
そのクラスタに所属する単語を得ることができればよ
い。In order to obtain a related word of a specified word for each cluster, an affiliation cluster is obtained from the word, and
It is only necessary that words belonging to the cluster can be obtained.
【0139】クラスタに所属する単語は、ステップS2
で得たGiのノード集合により得ることができる。表6
は、前記の10単語におけるクラスタ所属の単語表であ
る。The words belonging to the cluster are determined in step S2.
Can be obtained from the Gi node set obtained in (1). Table 6
Is a word table belonging to the cluster in the 10 words.
【0140】[0140]
【表6】 [Table 6]
【0141】単語から所属クラスタを得る表は、表6
を、単語IDをキーに走査することで表7のように得ら
れる。The table for obtaining the belonging cluster from the word is shown in Table 6.
Is obtained as shown in Table 7 by scanning using the word ID as a key.
【0142】[0142]
【表7】 [Table 7]
【0143】ステップ3では、これらの表を作成し、各
々、クラスタ辞書、単語クラスタ辞書として関連語情報
記憶部4に記憶する。In step 3, these tables are created and stored in the related word information storage unit 4 as a cluster dictionary and a word cluster dictionary, respectively.
【0144】尚、単語クラスタ辞書は、実際には、単語
は表記で指定されることから、単語表記をキーとして表
8のように格納する。Incidentally, in the word cluster dictionary, since words are actually specified by notations, the words are stored as shown in Table 8 using word notations as keys.
【0145】[0145]
【表8】 [Table 8]
【0146】また、関連語の表示において、関連度の値
を参照するために表5も併せて関連語情報記憶部4に関
連度辞書として記憶する。In displaying related words, Table 5 is also stored in the related word information storage unit 4 as a related degree dictionary in order to refer to the value of the related degree.
【0147】(B) 関連語情報の表示 以上説明した“(A)関連語情報の作成/格納”によ
り、関連語提示装置1の関連語情報が作成/格納された
状態で、利用者の指示を契機として「関連語の表示」が
行われる。(B) Display of Related Word Information According to “(A) Creation / Storage of Related Word Information” described above, a user's instruction is issued while related word information of related word presentation device 1 is created / stored. "Display of related words" is performed.
【0148】次に、図6のフローチャートを参照して、
関連語提示装置1の「関連語情報の表示」の処理の流れ
を説明する。Next, referring to the flowchart of FIG.
The flow of the process of “displaying related word information” of the related word presentation device 1 will be described.
【0149】.単語の入力受付 利用者は、関連語を得たい単語の入力を単語入力部5に
より受付ける(ステップS11)。これにより単語入力
工程を実現している。[0149] Acceptance of Word Input The user accepts an input of a word for which a related word is to be obtained by the word input unit 5 (step S11). This implements a word input process.
【0150】.関連語情報の取得 次に、単語入力部5により受付けた単語の関連語情報を
取得する(ステップS12)。これにより関連語情報取
得工程を実現している。. Acquisition of related word information Next, related word information of the word received by the word input unit 5 is acquired (step S12). This realizes a related word information acquisition step.
【0151】以下では、単語入力部5により「競技場」
が入力された例で説明する。すなわち、入力された単語
「競技場」を、表8を格納した単語クラスタ辞書で検索
する。表8によれば、「競技場」は、単語IDが「41
4」、3つのクラスタ「1,2,3」に属していることがわか
る。In the following, the word input section 5 uses the word “stadium”
Will be described with an example in which is input. That is, the input word “stadium” is searched in the word cluster dictionary storing Table 8. According to Table 8, “stadium” has a word ID of “41”.
4 "and three clusters" 1, 2, 3 ".
【0152】次に表9を格納したクラスタ辞書により、
各クラスタに所属する単語の単語IDが次のように検索
できる。Next, according to the cluster dictionary storing Table 9,
The word ID of the word belonging to each cluster can be searched as follows.
【0153】・クラスタ1:(4単語) 4,37,414,502 ・クラスタ2:(4単語) 37,65,184,414 ・クラスタ3:(3単語) 68,414,974Cluster 1: (4 words) 4,37,414,502 Cluster 2: (4 words) 37,65,184,414 Cluster 3: (3 words) 68,414,974
【0154】入力単語を除いて、再び、表8の単語クラ
スタ辞書から各単語IDの単語(表記)を得ることで、
次のように、関連語を得ることができる。By obtaining the word (notation) of each word ID again from the word cluster dictionary of Table 8 except for the input word,
Related words can be obtained as follows.
【0155】・クラスタ1の関連語: 4「Jリーグ」,
37「ゴール」,502「鹿島」 ・クラスタ2の関連語: 37「ゴール」,65「トライ」,
184「花園」 ・クラスタ3の関連語: 68「トラック」,974「陸上競
技」Related words of cluster 1: 4 “J-League”,
37 “Goal”, 502 “Kashima” ・ Related words of Cluster 2: 37 “Goal”, 65 “Try”,
184 “Hanazono” ・ Related words of Cluster 3: 68 “Truck”, 974 “Athletics”
【0156】さらに入力単語との関連度も求めるように
してもよい。関連度は、表5の関連度辞書から得る。た
とえば、単語IDが414の「競技場」と単語IDが4の
「Jリーグ」の関連度は、関連度辞書のマトリクス上の
(4,414)の要素の値「5.69」となる。これにより、次
のような関連度([]内)を付加できる。Further, the degree of association with the input word may be obtained. The relevance is obtained from the relevance dictionary in Table 5. For example, the degree of association between “stadium” having a word ID of 414 and “J-League” having a word ID of 4 is the value “5.69” of the element of (4,414) on the matrix of the degree of association dictionary. As a result, the following degree of association (in []) can be added.
【0157】・クラスタ1の関連語: 4「Jリーグ」
[5.69],37「ゴール」[4.93],502「鹿島」[5.29] ・クラスタ2の関連語: 37「ゴール」[4.93],65
「トライ」[4.04],184「花園」[4.38] ・クラスタ3の関連語: 68「トラック」[5.07],974
「陸上競技」[5.18] 尚、上記の例には現れていないが、ここで得たクラスタ
は完全グラフではないので、単語と直接の関連度を持た
ない関連語もありうる。Related words for cluster 1: 4 "J-League"
[5.69], 37 "goals" [4.93], 502 "Kashima" [5.29]-Related words of cluster 2: 37 "goals" [4.93], 65
"Try" [4.04], 184 "flower garden" [4.38] ・ Related words of cluster 3: 68 "truck" [5.07], 974
"Athletics" [5.18] Although not shown in the above example, the cluster obtained here is not a complete graph, so some related words may not have a direct relevance to the word.
【0158】また、ある閾値以下のものは、関連語から
排除するようにしてもよい。たとえば、閾値を4.5とす
れば、次のようになる。[0158] Those below a certain threshold may be excluded from related words. For example, if the threshold is set to 4.5, the following is obtained.
【0159】・クラスタ1の関連語: 4「Jリーグ」
[5.69],37「ゴール」[4.93],502「鹿島」[5.29] ・クラスタ2の関連語: 37「ゴール」[4.93] ・クラスタ3の関連語: 68「トラック」[5.07],974
「陸上競技」[5.18]Related words for cluster 1: 4 "J-League"
[5.69], 37 "goals" [4.93], 502 "Kashima" [5.29]-Related words of cluster 2: 37 "goals" [4.93]-Related words of cluster 3: 68 "tracks" [5.07], 974
"Athletics" [5.18]
【0160】さらに、単語とクラスタ内の単語の関連度
に基づいた指標を用いるようにしてもよい。例えば、そ
の指標として、入力単語との関連度の平均値を用いると
すれば、指標は次のようになる。Further, an index based on the degree of association between a word and a word in a cluster may be used. For example, assuming that the average value of the relevance to the input word is used as the index, the index is as follows.
【0161】 ・クラスタ1: 5.30 ・クラスタ2: 4,45 ・クラスタ3: 5.13Cluster 1: 5.30 Cluster 2: 4,45 Cluster 3: 5.13
【0162】.関連語情報の表示 そして、ステップS2で得られた、入力された単語の関
連語をクラスタごとにグループ化して表示する(ステッ
プS13)。これにより関連語情報出力工程を実現して
いる。. Display of related word information Then, related words of the input word obtained in step S2 are grouped for each cluster and displayed (step S13). This realizes a related word information output step.
【0163】例えば、次のように表示する。 ------------------------------------------------------------- [A]:リーグ ゴール 鹿島 [B]:ゴール トライ 花園 [C]:トラック 陸上競技 ------------------------------------------------------------- ステップS2で、ある閾値以下のものを排除するとき
は、表示からも排除する。たとえば、閾値を5とすれ
ば、次のように表示する。 ------------------------------------------------------------- [A]:リーグ 鹿島 [B]:トラック 陸上競技 ------------------------------------------------------------- また、次のように、関連度の大きさの順に表示するよう
にしてもよい。 ------------------------------------------------------------- [A]:リーグ 鹿島 ゴール [B]:ゴール 花園 トライ [C]:陸上競技 トラック ------------------------------------------------------------- ステップS2で単語とクラスタ内の単語の関連度に基づ
いた指標を用いる場合は、単語とクラスタ内の単語の関
連度に基づいた指標の順にクラスタを表示する。たとえ
ば、その指標として、入力単語との関連度の平均値を用
いるとすれば、次のように表示される。 ------------------------------------------------------------- [A]:リーグ ゴール 鹿島 [B]:トラック 陸上競技 [C]:ゴール トライ 花園 ------------------------------------------------------------- For example, the following is displayed. -------------------------------------------------- ----------- [A]: League goal Kashima [B]: Goal Try Hanazono [C]: Track athletics ------------------ ------------------------------------------- In step S2, below a certain threshold When excluding things, they are also excluded from the display. For example, if the threshold value is 5, the display is as follows. -------------------------------------------------- ----------- [A]: League Kashima [B]: Track Athletics -------------------------- ----------------------------------- In addition, it is displayed in the order of the degree of relevance as follows You may make it. -------------------------------------------------- ----------- [A]: Goal Kashima goal [B]: Goal Hanazono try [C]: Athletics track ------------------ ------------------------------------------- In step S2, words and clusters When the index based on the relevance of the word is used, clusters are displayed in the order of the index based on the relevance of the word and the word in the cluster. For example, assuming that the average value of the relevance to the input word is used as the index, the following is displayed. -------------------------------------------------- ----------- [A]: League goal Kashima [B]: Track athletics [C]: Goal Try Hanazono ------------------ -------------------------------------------
【0164】[発明の実施の形態2]この発明の実施の
形態に関する別の例を、発明の実施の形態2として説明
する。[Second Embodiment of the Invention] Another example of the embodiment of the present invention will be described as a second embodiment of the present invention.
【0165】図7は、この発明の実施の形態2である文
書検索装置21の機能ブロック図である。図7に示すよ
うに、検索文入力部22は、文書検索のための検索文の
入力を受付け、それを検索部23へ送るとともに、関連
語提示の指示の入力も受け付け、その指示があれば検索
文を関連語提示部24にも送る。FIG. 7 is a functional block diagram of the document search device 21 according to the second embodiment of the present invention. As shown in FIG. 7, the search sentence input unit 22 receives an input of a search sentence for document search, sends the search sentence to the search unit 23, and also receives an input of a related word presentation instruction. The search sentence is also sent to the related word presentation unit 24.
【0166】文書データベース部25は、複数の文書を
登録管理する文書データベースを格納しており、例えば
リレーショナルデータベース管理システムにより管理す
る。このデータベースの管理する情報としては、1つの
文書について少なくともそのタイトルと文書内容の情報
とが含まれる。The document database unit 25 stores a document database for registering and managing a plurality of documents, and is managed by, for example, a relational database management system. The information managed by this database includes at least the title and document content information of one document.
【0167】検索部23は、検索文入力部22から与え
られた検索文を使って文書データベースを検索して、検
索結果を検索結果出力部26へ送る。これを受けて、検
索結果出力部26は検索結果を出力する。The search unit 23 searches the document database using the search sentence provided from the search sentence input unit 22, and sends the search result to the search result output unit 26. In response, the search result output unit 26 outputs the search result.
【0168】関連語提示部24は、検索文入力部22か
ら与えられた検索文中の単語を抽出して関連語を取得
し、その取得結果を関連語情報出力部7(図8参照)に
出力させるとともに、検索文修正部27にも関連語の情
報を送る。The related word presentation section 24 extracts words in the search sentence provided from the search sentence input section 22, acquires related words, and outputs the obtained result to the related word information output section 7 (see FIG. 8). At the same time, the information of the related word is also sent to the search sentence correcting unit 27.
【0169】検索文修正部27は、関連語提示部24に
より提示された関連語のうち、そのすべて、または、検
索文入力部22による入力で指定された関連語につい
て、例えば検索文に追加する等、検索文の修正を行う。The search sentence correcting unit 27 adds all of the related words presented by the related word presentation unit 24 or the related words specified by the input by the search sentence input unit 22 to, for example, a search sentence. Modify the search sentence.
【0170】図8は、関連語提示部24の機能ブロック
図である。図8に示すように、関連語提示部24は、発
明の実施の形態1の関連語提示装置1と同様の単語クラ
スタリング部3、関連語情報記憶部4、単語入力部5、
関連語情報取得部6、関連語情報出力部7を備えてい
る。また、文書データベース部25を文書データベース
部2として使用する。また、単語入力部5に代えて単語
取得部28を備えている。この単語取得部28は、検索
文入力部22で入力した検索文中の単語を抽出して関連
語を取得し、その取得結果を関連語情報出力部7、関連
語情報取得部6に出力する。この場合に、検索文入力部
22による入力で指定された関連語についてのみ、検索
文修正部27で検索文の修正を行う場合には、検索文入
力部22による入力で指定された関連語のみが関連語情
報取得部6に出力される。FIG. 8 is a functional block diagram of the related word presentation unit 24. As shown in FIG. 8, the related word presentation unit 24 includes a word clustering unit 3, a related word information storage unit 4, a word input unit 5, similar to the related word presentation device 1 according to the first embodiment of the present invention.
A related word information acquisition unit 6 and a related word information output unit 7 are provided. The document database unit 25 is used as the document database unit 2. Further, a word acquisition unit 28 is provided instead of the word input unit 5. The word acquisition unit 28 extracts a word in the search sentence input by the search sentence input unit 22 to acquire a related word, and outputs the obtained result to the related word information output unit 7 and the related word information acquisition unit 6. In this case, if the search sentence correction unit 27 corrects the search sentence only for the related words specified by the input by the search sentence input unit 22, only the related words specified by the input by the search sentence input unit 22 Is output to the related word information acquisition unit 6.
【0171】図7、図8に示す文書検索装置21の具体
的なハードウエア構成は、図2に示す発明の実施の形態
1の関連語提示装置1と同様である。そして、ハードデ
ィスク17には、文書検索プログラムがインストールさ
れている。この文書検索プログラムは、記憶媒体18に
記憶されていて、記憶媒体読取装置19により読み取っ
てハードディスク17にインストールすることができ
る。また、インターネットなどのネットワークから関連
語提示プログラムをダウンロードしてハードディスク1
7にインストールすることができる。The specific hardware configuration of the document search device 21 shown in FIGS. 7 and 8 is the same as that of the related word presentation device 1 according to the first embodiment of the present invention shown in FIG. A document search program is installed on the hard disk 17. This document search program is stored in the storage medium 18 and can be read by the storage medium reading device 19 and installed on the hard disk 17. Also, a related word presentation program is downloaded from a network such as the Internet,
7 can be installed.
【0172】文書データベース部25はハードディスク
17内に構築される。ハードディスク17に文書検索プ
ログラムがインストールされることにより、CPU11
は、文書検索プログラムに基づいて、検索部23、関連
語提示部24、検索文修正部27の機能を実行する。関
連語情報記憶部4の記憶エリアは、RAM13またはハ
ードディスク17に確保される。また、入力装置16を
介して単語入力部5の機能を実行し、出力装置15を介
して検索結果出力部26、関連語情報出力部7の機能を
実行する。文書検索プログラムは、所定のOS上で動作
するものであってもよい。また、OSや他のアプリケー
ションソフトに、その機能の一部を代行させるものであ
ってもよい。The document database section 25 is constructed in the hard disk 17. When the document search program is installed on the hard disk 17, the CPU 11
Executes the functions of the search unit 23, the related word presentation unit 24, and the search sentence correction unit 27 based on the document search program. The storage area of the related word information storage unit 4 is secured in the RAM 13 or the hard disk 17. The function of the word input unit 5 is executed via the input device 16, and the functions of the search result output unit 26 and the related word information output unit 7 are executed via the output device 15. The document search program may operate on a predetermined OS. Further, a part of the function may be performed on behalf of the OS or other application software.
【0173】次に、図9、図10のフローチャートを参
照して、文書検索装置21が行う処理について説明す
る。図9に示すように、まず、検索文入力部22を介し
て利用者から必要とする文書に対する検索文の入力を受
付ける(ステップS21)。これにより検索文入力工程
を実現している。次に、検索語、検索語をAND演算子
(論理積)やOR演算子(論理和)等の論理記号で結合
した検索条件式、または、自然言語文や自然言語文から
なる文書の一部や全部である検索文を条件として、文書
データベース部25に関する検索を検索部23で行い
(ステップS22)、その検索結果を文書タイトルの一
覧として検索結果出力部26を介して表示する(ステッ
プS23)。ステップS22により検索工程を、ステッ
プS23により検索結果出力工程を実現している。Next, the processing performed by the document search device 21 will be described with reference to the flowcharts of FIGS. As shown in FIG. 9, first, a search sentence input for a required document is received from the user via the search sentence input unit 22 (step S21). This implements a search sentence input step. Next, a search term, a search condition expression in which the search term is combined with a logical symbol such as an AND operator (logical product) or an OR operator (logical sum), or a part of a document composed of natural language sentences or natural language sentences The search unit 23 performs a search on the document database unit 25 under the condition that the search sentence is all or all (step S22), and displays the search results as a list of document titles via the search result output unit 26 (step S23). . The search step is realized by step S22, and the search result output step is realized by step S23.
【0174】以上のステップS21〜23の文書検索の
流れの中で、検索文の入力中、入力後、検索結果の閲覧
の後など、さまざまな契機に、関連語提示の要求を、検
索文入力部22を介して利用者から受付けたときは(ス
テップS31)、検索文の中の単語を抽出する(ステッ
プS32)。そして、検索文中の単語ごとに関連語情報
を取得し(ステップS33)、取得された関連語情報を
関連語情報出力部7で出力する。そして、この出力した
関連語情報に対して、修正指示を利用者から受け付け
(ステップS34)、検索文を修正する(ステップS3
5)。ステップS31〜S33により関連語提示工程を
実現し、ステップS32により単語取得工程を実現し、
ステップS34,S35により検索文修正工程を実現し
ている。In the flow of the document search in steps S21 to S23, at various occasions such as during input of the search text, after input, after browsing of the search result, the request for the related word presentation is input. When received from the user via the unit 22 (step S31), a word in the search sentence is extracted (step S32). Then, related word information is obtained for each word in the search sentence (step S33), and the obtained related word information is output by the related word information output unit 7. Then, a correction instruction is received from the user for the output related word information (step S34), and the search text is corrected (step S3).
5). A related word presentation process is realized by steps S31 to S33, and a word acquisition process is realized by step S32.
Steps S34 and S35 implement a search sentence correcting step.
【0175】[0175]
【発明の効果】請求項1に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。According to the first aspect of the present invention, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, so that the user can efficiently obtain related words. We can help you make a choice.
【0176】請求項2に記載の発明は、請求項1に記載
の関連語情報作成装置において、単語間の関連度に基づ
いて作成した関連語情報を用いて、関連語を相互に関連
度の高いクラスタごとに提示することを可能として、利
用者に関連語の効率的な選択を支援することができる。According to a second aspect of the present invention, in the related word information creating apparatus according to the first aspect, the related words are mutually related by using the related word information created based on the degree of relevance between words. It is possible to present for each high cluster, and it is possible to assist the user in efficiently selecting related words.
【0177】請求項3に記載の発明は、請求項2に記載
の関連語情報作成装置において、排他的でないクラスタ
リングを行って、関連語を相互に関連度の高いクラスタ
ごとに提示することを可能として、利用者に関連語の効
率的な選択を支援することができる。According to a third aspect of the present invention, in the related word information creating apparatus according to the second aspect, non-exclusive clustering is performed, and related words can be presented for each cluster having a high degree of mutual relation. As a result, it is possible to assist the user in efficiently selecting related words.
【0178】請求項4に記載の発明は、請求項1〜3の
いずれかの一に記載の関連語情報作成装置において、ク
ラスタ辞書および単語クラスタ辞書を参照して、関連語
を相互に関連度の高いクラスタごとに提示することを可
能として、利用者に関連語の効率的な選択を支援するこ
とができる。According to a fourth aspect of the present invention, in the related word information creating apparatus according to any one of the first to third aspects, the related words are related to each other by referring to the cluster dictionary and the word cluster dictionary. It is possible to present for each cluster having a high level, and to assist the user in efficiently selecting related words.
【0179】請求項5に記載の発明は、作成した関連語
情報を用いて関連語を相互に関連度の高いクラスタごと
に提示することを可能として、利用者に関連語の効率的
な選択を支援することができる。The invention according to claim 5 makes it possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, thereby enabling the user to efficiently select related words. I can help.
【0180】請求項6に記載の発明は、請求項5に記載
の関連語提示装置において、関連語を求めたい単語との
関連度が高いものだけを関連語として求めることができ
る。According to a sixth aspect of the present invention, in the related word presenting apparatus according to the fifth aspect, only a word having a high degree of relevance to a word for which a related word is to be obtained can be obtained as a related word.
【0181】請求項7に記載の発明は、請求項5に記載
の関連語提示装置において、関連語を求めたい単語との
関連度が高いものだけを関連語として出力することがで
きる。According to a seventh aspect of the present invention, in the related word presenting apparatus according to the fifth aspect, only a word having a high degree of relevance to a word for which a related word is to be obtained can be output as a related word.
【0182】請求項8に記載の発明は、請求項5〜7の
いずれかの一に記載の関連語提示装置において、関連語
を求めたい単語との関連度に基づいた指標の順に関連語
を出力することができる。[0182] According to the invention of claim 8, in the related word presentation device according to any one of claims 5 to 7, the related words are displayed in the order of indices based on the degree of relevance to the word whose related word is to be obtained. Can be output.
【0183】請求項9に記載の発明は、検索文に含まれ
る単語の関連語を相互に関連度の高いクラスタごとに提
示することを可能として、検索漏れの防止や、検索の絞
り込みの効率を向上させることができる。According to the ninth aspect of the present invention, it is possible to present related words of words included in a search sentence for each cluster having a high degree of mutual relevance, thereby preventing search omission and improving the efficiency of search narrowing. Can be improved.
【0184】請求項10に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。According to the tenth aspect of the present invention, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, thereby enabling a user to efficiently select related words. I can help.
【0185】請求項11に記載の発明は、請求項10に
記載の関連語情報作成方法において、単語間の関連度に
基づいて作成した関連語情報を用いて、関連語を相互に
関連度の高いクラスタごとに提示することを可能とし
て、利用者に関連語の効率的な選択を支援することがで
きる。According to an eleventh aspect of the present invention, in the related word information creating method according to the tenth aspect, the related words are mutually related by using the related word information created based on the degree of association between the words. It is possible to present for each high cluster, and it is possible to assist the user in efficiently selecting related words.
【0186】請求項12に記載の発明は、排他的でない
クラスタリングを行って、関連語を相互に関連度の高い
クラスタごとに提示することを可能として、利用者に関
連語の効率的な選択を支援することができる。According to the twelfth aspect of the present invention, by performing non-exclusive clustering, related words can be presented for each cluster having a high degree of mutual relevance, and the user can efficiently select related words. I can help.
【0187】請求項13に記載の発明は、請求項10〜
12のいずれかの一に記載の関連語情報作成方法におい
て、クラスタ辞書および単語クラスタ辞書を参照して、
関連語を相互に関連度の高いクラスタごとに提示するこ
とを可能として、利用者に関連語の効率的な選択を支援
することができる。The thirteenth aspect of the present invention relates to the tenth aspect.
12. In the related-word information creating method according to any one of the above 12, the cluster word dictionary and the word cluster dictionary are referred to,
Related words can be presented for each cluster having a high degree of mutual relevance, and it is possible to assist the user in efficiently selecting related words.
【0188】請求項14に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。The invention according to claim 14 makes it possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, so that the user can efficiently select related words. I can help.
【0189】請求項15に記載の発明は、請求項14に
記載の関連語提示方法において、関連語を求めたい単語
との関連度が高いものだけを関連語として求めることが
できる。According to a fifteenth aspect of the present invention, in the related word presentation method according to the fourteenth aspect, only a word having a high degree of relevance to a word for which a related word is to be obtained can be obtained as a related word.
【0190】請求項16に記載の発明は、請求項14に
記載の関連語提示方法において、関連語を求めたい単語
との関連度が高いものだけを関連語として出力すること
ができる。According to a sixteenth aspect of the present invention, in the related word presentation method according to the fourteenth aspect, only a word having a high degree of relevance to a word whose related word is to be obtained can be output as a related word.
【0191】請求項17に記載の発明は、請求項14〜
16のいずれかの一に記載の関連語提示方法において、
関連語を求めたい単語との関連度に基づいた指標の順に
関連語を出力することができる。The invention according to claim 17 is the invention according to claims 14 to
16. The related-word presentation method according to any one of 16.
Related words can be output in the order of indices based on the degree of relevance to the word for which a related word is to be obtained.
【0192】請求項18に記載の発明は、検索文に含ま
れる単語の関連語を相互に関連度の高いクラスタごとに
提示することを可能として、検索漏れの防止や、検索の
絞り込みの効率を向上させることができる。The invention according to claim 18 makes it possible to present related words of a word included in a search sentence for each cluster having a high degree of mutual relation, thereby preventing search omission and improving the efficiency of search narrowing. Can be improved.
【0193】請求項19に記載の発明は、作成した関連
語情報を用いて関連語を相互に関連度の高いクラスタご
とに提示することを可能として、利用者に関連語の効率
的な選択を支援することができる。According to the nineteenth aspect of the present invention, it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, so that the user can efficiently select related words. I can help.
【0194】請求項20に記載の発明は、請求項19に
記載の記憶媒体において、単語間の関連度に基づいて作
成した関連語情報を用いて、関連語を相互に関連度の高
いクラスタごとに提示することを可能として、利用者に
関連語の効率的な選択を支援することができる。According to a twentieth aspect of the present invention, there is provided the storage medium according to the nineteenth aspect, wherein related words are created for each cluster having a high degree of mutual relevance by using related word information created based on the degree of relevancy between words. To support the user in efficiently selecting related words.
【0195】請求項21に記載の発明は、請求項20に
記載の記憶媒体において、排他的でないクラスタリング
を行って、関連語を相互に関連度の高いクラスタごとに
提示することを可能として、利用者に関連語の効率的な
選択を支援することができる。According to the twenty-first aspect, in the storage medium according to the twentieth aspect, non-exclusive clustering is performed so that related words can be presented for each cluster having a high degree of mutual relation. Can help people to select related words efficiently.
【0196】請求項22に記載の発明は、請求項19〜
21のいずれかの一に記載の記憶媒体において、クラス
タ辞書および単語クラスタ辞書を参照して、関連語を相
互に関連度の高いクラスタごとに提示することを可能と
して、利用者に関連語の効率的な選択を支援することが
できる。The invention according to claim 22 is the invention according to claims 19 to
21. The storage medium according to any one of 21., wherein the related word can be presented for each cluster having a high degree of mutual relevance by referring to the cluster dictionary and the word cluster dictionary. Can help you make better choices.
【0197】請求項23に記載の発明は、請求項19〜
22のいずれかの一に記載の記憶媒体において、作成し
た関連語情報を用いて関連語を相互に関連度の高いクラ
スタごとに提示することを可能として、利用者に関連語
の効率的な選択を支援することができる。The invention described in claim 23 is the invention according to claims 19 to
22. In the storage medium according to any one of 22., it is possible to present related words for each cluster having a high degree of mutual relevance by using the created related word information, so that a user can efficiently select related words. Can help.
【0198】請求項24に記載の発明は、請求項23に
記載の記憶媒体において、関連語を求めたい単語との関
連度が高いものだけを関連語として求めることができ
る。According to the twenty-fourth aspect of the present invention, in the storage medium according to the twenty-third aspect, only those having a high degree of relevance to a word for which a related word is to be obtained can be obtained as related words.
【0199】請求項25に記載の発明は、請求項23に
記載の記憶媒体において、関連語を求めたい単語との関
連度が高いものだけを関連語として出力することができ
る。According to the twenty-fifth aspect of the present invention, in the storage medium according to the twenty-third aspect, only a word having a high degree of relevance to a word whose related word is to be obtained can be output as a related word.
【0200】請求項26に記載の発明は、請求項23〜
25のいずれかの一に記載の記憶媒体において、関連語
を求めたい単語との関連度に基づいた指標の順に関連語
を出力することができる。The invention according to claim 26 is the invention according to claims 23 to
25. The storage medium according to any one of 25, wherein the related words can be output in the order of the index based on the degree of relevance to the word for which the related word is to be obtained.
【0201】請求項27に記載の発明は、請求項23〜
26のいずれかの一に記載の記憶媒体において、検索文
に含まれる単語の関連語を相互に関連度の高いクラスタ
ごとに提示することを可能として、検索漏れの防止や、
検索の絞り込みの効率を向上させることができる。The invention according to claim 27 is the invention according to claims 23 to
26. In the storage medium according to any one of the items 26, it is possible to present related words of a word included in the search sentence for each cluster having a high degree of mutual relevance, thereby preventing search omission,
The efficiency of search narrowing can be improved.
【図1】この発明の実施の形態1である関連語提示装置
の機能ブロック図である。FIG. 1 is a functional block diagram of a related word presentation device according to a first embodiment of the present invention.
【図2】前記関連語提示装置のハードウエア構成を示す
ブロック図である。FIG. 2 is a block diagram showing a hardware configuration of the related word presentation device.
【図3】前記関連語提示装置が行う処理を示すフローチ
ャートである。FIG. 3 is a flowchart showing a process performed by the related word presentation device.
【図4】前記関連語提示装置による関連語情報の作成を
説明する説明図である。FIG. 4 is an explanatory diagram illustrating creation of related word information by the related word presentation device.
【図5】同関連語情報の作成を説明する説明図である。FIG. 5 is an explanatory diagram illustrating creation of the related word information.
【図6】前記関連語提示装置が行う処理を示すフローチ
ャートである。FIG. 6 is a flowchart showing a process performed by the related word presentation device.
【図7】この発明の実施の形態2である文書検索装置の
機能ブロック図である。FIG. 7 is a functional block diagram of a document search device according to a second embodiment of the present invention.
【図8】前記文書検索装置の関連語提示部の機能ブロッ
ク図である。FIG. 8 is a functional block diagram of a related word presentation unit of the document search device.
【図9】前記文書検索装置が行う処理を説明するフロー
チャートである。FIG. 9 is a flowchart illustrating a process performed by the document search device.
【図10】同フローチャートである。FIG. 10 is a flowchart of the same.
1 関連語提示装置 2 文書データベース部 3 単語クラスタリング部 4 関連語情報記憶部 5 単語入力部 6 関連語情報取得部 7 関連語情報出力部 18…記憶媒体 21…文書検索装置 22…検索文入力部 23…検索部 24…関連語提示部 25…文書データベース部 26…検索結果出力部 27…検索文修正部 28…単語取得部 REFERENCE SIGNS LIST 1 related word presentation device 2 document database unit 3 word clustering unit 4 related word information storage unit 5 word input unit 6 related word information acquisition unit 7 related word information output unit 18 storage medium 21 document search device 22 search text input unit 23 search unit 24 related word presentation unit 25 document database unit 26 search result output unit 27 search sentence correction unit 28 word search unit
Claims (27)
に参照する関連語情報を作成する関連語情報作成装置に
おいて、 複数の文書を記憶する文書データベース部を参照して、
前記複数の文書に含まれる単語をクラスタリングし、当
該単語をその意味または分野ごとのクラスタに分類して
前記関連語情報を作成する単語クラスタリング部を備え
ていることを特徴とする関連語情報作成装置。1. A related word information creating apparatus for creating related word information to be referred to to acquire a related word of a given word, wherein the related word information creating device refers to a document database unit that stores a plurality of documents.
A word clustering unit that clusters words included in the plurality of documents, classifies the words into clusters for each meaning or field, and creates the related word information. .
間の関連度に基づき前記クラスタリングを行うことを特
徴とする請求項1に記載の関連語情報作成装置。2. The related word information creating apparatus according to claim 1, wherein the word clustering unit performs the clustering based on a degree of association between the words.
をノード、単語間にある関連をアークとしたグラフの全
体から関連性の高い部分グラフをクラスタとして抽出
し、得られたクラスタのノード集合を得ることで前記ク
ラスタリングを行うことを特徴とする請求項2に記載の
関連語情報作成装置。3. The word clustering unit extracts a highly relevant subgraph as a cluster from the entire graph in which the word is a node and the relation between words is an arc, and obtains a node set of the obtained cluster. 3. The related-word information creating apparatus according to claim 2, wherein the clustering is performed.
スタを識別するクラスタIDと当該クラスタに所属する
前記単語を識別する単語IDとを関連付けたクラスタ辞
書および前記単語ごとにその単語の前記単語IDと当該
単語が所属する前記クラスタの前記クラスタIDとを関
連付けた単語クラスタ辞書を、前記関連語情報として作
成することを特徴とする請求項1〜3のいずれかの一に
記載の関連語情報作成装置。4. The word clustering unit includes: a cluster dictionary that associates a cluster ID for identifying the cluster with a word ID for identifying the word belonging to the cluster; and for each word, the word ID of the word and The related word information creating apparatus according to any one of claims 1 to 3, wherein a word cluster dictionary in which a cluster ID of the cluster to which a word belongs is created as the related word information.
連語情報作成装置と、 この関連語情報作成装置で作成した前記関連語情報を記
憶する関連語情報記憶部と、 関連語を取得したい単語の入力を受付ける単語入力部
と、 この関連語情報記憶部を参照して、与えられた単語の関
連語を求める関連語情報取得部と、 この得られた関連語を出力する関連語情報出力部と、を
備えていることを特徴とする関連語提示装置。5. A related-word information creating device according to claim 1, a related-word information storage unit that stores the related-word information created by the related-word information creating device, and a related word. A word input unit for receiving an input of a word to obtain a related word, a related word information acquiring unit for referring to the related word information storage unit to find a related word of a given word, and a related unit for outputting the obtained related word. And a word information output unit.
報記憶部の参照により前記関連語として求めうる単語の
うち前記単語入力部で入力した単語との関連度が高いも
のに限定して前記関連語として求めることを特徴とする
請求項5に記載の関連語提示装置。6. The related word information acquiring unit restricts only words that can be obtained as the related words by referring to the related word information storage unit to those having a high degree of relevance to the word input in the word input unit. The related word presentation device according to claim 5, wherein the related word is obtained as the related word.
報取得部で求めた前記関連語のうち前記単語入力部で入
力した単語との関連度が高いものに限定して出力するこ
とを特徴とする請求項5に記載の関連語提示装置。7. The related word information output unit outputs only the related words obtained by the related word information acquisition unit that have a high degree of relevance to the word input by the word input unit. The related word presentation device according to claim 5, wherein
ラスタ内にある前記関連語は前記単語入力部で入力した
単語との関連度に基づいた指標の順に出力することを特
徴とする請求項5〜7のいずれかの一に記載の関連語提
示装置。8. The related word information output unit outputs the related words in the same cluster in the order of indices based on the degree of relevance to the word input by the word input unit. Item 8. The related-word presentation device according to any one of Items 5 to 7.
と、 この入力された検索文に照合する文書を、複数の文書を
記憶した文書データベース部を参照して検索する検索部
と、 この得られた検索結果を出力する検索結果出力部と、 前記単語入力部に代えて、前記検索文入力部で入力され
た前記検索文から単語を抽出し、この抽出した単語を前
記関連語情報取得部に入力する単語取得部を備えている
請求項5〜8のいずれかの一に記載の関連語提示装置
と、 前記全てまたは指定された単語に基づいて関連語提示装
置で求めた前記関連語に基づいて前記前記検索文入力部
で入力された前記検索文を修正する検索文修正部と、を
備えていることを特徴とする文書検索装置。9. A search sentence input unit for receiving an input of a search sentence, a search unit for searching for a document to be matched with the input search sentence by referring to a document database unit storing a plurality of documents, A search result output unit for outputting the obtained search result, a word is extracted from the search sentence input by the search sentence input unit instead of the word input unit, and the extracted word is used as the related word information acquisition unit The related word presentation device according to any one of claims 5 to 8, further comprising: a word acquisition unit configured to input to the related word obtained by the related word presentation device based on all or specified words. And a search sentence correction unit for correcting the search sentence input by the search sentence input unit based on the search sentence input unit.
めに参照する関連語情報を作成する関連語情報作成方法
において、 複数の文書を登録した文書データベース部を参照するこ
とにより、前記複数の文書に含まれる単語をクラスタリ
ングし、当該単語をその意味または分野ごとのクラスタ
に分類して前記関連語情報を作成する単語クラスタリン
グ工程を含んでなることを特徴とする関連語情報作成方
法。10. A related word information creating method for creating related word information to be referred to to obtain a related word of a given word, wherein the plurality of documents are registered by referring to a document database unit. A related word information creating method, comprising: clustering words included in a document, classifying the words into clusters for each meaning or field, and creating the related word information.
単語間の関連度に基づき前記クラスタリングを行うこと
を特徴とする請求項10に記載の関連語情報作成方法。11. The related word information creating method according to claim 10, wherein in the word clustering step, the clustering is performed based on a degree of association between the words.
単語をノード、単語間にある関連をアークとしたグラフ
の全体から完全グラフやそれをやや緩めた推移律グラフ
をクラスタとして抽出し、得られたクラスタのノード集
合を得ることで前記クラスタリングを行うことを特徴と
する請求項11に記載の関連語情報作成方法。12. The word clustering step extracts a complete graph or a transitory graph slightly loosened as a cluster from the entire graph in which the word is a node and the relationship between words is an arc, and the obtained cluster is obtained. 12. The related-word information creating method according to claim 11, wherein the clustering is performed by obtaining a set of nodes.
クラスタを識別するクラスタIDと当該クラスタに所属
する前記単語を識別する単語IDとを関連付けたクラス
タ辞書および前記単語ごとにその単語の前記単語IDと
当該単語が所属する前記クラスタの前記クラスタIDと
を関連付けた単語クラスタ辞書を、前記関連語情報とし
て作成することを特徴とする請求項10〜12のいずれ
かの一に記載の関連語情報作成方法。13. The word clustering step includes a cluster dictionary in which a cluster ID for identifying the cluster and a word ID for identifying the word belonging to the cluster are associated with each other. 13. The related word information creating method according to claim 10, wherein a word cluster dictionary that associates the cluster ID of the cluster to which a word belongs with is created as the related word information.
ける単語入力工程と、 請求項10〜13のいずれかの一に記載の関連語情報作
成方法で作成した前記関連語情報を記憶している関連語
情報記憶部を参照して、前記単語入力工程で与えられた
単語の関連語を求める関連語情報取得工程と、 この得られた関連語を出力する関連語情報出力工程と、
を含んでなることを特徴とする関連語提示方法。14. A word input step for receiving an input of a word for which a related word is to be acquired, and the related word information created by the related word information creating method according to claim 10. A related word information obtaining step of referring to a related word information storage unit to obtain a related word of the word given in the word input step; a related word information output step of outputting the obtained related word;
A related word presentation method characterized by comprising:
語情報記憶部の参照により前記関連語として求めうる単
語のうち前記単語入力部で入力した単語との関連度が高
いものに限定して前記関連語として求めることを特徴と
する請求項14に記載の関連語提示方法。15. The related word information acquiring step is limited to a word which can be obtained as the related word by referring to the related word information storage unit, to a word having a high degree of relevance with the word input in the word input unit. The related word presentation method according to claim 14, wherein the related word is obtained as the related word.
語情報取得部で求めた前記関連語のうち前記単語入力部
で入力した単語との関連度が高いものに限定して出力す
ることを特徴とする請求項14に記載の関連語提示方
法。16. The related word information output step includes, of the related words obtained by the related word information acquiring unit, outputting only the related words having a high degree of relevance to the word input by the word input unit. The related word presentation method according to claim 14, wherein the related word presentation method is used.
記クラスタ内にある前記関連語は前記単語入力部で入力
した単語との関連度に基づいた指標の順に出力すること
を特徴とする請求項14〜16のいずれかの一に記載の
関連語提示方法。17. The related word information output step, wherein the related words in the same cluster are output in the order of indices based on the degree of relevance to the word input in the word input unit. Item 17. The related word presentation method according to any one of Items 14 to 16.
程と、 この入力された検索文に照合する文書を、複数の文書を
記憶した文書データベース部を参照して検索する検索工
程と、 この得られた検索結果を出力する検索結果出力工程と、 前記単語入力工程に代えて、前記検索文入力部で入力さ
れた前記検索文から単語を抽出し、この抽出した単語を
前記関連語情報取得工程に供する単語取得工程と含んで
なる請求項14〜17のいずれかの一に記載の関連語提
示方法により、前記全てまたは指定された単語に基づい
て前記関連語を求める関連語提示工程と、 この求めた関連語に基づいて前記検索文入力工程で入力
された前記検索文を修正する検索文修正工程と、を含ん
でなることを特徴とする文書検索方法。18. A search sentence input step of receiving a search sentence input, a search step of searching for a document to be matched with the input search sentence by referring to a document database unit storing a plurality of documents, A search result output step of outputting the obtained search result; and, in place of the word input step, extracting a word from the search sentence input in the search sentence input unit, and extracting the extracted word into the related word information obtaining step. A related word presenting step of obtaining the related word based on all or specified words, by the related word presenting method according to any one of claims 14 to 17, comprising: A search sentence correcting step of correcting the search sentence input in the search sentence input step based on the obtained related words.
めに参照する関連語情報の作成をコンピュータに実行さ
せる関連語情報作成プログラムを記憶しているコンピュ
ータに読取可能な記憶媒体において、 前記関連語情報作成プログラムは、 複数の文書を登録した文書データベース部を参照するこ
とにより、前記複数の文書に含まれる単語をクラスタリ
ングし、当該単語をその意味または分野ごとのクラスタ
に分類して前記関連語情報を作成する単語クラスタリン
グ工程をコンピュータに実行させることを特徴とする記
憶媒体。19. A computer-readable storage medium storing a related word information creating program for causing a computer to create related word information to be referred to in order to acquire a related word of a given word, The word information creation program clusters words included in the plurality of documents by referring to a document database unit in which the plurality of documents are registered, classifies the words into clusters for each meaning or field, and generates the related word. A storage medium for causing a computer to execute a word clustering step of creating information.
単語間の関連度に基づき前記クラスタリングを行うこと
を特徴とする請求項19に記載の記憶媒体。20. The storage medium according to claim 19, wherein in the word clustering step, the clustering is performed based on a degree of association between the words.
単語をノード、単語間にある関連をアークとしたグラフ
の全体から完全グラフやそれをやや緩めた推移律グラフ
をクラスタとして抽出し、得られたクラスタのノード集
合を得ることで前記クラスタリングを行うことを特徴と
する請求項20に記載の記憶媒体。21. The word clustering step extracts, as a cluster, a complete graph or a transitivity graph slightly loosened from the entire graph in which the word is a node and the relationship between the words is an arc. 21. The storage medium according to claim 20, wherein the clustering is performed by obtaining a set of nodes.
クラスタを識別するクラスタIDと当該クラスタに所属
する前記単語を識別する単語IDとを関連付けたクラス
タ辞書および前記単語ごとにその単語の前記単語IDと
当該単語が所属する前記クラスタの前記クラスタIDと
を関連付けた単語クラスタ辞書を、前記関連語情報とし
て作成することを特徴とする請求項19〜21のいずれ
かの一に記載の記憶媒体。22. The word clustering step includes: a cluster dictionary in which a cluster ID for identifying the cluster is associated with a word ID for identifying the word belonging to the cluster; 22. The storage medium according to claim 19, wherein a word cluster dictionary in which a cluster ID of the cluster to which a word belongs is created as the related word information.
ける単語入力工程と、 前記関連語情報作成プログラムに基づいてコンピュータ
が作成した前記関連語情報を記憶している関連語情報記
憶部を参照して、前記単語入力工程で与えられた単語の
関連語を求める関連語情報取得工程と、 この得られた関連語を出力する関連語情報出力工程と、 をコンピュータに実行させる関連語提示プログラムを記
憶している請求項19〜22のいずれかの一に記載の記
憶媒体。23. A word input step of receiving an input of a word for which a related word is to be acquired, and referring to a related word information storage unit storing the related word information created by a computer based on the related word information creation program. A related word information obtaining step of obtaining a related word of the word given in the word input step; and a related word information output step of outputting the obtained related word. The storage medium according to any one of claims 19 to 22, wherein the storage medium is a storage medium.
語情報記憶部の参照により前記関連語として求めうる単
語のうち前記単語入力部で入力した単語との関連度が高
いものに限定して前記関連語として求めることを特徴と
する請求項23に記載の記憶媒体。24. The related word information acquiring step is limited to a word that can be obtained as the related word by referring to the related word information storage unit, to a word having a high degree of relevance with the word input in the word input unit. The storage medium according to claim 23, wherein the storage medium is determined as the related word.
語情報取得部で求めた前記関連語のうち前記単語入力部
で入力した単語との関連度が高いものに限定して出力す
ることを特徴とする請求項23に記載の記憶媒体。25. The related word information output step includes, of the related words obtained by the related word information obtaining unit, outputting only the related words having a high degree of relevance to the word input by the word input unit. The storage medium according to claim 23, characterized in that:
記クラスタ内にある前記関連語は前記単語入力部で入力
した単語との関連度に基づいた指標の順に出力すること
を特徴とする請求項23〜25のいずれかの一に記載の
記憶媒体。26. The related word information output step, wherein the related words in the same cluster are output in the order of indices based on the degree of relevance to the word input by the word input unit. Item 30. The storage medium according to any one of items 23 to 25.
程と、 この入力された検索文に照合する文書を、複数の文書を
記憶した文書データベース部を参照して検索する検索工
程と、 この得られた検索結果を出力する検索結果出力工程と、 前記単語入力工程に代えて、前記検索文入力部で入力さ
れた前記検索文から単語を抽出し、この抽出した単語を
前記関連語情報取得工程に供する単語取得工程とコンピ
ュータに実行させる前記関連語提示プログラムにより、
前記全てまたは指定された単語に基づいて前記関連語を
求める関連語提示工程と、 この求めた関連語に基づいて前記検索文入力工程で入力
された前記検索文を修正する検索文修正工程と、をコン
ピュータに実行させる文書検索プログラムを記憶してい
る請求項23〜26のいずれかの一に記載の記憶媒体。27. A search sentence input step of receiving a search sentence input, a search step of searching for a document to be matched with the input search sentence by referring to a document database unit storing a plurality of documents, A search result output step of outputting the obtained search result; and, in place of the word input step, extracting a word from the search sentence input in the search sentence input unit, and extracting the extracted word into the related word information obtaining step. By the word acquisition step to be provided and the related word presentation program to be executed by the computer,
A related word presenting step of obtaining the related word based on all or specified words; a search sentence correcting step of correcting the search sentence input in the search sentence input step based on the obtained related word; The storage medium according to any one of claims 23 to 26, which stores a document search program for causing a computer to execute the following.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000217270A JP2002032394A (en) | 2000-07-18 | 2000-07-18 | Related word information creation device, related word presentation device, document search device, related word information creation method, related word presentation method, document search method, and storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000217270A JP2002032394A (en) | 2000-07-18 | 2000-07-18 | Related word information creation device, related word presentation device, document search device, related word information creation method, related word presentation method, document search method, and storage medium |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002032394A true JP2002032394A (en) | 2002-01-31 |
Family
ID=18712407
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000217270A Pending JP2002032394A (en) | 2000-07-18 | 2000-07-18 | Related word information creation device, related word presentation device, document search device, related word information creation method, related word presentation method, document search method, and storage medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2002032394A (en) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006113683A (en) * | 2004-10-12 | 2006-04-27 | Patolis Corp | Document search support apparatus, method thereof, document search apparatus, program thereof, and recording medium recording the program |
| JP2006127523A (en) * | 2005-10-27 | 2006-05-18 | Hitachi Ltd | Document information display system |
| JP2006252634A (en) * | 2005-03-09 | 2006-09-21 | Toshiba Corp | Semiconductor memory device and data read method thereof |
| JP2009510591A (en) * | 2005-09-28 | 2009-03-12 | チェ ジン−グン | Bundle database management system for storing data association structure and management method thereof |
| WO2010076897A1 (en) * | 2008-12-29 | 2010-07-08 | Julien Yuki Hamonic | A method for document retrieval based on queries that are composed of concepts and recommended terms |
| US8892574B2 (en) | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
| KR101485940B1 (en) | 2013-08-23 | 2015-01-27 | 네이버 주식회사 | Presenting System of Keyword Using depth of semantic Method Thereof |
| JP2016218512A (en) * | 2015-05-14 | 2016-12-22 | 富士ゼロックス株式会社 | Information processing device and information processing program |
| JP2021120786A (en) * | 2020-01-30 | 2021-08-19 | Tis株式会社 | Information processing equipment, information processing methods, and information processing programs |
-
2000
- 2000-07-18 JP JP2000217270A patent/JP2002032394A/en active Pending
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006113683A (en) * | 2004-10-12 | 2006-04-27 | Patolis Corp | Document search support apparatus, method thereof, document search apparatus, program thereof, and recording medium recording the program |
| JP2006252634A (en) * | 2005-03-09 | 2006-09-21 | Toshiba Corp | Semiconductor memory device and data read method thereof |
| JP2009510591A (en) * | 2005-09-28 | 2009-03-12 | チェ ジン−グン | Bundle database management system for storing data association structure and management method thereof |
| JP2006127523A (en) * | 2005-10-27 | 2006-05-18 | Hitachi Ltd | Document information display system |
| US8892574B2 (en) | 2008-11-26 | 2014-11-18 | Nec Corporation | Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset |
| WO2010076897A1 (en) * | 2008-12-29 | 2010-07-08 | Julien Yuki Hamonic | A method for document retrieval based on queries that are composed of concepts and recommended terms |
| KR101485940B1 (en) | 2013-08-23 | 2015-01-27 | 네이버 주식회사 | Presenting System of Keyword Using depth of semantic Method Thereof |
| JP2015041386A (en) * | 2013-08-23 | 2015-03-02 | ネイバー コーポレーションNAVER Corporation | System and method for presenting retrieval word in semantic depth structure base |
| US10176261B2 (en) | 2013-08-23 | 2019-01-08 | Naver Corporation | Keyword presenting system and method based on semantic depth structure |
| JP2016218512A (en) * | 2015-05-14 | 2016-12-22 | 富士ゼロックス株式会社 | Information processing device and information processing program |
| JP2021120786A (en) * | 2020-01-30 | 2021-08-19 | Tis株式会社 | Information processing equipment, information processing methods, and information processing programs |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4944405B2 (en) | Phrase-based indexing method in information retrieval system | |
| JP3099756B2 (en) | Document processing device, word extraction device, and word extraction method | |
| JP4976666B2 (en) | Phrase identification method in information retrieval system | |
| US9639609B2 (en) | Enterprise search method and system | |
| JP5175005B2 (en) | Phrase-based search method in information search system | |
| JP4881322B2 (en) | Information retrieval system based on multiple indexes | |
| KR100572797B1 (en) | Retrieving matching documents by queries in any national language | |
| US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
| US9846744B2 (en) | Media discovery and playlist generation | |
| JP4944406B2 (en) | How to generate document descriptions based on phrases | |
| CN104537116B (en) | A kind of books searching method based on label | |
| US20020073079A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
| US8930822B2 (en) | Method for human-centric information access and presentation | |
| US20080021887A1 (en) | Data product search using related concepts | |
| US20120323905A1 (en) | Ranking data utilizing attributes associated with semantic sub-keys | |
| KR20010015368A (en) | A method of retrieving data and a data retrieving apparatus | |
| CN101802776A (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
| WO2007084951A2 (en) | Data product search using related concepts | |
| JP3584848B2 (en) | Document processing device, item search device, and item search method | |
| US20050114317A1 (en) | Ordering of web search results | |
| US20120317141A1 (en) | System and method for ordering of semantic sub-keys | |
| JP2002032394A (en) | Related word information creation device, related word presentation device, document search device, related word information creation method, related word presentation method, document search method, and storage medium | |
| US9875298B2 (en) | Automatic generation of a search query | |
| JP2001184358A (en) | Information retrieval apparatus, information retrieval method and program recording medium using category factor | |
| JPH0844771A (en) | Information retrieval device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040928 |