JP2001084252A - Similar document retrieval system and method, and computer-readable recording medium recording similar document retrieval program - Google Patents
Similar document retrieval system and method, and computer-readable recording medium recording similar document retrieval programInfo
- Publication number
- JP2001084252A JP2001084252A JP25716799A JP25716799A JP2001084252A JP 2001084252 A JP2001084252 A JP 2001084252A JP 25716799 A JP25716799 A JP 25716799A JP 25716799 A JP25716799 A JP 25716799A JP 2001084252 A JP2001084252 A JP 2001084252A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- document
- sentence
- search
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 従来の自立語キーワードに基づく全文検索で
は、十分な検索精度を得られないという課題があった。
【解決手段】 検索文を入力する入力手段101と、単
語辞書103を参照して入力検索文の構造を解析する文
構造解析手段102と、クラスタリングされた文書を格
納した文書データベース105と、オントロジー109
を参照して、入力検索文の解析結果と、文書データベー
スのクラスタに含まれる文書から検索時に索引として使
用するクラスタ構造情報との類似度を計算する類似文照
合手段108と、類似文照合手段により計算する類似度
に基づいて入力検索文と最も類似するクラスタ構造情報
を検索し、このクラスタ構造情報に対応づけられた前記
文書データベース内の文書クラスタより類似文書を検索
するクラスタ検索手段104とを備えた。
【効果】 大規模な文書集合を検索対象とする場合でも
文の構造を考慮した類似文書検索を可能とすることがで
きる。
(57) [Summary] [Problem] A conventional full-text search based on an independent word keyword has a problem that sufficient search accuracy cannot be obtained. SOLUTION: Input means 101 for inputting a search sentence, sentence structure analyzing means 102 for analyzing the structure of the input search sentence with reference to a word dictionary 103, a document database 105 storing clustered documents, and an ontology 109
, A similar sentence matching unit 108 that calculates a similarity between an analysis result of an input search sentence and cluster structure information used as an index at the time of search from documents included in a cluster of the document database, and a similar sentence matching unit. Cluster search means 104 for searching for cluster structure information most similar to the input search sentence based on the calculated similarity, and searching for a similar document from a document cluster in the document database associated with the cluster search information; Was. [Effect] Even when a large document set is to be searched, it is possible to perform similar document search in consideration of the sentence structure.
Description
【0001】[0001]
【発明の属する技術分野】この発明は、ヘルプデスク支
援システム等で利用される類似文書検索システム、類似
文書検索方法や類似文書検索プログラムを記録したコン
ピュータ読み取り可能な記録媒体に関するものである。
特に、ヘルプデスク支援システムにおける対話記録のよ
うに比較的短い記述で専門性が高く、使用される単語の
傾向が似ている大量の文書集合を検索対象とする類似文
書検索システム等に関するものである。[0001] 1. Field of the Invention [0002] The present invention relates to a similar document search system, a similar document search method, and a computer-readable recording medium storing a similar document search program used in a help desk support system or the like.
In particular, the present invention relates to a similar document search system and the like that searches for a large set of documents having a relatively short description, such as a dialog record in a help desk support system, having a high degree of specialty, and a similar tendency of words used. .
【0002】[0002]
【従来の技術】入力文書と類似する文書を検索する技術
として、文書を単語単位に区切ってキーワードを抽出
し、キーワードの出現頻度等を利用した統計的な手法に
より文書間の類似度を計算する手法がよく知られてい
る。同手法を用いた検索手法として、大量の文書をあら
かじめクラスタリングしておき、まず入力検索文に類似
するクラスタを検索し、検索結果のクラスタ内の文書に
対して詳細な検索を行なうという高速化手法が(「文書
検索のための大規模文書クラスタリング」、岩山他、言
語処理学会第3回年次大会、pp.245−248(1
997):以下、「文献1」と略称する。)において開
示されている。2. Description of the Related Art As a technique for searching for a document similar to an input document, a keyword is extracted by dividing the document into words, and the similarity between documents is calculated by a statistical method using the frequency of occurrence of the keyword. Techniques are well known. As a search method using this method, a large number of documents are clustered in advance, a cluster similar to the input search sentence is searched first, and a detailed search is performed on the documents in the cluster of the search result. (“Large-scale document clustering for document retrieval”, Iwayama et al., The 3rd Annual Meeting of the Language Processing Society, pp. 245-248 (1
997): Hereinafter, it is abbreviated as "Reference 1." ).
【0003】このような検索において、キーワードとし
て自立語を使用することが多い。すると、ヘルプデスク
支援システムにおける対話記録のように比較的短い記述
で専門性が高く、使用される単語の傾向が似ている文書
集合を検索対象とする場合、キーワードの出現頻度等を
利用する統計的な手法では十分な検索精度を得られない
という問題があった。In such searches, independent words are often used as keywords. Then, if a relatively short description, such as a dialogue record in a help desk support system, has a high degree of specialty and a set of documents with similar tendency in terms of words to be used as a search target, statistics using the frequency of occurrence of keywords, etc. There is a problem that sufficient search accuracy cannot be obtained with a conventional method.
【0004】特に、文書間(および文書とクラスタ間)
の類似度を自立語の出現頻度等をもとに計算しているた
め、「電源を入れても立ち上がらず、LEDランプが点
滅したまま。」と「LEDランプが点滅していてテープ
が入らない。」といった使用されるキーワード集合{L
ED、ランプ、点滅、入る}が類似しているが意味の異
なる2つの文を区別することができなかった。In particular, between documents (and between documents and clusters)
Is calculated based on the frequency of appearance of the independent word, etc., so that "it does not start up even when the power is turned on and the LED lamp remains blinking." And "the LED lamp blinks and the tape does not enter. .} Used keyword set L
Two sentences with similar ED, lamp, blinking, and}, but different meanings, could not be distinguished.
【0005】このような問題に対して、特開平10−1
71803号公報(以下、「文献2」と略称する。)に
おいて、文の構造を考慮した類似度計算手法が開示され
ている。To solve such a problem, Japanese Patent Laid-Open No. 10-1
Japanese Patent Application Laid-Open No. 71803 (hereinafter abbreviated as “Document 2”) discloses a similarity calculation method in consideration of a sentence structure.
【0006】文献2に記載された類似度計算手法につい
て図面を参照しながら説明する。図20は、例えば文献
2に示された従来の類似度計算手法を示す図である。The similarity calculation method described in Reference 2 will be described with reference to the drawings. FIG. 20 is a diagram illustrating a conventional similarity calculation method disclosed in Document 2, for example.
【0007】まず、原文及び参照文を構文構造解析部2
001により解析する。各文の構文解析結果から構文要
素抽出部2002により単文または文節を順次読み出
し、単文類似度計算部2003で類似度を計算する。次
に、類似度累算部2004において、上記処理により求
められた類似度を順次累算して原文及び参照文の文類似
度とする。First, an original sentence and a reference sentence are converted into a syntactic structure analysis unit 2.
001 is analyzed. A single sentence or a clause is sequentially read out from the syntax analysis result of each sentence by the syntax element extraction unit 2002, and the similarity is calculated by the single sentence similarity calculation unit 2003. Next, the similarity accumulating unit 2004 sequentially accumulates the similarities obtained by the above processing to obtain the sentence similarity of the original sentence and the reference sentence.
【0008】以上の類似度計算手法によれば、文の構造
を考慮した類似度計算が可能となるが、計算コストが大
きいという問題がある。According to the similarity calculation method described above, similarity calculation can be performed in consideration of the sentence structure, but there is a problem that the calculation cost is large.
【0009】[0009]
【発明が解決しようとする課題】従来の自立語キーワー
ドに基づく全文検索では、文書間(および文書とクラス
タ間)の類似度を自立語の出現頻度等をもとに計算して
いるため、ヘルプデスク支援システムにおける対話記録
のように比較的短い記述で専門性が高く、使用される単
語の傾向が似ている文書集合を検索対象とする場合、十
分な検索精度を得られないという問題点があった。In a conventional full-text search based on an independent word keyword, the similarity between documents (and between a document and a cluster) is calculated based on the appearance frequency of independent words and the like. When searching for a set of documents with relatively short descriptions and high expertise, such as dialogue records in a desk support system, and similar words, the search accuracy may not be sufficient. there were.
【0010】特に、「電源を入れても立ち上がらず、L
EDランプが点滅したまま。」と「LEDランプが点滅
していてテープが入らない。」といった使用されるキー
ワード集合が類似しているが意味の異なる2つの文を区
別することができなかった。[0010] In particular, it is noted that "it does not start even when the power is turned on,
The ED lamp keeps blinking. "And" The LED lamp is blinking and the tape cannot be inserted. "It was not possible to distinguish two sentences having similar but different meanings.
【0011】さらに、文献2によれば、文の構造まで考
慮して類似度を計算するので上記の2文を区別すること
は可能だが、文の構造を考慮した類似度計算は計算コス
トが大きいため、大量の検索対象文書から類似する文書
を検索するには多大な時間を要するという問題点があっ
た。Further, according to Document 2, since the similarity is calculated in consideration of the sentence structure, the above two sentences can be distinguished. However, the similarity calculation in consideration of the sentence structure requires a large calculation cost. Therefore, there is a problem that it takes a lot of time to search for a similar document from a large number of documents to be searched.
【0012】キーワードの頻度等に基づく手法と異なり
文書クラスタと入力検索文との類似度計算を行なう手段
がなかったため、文献2のような文の構造を考慮した類
似度計算において文献1で開示されているような高速化
手法を適用することができなかった。Unlike the method based on the keyword frequency and the like, there is no means for calculating the similarity between the document cluster and the input search sentence. It was not possible to apply such a speeding-up technique.
【0013】この発明は、前述した問題点を解決するた
めになされたもので、あらかじめクラスタリングされた
文書クラスタに対してクラスタ代表構造を索引として用
いることにより、大規模な文書集合を検索対象とする場
合でも文の構造を考慮した類似文書検索を可能とするこ
とができる類似文書検索システム及び方法並びに類似文
書検索プログラムを記録したコンピュータ読み取り可能
な記録媒体を得ることを目的とする。SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problem, and a large document set is searched for by using a cluster representative structure as an index for a document cluster that has been clustered in advance. It is an object of the present invention to provide a similar document search system and method capable of performing similar document search in consideration of a sentence structure even in such a case, and a computer-readable recording medium storing a similar document search program.
【0014】[0014]
【課題を解決するための手段】この発明の請求項1に係
る類似文書検索システムは、検索文を入力する入力手段
と、文構造解析用の単語辞書と、前記単語辞書を参照し
て前記入力検索文の構造を解析する文構造解析手段と、
クラスタリングされた文書を格納した文書データベース
と、概念に関する知識を格納したオントロジーと、前記
オントロジーを参照して、前記入力検索文の解析結果
と、前記文書データベースのクラスタに含まれる文書か
ら検索時に索引として使用するクラスタ構造情報との類
似度を計算する類似文照合手段と、前記類似文照合手段
により計算する類似度に基づいて前記入力検索文と最も
類似するクラスタ構造情報を検索し、このクラスタ構造
情報に対応づけられた前記文書データベース内の文書ク
ラスタより類似文書を検索するクラスタ検索手段とを備
えたものである。According to a first aspect of the present invention, there is provided a similar document search system comprising: an input unit for inputting a search sentence; a word dictionary for analyzing a sentence structure; Sentence structure analysis means for analyzing the structure of the search sentence,
A document database storing clustered documents, an ontology storing knowledge about concepts, and referring to the ontology, an analysis result of the input search sentence, and an index when searching from documents included in the cluster of the document database. A similar sentence matching unit that calculates a similarity with the cluster structure information to be used; and a cluster structure information that is most similar to the input search sentence is searched based on the similarity calculated by the similar sentence matching unit. And a cluster search means for searching for a similar document from a document cluster in the document database associated with.
【0015】この発明の請求項2に係る類似文書検索シ
ステムは、前記文書データベースのクラスタに含まれる
文書から、前記文構造解析手段による文の構造の解析結
果に基いて、検索時に索引として使用するクラスタ構造
情報を生成する索引データ生成手段をさらに備えたもの
である。A similar document search system according to a second aspect of the present invention uses an index from a document included in the cluster of the document database as an index at the time of search based on an analysis result of a sentence structure by the sentence structure analysis means. It further comprises index data generation means for generating cluster structure information.
【0016】この発明の請求項3に係る類似文書検索シ
ステムは、前記索引データ生成手段が、前記クラスタ構
造情報として、クラスタに含まれる文書に対する前記文
構造解析手段の解析結果を重ね合わせた構造であるクラ
スタ代表構造を生成するものである。In a similar document search system according to a third aspect of the present invention, the index data generating means has a structure in which the analysis result of the sentence structure analyzing means for a document included in a cluster is superimposed as the cluster structure information. This is to generate a certain cluster representative structure.
【0017】この発明の請求項4に係る類似文書検索方
法は、検索文を入力する入力ステップと、文構造解析用
の単語辞書を参照して前記入力検索文の構造を解析する
文構造解析ステップと、概念に関する知識を格納したオ
ントロジーを参照して、前記入力検索文の解析結果と、
クラスタリングされた文書を格納した文書データベース
のクラスタに含まれる文書から生成されたクラスタ構造
情報との類似度を計算するとともに、この計算した類似
度に基づいて前記入力検索文と最も類似するクラスタ構
造情報を検索し、このクラスタ構造情報に対応づけられ
た前記文書データベース内の文書クラスタより類似文書
を検索するクラスタ検索ステップとを含むものである。In a similar document search method according to a fourth aspect of the present invention, an input step of inputting a search sentence and a sentence structure analyzing step of analyzing the structure of the input search sentence with reference to a sentence structure analysis word dictionary. With reference to an ontology storing knowledge about the concept, the analysis result of the input search sentence,
Calculating the similarity with the cluster structure information generated from the documents included in the cluster of the document database storing the clustered documents, and based on the calculated similarity, the cluster structure information most similar to the input search sentence And a cluster search step of searching for a similar document from a document cluster in the document database associated with the cluster structure information.
【0018】この発明の請求項5に係る類似文書検索方
法は、前記文書データベースのクラスタリングが階層的
になされており、前記クラスタ構造情報による索引が文
書クラスタの階層構造に対応した木構造をなすよう構成
され、前記クラスタ検索ステップが、前記索引の木構造
を順次探索しながら類似文書クラスタを検索するもので
ある。In a similar document search method according to a fifth aspect of the present invention, the clustering of the document database is performed hierarchically, and the index based on the cluster structure information forms a tree structure corresponding to the hierarchical structure of the document cluster. The cluster search step is configured to search for a similar document cluster while sequentially searching the tree structure of the index.
【0019】この発明の請求項6に係る類似文書検索方
法は、前記クラスタ検索ステップの類似度計算処理が、
前記解析結果の依存構造における文節ノードの類似性を
計算する文節間類似度計算ステップと、文節間の係り受
け情報の類似性を計算する係り受け情報類似度計算ステ
ップとを含むものである。[0019] In a similar document search method according to a sixth aspect of the present invention, the similarity calculation process in the cluster search step includes:
The method includes an inter-phrase similarity calculating step of calculating the similarity of the clause nodes in the dependency structure of the analysis result, and a dependency information similarity calculating step of calculating the similarity of the dependency information between the clauses.
【0020】この発明の請求項7に係る類似文書検索方
法は、前記文節間類似度計算ステップが、様相表現を考
慮して文節間類似度を計算するものである。In a similar document search method according to a seventh aspect of the present invention, the inter-phrase similarity calculation step calculates inter-phrase similarity in consideration of modal expression.
【0021】この発明の請求項8に係る類似文書検索方
法は、前記オントロジーを、概念間の上位下位関係を記
述したIS−A辞書としたものである。[0021] In a similar document search method according to claim 8 of the present invention, the ontology is an IS-A dictionary that describes a higher-order relationship between concepts.
【0022】この発明の請求項9に係る類似文書検索方
法は、前記オントロジーを、概念間の部分全体関係を記
述したHAS−A辞書としたものである。In a similar document search method according to a ninth aspect of the present invention, the ontology is a HAS-A dictionary that describes a partial whole relationship between concepts.
【0023】この発明の請求項10に係る類似文書検索
方法は、前記オントロジーを、概念間の格関係を記述し
た格辞書としたものである。In a similar document search method according to a tenth aspect of the present invention, the ontology is a case dictionary describing case relationships between concepts.
【0024】この発明の請求項11に係る類似文書検索
方法は、前記オントロジーを、言い換え可能である等価
な表現を記述した言い換え辞書としたものである。[0024] In a similar document search method according to claim 11 of the present invention, the ontology is a paraphrase dictionary that describes paraphrasable equivalent expressions.
【0025】この発明の請求項12に係る類似文書検索
プログラムを記録したコンピュータ読み取り可能な記録
媒体は、検索文を入力する入力手順と、文構造解析用の
単語辞書を参照して前記入力検索文の構造を解析する文
構造解析手順と、概念に関する知識を格納したオントロ
ジーを参照して、前記入力検索文の解析結果と、クラス
タリングされた文書を格納した文書データベースのクラ
スタに含まれる文書から生成されたクラスタ構造情報と
の類似度を計算するとともに、この計算した類似度に基
づいて前記入力検索文と最も類似するクラスタ構造情報
を検索し、このクラスタ構造情報に対応づけられた前記
文書データベース内の文書クラスタより類似文書を検索
するクラスタ検索手順とを含むものである。According to a twelfth aspect of the present invention, there is provided a computer-readable recording medium storing a similar document search program, wherein an input procedure for inputting a search sentence and the input search sentence are referred to by referring to a sentence structure analysis word dictionary. A sentence structure analysis procedure for analyzing the structure of the document, and referring to an ontology storing knowledge about the concept, the analysis result of the input search sentence and a document generated from a document included in a cluster of a document database storing a clustered document. The similarity with the calculated cluster structure information is calculated, and the cluster structure information most similar to the input search sentence is searched based on the calculated similarity, and the document database in the document database associated with the cluster structure information is searched. And a cluster search procedure for searching for a similar document from a document cluster.
【0026】[0026]
【発明の実施の形態】実施の形態1.この発明の実施の
形態1に係る類似文書検索システムについて図面を参照
しながら説明する。図1は、この発明の実施の形態1に
係る類似文書検索システムの構成を示す図である。な
お、各図中、同一符号は同一又は相当部分を示す。DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 A similar document search system according to Embodiment 1 of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing a configuration of a similar document search system according to Embodiment 1 of the present invention. In the drawings, the same reference numerals indicate the same or corresponding parts.
【0027】図1において、101は入力手段であり、
キーボード入力や手書き文字認識や音声認識などにより
検索文を入力する。102は入力検索文の構造を解析す
る文構造解析手段である。103は解析処理において参
照する単語辞書である。104はクラスタ検索手段であ
り、入力検索文と類似する文書を検索対象文書集合10
5より検索する。In FIG. 1, reference numeral 101 denotes an input means.
Input a search sentence by keyboard input, handwritten character recognition, voice recognition, etc. Reference numeral 102 denotes a sentence structure analysis unit that analyzes the structure of the input search sentence. 103 is a word dictionary referred to in the analysis processing. Reference numeral 104 denotes a cluster search unit that searches a document similar to the input search sentence for the search target document set 10
Search from 5.
【0028】また、同図において、106は索引データ
生成手段であり、上記文書集合105の各文書の解析結
果より索引データ107を生成する。上記検索対象文書
集合105は、文書クラスタ1、文書クラスタ2、およ
び文書クラスタ3のようにあらかじめ階層的にクラスタ
リングされているものとする。索引データ107は上記
クラスタ階層に対応する形の木構造で構成されている。In FIG. 2, reference numeral 106 denotes index data generating means, which generates index data 107 from the analysis result of each document in the document set 105. It is assumed that the search target document set 105 is hierarchically clustered in advance like the document cluster 1, the document cluster 2, and the document cluster 3. The index data 107 has a tree structure having a shape corresponding to the cluster hierarchy.
【0029】さらに、同図において、108は類似文照
合手段であり、概念の関係を記述したオントロジー10
9を参照しつつ、入力文の解析結果と索引データ107
の構成要素であるクラスタ代表構造(107x〜107
z)との類似度を計算する。上記クラスタ検索手段10
4は索引データ107の木構造をたどりつつ、類似文照
合手段108を用いて入力検索文と最も類似するクラス
タ代表構造を検索し、さらに同クラスタ代表構造に対応
づけられた文書クラスタより類似文書を検索する。11
0は検索結果を出力する出力手段である。Further, in the figure, reference numeral 108 denotes a similar sentence matching means, which is an ontology 10 describing the relation between concepts.
9 and the analysis result of the input sentence and the index data 107.
Cluster representative structure (107x to 107
The similarity with z) is calculated. Cluster search means 10
4 searches for a cluster representative structure that is most similar to the input search sentence by using the similar sentence matching means 108 while tracing the tree structure of the index data 107, and further searches for a similar document from a document cluster associated with the cluster representative structure. Search for. 11
0 is an output means for outputting a search result.
【0030】つぎに、この実施の形態1に係る類似文書
検索システムの動作について図面を参照しながら説明す
る。Next, the operation of the similar document search system according to the first embodiment will be described with reference to the drawings.
【0031】図2は、本発明の実施の形態1における類
似文書検索処理を示すフローチャートである。以下、適
宜、図1およびその他の詳細図面を参照しつつ図2の各
ステップについて説明する。FIG. 2 is a flowchart showing a similar document search process according to the first embodiment of the present invention. Hereinafter, each step of FIG. 2 will be described with reference to FIG. 1 and other detailed drawings as appropriate.
【0032】まず、ステップS201において、入力手
段101より検索文を入力する。ここでは、「LEDが
時々点灯する」という文が入力されたものとする。つぎ
に、ステップS202において、文構造解析手段102
で入力された検索文の構造を解析する。以下では、まず
図3から図6までを用いて文構造解析処理について説明
する。First, in step S201, a search sentence is input from the input means 101. Here, it is assumed that the sentence “LED sometimes lights up” is input. Next, in step S202, the sentence structure analysis unit 102
Analyzes the structure of the search sentence entered in. Hereinafter, first, the sentence structure analysis processing will be described with reference to FIGS.
【0033】図3は、日本語文構造解析処理の詳細を示
すフローチャートである。まず、ステップS301にお
いて、形態素解析処理を行なう。この形態素解析処理
は、コスト最小法(文献3:「未登録語を含む日本語文
の形態素解析」、吉村他、情報処理学会論文誌Vol.
30,No.3,pp.294−301(1989))
にしたがって行なう。その他公知の形態素解析手法によ
る形態素解析を行なってもよい。FIG. 3 is a flowchart showing details of the Japanese sentence structure analysis processing. First, in step S301, a morphological analysis process is performed. This morphological analysis processing is performed by a minimum cost method (Reference 3: “Morphological analysis of Japanese sentence including unregistered words”), Yoshimura et al., Transactions of Information Processing Society of Japan Vol.
30, no. 3, pp. 294-301 (1989))
Perform according to. The morphological analysis may be performed by other known morphological analysis methods.
【0034】解析に用いる単語辞書103の構成例を図
4に示す。辞書は、少なくとも見出し103a、品詞情
報103bおよび概念情報103cを含むよう構成す
る。FIG. 4 shows an example of the configuration of the word dictionary 103 used for analysis. The dictionary is configured to include at least the headline 103a, the part of speech information 103b, and the concept information 103c.
【0035】形態素解析結果の例を図3の301に示
す。301において“/”(スラッシュ)が形態素の区
切りを示している。実際の形態素解析結果には品詞情報
などの詳細情報も含まれるが、ここでは説明を簡単にす
るため省略している。An example of the result of the morphological analysis is shown at 301 in FIG. In 301, “/” (slash) indicates a morpheme delimiter. Although the actual morphological analysis result includes detailed information such as part of speech information, it is omitted here for the sake of simplicity.
【0036】つぎに、図3のステップS302におい
て、形態素解析結果に対して未知語処理を行なう。上記
の解析結果301は未知語を含まないので、ここでは何
も処理せずに次のステップに進む。この形態素解析結果
301が未知語を含む場合や単漢字の連続を含む場合に
は、未知語範囲を推定して複数の形態素をまとめあげる
処理を行なう。Next, in step S302 of FIG. 3, unknown word processing is performed on the result of the morphological analysis. Since the analysis result 301 does not include an unknown word, the process proceeds to the next step without performing any processing. If the morphological analysis result 301 includes an unknown word or a series of single kanji, a process of estimating an unknown word range and grouping a plurality of morphemes is performed.
【0037】つぎに、図3のステップS303におい
て、形態素解析結果301より文節構造501を生成す
る。Next, in step S303 of FIG. 3, a phrase structure 501 is generated from the morphological analysis result 301.
【0038】図5は、文節構造の一例である。文節構造
501は、少なくとも文節の性質を示す属性リスト50
1a、自立語情報501bおよび付属語情報501cを
含むように構成する。属性リスト501aには、文法的
な性質を示す係り属性501d、受け属性501eなど
が含まれる。また、付属語情報501cは、文節に含ま
れる付属語列に対応して複数の要素をもつリストからな
る。また、自立語の前後に接頭語または接尾語を伴う場
合には、文節構造の属性リスト501aの要素として処
理する。FIG. 5 shows an example of a phrase structure. The clause structure 501 includes at least an attribute list 50 indicating the property of the clause.
1a, independent word information 501b and attached word information 501c. The attribute list 501a includes a relation attribute 501d indicating a grammatical property, a receiving attribute 501e, and the like. The attached word information 501c is composed of a list having a plurality of elements corresponding to the attached word string included in the phrase. If a prefix or suffix is added before and after the independent word, the word is processed as an element of the attribute list 501a having a phrase structure.
【0039】図3では自立語情報および付属語情報を辞
書103へのポインタ情報とする例を示しているが、単
語辞書情報103a〜103cから必要な情報を抽出し
て文節構造の一部として格納するような構成としてもよ
い。FIG. 3 shows an example in which independent word information and attached word information are used as pointer information to the dictionary 103. However, necessary information is extracted from the word dictionary information 103a to 103c and stored as a part of the phrase structure. May be configured.
【0040】つぎに、図3のステップS304におい
て、文節構造501を入力として係り受け解析を行な
う。図6は係り受け解析処理の内容を示す詳細フローチ
ャートである。説明を簡単にするため、単純なアルゴリ
ズムを示しているが、より複雑な文法を記述したうえで
CYK法(文献4:「自然言語理解」、田中、辻井共
編、オーム社、1989年、第3章統語解析の手法
[1]CYK法)を用いた解析をするとしても本発明の
特徴を何ら損なうものではない。また、一般に係り受け
には曖昧性が存在するが、格辞書等を用いてこの曖昧性
を解消する手法が数多く提案されている。本システムに
おけるオントロジーは格辞書やIS−A階層を含んでい
るので、これを係り受けの曖昧性解消に用いてもよい。Next, in step S304 of FIG. 3, dependency analysis is performed using the phrase structure 501 as an input. FIG. 6 is a detailed flowchart showing the contents of the dependency analysis process. For simplicity, a simple algorithm is shown, but the CYK method is described after describing a more complicated grammar (Reference 4: "Natural Language Understanding", edited by Tanaka and Tsujii, Ohmsha, 1989, No. 3). The analysis using the chapter syntactic analysis method [1] CYK method) does not impair the features of the present invention at all. In addition, there is generally an ambiguity in the dependency, and many methods have been proposed to resolve this ambiguity using a case dictionary or the like. Since the ontology in the present system includes a case dictionary and an IS-A hierarchy, this may be used for disambiguation of dependency.
【0041】以下、図6の各ステップの処理について図
3に示した具体例を用いて説明する。ステップS601
において、解析用スタックSおよび解析用バッファAを
初期化する。図3の具体例501が入力されるので、S
={}、A={LEDが、時々、点灯する}として初期
化される。Hereinafter, the processing of each step in FIG. 6 will be described using a specific example shown in FIG. Step S601
, The analysis stack S and the analysis buffer A are initialized. Since the specific example 501 of FIG. 3 is input, S
= {}, A = {LED is sometimes lit}.
【0042】つぎに、ステップS602に進み、ループ
処理の終了条件を判定する。ここでは、Aの要素数が3
なのでステップS603に進む。Next, the flow advances to step S602 to determine a termination condition of the loop processing. Here, the number of elements of A is 3
Therefore, the process proceeds to step S603.
【0043】ステップS603では、スタックSの状態
を判定する。ここではS={}なのでステップS608
に進む。In step S603, the state of the stack S is determined. Here, since S = {}, step S608
Proceed to.
【0044】ステップS608では、解析用バッファA
の左側2つの要素の係り受け判定を行なう。この係り受
け判定処理は、左側文節の係り属性(図5の501d)
および右側文節の受け属性(図5の501e)の組合せ
にしたがって行なう。ここでは「LEDが」の係り属性
が「ガ」であるのに対して「時々」は副詞なので係り受
け判定結果は偽となり、ステップS610に進む。In step S608, the analysis buffer A
Of the two elements on the left side of is determined. This dependency determination process is based on the dependency attribute of the left clause (501d in FIG. 5).
And according to the combination of the receiving attribute of the right clause (501e in FIG. 5). Here, while the dependency attribute of “LED is” is “ga”, “sometimes” is an adverb, so the dependency determination result is false, and the process proceeds to step S610.
【0045】ステップS610において、最左の文節
「LEDが」をスタックにつみ、S={LEDが}、A
={時々、点灯する}という状態とする。以下、ステッ
プS602およびS603を経てステップS604に進
む。In step S610, the leftmost phrase “LED is” is inserted into the stack, and S = {LED is}, A
= {Lights up sometimes}. Hereinafter, the process proceeds to step S604 via steps S602 and S603.
【0046】ステップS604では、スタックSの要素
と解析バッファAの最左文節との係り受け判定を行な
う。ここでは「LEDが」と「時々」の係り受け判定を
行ない、さきほどのステップS608と同様にして結果
は偽となり、ステップS606に進む。Aの要素数が2
であるため、ステップS606からステップS608に
進む。In step S604, a dependency determination is made between the elements of the stack S and the leftmost clause of the analysis buffer A. Here, the dependency determination of “LED” and “occasionally” is performed, and the result is false as in the previous step S608, and the process proceeds to step S606. A has 2 elements
Therefore, the process proceeds from step S606 to step S608.
【0047】ステップS608では、今度は「時々」と
「点灯する」の係り受け判定を行ない、判定結果は真と
なりステップS609に進む。In step S608, a dependency determination of "sometimes" and "lights on" is performed, and the determination result is true, and the flow advances to step S609.
【0048】ステップS609では、「点灯する」の子
ノードが「時々」となるような係り受け構造を作成し、
再度ステップS602およびS603を経てステップS
604に進む。今度は、スタックの「LEDが」と「点
灯する(←時々)」との係り受け判定を行ない、判定結
果が真なのでステップS605に進む。以下、ステップ
S602に進み、終了条件が真となるので係り受け解析
処理を終了する。以上のようにして図3における係り受
け構造302が生成される。In step S609, a dependency structure is created such that the child node of "light on" is "sometimes".
Steps S602 and S603 are performed again to step S
Proceed to 604. This time, the dependency determination of “LED is” and “lights on (← sometimes)” of the stack is performed, and the process proceeds to step S605 because the determination result is true. Thereafter, the process proceeds to step S602, where the termination condition is true, and the dependency analysis process ends. As described above, the dependency structure 302 in FIG. 3 is generated.
【0049】以上で図2におけるステップS202の文
構造解析処理についての説明を終わる。なお、上記では
説明を簡単にするために入力を1つの文として説明した
が、入力が複数の文の場合でも、文末単語と次の文中の
単語との係り受け判定を行なうことにより、上記と同様
にして解析可能である。The description of the sentence structure analysis processing in step S202 in FIG. 2 has been completed. In the above description, the input is described as one sentence for the sake of simplicity. However, even when the input is a plurality of sentences, by performing the dependency determination between the last sentence word and the word in the next sentence, It can be analyzed in the same way.
【0050】つぎに、図2におけるステップS203の
クラスタ検索ステップに進むが、このクラスタ検索ステ
ップについて説明する前に、索引生成処理について説明
する。この索引生成処理は、図1の索引データ生成手段
106において、あらかじめクラスタリングされた検索
対象文書集合105より索引データ107を生成する処
理である。以下、図7から図12までを参照しながら索
引生成処理について説明する。Next, the process proceeds to the cluster search step of step S203 in FIG. 2. Before describing the cluster search step, the index generation processing will be described. This index generation process is a process in which the index data generation unit 106 of FIG. 1 generates index data 107 from the search target document set 105 that has been clustered in advance. Hereinafter, the index generation processing will be described with reference to FIGS.
【0051】図7は、索引生成処理の詳細を示すフロー
チャートである。図8は、図1に示す検索対象文書集合
105における文書クラスタの一例である。文書クラス
タ2(105b)および文書クラスタ3(105c)に
より文書クラスタ1(105a)を細分する形で階層的
に構成されているものとする。図には示さないが、文書
クラスタ1と同様な階層クラスタが他にも多数存在す
る。ここでは文書集合105全体を包含する仮想的な文
書クラスタをルートクラスタとする。FIG. 7 is a flowchart showing details of the index generation processing. FIG. 8 is an example of a document cluster in the search target document set 105 shown in FIG. It is assumed that the document cluster 2 (105b) and the document cluster 3 (105c) are hierarchically configured by subdividing the document cluster 1 (105a). Although not shown in the figure, there are many other hierarchical clusters similar to the document cluster 1. Here, a virtual document cluster including the entire document set 105 is defined as a root cluster.
【0052】図8において、文書1〜文書6(801お
よび802)が各文書クラスタに含まれる検索対象文書
である。説明を簡単にするため、文書1〜文書6に記述
された文章を一部割愛し、「…」で示している。なお、
図8において各文書クラスタに対応付けられている文は
説明のために記載したもので、当該文書クラスタの意味
内容を示した文なので以下の処理とは関係ない。In FIG. 8, documents 1 to 6 (801 and 802) are search target documents included in each document cluster. For simplicity of description, some of the sentences described in Documents 1 to 6 are omitted and indicated by "...". In addition,
In FIG. 8, the sentence associated with each document cluster is described for explanation, and is a sentence indicating the semantic content of the document cluster, and is not related to the following processing.
【0053】なお、本発明ではクラスタリング方法につ
いては問わない。後述の類似文照合等を利用した公知の
クラスタリング方法を用いて厳密なボトムアップ型のク
ラスタリングを行なってもよいし、検索対象に応じたヒ
ューリスティックを設定してトップダウン型のクラスタ
リングを行なってもよい。機械的なクラスタリングだけ
でなく、人手の作業を交えてクラスタリングを行なって
もよい。以下、図8の文書クラスタを例として参照しな
がら索引生成処理について説明する。In the present invention, the clustering method does not matter. Strict bottom-up clustering may be performed using a well-known clustering method using similar sentence matching described below, or top-down clustering may be performed by setting a heuristic according to a search target. . Clustering may be performed not only by mechanical clustering but also by manual work. Hereinafter, the index generation processing will be described with reference to the document cluster of FIG. 8 as an example.
【0054】まず、ステップS701からステップS7
04において、階層的な文書クラスタ構造のうち、もっ
とも細分化された文書クラスタ(以下、リーフクラスタ
という。)の索引構造を生成する。ステップS701
は、繰り返し処理の終了条件判定である。ステップS7
02では、リーフクラスタ内の各文書を解析する。解析
には、すでに説明した図1の文構造解析手段102を用
いる。ステップS703では、各文書の解析結果を重ね
合わせてクラスタ代表構造を作成する。図8の文書クラ
スタ3(105c)に含まれる文書4〜文書6(図8の
802)を重ね合わせた例を図9に示す。First, steps S701 to S7
At 04, an index structure of the most subdivided document cluster (hereinafter referred to as a leaf cluster) of the hierarchical document cluster structure is generated. Step S701
Is the end condition determination of the repetitive processing. Step S7
At 02, each document in the leaf cluster is analyzed. For the analysis, the sentence structure analyzing means 102 of FIG. 1 described above is used. In step S703, the analysis result of each document is superimposed to create a cluster representative structure. FIG. 9 shows an example in which documents 4 to 6 (802 in FIG. 8) included in the document cluster 3 (105c) in FIG. 8 are superimposed.
【0055】図9において、文書4の解析結果901、
文書5の解析結果902、および文書6の解析結果90
3で共通する文節ノードを重ね合わせ、係り受けの種類
などの属性情報をマージしたものがクラスタ代表構造1
07zである。また、図9において係り情報として
「φ」が示されているのは、複合語を構成する場合およ
び略記されて格助詞が欠落している場合などで、係ると
いう情報のみで係りの種類が与えられていないことを示
す。In FIG. 9, the analysis result 901 of the document 4
Analysis result 902 of document 5 and analysis result 90 of document 6
3 is a cluster representative structure 1 in which common clause nodes are overlapped and attribute information such as the type of dependency is merged.
07z. In FIG. 9, “φ” is indicated as the dependency information when a compound word is formed or when a case particle is abbreviated and case particles are missing. Indicates that it has not been done.
【0056】図10は、クラスタ代表構造の詳細構成例
を示す。クラスタ代表構造107zは、少なくとも自立
語情報107a、属性リスト107b、係り先情報10
7c、および係り元情報107dから構成される。各情
報は、解析結果重ね合わせの回数を記録した頻度情報を
もつ。例えば、図10の頻度情報107eは、文書クラ
スタ3の各文書の解析結果において、文節N1「点灯」
が2回出現することを示している。係り先情報107c
および係り元情報107dは、係り先文節、係りの種
類、および頻度情報からなる(図9の107f)。ま
た、属性情報も各属性ごとに頻度情報107gをもつ。
これらの頻度情報は、後述の類似文照合処理において類
似度計算の重み付けの係数として使用する。以上で重ね
合わせ処理についての説明を終わる。FIG. 10 shows a detailed configuration example of the cluster representative structure. The cluster representative structure 107z includes at least the independent word information 107a, the attribute list 107b, and the destination information 10
7c and dependency source information 107d. Each piece of information has frequency information in which the number of times of analysis result superposition is recorded. For example, the frequency information 107e of FIG.
Appear twice. Dependency information 107c
The modification source information 107d includes a modification destination clause, a modification type, and frequency information (107f in FIG. 9). The attribute information also has frequency information 107g for each attribute.
These pieces of frequency information are used as weighting coefficients for similarity calculation in a similar sentence matching process described later. This concludes the description of the superposition processing.
【0057】図7に戻り、ステップS704では、上記
のようにして作成したクラスタ代表構造を元のクラスタ
と関連付けて索引とする。図11は、リーフクラスタ
2、3それぞれより生成した索引情報の例である。図1
1では文書の一部を「…」で省略しており、省略部分に
対応して解析結果も空のノードおよび係り先のない矢印
により略記している。すべてのリーフクラスタに索引付
けがなされたら、ステップS701を経てステップS7
05に進む。Returning to FIG. 7, in step S704, the cluster representative structure created as described above is associated with the original cluster and used as an index. FIG. 11 is an example of index information generated from each of the leaf clusters 2 and 3. FIG.
In FIG. 1, a part of the document is abbreviated as "...", and the analysis result is also abbreviated by an empty node and an arrow with no relation to the omitted part. After all the leaf clusters have been indexed, the process goes through step S701 to step S7.
Go to 05.
【0058】ステップS705からステップS707で
は、リーフクラスタ以外の文書クラスタに対するクラス
タ代表構造の作成およびクラスタ代表構造間の関連づけ
を行なう。関連づけの処理は検索対象文書集合105の
クラスタ階層を細分化されたクラスタ(リーフクラス
タ)側から複数クラスタを統合した複合クラスタ(ルー
ト方向)側に向かってボトムアップに行なう。In steps S705 to S707, a cluster representative structure is created for document clusters other than leaf clusters, and the cluster representative structures are associated with each other. The associating process is performed in a bottom-up manner from the subdivided cluster (leaf cluster) side of the search target document set 105 to the composite cluster (root direction) in which a plurality of clusters are integrated.
【0059】ステップS706では、クラスタ階層に対
応して子クラスタのクラスタ代表構造を重ね合わせる処
理を行なう。図11に示したクラスタ階層であれば、文
書クラスタ2の索引情報であるクラスタ代表構造107
yと、文書クラスタ3の索引情報であるクラスタ代表構
造107zとを重ね合わせることにより文書クラスタ1
の索引情報となるクラスタ代表構造107x(図1)を
作成する。In step S706, a process of superimposing the cluster representative structure of the child cluster corresponding to the cluster hierarchy is performed. In the case of the cluster hierarchy shown in FIG. 11, the cluster representative structure 107 which is the index information of the document cluster 2
y and the cluster representative structure 107z, which is the index information of the document cluster 3, is superimposed on the document cluster 1
The cluster representative structure 107x (FIG. 1) serving as the index information of is created.
【0060】さらに、ステップS707において、クラ
スタ代表構造107xを文書クラスタ1の索引として関
連づけ、子クラスタの索引情報である107yおよび1
07zとの関連付けも行ない索引の木構造を作成する。
以上のようにして図1に示す索引データ107を作成す
る。Further, in step S707, the cluster representative structure 107x is associated as an index of the document cluster 1, and 107y and 1
The tree structure of the index is also created by associating the index with 07z.
The index data 107 shown in FIG. 1 is created as described above.
【0061】従来、このような索引データ生成手段10
6および索引データ107が与えられていなかったた
め、文の構造まで考慮した類似文書検索を行なうために
はすべての文書との類似度計算をしなくてはならず、非
常に効率が悪かった。以下では、上記で説明した索引構
造を用いた図1のクラスタ検索手段104の動作につい
て説明する。Conventionally, such index data generating means 10
6 and the index data 107 were not provided, the similarity calculation with all documents had to be performed in order to perform a similar document search in consideration of the sentence structure, which was extremely inefficient. Hereinafter, the operation of the cluster search means 104 of FIG. 1 using the above-described index structure will be described.
【0062】図2に戻って、ステップS203のクラス
タ検索処理について説明する。図12は、クラスタ検索
処理の詳細を示すフローチャートである。まず、ステッ
プS1201において、Qを入力文解析結果(図3の3
02)で、Nを索引木構造のルートノードで初期化す
る。Returning to FIG. 2, the cluster search processing in step S203 will be described. FIG. 12 is a flowchart illustrating details of the cluster search process. First, in step S1201, Q is the input sentence analysis result (3 in FIG. 3).
02), N is initialized with the root node of the index tree structure.
【0063】つぎに、ステップS1202において、図
1の類似文照合手段108により、Nの子ノード索引で
ある各クラスタ代表構造とQとの類似度計算を行なう。
類似度計算については後で詳述する。Next, in step S1202, the similarity matching means 108 in FIG. 1 calculates the similarity between each cluster representative structure, which is the child node index of N, and Q.
The similarity calculation will be described later in detail.
【0064】つぎに、ステップS1204において、上
記の各クラスタ代表構造のうちQとの類似度が最も高か
ったクラスタ代表構造N’を新たなNとして設定し、ス
テップS1202からの処理を繰り返す。図1及び図1
1に示した文書クラスタおよび索引においては、まずル
ートクラスタの子ノードとして文書クラスタ1の索引情
報107xが検索される。つぎに、索引情報107xの
子ノードとして文書クラスタ2の索引情報107yが検
索される。このように索引情報の木構造をルート方向か
ら順次検索していく。最終的にリーフクラスタが検索さ
れ、ステップS1202の終了条件により処理を終了す
る。Next, in step S1204, a cluster representative structure N ′ having the highest similarity to Q among the above-described cluster representative structures is set as a new N, and the processing from step S1202 is repeated. 1 and 1
In the document cluster and index shown in FIG. 1, first, the index information 107x of the document cluster 1 is searched as a child node of the root cluster. Next, the index information 107y of the document cluster 2 is searched as a child node of the index information 107x. Thus, the tree structure of the index information is sequentially searched from the root direction. Finally, a leaf cluster is searched, and the process ends according to the end condition in step S1202.
【0065】以下では、図1において類似度を計算する
類似文照合手段108の動作について、図13から図1
9までを参照しながら説明する。ここからは、例とし
て、入力検索文「LEDが時々点滅する」の解析結果、
およびクラスタ代表構造107y(図11)を用いて説
明する。The operation of the similar sentence matching means 108 for calculating the similarity in FIG. 1 will be described below with reference to FIGS.
9 will be described. From here, as an example, the analysis result of the input search sentence "LED blinks occasionally"
A description will be given using the cluster representative structure 107y (FIG. 11).
【0066】図13は、類似文照合処理の内容を示す詳
細フローチャートである。まず、ステップS1301に
おいて、文節間類似度を計算し、図14に示す文節間類
似度対応表を作成する。図14に示した表1400は、
入力検索文「LEDが時々点滅する」の解析結果におけ
る各文節構造(1401)、およびクラスタ代表構造1
07yにおける各文節構造(1402)の総当りで類似
度1403を計算することにより作成する。FIG. 13 is a detailed flowchart showing the contents of the similar sentence matching process. First, in step S1301, the inter-phrase similarity is calculated, and the inter-phrase similarity correspondence table shown in FIG. 14 is created. Table 1400 shown in FIG.
Each phrase structure (1401) in the analysis result of the input search sentence “LED blinks occasionally”, and cluster representative structure 1
It is created by calculating the similarity 1403 with the round robin of each phrase structure (1402) in 07y.
【0067】文節間類似度の計算は以下のようにして行
なう。まず、自立語情報の類似度SimJを計算する。
同一の自立語の場合はSimJの値を1に設定する。以
下、とくに断りがなければ類似度は0から1の値をとる
実数で定義され、類似度1が同一の情報を示すものとす
る。The calculation of the inter-phrase similarity is performed as follows. First, the similarity SimJ of the independent word information is calculated.
In the case of the same independent word, the value of SimJ is set to 1. Hereinafter, unless otherwise specified, the similarity is defined as a real number having a value from 0 to 1, and the similarity 1 indicates the same information.
【0068】また、同一でない自立語に対しては図15
に示すIS−A辞書(1501)またはHAS−A辞書
(1502)を参照し、自立語概念(図5の103c)
間の距離dを計算し、例えば0.9dを自立語類似度S
imJの値として設定する。例えば「LED」と「パワ
ーランプ」の類似度であれば、図15においてIS−A
辞書での距離が2なので0.81という値がSimJと
して設定される。For independent words that are not the same, FIG.
The independent word concept (103c in FIG. 5) is referred to by referring to the IS-A dictionary (1501) or the HAS-A dictionary (1502) shown in FIG.
Calculate the distance d between, for example, 0.9 d to the independent word similarity S
Set as the value of imJ. For example, if the degree of similarity is between “LED” and “power lamp”, then in FIG.
Since the distance in the dictionary is 2, a value of 0.81 is set as SimJ.
【0069】さらに、文節構造がもつ属性情報を参照
し、属性類似度SimAを求める。SimAは属性の種
類に応じてあらかじめ定義されているものとする。例え
ば、様相情報である「否定」属性が共通すればSimA
は1とし、共通しない場合はSimAを0.1とする。
複数の属性をもつ場合は、これらの属性類似度を加算平
均するものとする。加算平均の計算において、図10に
示した頻度情報107gにより適宜重み付けを行なう。
すなわち、入力検索文に含まれる文節が、ある文書クラ
スタにおいて頻出するような属性情報をもつ場合は、属
性類似度SimAにおける当該属性情報の重みが高くな
るような重みづけとする。Further, the attribute similarity SimA is obtained by referring to the attribute information of the phrase structure. It is assumed that SimA is defined in advance according to the type of attribute. For example, if the “negation” attribute, which is modality information, is common, SimA
Is set to 1, and when not common, SimA is set to 0.1.
When there are a plurality of attributes, these attribute similarities are averaged. In the calculation of the averaging, weighting is appropriately performed using the frequency information 107g shown in FIG.
That is, when a phrase included in the input search sentence has attribute information that appears frequently in a certain document cluster, the weight is set such that the weight of the attribute information in the attribute similarity SimA becomes higher.
【0070】文節構造が属性情報としてもつ接頭語や接
尾語についても上記属性類似度の計算に反映する。例え
ば、「〜中」という接尾語をもつ文節は、「〜ている」
という付属語列に代表される「継続」属性をもつ文節と
の属性類似度が高くなる。The prefix and suffix that the phrase structure has as attribute information are also reflected in the calculation of the attribute similarity. For example, a phrase with a suffix of
Attribute similarity with a phrase having a “continuation” attribute represented by an adjunct word string is high.
【0071】図14に示した文節間類似度1403は、
上記の自立語類似度SimJおよび属性類似度SimA
を乗じて計算する。さらに、図14に示した表1400
を作成するにあたり、言い換え辞書を参照して、入力検
索文の解析結果(1401)とクラスタ代表構造(14
02)との間に言い換え可能な表現がある場合には、当
該表現に相当する複数文節からなる仮想的な文節を作成
し、文節間類似度を1として表1400に加える。The inter-phrase similarity 1403 shown in FIG.
Above independent word similarity SimJ and attribute similarity SimA
Multiplied by. Further, a table 1400 shown in FIG.
In creating the data, the analysis result (1401) of the input search sentence and the cluster representative structure (14
When there is an expression that can be paraphrased between the expression and the expression (02), a virtual phrase composed of a plurality of phrases corresponding to the expression is created, and the similarity between phrases is set to 1 and added to the table 1400.
【0072】図16は、言い換え辞書の構成例を示す図
である。この言い換え辞書1600は、少なくとも言い
換え元の表現1601および言い換え先の表現1602
から構成される。言い換え元の表現1601は、少なく
とも見出し1601a、品詞1601b、子ノード情報
1601cを含む。言い換え先表現1602も同様に、
見出し1602a、品詞1602b、子ノード情報16
02cを含む。FIG. 16 is a diagram showing a configuration example of the paraphrase dictionary. This paraphrase dictionary 1600 includes at least a paraphrase source expression 1601 and a paraphrase destination expression 1602.
Consists of The paraphrase source expression 1601 includes at least a headline 1601a, a part of speech 1601b, and child node information 1601c. Similarly, the paraphrase expression 1602 is
Heading 1602a, part of speech 1602b, child node information 16
02c.
【0073】図16において示しているのは、「電源を
投入する」が「P−ONする」という表現に言い換え可
能であるということである(上段のエントリ)。このよ
うな言い換えはヘルプデスク業務における対話ログな
ど、短時間で入力する必要があるテキストで数多く見ら
れる。言い換え辞書1600を用いて、このような言い
換え表現に対応することにより、類似文照合の精度を向
上することができる。What is shown in FIG. 16 is that “turn on the power” can be paraphrased into the expression “turn on P-ON” (the upper entry). Such paraphrases are often found in texts that need to be entered in a short time, such as conversation logs in help desk operations. By using the paraphrase dictionary 1600 to cope with such paraphrase expressions, it is possible to improve the accuracy of similar sentence matching.
【0074】図13に戻って、ステップS1302の類
似文節対応木構造の作成について説明する。ステップS
1301において作成した文節間類似度対応表では、一
般に複数の解釈が可能である。例えば、図14に示した
例では、入力文の文節「点滅する」に対してクラスタ代
表構造の文節は「点灯する」および「点滅する」の2種
類の文節が対応可能である。所定の閾値、例えば0.5
以上の文節間類似度をもつ文節ペアをすべて並べあげ、
最も類似度が高くなるような組み合わせを選択する必要
がある。そこで、ステップS1302において図17に
示すような類似文節対応木構造を作成する。Returning to FIG. 13, the creation of a similar phrase correspondence tree structure in step S1302 will be described. Step S
In the inter-phrase similarity correspondence table created in 1301, a plurality of interpretations are generally possible. For example, in the example shown in FIG. 14, two types of phrases, “light on” and “blink”, can be used as the phrase in the cluster representative structure for the phrase “blinks” in the input sentence. A predetermined threshold, for example, 0.5
All phrase pairs having the above similarity between phrases are listed,
It is necessary to select a combination that has the highest similarity. Therefore, in step S1302, a similar phrase correspondence tree structure as shown in FIG. 17 is created.
【0075】図17は、類似文節対応木構造の例を示す
図である。同図(A)が類似文節対応木構造で、同図
(B)は対応付けの概念説明図である。類似文節対応木
構造の各ノードは、入力検索文の解析結果とクラスタ代
表構造の文節との対応付けに相当する。すなわち、文節
「LEDが」と文節「LED[ガ]」との対応付け17
02aが類似文節対応木構造のノード1701aに相当
する。文節「点滅する」に対応するクラスタ代表構造の
文節には「点灯する」および「点滅する」の2種類が考
えられるので、ノード1701aの子ノードとして17
01bおよび1701cが作成される。FIG. 17 is a diagram showing an example of a similar phrase correspondence tree structure. FIG. 7A is a similar phrase correspondence tree structure, and FIG. 7B is a conceptual explanatory diagram of the association. Each node of the similar clause correspondence tree structure corresponds to the correspondence between the analysis result of the input search sentence and the clause of the cluster representative structure. That is, the correspondence 17 between the phrase “LED is” and the phrase “LED [Ga]”
02a corresponds to the node 1701a of the similar phrase correspondence tree structure. There are two types of clauses of the cluster representative structure corresponding to the phrase “blinking”, “lit” and “blinking”.
01b and 1701c are created.
【0076】図17の類似文節対応木構造は、図14の
表1400より以下の手順で作成する。まず、所定の閾
値以上の類似度をもつ項目を1行目から順次検索する。
図14の場合は、1行目で「LEDが」と「LED
[ガ]」の対応が見つかるので、ノード1701aを作
成する。つぎに、2行目以降で同様の処理を繰り返しな
がら対応付けの可能性を木構造にして展開していく。展
開が終了したら各リーフノードには類似度情報1701
d、1701eをそれぞれ設定する。The similar phrase correspondence tree structure of FIG. 17 is created by the following procedure from the table 1400 of FIG. First, items having a similarity greater than or equal to a predetermined threshold are sequentially searched from the first line.
In the case of FIG. 14, “LED” and “LED
Since the correspondence of [G] is found, the node 1701a is created. Next, while repeating the same processing in the second and subsequent rows, the possibility of association is expanded into a tree structure. When the expansion is completed, the similarity information 1701 is added to each leaf node.
d and 1701e are set respectively.
【0077】類似度情報には、文節類似度平均値sim
N、および係り受け類似度平均値simLを格納する。
文節類似度平均値は、類似文節対応木構造上でのルート
ノードから当該リーフノードまでの文節間類似度の加算
平均である。加算平均において、図10に示した頻度情
報107eにより適宜重み付けを行なう。すなわち、入
力検索文に含まれる文節が、ある文書クラスタにおいて
頻出する場合は、simNにおける当該文節の重みが高
くなるような重みづけとする。The similarity information includes a phrase similarity average value sim
N and the dependency similarity average value simL are stored.
The phrase similarity average value is an average of the inter-phrase similarity from the root node to the leaf node on the similar phrase correspondence tree structure. In the averaging, weighting is appropriately performed using the frequency information 107e shown in FIG. That is, when a phrase included in the input search sentence frequently appears in a certain document cluster, the weight is set so that the weight of the phrase in simN is increased.
【0078】図13に戻って、ステップS1303にお
いて、係り受け類似度平均値simLを以下の手順で計
算する。入力検索文の解析結果においては、ある文節の
係り先は一意に決まる。そこで、図17の類似文節対応
木構造の各ノードにおいて入力検索文の文節の係り情報
と類似する係り情報がクラスタ代表構造中に存在するか
どうかを調べ、類似する係り情報が存在すれば図10に
示した頻度情報107fによる重み付けをほどこした上
で当該ノードの係り受け類似度simL0とする。一
方、類似する係り受け情報が存在しない場合には、当該
ノードの係り受け非類似度simL1として1を設定す
る。係り受け情報類似度平均値simLは、類似文節対
応木構造上でのルートノードから当該リーフノードまで
の係り受け類似度simL0および係り受け非類似度s
imL1より以下の式(A)で計算する。Returning to FIG. 13, in step S1303, the average dependency similarity value simL is calculated in the following procedure. In the analysis result of the input search sentence, the destination of a certain clause is uniquely determined. Therefore, at each node of the similar phrase correspondence tree structure of FIG. 17, it is checked whether or not the relationship information similar to the relationship information of the phrase of the input search sentence exists in the cluster representative structure. Is weighted by the frequency information 107f shown in FIG. On the other hand, when there is no similar dependency information, 1 is set as the dependency non-similarity simL1 of the node. The dependency information similarity average value simL is a dependency similarity simL0 and a dependency dissimilarity s from the root node to the leaf node on the similar phrase correspondence tree structure.
It is calculated from imL1 by the following equation (A).
【0079】 simL=(係り受け類似度simL0の加算平均)/ {(simL0が0でないノード数)+(simL1が0でないノード数)} ・・・式(A)SimL = (average of dependency similarity simL0) / {(number of nodes where simL0 is not 0) + (number of nodes where simL1 is not 0)} Expression (A)
【0080】例えば、図17の例でいえば、ノード17
01aは、文節「LEDが」から「点滅する」への係り
情報「ガ」と類似する係り情報がクラスタ代表構造にも
含まれるのでsimL0=1として設定される。一方、
ノード1701bおよびノード1701cでは係り先の
ない文末単語なのでsimL0もsimL1も設定され
ない。For example, in the example of FIG.
01a is set as simL0 = 1 because the relationship information similar to the relationship information "GA" from the phrase "LED is" to "blinking" is also included in the cluster representative structure. on the other hand,
At nodes 1701b and 1701c, since there is no end-of-sentence word, neither simL0 nor simL1 is set.
【0081】図18は、係り受け非類似度simL1に
値が設定される例を示す図である。図18では、入力検
索文が「LEDがオレンジ色に点滅する」だった場合を
示している。図18において、ノード1801bでは、
入力検索文の文節「オレンジ色に」が文節「点滅する」
に係っているのに対して、クラスタ代表構造では文節
「オレンジ色」は「LED」に係っており、係り先文節
が異なっているのでsimL1に1が設定される。FIG. 18 is a diagram showing an example in which a value is set to the dependency dissimilarity simL1. FIG. 18 shows a case where the input search sentence is “LED blinks orange”. In FIG. 18, at the node 1801b,
The phrase "orange" in the input search phrase "blinks"
On the other hand, in the cluster representative structure, the phrase “orange” relates to “LED”, and since the destination phrase is different, 1 is set to simL1.
【0082】係り受け類似度simL0の加算平均を計
算する際に、図19に示す格辞書1900を用いて重み
付けを行なう。この格辞書1900には、概念間の関係
が記述されている。ここでは、格辞書1900に記述さ
れた係り受け関係であれば重要であると判断して、当該
係り受け類似度のsimL0における重み付けを大きく
する。格辞書1900の記述に重要度を設けて、当該重
要度を用いて係り受け類似度simL0の重み付けを行
なってもよい。When calculating the average of the dependency similarity simL0, weighting is performed using the case dictionary 1900 shown in FIG. This case dictionary 1900 describes the relationship between concepts. Here, it is determined that the dependency relation described in the case dictionary 1900 is important, and the weight of the dependency similarity in the simL0 is increased. The description of the case dictionary 1900 may be provided with a degree of importance, and the degree of dependency similarity simL0 may be weighted using the degree of importance.
【0083】最後に、図13のステップS1304にお
いて、最大類似度SimMAXを求める。上記で計算し
た文節類似度平均値simNおよび係り受け類似度平均
値simLより、以下の式(B)により各類似情報の類
似度を計算する。Finally, in step S1304 of FIG. 13, the maximum similarity SimMAX is obtained. From the phrase similarity average value simN and the dependency similarity average value simL calculated above, the similarity of each similar information is calculated by the following equation (B).
【0084】 類似度=α×文節類似度+β×係り受け類似度 ・・・式(B)Similarity = α × Phrase similarity + β × Dependency similarity Expression (B)
【0085】類似文節対応木構造上のすべての類似情報
について類似度を計算し、もっとも大きな値を類似文照
合の出力SimMAXとして採用する。以上で図1の類
似文照合手段108の動作についての説明を終わる。The similarity is calculated for all the similar information in the similar phrase correspondence tree structure, and the largest value is adopted as the output SimMAX of similar sentence matching. This is the end of the description of the operation of the similar sentence matching unit 108 in FIG.
【0086】なお、上記のクラスタ検索手法は、図1に
おける検索対象文書集合105が階層的ではないクラス
タリングをなされている場合でも有効である。すなわ
ち、階層構造をもたない文書クラスタ1〜3がある場合
は、全文書集合を仮想的な文書クラスタ0と考えること
ができる。すると、文書クラスタ0の子供クラスタが文
書クラスタ1〜3であるとみなせるので、上記で説明し
た階層的クラスタリングがなされた文書集合に対する検
索手法がそのまま適用できる。Note that the above-described cluster search method is effective even when the search target document set 105 in FIG. 1 is not hierarchically clustered. That is, when there are document clusters 1 to 3 having no hierarchical structure, the entire document set can be considered as virtual document cluster 0. Then, since the child clusters of the document cluster 0 can be regarded as the document clusters 1 to 3, the above-described search method for the hierarchically clustered document set can be applied as it is.
【0087】図2に戻って、ステップS204におい
て、図1の出力手段110により検索結果を出力する。
クラスタ検索手段104により検索対象文書は充分に絞
り込まれて件数が少なくなっているので、全文書に対し
て類似文照合手段108により類似度を計算し、類似度
が大きい順に所定の書式で表示することができる。Returning to FIG. 2, in step S204, the search result is output by the output means 110 of FIG.
Since the search target documents are sufficiently narrowed down by the cluster search means 104 and the number of cases is reduced, the similarity is calculated for all the documents by the similar sentence matching means 108 and displayed in a predetermined format in descending order of the similarity. be able to.
【0088】以上説明したように、本実施の形態1にお
いては、索引データ生成手段106によりクラスタ代表
構造を索引データ107として生成し、類似文照合手段
108により同クラスタ代表構造と入力検索文の類似度
を計算することができるので、クラスタ検索手段104
により索引木構造を順次参照しながら検索対象文書クラ
スタを絞り込むことが可能である。従来の文構造を考慮
した類似文書検索では上記のような索引および検索手段
が与えられていなかったため、文書集合全体に対して類
似文照合を行なわなくてはならず処理に時間がかかって
いたが、本実施の形態1によれば木構造索引を利用して
検索対象を絞り込めるので高速な処理が可能である。As described above, in the first embodiment, the cluster representative structure is generated as the index data 107 by the index data generating means 106, and the similarity of the cluster representative structure is similar to the input search text by the similar sentence matching means 108. Since the degree can be calculated, the cluster search means 104
Thus, it is possible to narrow down the search target document cluster while sequentially referring to the index tree structure. In the similar document search in consideration of the conventional sentence structure, since the above-mentioned index and search means were not provided, similar sentence matching had to be performed for the entire document set, and the processing was time-consuming. According to the first embodiment, the search target can be narrowed down using the tree structure index, so that high-speed processing is possible.
【0089】[0089]
【発明の効果】この発明の請求項1に係る類似文書検索
システムは、以上説明したとおり、検索文を入力する入
力手段と、文構造解析用の単語辞書と、前記単語辞書を
参照して前記入力検索文の構造を解析する文構造解析手
段と、クラスタリングされた文書を格納した文書データ
ベースと、概念に関する知識を格納したオントロジー
と、前記オントロジーを参照して、前記入力検索文の解
析結果と、前記文書データベースのクラスタに含まれる
文書から検索時に索引として使用するクラスタ構造情報
との類似度を計算する類似文照合手段と、前記類似文照
合手段により計算する類似度に基づいて前記入力検索文
と最も類似するクラスタ構造情報を検索し、このクラス
タ構造情報に対応づけられた前記文書データベース内の
文書クラスタより類似文書を検索するクラスタ検索手段
とを備えたので、あらかじめクラスタリングされた文書
クラスタに対してクラスタ構造情報を索引として用いる
ことにより、大規模な文書集合を検索対象とする場合で
も文の構造を考慮した類似文書検索を可能とすることが
できるという効果を奏する。As described above, the similar document search system according to the first aspect of the present invention provides an input unit for inputting a search sentence, a word dictionary for analyzing a sentence structure, and the word dictionary with reference to the word dictionary. Sentence structure analysis means for analyzing the structure of the input search sentence, a document database storing clustered documents, an ontology storing knowledge about concepts, and an analysis result of the input search sentence with reference to the ontology, A similar sentence matching unit that calculates a similarity between the document included in the cluster of the document database and cluster structure information used as an index at the time of search; and the input search sentence based on the similarity calculated by the similar sentence matching unit. The most similar cluster structure information is searched, and a class is obtained from the document cluster in the document database corresponding to the cluster structure information. A cluster search means for searching for documents is provided, so that the cluster structure information is used as an index for document clusters that have been clustered in advance, so that the sentence structure is considered even when a large document set is to be searched. There is an effect that a similar document search can be performed.
【0090】この発明の請求項2に係る類似文書検索シ
ステムは、以上説明したとおり、前記文書データベース
のクラスタに含まれる文書から、前記文構造解析手段に
よる文の構造の解析結果に基いて、検索時に索引として
使用するクラスタ構造情報を生成する索引データ生成手
段をさらに備えたので、クラスタ構造情報を索引として
用いることにより、大規模な文書集合を検索対象とする
場合でも文の構造を考慮した類似文書検索を可能とする
ことができるという効果を奏する。As described above, the similar document search system according to the second aspect of the present invention searches a document included in the cluster of the document database based on the sentence structure analysis result by the sentence structure analysis means. Index data generating means for generating cluster structure information that is sometimes used as an index is further provided. By using the cluster structure information as an index, similarity considering the sentence structure even when a large document set is searched for There is an effect that a document search can be performed.
【0091】この発明の請求項3に係る類似文書検索シ
ステムは、以上説明したとおり、前記索引データ生成手
段が、前記クラスタ構造情報として、クラスタに含まれ
る文書に対する前記文構造解析手段の解析結果を重ね合
わせた構造であるクラスタ代表構造を生成するので、ク
ラスタ構造情報を索引として用いることにより、大規模
な文書集合を検索対象とする場合でも文の構造を考慮し
た類似文書検索を可能とすることができるという効果を
奏する。As described above, in the similar document search system according to the third aspect of the present invention, the index data generating unit may include, as the cluster structure information, an analysis result of the sentence structure analyzing unit for a document included in a cluster. Generates a cluster representative structure that is a superimposed structure. By using the cluster structure information as an index, it is possible to search for similar documents in consideration of the sentence structure even when a large document set is searched. This has the effect that it can be performed.
【0092】この発明の請求項4に係る類似文書検索方
法は、以上説明したとおり、検索文を入力する入力ステ
ップと、文構造解析用の単語辞書を参照して前記入力検
索文の構造を解析する文構造解析ステップと、概念に関
する知識を格納したオントロジーを参照して、前記入力
検索文の解析結果と、クラスタリングされた文書を格納
した文書データベースのクラスタに含まれる文書から生
成されたクラスタ構造情報との類似度を計算するととも
に、この計算した類似度に基づいて前記入力検索文と最
も類似するクラスタ構造情報を検索し、このクラスタ構
造情報に対応づけられた前記文書データベース内の文書
クラスタより類似文書を検索するクラスタ検索ステップ
とを含むので、あらかじめクラスタリングされた文書ク
ラスタに対してクラスタ構造情報を索引として用いるこ
とにより、大規模な文書集合を検索対象とする場合でも
文の構造を考慮した類似文書検索を可能とすることがで
きるという効果を奏する。As described above, in the similar document search method according to the fourth aspect of the present invention, the input step of inputting a search sentence and the structure of the input search sentence are analyzed with reference to a sentence structure analysis word dictionary. A sentence structure analyzing step, and referring to an ontology storing knowledge about the concept, the analysis result of the input search sentence and cluster structure information generated from documents included in a cluster of a document database storing clustered documents. And, based on the calculated similarity, search for cluster structure information most similar to the input search sentence, and search for a similarity from the document cluster in the document database associated with this cluster structure information. And a cluster search step for searching for a document. By using the static structure information as an index, an effect that it is possible to enable similar document search considering the structure of the sentence, even if to be searched large document set.
【0093】この発明の請求項5に係る類似文書検索方
法は、以上説明したとおり、前記文書データベースのク
ラスタリングが階層的になされており、前記クラスタ構
造情報による索引が文書クラスタの階層構造に対応した
木構造をなすよう構成され、前記クラスタ検索ステップ
が、前記索引の木構造を順次探索しながら類似文書クラ
スタを検索するので、大規模な文書集合を検索対象とす
る場合でも文の構造を考慮した類似文書検索を可能とす
ることができるという効果を奏する。In the similar document search method according to the fifth aspect of the present invention, as described above, the clustering of the document database is performed hierarchically, and the index based on the cluster structure information corresponds to the hierarchical structure of the document cluster. It is configured to form a tree structure, and the cluster search step searches for similar document clusters while sequentially searching the tree structure of the index. Therefore, even when a large document set is to be searched, the sentence structure is considered. There is an effect that a similar document search can be performed.
【0094】この発明の請求項6に係る類似文書検索方
法は、以上説明したとおり、前記クラスタ検索ステップ
の類似度計算処理が、前記解析結果の依存構造における
文節ノードの類似性を計算する文節間類似度計算ステッ
プと、文節間の係り受け情報の類似性を計算する係り受
け情報類似度計算ステップとを含むので、大規模な文書
集合を検索対象とする場合でも文の構造を考慮した類似
文書検索を可能とすることができるという効果を奏す
る。As described above, in the similar document search method according to the sixth aspect of the present invention, the similarity calculation processing in the cluster search step calculates the similarity between the clause nodes in the dependency structure of the analysis result. Since it includes a similarity calculation step and a dependency information similarity calculation step for calculating similarity of dependency information between phrases, similar documents that take into account the sentence structure even when a large document set is to be searched. There is an effect that a search can be enabled.
【0095】この発明の請求項7に係る類似文書検索方
法は、以上説明したとおり、前記文節間類似度計算ステ
ップが、様相表現を考慮して文節間類似度を計算するの
で、大規模な文書集合を検索対象とする場合でも文の構
造を考慮した類似文書検索を可能とすることができると
いう効果を奏する。In the similar document search method according to the seventh aspect of the present invention, as described above, since the inter-phrase similarity calculation step calculates inter-phrase similarity in consideration of modal expression, a large-scale document Even when a set is to be searched, it is possible to perform a similar document search in consideration of the sentence structure.
【0096】この発明の請求項8に係る類似文書検索方
法は、以上説明したとおり、前記オントロジーを、概念
間の上位下位関係を記述したIS−A辞書としたので、
大規模な文書集合を検索対象とする場合でも文の構造を
考慮した類似文書検索を可能とすることができるという
効果を奏する。In the similar document search method according to claim 8 of the present invention, as described above, the ontology is an IS-A dictionary that describes the upper-lower relationships between concepts.
Even when a large document set is to be searched, it is possible to perform a similar document search in consideration of the sentence structure.
【0097】この発明の請求項9に係る類似文書検索方
法は、以上説明したとおり、前記オントロジーを、概念
間の部分全体関係を記述したHAS−A辞書としたの
で、大規模な文書集合を検索対象とする場合でも文の構
造を考慮した類似文書検索を可能とすることができると
いう効果を奏する。In the similar document search method according to the ninth aspect of the present invention, as described above, since the ontology is a HAS-A dictionary that describes the entire partial relationship between concepts, a large-scale document set is searched. Even in the case of a target, it is possible to perform a similar document search in consideration of a sentence structure.
【0098】この発明の請求項10に係る類似文書検索
方法は、以上説明したとおり、前記オントロジーを、概
念間の格関係を記述した格辞書としたので、大規模な文
書集合を検索対象とする場合でも文の構造を考慮した類
似文書検索を可能とすることができるという効果を奏す
る。In the similar document search method according to the tenth aspect of the present invention, as described above, since the ontology is a case dictionary describing case relations between concepts, a large document set is searched. Even in this case, there is an effect that a similar document search can be performed in consideration of the sentence structure.
【0099】この発明の請求項11に係る類似文書検索
方法は、以上説明したとおり、前記オントロジーを、言
い換え可能である等価な表現を記述した言い換え辞書と
したので、大規模な文書集合を検索対象とする場合でも
文の構造を考慮した類似文書検索を可能とすることがで
きるという効果を奏する。In the similar document search method according to the eleventh aspect of the present invention, as described above, the ontology is a paraphrase dictionary in which paraphrasable equivalent expressions are described. In this case, it is possible to perform a similar document search in consideration of the sentence structure.
【0100】この発明の請求項12に係る類似文書検索
プログラムを記録したコンピュータ読み取り可能な記録
媒体は、検索文を入力する入力手順と、文構造解析用の
単語辞書を参照して前記入力検索文の構造を解析する文
構造解析手順と、概念に関する知識を格納したオントロ
ジーを参照して、前記入力検索文の解析結果と、クラス
タリングされた文書を格納した文書データベースのクラ
スタに含まれる文書から生成されたクラスタ構造情報と
の類似度を計算するとともに、この計算した類似度に基
づいて前記入力検索文と最も類似するクラスタ構造情報
を検索し、このクラスタ構造情報に対応づけられた前記
文書データベース内の文書クラスタより類似文書を検索
するクラスタ検索手順とを含むので、あらかじめクラス
タリングされた文書クラスタに対してクラスタ構造情報
を索引として用いることにより、大規模な文書集合を検
索対象とする場合でも文の構造を考慮した類似文書検索
を可能とすることができるという効果を奏する。According to a twelfth aspect of the present invention, there is provided a computer-readable recording medium storing a similar document search program, comprising: an input procedure for inputting a search sentence; A sentence structure analysis procedure for analyzing the structure of a document, and an ontology storing knowledge on concepts are referred to, the analysis result of the input search sentence and a document generated from documents included in a cluster of a document database storing clustered documents. The similarity with the calculated cluster structure information is calculated, and the cluster structure information most similar to the input search sentence is searched based on the calculated similarity. And a cluster search procedure for searching for similar documents from document clusters. The use of cluster structure information as an index for the cluster, an effect that it is possible to enable similar document search considering the structure of the sentence, even if to be searched large document set.
【図1】 この発明の実施の形態1に係る類似文書検索
システムの全体構成を示す図である。FIG. 1 is a diagram showing an overall configuration of a similar document search system according to Embodiment 1 of the present invention.
【図2】 この発明の実施の形態1に係る類似文書検索
システムの動作を示すフローチャートである。FIG. 2 is a flowchart showing an operation of the similar document search system according to the first embodiment of the present invention.
【図3】 この発明の実施の形態1に係る類似文書検索
システムの日本語文解析処理の詳細を示すフローチャー
トである。FIG. 3 is a flowchart showing details of a Japanese sentence analysis process of the similar document search system according to the first embodiment of the present invention.
【図4】 この発明の実施の形態1に係る類似文書検索
システムの単語辞書の構成を示す図である。FIG. 4 is a diagram showing a configuration of a word dictionary of the similar document search system according to the first embodiment of the present invention.
【図5】 この発明の実施の形態1に係る類似文書検索
システムにおける文節構造の一例を示す図である。FIG. 5 is a diagram showing an example of a phrase structure in the similar document search system according to the first embodiment of the present invention.
【図6】 この発明の実施の形態1に係る類似文書検索
システムの係り受け解析処理の詳細を示すフローチャー
トである。FIG. 6 is a flowchart showing details of a dependency analysis process of the similar document search system according to the first embodiment of the present invention.
【図7】 この発明の実施の形態1に係る類似文書検索
システムの索引生成処理の詳細を示すフローチャートで
ある。FIG. 7 is a flowchart showing details of an index generation process of the similar document search system according to the first embodiment of the present invention.
【図8】 この発明の実施の形態1に係る類似文書検索
システムにおける文書クラスタの例を示す図である。FIG. 8 is a diagram showing an example of a document cluster in the similar document search system according to the first embodiment of the present invention.
【図9】 この発明の実施の形態1に係る類似文書検索
システムにおける重ね合わせ構造の例を示す図である。FIG. 9 is a diagram showing an example of a superposition structure in the similar document search system according to the first embodiment of the present invention.
【図10】 この発明の実施の形態1に係る類似文書検
索システムにおけるクラスタ代表構造の詳細構成例を示
す図である。FIG. 10 is a diagram showing a detailed configuration example of a cluster representative structure in the similar document search system according to the first embodiment of the present invention.
【図11】 この発明の実施の形態1に係る類似文書検
索システムにおける索引データの例を示す図である。FIG. 11 is a diagram showing an example of index data in the similar document search system according to the first embodiment of the present invention.
【図12】 この発明の実施の形態1に係る類似文書検
索システムのクラスタ検索処理の詳細を示すフローチャ
ートである。FIG. 12 is a flowchart showing details of a cluster search process of the similar document search system according to the first embodiment of the present invention.
【図13】 この発明の実施の形態1に係る類似文書検
索システムの類似文照合処理の詳細を示すフローチャー
トである。FIG. 13 is a flowchart showing details of a similar sentence matching process of the similar document search system according to the first embodiment of the present invention.
【図14】 この発明の実施の形態1に係る類似文書検
索システムにおける文節間類似度対応表の例を示す図で
ある。FIG. 14 is a diagram showing an example of a phrase similarity correspondence table in the similar document search system according to the first embodiment of the present invention.
【図15】 この発明の実施の形態1に係る類似文書検
索システムのオントロジーのIS−A辞書及びHAS−
A辞書の構成例を示す図である。FIG. 15 is an ontology IS-A dictionary and HAS- of the ontology of the similar document search system according to the first embodiment of the present invention;
FIG. 3 is a diagram illustrating a configuration example of an A dictionary.
【図16】 この発明の実施の形態1に係る類似文書検
索システムのオントロジーの言い換え辞書の構成例を示
す図である。FIG. 16 is a diagram showing a configuration example of an ontology paraphrase dictionary of the similar document search system according to the first embodiment of the present invention.
【図17】 この発明の実施の形態1に係る類似文書検
索システムの類似文節対応木構造の例を示す図である。FIG. 17 is a diagram showing an example of a similar phrase correspondence tree structure of the similar document search system according to the first embodiment of the present invention.
【図18】 この発明の実施の形態1に係る類似文書検
索システムの類似文節対応木構造の例(simL1=
1)を示す図である。FIG. 18 is an example of a similar phrase correspondence tree structure (simL1 =
It is a figure which shows 1).
【図19】 この発明の実施の形態1に係る類似文書検
索システムのオントロジーの格辞書の例を示す図であ
る。FIG. 19 is a diagram showing an example of an ontology case dictionary of the similar document search system according to the first embodiment of the present invention.
【図20】 従来の類似度計算手法を示す図である。FIG. 20 is a diagram showing a conventional similarity calculation method.
101 入力手段、102 文構造解析手段、103
単語辞書、104 クラスタ検索手段、105 検索対
象文書集合、106 索引データ生成手段、107 索
引データ、108 類似文照合手段、109 オントロ
ジー、110出力手段。101 input means, 102 sentence structure analyzing means, 103
Word dictionary, 104 cluster search means, 105 search document set, 106 index data generation means, 107 index data, 108 similar sentence matching means, 109 ontology, 110 output means.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 克志 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5B075 ND03 NR02 NR12 NS01 PR06 QM08 QP03 QS01 ────────────────────────────────────────────────── ─── Continuing from the front page (72) Inventor Katsushi Suzuki 2-3-2 Marunouchi 2-chome, Chiyoda-ku, Tokyo Mitsubishi Electric Corporation F-term (reference) 5B075 ND03 NR02 NR12 NS01 PR06 QM08 QP03 QS01
Claims (12)
る文構造解析手段と、 クラスタリングされた文書を格納した文書データベース
と、 概念に関する知識を格納したオントロジーと、 前記オントロジーを参照して、前記入力検索文の解析結
果と、前記文書データベースのクラスタに含まれる文書
から検索時に索引として使用するクラスタ構造情報との
類似度を計算する類似文照合手段と、 前記類似文照合手段により計算する類似度に基づいて前
記入力検索文と最も類似するクラスタ構造情報を検索
し、このクラスタ構造情報に対応づけられた前記文書デ
ータベース内の文書クラスタより類似文書を検索するク
ラスタ検索手段とを備えたことを特徴とする類似文書検
索システム。An input unit for inputting a search sentence; a word dictionary for analyzing a sentence structure; a sentence structure analyzing unit for analyzing a structure of the input search sentence with reference to the word dictionary; A stored document database; an ontology storing knowledge about concepts; an analysis result of the input search sentence by referring to the ontology; and cluster structure information used as an index when searching from documents included in the cluster of the document database. A similar sentence matching unit that calculates a similarity to the input search sentence based on the similarity calculated by the similar sentence matching unit, and is searched for cluster structure information that is most similar to the input search sentence. Cluster search means for searching for a similar document from a document cluster in the document database. Search system.
れる文書から、前記文構造解析手段による文の構造の解
析結果に基いて、検索時に索引として使用するクラスタ
構造情報を生成する索引データ生成手段をさらに備えた
ことを特徴とする請求項1記載の類似文書検索システ
ム。2. An index data generating means for generating, from a document included in a cluster of the document database, cluster structure information used as an index at the time of retrieval based on a sentence structure analysis result by the sentence structure analyzing means. The similar document retrieval system according to claim 1, further comprising:
タ構造情報として、クラスタに含まれる文書に対する前
記文構造解析手段の解析結果を重ね合わせた構造である
クラスタ代表構造を生成することを特徴とする請求項2
記載の類似文書検索システム。3. The method according to claim 2, wherein the index data generation unit generates, as the cluster structure information, a cluster representative structure which is a structure obtained by superimposing an analysis result of the sentence structure analysis unit on a document included in a cluster. Claim 2
Description similar document search system.
造を解析する文構造解析ステップと、 概念に関する知識を格納したオントロジーを参照して、
前記入力検索文の解析結果と、クラスタリングされた文
書を格納した文書データベースのクラスタに含まれる文
書から生成されたクラスタ構造情報との類似度を計算す
るとともに、この計算した類似度に基づいて前記入力検
索文と最も類似するクラスタ構造情報を検索し、このク
ラスタ構造情報に対応づけられた前記文書データベース
内の文書クラスタより類似文書を検索するクラスタ検索
ステップとを含むことを特徴とする類似文書検索方法。4. An input step for inputting a search sentence, a sentence structure analyzing step for analyzing the structure of the input search sentence with reference to a sentence structure analysis word dictionary, and referring to an ontology storing knowledge about concepts. hand,
A similarity between an analysis result of the input search sentence and cluster structure information generated from a document included in a cluster of a document database storing clustered documents is calculated, and the input based on the calculated similarity is calculated. A cluster search step of searching for cluster structure information most similar to the search sentence and searching for a similar document from a document cluster in the document database associated with the cluster structure information. .
が階層的になされており、前記クラスタ構造情報による
索引が文書クラスタの階層構造に対応した木構造をなす
よう構成され、前記クラスタ検索ステップは、前記索引
の木構造を順次探索しながら類似文書クラスタを検索す
ることを特徴とする請求項4記載の類似文書検索方法。5. The clustering of the document database is performed hierarchically, an index based on the cluster structure information is configured to form a tree structure corresponding to a hierarchical structure of the document cluster, and the cluster search step includes: 5. The similar document search method according to claim 4, wherein similar document clusters are searched while sequentially searching a tree structure.
処理は、 前記解析結果の依存構造における文節ノードの類似性を
計算する文節間類似度計算ステップと、 文節間の係り受け情報の類似性を計算する係り受け情報
類似度計算ステップとを含むことを特徴とする請求項4
記載の類似文書検索方法。6. The similarity calculation process of the cluster search step includes the following steps: a similarity calculation process for calculating the similarity of a clause node in the dependency structure of the analysis result; and a similarity calculation of dependency information between the clauses. 5. A dependency information similarity calculating step of:
Similar document search method described.
表現を考慮して文節間類似度を計算することを特徴とす
る請求項6記載の類似文書検索方法。7. The similar document search method according to claim 6, wherein the inter-phrase similarity calculation step calculates the inter-phrase similarity in consideration of the modal expression.
関係を記述したIS−A辞書であることを特徴とする請
求項4記載の類似文書検索方法。8. The similar document search method according to claim 4, wherein said ontology is an IS-A dictionary describing a higher-order relationship between concepts.
関係を記述したHAS−A辞書であることを特徴とする
請求項4記載の類似文書検索方法。9. The similar document search method according to claim 4, wherein said ontology is a HAS-A dictionary describing a partial whole relationship between concepts.
を記述した格辞書であることを特徴とする請求項4記載
の類似文書検索方法。10. The similar document search method according to claim 4, wherein said ontology is a case dictionary describing case relations between concepts.
ある等価な表現を記述した言い換え辞書であることを特
徴とする請求項4記載の類似文書検索方法。11. The similar document search method according to claim 4, wherein the ontology is a paraphrase dictionary that describes paraphrasable equivalent expressions.
造を解析する文構造解析手順と、 概念に関する知識を格納したオントロジーを参照して、
前記入力検索文の解析結果と、クラスタリングされた文
書を格納した文書データベースのクラスタに含まれる文
書から生成されたクラスタ構造情報との類似度を計算す
るとともに、この計算した類似度に基づいて前記入力検
索文と最も類似するクラスタ構造情報を検索し、このク
ラスタ構造情報に対応づけられた前記文書データベース
内の文書クラスタより類似文書を検索するクラスタ検索
手順とを含むことを特徴とする類似文書検索プログラム
を記録したコンピュータ読み取り可能な記録媒体。12. An input procedure for inputting a search sentence, a sentence structure analysis procedure for analyzing the structure of the input search sentence with reference to a word dictionary for sentence structure analysis, and an ontology storing knowledge on concepts. hand,
Calculating the similarity between the analysis result of the input search sentence and the cluster structure information generated from the documents included in the cluster of the document database storing the clustered documents, and based on the calculated similarity, A cluster search procedure for searching for cluster structure information most similar to a search sentence, and searching for a similar document from a document cluster in the document database associated with the cluster structure information. A computer-readable recording medium on which is recorded.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP25716799A JP2001084252A (en) | 1999-09-10 | 1999-09-10 | Similar document retrieval system and method, and computer-readable recording medium recording similar document retrieval program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP25716799A JP2001084252A (en) | 1999-09-10 | 1999-09-10 | Similar document retrieval system and method, and computer-readable recording medium recording similar document retrieval program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2001084252A true JP2001084252A (en) | 2001-03-30 |
Family
ID=17302628
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP25716799A Pending JP2001084252A (en) | 1999-09-10 | 1999-09-10 | Similar document retrieval system and method, and computer-readable recording medium recording similar document retrieval program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2001084252A (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7272595B2 (en) | 2002-09-03 | 2007-09-18 | International Business Machines Corporation | Information search support system, application server, information search method, and program product |
| JP2007334402A (en) * | 2006-06-12 | 2007-12-27 | Hitachi Ltd | Server, system and method for retrieving clustered vector data |
| JP2008134954A (en) * | 2006-11-29 | 2008-06-12 | Canon Inc | Information processing apparatus, control method thereof, and program |
| US7779024B2 (en) * | 2005-05-26 | 2010-08-17 | International Business Machines Corporation | Using ontological relationships in a computer database |
| US8001122B2 (en) * | 2007-12-12 | 2011-08-16 | Sun Microsystems, Inc. | Relating similar terms for information retrieval |
| WO2016006276A1 (en) * | 2014-07-10 | 2016-01-14 | 日本電気株式会社 | Index generation device and index generation method |
| JP2017201478A (en) * | 2016-05-06 | 2017-11-09 | 日本電信電話株式会社 | Keyword evaluation device, similarity evaluation device, search device, evaluation method, search method, and program |
-
1999
- 1999-09-10 JP JP25716799A patent/JP2001084252A/en active Pending
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7272595B2 (en) | 2002-09-03 | 2007-09-18 | International Business Machines Corporation | Information search support system, application server, information search method, and program product |
| US7779024B2 (en) * | 2005-05-26 | 2010-08-17 | International Business Machines Corporation | Using ontological relationships in a computer database |
| JP2007334402A (en) * | 2006-06-12 | 2007-12-27 | Hitachi Ltd | Server, system and method for retrieving clustered vector data |
| JP2008134954A (en) * | 2006-11-29 | 2008-06-12 | Canon Inc | Information processing apparatus, control method thereof, and program |
| US8001122B2 (en) * | 2007-12-12 | 2011-08-16 | Sun Microsystems, Inc. | Relating similar terms for information retrieval |
| WO2016006276A1 (en) * | 2014-07-10 | 2016-01-14 | 日本電気株式会社 | Index generation device and index generation method |
| JPWO2016006276A1 (en) * | 2014-07-10 | 2017-05-25 | 日本電気株式会社 | Index generation apparatus and index generation method |
| US10437803B2 (en) | 2014-07-10 | 2019-10-08 | Nec Corporation | Index generation apparatus and index generation method |
| JP2017201478A (en) * | 2016-05-06 | 2017-11-09 | 日本電信電話株式会社 | Keyword evaluation device, similarity evaluation device, search device, evaluation method, search method, and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Korhonen | Subcategorization acquisition | |
| JP3921523B2 (en) | Text generation method and text generation apparatus | |
| JPH0351020B2 (en) | ||
| JP4534666B2 (en) | Text sentence search device and text sentence search program | |
| WO2009123260A1 (en) | Cooccurrence dictionary creating system and scoring system | |
| CN109783806A (en) | A kind of text matching technique using semantic analytic structure | |
| JP3992348B2 (en) | Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus | |
| JP3765799B2 (en) | Natural language processing apparatus, natural language processing method, and natural language processing program | |
| JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
| JP5441760B2 (en) | Inter-document distance calculator and sentence searcher | |
| WO2003079224A1 (en) | Text generation method and text generation device | |
| JP2000276487A (en) | Case accumulation / retrieval apparatus, case accumulation method and case retrieval method, computer-readable recording medium recording case accumulation program, and computer-readable recording medium recording case retrieval program | |
| JP2001084252A (en) | Similar document retrieval system and method, and computer-readable recording medium recording similar document retrieval program | |
| JPH0844771A (en) | Information retrieval device | |
| JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
| RU2618375C2 (en) | Expanding of information search possibility | |
| CN113204963A (en) | Input method multi-element word discovery method and device | |
| Novák et al. | Morphological annotation of Old and Middle Hungarian corpora | |
| CN115617965B (en) | Quick retrieval method for big data of language structure | |
| Steiner | Merging the trees-building a morphological treebank for German from two resources | |
| Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
| JPH09319767A (en) | Synonym dictionary registering method | |
| JP2000267693A (en) | Voice processor and index preparation device | |
| JP3876014B2 (en) | Machine translation device | |
| JP2005025555A (en) | Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium storing the program |