[go: up one dir, main page]

JPH11259515A - Similar document retrieval device and method and recording medium recording similar document retrieval program - Google Patents

Similar document retrieval device and method and recording medium recording similar document retrieval program

Info

Publication number
JPH11259515A
JPH11259515A JP10061726A JP6172698A JPH11259515A JP H11259515 A JPH11259515 A JP H11259515A JP 10061726 A JP10061726 A JP 10061726A JP 6172698 A JP6172698 A JP 6172698A JP H11259515 A JPH11259515 A JP H11259515A
Authority
JP
Japan
Prior art keywords
document
word
words
unnecessary
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10061726A
Other languages
Japanese (ja)
Inventor
Yasuo Tanosaki
康雄 田野崎
Yukio Nakamoto
幸夫 中本
Takuya Nishina
卓哉 仁科
Naohide Kubota
直秀 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP10061726A priority Critical patent/JPH11259515A/en
Publication of JPH11259515A publication Critical patent/JPH11259515A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve both inter-document similarity calculation accuracy and similar document retrieval accuracy via the optimization of a list of unnecessary words by deciding some of extracted words as unnecessary words, deleting the unnecessary words from a retrieval key document and a retrieval object document and calculating the similarity between both documents. SOLUTION: Some of words extracted by a word extraction means are decided as unnecessary words based on the occurrence frequency of each designated unnecessary word. Then the unnecessary words are deleted from a retrieval key document and a retrieval object document, and the similarity is calculated between both documents. An unnecessary word deletion part 28 of this similar document retrieval device deletes the words equivalent to the unnecessary words stored in an unnecessary word buffer 45 from a retrieval keyword information storing buffer 47 and a retrieval object word information storing buffer 42. A similarity calculation part 29 calculates the similarity between the retrieval key document and the retrieval object document based on the information which are stored in the buffer 47, the buffer 42 and a common word information storing buffer 48.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書データベース
から、文書間の類似度に基づく文書データの検索を行う
類似文書検索装置、類似文書検索方法、および類似文書
検索のためのプログラムが記録された記録媒体に関す
る。
[0001] The present invention relates to a similar document search apparatus, a similar document search method, and a similar document search program for searching a document database for document data based on the similarity between documents. It relates to a recording medium.

【0002】[0002]

【従来の技術】近年、大量の電子化された文書データが
流通するようになり、自動分類等を行う目的で、文書デ
ータベース中から指定された文書(以下、検索キー文書
と呼ぶ)に類似する文書の自動検索を行うシステムが実
用化されてきている。この文書検索システムでは、検索
キー文書に含まれている単語と検索対象となる文書(以
下、検索対象文書と呼ぶ)に含まれている単語とを比較
し、共通する単語の種類、出現場所、出現回数などから
ベクトル空間法により類似度を算出し、類似度の高い検
索対象文書を検索結果として出力する。
2. Description of the Related Art In recent years, a large amount of digitized document data has been distributed, and similar to a document specified in a document database (hereinafter referred to as a retrieval key document) for the purpose of automatic classification and the like. Systems for automatically searching documents have been put to practical use. In this document search system, a word included in a search key document is compared with a word included in a search target document (hereinafter, referred to as a search target document), and a type of a common word, an appearance location, The similarity is calculated from the number of appearances by the vector space method, and a search target document having a high similarity is output as a search result.

【0003】このとき、類似文書検索を行う上で不要な
単語(文書の内容を特徴付けるものではない一般的な単
語)を含めた類似度の算出は検索精度を落とす原因とな
り得ることから、予め不要語リストを作成しておき、文
書から単語を抽出する際に不要語リストを参照して、不
要語に相当する単語については文書から抽出しないよう
にする方法をとっている。
At this time, calculation of similarity including unnecessary words (common words that do not characterize the contents of a document) in performing similar document search may cause a decrease in search accuracy. A method is adopted in which a word list is created, and when extracting words from a document, the unnecessary word list is referred to so that words corresponding to unnecessary words are not extracted from the document.

【0004】しかしながら、通常、不要語リストの作成
においては、不要語とすべき単語の種類をユーザが1つ
1つ決定する必要があり、しかも検索対象文書データベ
ースの種類毎に別々の不要語リストを用意する必要があ
る。このような不要語リストの作成作業は、ユーザにと
って大きな負担となるばかりか、不要語の選択の個人差
によって、類似文書検索の精度に大きなばらつきが生じ
るという問題がある。
[0004] However, in general, when creating an unnecessary word list, it is necessary for the user to determine the types of words to be unnecessary words one by one, and a separate unnecessary word list is required for each type of document database to be searched. It is necessary to prepare. The work of creating such an unnecessary word list not only imposes a heavy burden on the user, but also has a problem that the accuracy of the similar document search greatly varies due to individual differences in the selection of the unnecessary word.

【0005】[0005]

【発明が解決しようとする課題】このように、精度の高
い類似文書検索を行うためには、文書から抽出すべき単
語対象から不要語を排除することが好ましいが、そのた
めには検索対象文書データベースの種類毎に不要語リス
トを人手により作成する必要があり、ユーザに負担を強
いることになる。また、不要語の選択漏れはもちろん、
ユーザによる不要語の選択の個人差が検索結果に色濃く
反映されてしまい、類似文書検索の精度のばらつきが生
じやすいという問題がある。
As described above, in order to perform a highly accurate similar document search, it is preferable to exclude unnecessary words from word targets to be extracted from the document. It is necessary to manually create an unnecessary word list for each type, and this imposes a burden on the user. Also, of course, unnecessary words are not selected,
There is a problem that the individual difference in the selection of the unnecessary word by the user is strongly reflected in the search result, and the accuracy of the similar document search is likely to vary.

【0006】本発明はこのような課題を解決するために
なされたもので、最適な不要語リストを自動的に作成で
き、不要語リストの最適化による文書間の類似度算出精
度の向上並びに類似文書検索精度の向上を図ることので
きる類似文書検索装置、類似文書検索方法、および類似
文書検索のためのプログラムが記録された記録媒体の提
供を目的としている。
SUMMARY OF THE INVENTION The present invention has been made to solve such a problem. An optimum unnecessary word list can be automatically created, and the similarity calculation between documents can be improved and the similarity can be improved by optimizing the unnecessary word list. It is an object of the present invention to provide a similar document search device, a similar document search method, and a recording medium on which a program for searching for a similar document is recorded, which can improve the document search accuracy.

【0007】[0007]

【課題を解決するための手段】上記した目的を達成する
ために、本発明の類似文書検索装置は、請求項1に記載
されるように、ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、前記検索キー文書
および前記検索対象文書を含む複数の文書データが格納
された文書データ格納手段と、任意の単語を指定する単
語指定手段と、前記文書データ格納手段に格納された各
文書データから単語を抽出する単語抽出手段と、前記単
語指定手段により指定された任意の単語および前記単語
抽出手段により抽出された単語の前記各文書データ中で
の出現頻度をそれぞれ算出する出現頻度算出手段と、前
記出現頻度算出手段によって算出された前記任意の単語
の出現頻度を基準として、前記単語抽出手段により抽出
された単語のうちの少なくとも一部の単語を不要語とし
て判定する不要語判定手段と、前記検索キー文書および
前記検索対象文書から前記不要語判定手段により判定さ
れた不要語をそれぞれ除いて両文書間の類似度を算出す
る手段とを具備することを特徴とする。
According to a first aspect of the present invention, there is provided a similar document search apparatus according to the present invention, wherein a certain document is used as a search key document. In a similar document search apparatus for searching for a document to be searched from a plurality of search target documents, a document data storage unit storing a plurality of document data including the search key document and the search target document, and an arbitrary word are designated. Word designation means, word extraction means for extracting a word from each document data stored in the document data storage means, and arbitrary words designated by the word designation means and words extracted by the word extraction means An appearance frequency calculation means for calculating the appearance frequency in each document data, and an appearance frequency of the arbitrary word calculated by the appearance frequency calculation means as a reference And an unnecessary word determining unit that determines at least some of the words extracted by the word extracting unit as unnecessary words, and an unnecessary word determining unit that determines the unnecessary words from the search key document and the search target document. Means for calculating the similarity between the two documents by removing the unnecessary words.

【0008】本発明においては、複数の文書データから
抽出された単語群の中から、ユーザにより不要語の代表
として任意に指定された単語に対して算出された出現頻
度を基準として、単語抽出手段により抽出された単語の
うちの少なくとも一部の単語を不要語として判定し、検
索キー文書および検索対象文書から不要語をそれぞれ除
いて両文書間の類似度を算出することによって類似文書
検索を行う。
In the present invention, word extraction means is selected based on an appearance frequency calculated for a word arbitrarily designated by a user as a representative of unnecessary words from a group of words extracted from a plurality of document data. A similar document search is performed by determining at least some of the words extracted by the above as unnecessary words and calculating the similarity between the two documents by removing the unnecessary words from the search key document and the search target document, respectively. .

【0009】例えば、請求項2に記載されるように、単
語抽出手段により抽出された単語のうち、算出された出
現頻度が、前記任意の単語について算出された出現頻度
以上の単語を不要語として判定したり、或いは、請求項
3に記載されるように、単語抽出手段により抽出された
単語のうち、算出された出現頻度が、複数の任意の単語
の出現頻度のうちの最小出現頻度以上の単語を不要語と
して判定する。更には、請求項4に記載されるように、
単語抽出手段により抽出された単語のうち、算出された
出現頻度が高いものから優先に予め指定された数の単語
を不要語として判定したり、請求項5に記載されるよう
に、単語抽出手段により抽出された単語のうち、算出さ
れた出現頻度が、予め指定された任意の出現頻度以上の
単語を不要語として判定する。
For example, as described in claim 2, of the words extracted by the word extracting means, words whose appearance frequency calculated is higher than the appearance frequency calculated for the arbitrary word are regarded as unnecessary words. In the determination, or as described in claim 3, of the words extracted by the word extraction means, the calculated appearance frequency is equal to or higher than the minimum appearance frequency of the appearance frequencies of a plurality of arbitrary words. The word is determined as an unnecessary word. Further, as described in claim 4,
6. A method according to claim 5, wherein, out of the words extracted by the word extracting means, a predetermined number of words are determined as unnecessary words in preference to those having a higher calculated appearance frequency. Are determined as unnecessary words, the words whose calculated appearance frequency is equal to or higher than an arbitrary appearance frequency specified in advance among the words extracted by.

【0010】以上の発明により、文書データに含まれる
単語群の中からの不要語の抽出を自動化できる。すなわ
ち、ユーザは、例えば、代表的な不要語に当たる任意の
単語を1つ乃至数個入力したり、任意の不要語の数を入
力したり、基準の出現頻度を入力するだけで、希望する
ものに近い不要語リストを得ることができ、類似文書検
索の全体的な効率を高めることができ、また、検索対象
文書データベースの種類毎に最適かつ妥当な不要語を漏
れなく迅速抽出することができるので、類似文書検索の
精度の向上と安定化を図ることができる。
According to the above-mentioned invention, extraction of unnecessary words from a word group included in document data can be automated. That is, for example, the user can input one or several arbitrary words corresponding to representative unnecessary words, input the number of arbitrary unnecessary words, or input the frequency of appearance of the reference, and can obtain the desired one. A list of unnecessary words close to the above can be obtained, the overall efficiency of similar document search can be improved, and the optimum and appropriate unnecessary words can be quickly extracted without omission for each type of search target document database. Therefore, it is possible to improve and stabilize the accuracy of the similar document search.

【0011】また、複数の任意の単語の出現頻度のうち
の最小出現頻度以上の単語を不要語として判定すること
により、ユーザ毎の個人差が不要語のリストの違いに現
れる度合が小さくなり、この点からも、類似文書検索の
精度の向上と安定化を図ることができる。
[0011] Further, by determining a word having a frequency equal to or higher than the minimum frequency among the frequencies of occurrence of a plurality of arbitrary words as an unnecessary word, the degree of individual differences for each user in the difference in the unnecessary word list is reduced. Also from this point, it is possible to improve and stabilize the accuracy of the similar document search.

【0012】[0012]

【発明の実施の形態】以下、本発明の一実施例を図面を
参照しながら説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be described below with reference to the drawings.

【0013】図1は本発明の実施形態である類似文書検
索装置のハードウェア構成を示す図である。同図に示す
ように、本実施形態の類似文書検索装置は、CPU、メ
モリなどから構成される制御装置1、キーボードなどの
入力装置2、類似文書検索の過程や結果などを表示する
表示装置3、文書データや類似文書検索のために必要な
各種データを格納する外部記憶装置4などから構成され
る。
FIG. 1 is a diagram showing a hardware configuration of a similar document search apparatus according to an embodiment of the present invention. As shown in FIG. 1, a similar document search device according to the present embodiment includes a control device 1 including a CPU, a memory, and the like, an input device 2 such as a keyboard, and a display device 3 that displays a process and a result of similar document search. , And an external storage device 4 for storing document data and various data necessary for similar document search.

【0014】図2は本実施形態の類似文書検索装置の制
御装置1の構成を示す機能ブロック図である。同図に示
すように、制御装置1は制御部とメモリ部で構成され
る。
FIG. 2 is a functional block diagram showing the configuration of the control device 1 of the similar document search device of the present embodiment. As shown in FIG. 1, the control device 1 includes a control unit and a memory unit.

【0015】制御部は、メイン処理部11、初期化部1
2、入力部13、出力部14、検索対象文書読出部1
5、検索対象文書単語抽出部16、検索対象単語出現頻
度算出部17、検索対象単語情報算出部18、全検索対
象単語統計算出部19、不要語設定部20、不要語リス
ト作成部21、不要語リスト読出部22、検索キー文書
入力部23、検索キー単語抽出部24、検索キー単語出
現頻度算出部25、検索対象単語情報読出部26、共通
単語抽出部27、不要語除去部28、類似度算出部2
9、検索結果出力部30などで構成されている。
The control unit comprises a main processing unit 11, an initialization unit 1
2, input unit 13, output unit 14, search target document reading unit 1
5. Search target document word extraction unit 16, search target word appearance frequency calculation unit 17, search target word information calculation unit 18, all search target word statistics calculation unit 19, unnecessary word setting unit 20, unnecessary word list creation unit 21, unnecessary Word list reading unit 22, search key document input unit 23, search key word extraction unit 24, search key word appearance frequency calculation unit 25, search target word information reading unit 26, common word extraction unit 27, unnecessary word removal unit 28, similar Degree calculator 2
9, a search result output unit 30 and the like.

【0016】メモリ部は、検索対象文書格納バッファ4
1、検索対象単語情報格納バッファ42、全検索対象単
語情報格納バッファ43、不要語設定バッファ44、不
要語バッファ45、検索キー文書格納バッファ46、検
索キー単語情報格納バッファ47、共通単語情報格納バ
ッファ48、類似度格納バッファ49、検索結果出力バ
ッファ50、作業バッファ51などで構成されている。
The memory section includes a search target document storage buffer 4.
1. Search target word information storage buffer 42, all search target word information storage buffer 43, unnecessary word setting buffer 44, unnecessary word buffer 45, search key document storage buffer 46, search key word information storage buffer 47, common word information storage buffer 48, a similarity storage buffer 49, a search result output buffer 50, a work buffer 51, and the like.

【0017】初期化部12は、各バッファ41,42,
…,51の初期化を行う。入力部13は、入力装置2を
通してユーザより入力されたデータを制御部に入力す
る。出力部14は、制御部の出力データを表示装置3に
出力する。
The initialization unit 12 includes buffers 41, 42,
.., 51 are initialized. The input unit 13 inputs data input by a user through the input device 2 to the control unit. The output unit 14 outputs output data of the control unit to the display device 3.

【0018】検索対象文書読出部15は、ユーザにより
指定された検索対象文書を外部記憶装置4から読み込
み、読み込んだ検索対象文書を検索対象文書格納バッフ
ァ41に格納する。
The search target document reading unit 15 reads the search target document specified by the user from the external storage device 4 and stores the read search target document in the search target document storage buffer 41.

【0019】検索対象文書単語抽出部16は、検索対象
文書格納バッファ41に格納された文書データから単語
を切り出し、切り出された単語群の中からその文書の内
容を特徴付ける単語を抽出し、抽出された単語種を検索
対象単語情報格納バッファ42に格納する。ここで、単
語の切り出しは形態素解析等によって行われ、その文書
の内容を特徴付ける単語の抽出は、単語の品詞情報に基
づいて、例えば「名詞」や「サ変名詞」の単語を選択す
ることによって行われる。
The search target document word extraction unit 16 extracts words from the document data stored in the search target document storage buffer 41, extracts words characterizing the contents of the extracted document from the extracted word group, and extracts the extracted words. The searched word type is stored in the search target word information storage buffer 42. Here, word extraction is performed by morphological analysis or the like, and extraction of words characterizing the contents of the document is performed by selecting words such as “noun” or “sa-variant noun” based on the word class information of the word. Will be

【0020】検索対象単語出現頻度算出部17は、検索
対象単語情報格納バッファ42に格納された個々の単語
について抽出元文書内での出現頻度(出現数)を算出
し、算出された出現頻度を検索対象単語情報格納バッフ
ァ42に単語と対応付けて格納する。
The search target word appearance frequency calculation unit 17 calculates the appearance frequency (the number of appearances) of the individual words stored in the search target word information storage buffer 42 in the extraction source document, and calculates the calculated occurrence frequency. It is stored in the search target word information storage buffer 42 in association with the word.

【0021】検索対象単語情報書込部18は、検索対象
単語情報格納バッファ42に格納された各検索対象文書
の単語情報と出現頻度の情報を読み出して外部記憶装置
4に書き込む。
The search target word information writing unit 18 reads out the word information and the appearance frequency information of each search target document stored in the search target word information storage buffer 42 and writes them to the external storage device 4.

【0022】全検索対象単語統計算出部19は、外部記
憶装置4に格納されている各検索対象文書の単語出現頻
度の情報を、順次、読み出して検索対象文書格納バッフ
ァ41に書き込み、全検索対象文書から抽出された単語
の種類毎に、出現頻度の統計値例えば出現文書数などを
算出し、その結果を全検索対象単語統計として全検索対
象単語情報格納バッファ43に格納する。
The all-search-target-word statistics calculating unit 19 sequentially reads out the word appearance frequency information of each search target document stored in the external storage device 4 and writes the information in the search target document storage buffer 41. For each type of word extracted from the document, the statistical value of the appearance frequency, for example, the number of appearing documents, is calculated, and the result is stored in the all-search-target-word information storage buffer 43 as the all-search target word statistics.

【0023】不要語設定部20は、文書間の類似度算出
において各文書データから抽出される単語群の中から排
除すべき種類の単語(不要語)を設定するための基準の
設定をユーザより受け付けて、その設定された基準を不
要語設定バッファ44に格納する。このときの基準の設
定方法には、任意の単語(不要語)を1つ乃至複数指定
する方法、不要語の数を指定する方法、出現頻度の基準
値を指定する方法がある。
The unnecessary word setting unit 20 allows a user to set a reference for setting a type of word (unnecessary word) to be excluded from a group of words extracted from each document data in calculating similarity between documents. Upon reception, the set reference is stored in the unnecessary word setting buffer 44. At this time, there are a method of setting one or more arbitrary words (unnecessary words), a method of specifying the number of unnecessary words, and a method of specifying a reference value of an appearance frequency.

【0024】不要語リスト作成部21は、全検索対象単
語情報格納バッファ43に格納されている全検索対象単
語情報と不要語設定バッファ44内の設定内容に基づい
て不要語リストを作成し、作成された不要語リストを外
部記憶装置4に格納する。
The unnecessary word list creating section 21 creates and creates an unnecessary word list based on all the search target word information stored in the all search target word information storage buffer 43 and the setting contents in the unnecessary word setting buffer 44. The unnecessary word list is stored in the external storage device 4.

【0025】この不要語リストの作成において、不要語
設定部20にて任意の不要語が1つ指定された場合は、
その不要語について算出された出現頻度以上の単語を不
要語として不要語バッファ45に格納し、複数の不要語
が指定された場合は、その不要語について算出された出
現頻度のうちの最小出現頻度以上の単語を不要語として
不要語バッファ45に格納する。また、不要語設定部2
0にて不要語の数が指定された場合は、全単語のうち出
現頻度が高いものから優先に、指定された不要語数の単
語を不要語として不要語バッファ45に格納する。ま
た、不要語設定部20にて出現頻度の基準値が指定され
た場合は、全単語のうち指定された出現頻度の基準値以
上の単語を不要語として不要語バッファ45に格納す
る。
In the creation of the unnecessary word list, if any one of the unnecessary words is designated by the unnecessary word setting unit 20,
Words having a frequency equal to or higher than the appearance frequency calculated for the unnecessary word are stored in the unnecessary word buffer 45 as unnecessary words, and when a plurality of unnecessary words are specified, the minimum appearance frequency of the frequency calculated for the unnecessary word is used. The above words are stored in the unnecessary word buffer 45 as unnecessary words. Unnecessary word setting unit 2
When the number of unnecessary words is designated by 0, the words having the specified unnecessary words are stored in the unnecessary word buffer 45 as unnecessary words with priority given to those having a high appearance frequency among all the words. When the reference value of the appearance frequency is specified by the unnecessary word setting unit 20, words that are equal to or more than the specified reference value of the appearance frequency among all the words are stored in the unnecessary word buffer 45 as unnecessary words.

【0026】不要語リスト読出部22は、外部記憶装置
4に格納されている不要語リストを読み込み、不要語バ
ッファ45に格納する。
The unnecessary word list reading section 22 reads the unnecessary word list stored in the external storage device 4 and stores it in the unnecessary word buffer 45.

【0027】検索キー文書入力部23は、入力装置2か
ら入力された検索キー文書を検索キー文書格納バッファ
46に格納する。
The search key document input section 23 stores the search key document input from the input device 2 in the search key document storage buffer 46.

【0028】検索キー単語抽出部24は、検索キー文書
格納バッファ46に格納された検索キー文書からの単語
の切り出しを行い、切り出された単語群のなかから、そ
の検索キー文書の内容を特徴付ける単語種を抽出し、抽
出された単語種を検索キー単語情報格納バッファ47に
格納する。ここで、単語の切り出しは形態素解析等によ
り行われ、文書の内容を特徴付ける単語の抽出は、単語
の品詞情報に基づいて、例えば「名詞」や「サ変名詞」
の単語を選択することによって行われる。
The search key word extracting section 24 cuts out a word from the search key document stored in the search key document storage buffer 46, and selects a word characterizing the contents of the search key document from the cut out word group. The seed is extracted, and the extracted word type is stored in the search key word information storage buffer 47. Here, the extraction of words is performed by morphological analysis or the like, and the extraction of words characterizing the contents of the document is performed based on the part of speech information of the words, for example, “noun” or “sa-variable noun”.
This is done by selecting a word.

【0029】検索キー単語出現頻度算出部25は、検索
キー単語抽出部24によって抽出された個々の単語につ
いて、抽出元文書内での出現頻度(出現数)を算出し、
算出された出現頻度を検索キー単語情報格納バッファ4
7に格納する。
The search key word appearance frequency calculation unit 25 calculates the appearance frequency (appearance number) in the extraction source document for each word extracted by the search key word extraction unit 24,
The calculated appearance frequency is stored in the search key word information storage buffer 4
7 is stored.

【0030】検索対象単語情報読出部26は、外部記憶
装置4に格納されている文書データベース中の各検索対
象文書の単語情報とその出現頻度の情報を1文書毎に呼
び出し、検索対象単語情報格納バッファ42に格納す
る。
The search target word information reading unit 26 retrieves the word information of each search target document in the document database stored in the external storage device 4 and the information of its appearance frequency for each document, and stores the search target word information. The data is stored in the buffer 42.

【0031】共通単語抽出部27は、検索キー単語情報
格納バッファ47および検索対象単語情報格納バッファ
42から検索キー文書および検索対象文書中に共通に存
在する単語情報とその出現頻度の情報を読み出し、共通
単語情報格納バッファ48に格納する。
The common word extraction unit 27 reads word information commonly present in the search key document and the search target document and information on the frequency of occurrence thereof from the search key word information storage buffer 47 and the search target word information storage buffer 42, It is stored in the common word information storage buffer 48.

【0032】不要語除去部28は、検索キー単語情報格
納バッファ47および検素対象単語情報格納バッファ4
2から、不要語バッファ45に格納されている不要語に
当たる単語を削除する。
The unnecessary word removing unit 28 includes a search key word information storage buffer 47 and a search target word information storage buffer 4.
From 2, the word corresponding to the unnecessary word stored in the unnecessary word buffer 45 is deleted.

【0033】類似度算出部29は、検索キー単語情報格
納バッファ47、検索対象単語情報格納バッファ42お
よび共通単語情報格納バッファ48にそれぞれ格納され
た情報に基づき、ベクトル空間法等によって検索キー文
書と検索対象文書との類似度を算出し、算出された類似
度を類似度格納バッファ49に格納する。
Based on the information stored in the search key word information storage buffer 47, the search target word information storage buffer 42, and the common word information storage buffer 48, the similarity calculation unit 29 compares the search key document with the search key document by a vector space method or the like. The similarity with the search target document is calculated, and the calculated similarity is stored in the similarity storage buffer 49.

【0034】検索結果出力部30は、類似度格納バッフ
ァ49に格納されている検索対象文書毎の類似度から、
類似検索結果とする文書情報(例えば、文書ID)を検
索結果出力バッファ50に格納し、検索結果出力バッフ
ァ50の内容を出力部14を通じて表示装置3に出力す
る。
The search result output unit 30 calculates the similarity of each search target document stored in the similarity storage buffer 49 from
Document information (for example, a document ID) serving as a similar search result is stored in the search result output buffer 50, and the contents of the search result output buffer 50 are output to the display device 3 through the output unit 14.

【0035】次に、本実施形態の類似文書検索装置の動
作を説明する。
Next, the operation of the similar document search apparatus according to this embodiment will be described.

【0036】最初に、文書データベースおよび不要語リ
ストを作成する動作について図3乃至図10を参照して
説明する。
First, the operation of creating a document database and an unnecessary word list will be described with reference to FIGS.

【0037】まず、初期化部12が起動され、全バッフ
ァの初期化が行われる(ステップ301)。続いて、不
要語設定部20が起動され、不要語を設定するための基
準の設定が行われる(ステップ302)。不要語を設定
するための基準は、以下の3通りの方法の中からユーザ
により任意に選択された方法で設定される。
First, the initialization unit 12 is started, and all buffers are initialized (step 301). Subsequently, the unnecessary word setting unit 20 is activated, and a reference for setting the unnecessary word is set (step 302). The criterion for setting the unnecessary word is set by a method arbitrarily selected by the user from the following three methods.

【0038】第1の方法は、ユーザが任意の数の単語
(不要語)を指定し、この指定単語について算出された
出現頻度(指定単語が複数の場合は各不要語について算
出された出現頻度のうちの最小出現頻度)を基準値と
し、そして文書データより抽出された単語群のうち、算
出された出現頻度が基準値以上のすべての単語を不要語
とする方法である。例えば、図4に示すように、文書を
特徴付ける性質を持たない一般的な単語例えば「こと」
「装置」などが指定され、これらの単語について算出さ
れた出現頻度のうち最小出現頻度を基準値として、出現
頻度がこの基準値以上の単語を不要語とする。
In the first method, the user specifies an arbitrary number of words (unnecessary words), and calculates the appearance frequency calculated for the specified words (or the appearance frequency calculated for each unnecessary word when there are a plurality of specified words). Among the words extracted from the document data, all words having a calculated appearance frequency equal to or higher than the reference value are regarded as unnecessary words. For example, as shown in FIG. 4, a general word having no property to characterize a document, for example, "koto"
"Apparatus" or the like is designated, and the minimum appearance frequency among the appearance frequencies calculated for these words is used as a reference value, and words whose appearance frequency is equal to or higher than this reference value are used as unnecessary words.

【0039】第2の方法は、ユーザが不要語の数(或い
は出現頻度値の順位)を任意に指定し、文書データから
抽出された単語群のうち、算出された出現頻度が高いも
のから優先に、前記指定された数の単語を不要語とする
方法である。例えば、図5に示すように、「指定順位=
2(不要語数=2)」のように指定された場合、算出さ
れた出現頻度が上位2位までの単語を不要語とする。
In the second method, the user arbitrarily designates the number of unnecessary words (or the order of appearance frequency values), and, of words extracted from document data, gives priority to words having a higher calculated appearance frequency. In addition, there is a method of making the specified number of words unnecessary words. For example, as shown in FIG.
2 (the number of unnecessary words = 2) ", the words whose calculated appearance frequency is in the top two are regarded as unnecessary words.

【0040】第3の方法は、ユーザが出現頻度の基準値
を任意に指定し、文書データから抽出された単語群のう
ち、算出された出現頻度が前記指定された出現頻度の基
準値以上のすべての単語を不要語とする方法である。例
えば、図6に示すように、「指定出現頻度=500以
上」にように指定された場合、出現頻度が500以上の
すべての単語を不要語とする。
In a third method, the user arbitrarily specifies a reference value of the appearance frequency, and the calculated appearance frequency of the word group extracted from the document data is equal to or higher than the specified reference value of the appearance frequency. This is a method of making all words unnecessary words. For example, as shown in FIG. 6, when “designated appearance frequency = 500 or more” is designated, all words whose appearance frequency is 500 or more are regarded as unnecessary words.

【0041】これら3つの方法のいずれかによって設定
された不要語の設定基準は不要語設定バッファ44に格
納される。
The unnecessary word setting criterion set by any of these three methods is stored in the unnecessary word setting buffer 44.

【0042】次に、検索対象文書読出部15が起動され
る。検索対象文書読出部15は外部記憶装置4にまだ処
理を終えてない検索対象文書があるか否かを判断し(ス
テップ303)、検索対象文書があれば、図7に示すよ
うに、その検索対象文書を検索対象文書格納バッファ4
1に格納する(ステップ304)。
Next, the retrieval target document reading section 15 is started. The search target document reading unit 15 determines whether there is a search target document which has not been processed yet in the external storage device 4 (step 303), and if there is a search target document, as shown in FIG. Search target document storage buffer 4 for target document
1 (step 304).

【0043】次に、検索対象文書単語抽出部16が起動
される。検索対象文書単語抽出部16は、検索対象文書
格納バッファ41に格納された検索対象文書から形態素
解析等によって単語を切り出し、切り出された単語群か
ら「名詞」や「サ変名詞」などの文書の内容を特徴付け
る単語を抽出し、抽出された単語を検索対象単語情報格
納バッファ42に格納する(ステップ305)。
Next, the search target document word extraction unit 16 is activated. The search target document word extraction unit 16 cuts out a word from the search target document stored in the search target document storage buffer 41 by morphological analysis or the like, and extracts the content of the document such as “noun” or “sa noun” from the cut out word group. Are extracted, and the extracted words are stored in the search target word information storage buffer 42 (step 305).

【0044】続いて、検索対象単語出現頻度算出部17
が起動される。検索対象単語出現頻度算出部17は、検
索対象単語情報格納バッファ42に格納されている個々
の単語について、その抽出元文書中での出現頻度をそれ
ぞれ算出し、例えば図8に示すように、算出された出現
頻度の情報を単語と対応付けて検索対象単語情報格納バ
ッファ42に格納する。以降、この単語と出現頻度の情
報を「単語情報」と呼ぶ。なお、図8において、「文
書」という単語に対応して記述された「頻度2」は「文
書」という単語が抽出元の文書中に2回出現しているこ
とを示す。
Subsequently, the search target word appearance frequency calculation unit 17
Is started. The search target word appearance frequency calculation unit 17 calculates the appearance frequency of each word stored in the search target word information storage buffer 42 in the extraction source document, for example, as shown in FIG. The information on the appearance frequency thus obtained is stored in the search target word information storage buffer 42 in association with the word. Hereinafter, the information on the word and the appearance frequency is referred to as “word information”. In FIG. 8, “frequency 2” described in correspondence with the word “document” indicates that the word “document” appears twice in the extraction source document.

【0045】次に、検索対象単語情報書込部18が起動
され、検索対象単語情報格納バッファ42の内容(単語
情報)が外部記憶装置4に格納される(ステップ30
6)。この後、ステップ303に戻り、外部記憶装置4
に格納された次の検索対象文書を読み出し、その検索対
象文書からの単語の抽出と出現頻度の算出を行う。この
ようにして外部記憶装置4に格納されたすべての検索対
象文書について単語の抽出および出現頻度の算出を行
い、その結果を外部記憶装置4に格納する。
Next, the search target word information writing unit 18 is started, and the contents (word information) of the search target word information storage buffer 42 are stored in the external storage device 4 (step 30).
6). Thereafter, the process returns to step 303 and the external storage device 4
Then, the next search target document stored in the search target document is read, and a word is extracted from the search target document and the appearance frequency is calculated. As described above, the extraction of the words and the calculation of the appearance frequency are performed for all the search target documents stored in the external storage device 4, and the results are stored in the external storage device 4.

【0046】外部記憶装置4に格納されたすべての検索
対象文書の単語情報が外部記憶装置4に格納されたら、
次に全検索対象単語統計算出部19が起動される。全検
索対象単語統計算出部19は、外部記憶装置4に格納さ
れた全検索対象文書の単語情報(出現頻度の情報)を順
次読み出して検索対象文書格納バッファ41に格納し、
この検索対象文書格納バッファ41に格納された、全検
索対象文書の単語情報(出現頻度の情報)単語の出現頻
度に基づき、個々の単語の出現頻度の統計値(例えば出
現文書数など)を算出する。そして、図9に示すよう
に、このように算出された個々の単語の出現頻度の出現
文書数など統計値を、全検索対象単語情報格納バッファ
43に全検索対象単語情報として格納する(ステップ3
07)。 次に、不要語リスト作成部21が起動され
る。不要語リスト作成部21は、全検索対象単語情報格
納バッファ43に格納されている全検索対象単語情報と
不要語設定バッファ44に格納された不要語設定基準に
基づいて不要語リストを作成し、作成された不要語リス
トを外部記憶装置4に格納する(ステップ308)。
この不要語リストの作成は、ユーザにより任意に指定さ
れた不要語の選択基準に基づいて行われる。
When the word information of all the search target documents stored in the external storage device 4 is stored in the external storage device 4,
Next, the all search target word statistics calculation unit 19 is activated. The all-search-target-word-statistics calculating unit 19 sequentially reads out word information (information of appearance frequency) of all the search target documents stored in the external storage device 4 and stores the word information in the search target document storage buffer 41.
Based on the word information (information on the appearance frequency) of all the search target documents stored in the search target document storage buffer 41, the statistical value of the appearance frequency of each word (for example, the number of appearing documents) is calculated. I do. Then, as shown in FIG. 9, the statistical values calculated in this manner, such as the number of appearing documents of the appearance frequency of each word, are stored in the all search target word information storage buffer 43 as all search target word information (step 3).
07). Next, the unnecessary word list creation unit 21 is activated. The unnecessary word list creation unit 21 creates an unnecessary word list based on all the search target word information stored in the all search target word information storage buffer 43 and the unnecessary word setting criteria stored in the unnecessary word setting buffer 44, The created unnecessary word list is stored in the external storage device 4 (step 308).
The generation of the unnecessary word list is performed based on the selection criteria of the unnecessary word arbitrarily specified by the user.

【0047】不要語設定部20にてユーザにより任意の
数の単語(不要語)が指定された場合(第1の方法の場
合)、不要語リスト作成部21は、その不要語の出現頻
度を全検索対象単語情報格納バッファ43から読み出
し、読み出した不要語の出現頻度の中の最小出現頻度を
基準として、出現頻度が基準値以上の単語を全検索対象
単語情報格納バッファ43の中からすべて抽出し、これ
を不要語として不要語バッファ45に格納する。図10
にこの不要語バッファ45に格納された不要語の例を示
す。
When an arbitrary number of words (unnecessary words) are specified by the user in the unnecessary word setting unit 20 (in the case of the first method), the unnecessary word list creating unit 21 determines the frequency of occurrence of the unnecessary words. It is read from the all search target word information storage buffer 43, and all words whose appearance frequency is equal to or more than a reference value are extracted from the all search target word information storage buffer 43 based on the minimum occurrence frequency among the read unnecessary word appearance frequencies. Then, this is stored in the unnecessary word buffer 45 as an unnecessary word. FIG.
9 shows an example of the unnecessary word stored in the unnecessary word buffer 45.

【0048】また、不要語設定部20にてユーザにより
不要語の数(或いは出現頻度値の順位)が指定された場
合(第2の方法の場合)、不要語リスト作成部21は、
全検索対象単語情報の中で、出現頻度が高いものから優
先に指定数(指定順位)までの単語を不要語として決定
して不要語バッファ45に格納する。
When the number of unnecessary words (or the order of appearance frequency values) is designated by the user in the unnecessary word setting unit 20 (in the case of the second method), the unnecessary word list creating unit 21
Among all the search target word information, words having a high frequency of appearance and up to a designated number (designated order) are determined as unnecessary words and stored in the unnecessary word buffer 45.

【0049】さらに、不要語設定部20にてユーザによ
り出現頻度の基準値が指定された場合(第3の方法の場
合)、不要語リスト作成部21は、出現頻度が基準値以
上のすべての単語を不要語として決定し、不要語バッフ
ァ45に格納する。
Further, when the reference value of the appearance frequency is specified by the user in the unnecessary word setting section 20 (in the case of the third method), the unnecessary word list creating section 21 sets all unnecessary words whose appearance frequency is higher than the reference value. The word is determined as an unnecessary word and stored in the unnecessary word buffer 45.

【0050】以上により、文書データベースおよび不要
語リストの作成が終了する。
Thus, the creation of the document database and the unnecessary word list is completed.

【0051】続いて、類似文書検索の動作について図1
1乃至図16を参照して説明する。まず、初期化部12
が起動され、全バッファの初期化が行われる(ステップ
401)。次に、不要語リスト読出部22が起動され、
外部記憶装置4から不要語リストを読み出して不要語バ
ッファ45に格納する(ステップ402)。
Next, the operation of similar document retrieval will be described with reference to FIG.
This will be described with reference to FIGS. First, the initialization unit 12
Is started, and all buffers are initialized (step 401). Next, the unnecessary word list reading unit 22 is activated,
The unnecessary word list is read from the external storage device 4 and stored in the unnecessary word buffer 45 (step 402).

【0052】次に、検索キー文書入力部23が起動され
ることで、ユーザにより指定された検索キー文書が外部
記憶装置4から読み込まれ、読み込まれた検索キー文書
が検索キー文書格納バッファ46に格納される(ステッ
プ403)。図12に検索キー文書格納バッファ46に
格納された検索キー文書の例を示す。
Next, when the search key document input section 23 is activated, the search key document specified by the user is read from the external storage device 4 and the read search key document is stored in the search key document storage buffer 46. It is stored (step 403). FIG. 12 shows an example of the search key document stored in the search key document storage buffer 46.

【0053】続いて、検索キー単語抽出部24が起動さ
れる。検索キー単語抽出部24は、検索キー文書格納バ
ッファ46に格納された検索キー文書から形態素解析等
によって単語を切り出し、切り出された単語群から「名
詞」や「サ変名詞」などの文書の内容を特徴付ける単語
を抽出し、抽出された単語を検索キー単語情報格納バッ
ファ47に格納する(ステップ404)。
Subsequently, the search key word extraction unit 24 is activated. The search key word extraction unit 24 cuts out a word from the search key document stored in the search key document storage buffer 46 by morphological analysis or the like, and extracts the contents of the document such as “noun” or “sa variable noun” from the cut out word group. Characteristic words are extracted, and the extracted words are stored in the search key word information storage buffer 47 (step 404).

【0054】次に、不要語除去部28が起動される。不
要語除去部28は、検索キー単語情報格納バッファ47
に格納されている検索キー文書の単語群の中から、不要
語バッファ45に格納されている不要語と一致する単語
を見つけ出してこれを削除する(ステップ405)。
Next, the unnecessary word removing unit 28 is activated. The unnecessary word removing unit 28 includes a search key word information storage buffer 47.
A word that matches the unnecessary word stored in the unnecessary word buffer 45 is found from the word group of the search key document stored in the search key document and deleted (step 405).

【0055】続いて、検索キー単語出現頻度算出部25
が起動される。検索キー単語出現頻度算出部25は、検
索キー単語情報格納バッファ47に格納されている個々
の単語について、その抽出元文書中での出現頻度を算出
し、算出された出現頻度の情報を、図13に示すよう
に、検索キー単語情報格納バッファ47において単語と
対応付けて格納する(ステップ406)。
Subsequently, the search key word appearance frequency calculation unit 25
Is started. The search key word appearance frequency calculation unit 25 calculates the appearance frequency of each word stored in the search key word information storage buffer 47 in the extraction source document, and uses the calculated appearance frequency information as a figure. As shown in FIG. 13, it is stored in the search key word information storage buffer 47 in association with the word (step 406).

【0056】次に、検索対象文書読出部15が起動され
る。検索対象文書読出部15は、外部記憶装置4にまだ
処理を終えてない検索対象文書あるか否かを判断し(ス
テップ407)、もし検索対象文書があれば、その検索
対象文書を検索対象文書格納バッファ41に格納する。
この後、検索対象文書単語抽出部16によって、検索対
象文書格納バッファ41に格納された検索対象文書から
形態素解析等によって単語の切り出しが行われ、切り出
された単語群の中から「名詞」や「サ変名詞」などの文
書の内容を特徴付ける単語が抽出され、抽出された単語
の情報が検索対象単語情報格納バッファ42に格納され
る(ステップ408)。
Next, the retrieval target document reading section 15 is activated. The search target document reading unit 15 determines whether there is a search target document that has not been processed yet in the external storage device 4 (step 407). If there is a search target document, the search target document is searched. The data is stored in the storage buffer 41.
Thereafter, the search target document word extraction unit 16 cuts out words from the search target document stored in the search target document storage buffer 41 by morphological analysis or the like, and selects “noun” or “ Words that characterize the contents of the document, such as "sa noun," are extracted, and information on the extracted words is stored in the search target word information storage buffer 42 (step 408).

【0057】続いて、不要語除去部28が起動される。
不要語除去部28は、検索対象単語情報格納バッファ4
2に格納されている検索対象文書の単語群の中から、不
要語バッファ45に格納されている不要語と一致する単
語を見つけ出してこれを削除する(ステップ409)。
Subsequently, the unnecessary word removing section 28 is activated.
The unnecessary word removing unit 28 stores the search target word information storage buffer 4.
A word that matches the unnecessary word stored in the unnecessary word buffer 45 is found out of the word group of the search target document stored in 2 and is deleted (step 409).

【0058】次に、共通単語抽出部27が起動される。
共通単語抽出部27は、それぞれ不要語の削除を終えた
検索対象単語情報格納バッファ42と検索キー単語情報
格納バッファ47内から共通に格納されている単語を検
出し、図14に示すように、その検出された単語を共通
単語情報格納バッファ48に格納する(ステップ41
0)。
Next, the common word extraction unit 27 is activated.
The common word extraction unit 27 detects words commonly stored in the search target word information storage buffer 42 and the search key word information storage buffer 47 from which the unnecessary words have been deleted, and as shown in FIG. The detected word is stored in the common word information storage buffer 48 (step 41).
0).

【0059】この後、類似度算出部29が起動される。
類似度算出部29は、検索対象単語情報格納バッファ4
2、検索キー単語情報格納バッファ47および共通単語
情報格納バッファ48の内容を基に、ベクトル空間法等
により、検索キー文書と検索対象文書との類似度を算出
し、算出された類似度を類似度格納バッファ49に格納
する(ステップ411)。図15に、この類似度格納バ
ッファ49に格納された検索キー文書と個々の検索対象
文書との類似度情報の例を示す。
Thereafter, the similarity calculating section 29 is started.
The similarity calculation unit 29 stores the search target word information storage buffer 4
2. Based on the contents of the search key word information storage buffer 47 and the common word information storage buffer 48, the similarity between the search key document and the search target document is calculated by the vector space method or the like, and the calculated similarity is calculated. It is stored in the degree storage buffer 49 (step 411). FIG. 15 shows an example of similarity information between the search key document stored in the similarity storage buffer 49 and each search target document.

【0060】この後、ステップ407に戻り、外部記憶
装置4にまだ処理を終えてない検索対象文書がある場合
は、その検索対象文書について前記と同様の処理を行
い、こうして算出された検索キー文書と検索対象文書と
の類似度を類似度格納バッファ49に格納する。
Thereafter, returning to step 407, if there is a search target document in the external storage device 4 that has not been processed yet, the same processing as described above is performed on the search target document, and the search key document thus calculated Is stored in the similarity storage buffer 49.

【0061】外部記憶装置4に格納されたすべての検索
対象文書と検索キー文書との類似度が類似度格納バッフ
ァ49に格納された後、検索結果出力部30が起動され
る。検索結果出力部30は、類似度格納バッファ49の
内容から、例えば図16に示すように、類似度が高いも
のから順に検索対象文書のIDを並べ、その結果を検索
結果出力バッファ50に格納する。この後、出力部14
によって、検索結果出力バッファ50の内容が表示装置
3に出力される(ステップ412)。
After all the similarities between the search target documents and the search key documents stored in the external storage device 4 are stored in the similarity storage buffer 49, the search result output unit 30 is activated. The search result output unit 30 arranges the IDs of documents to be searched in the order of the highest similarity, as shown in FIG. 16, for example, from the contents of the similarity storage buffer 49, and stores the result in the search result output buffer 50. . Thereafter, the output unit 14
Thus, the contents of the search result output buffer 50 are output to the display device 3 (step 412).

【0062】かくして本実施形態の類似文書検索装置に
よれば、不要語リストの作成する際のユーザの作業負荷
が大幅に軽減され、全般的な類似文書検索の効率アップ
を図ることができる。すなわち、本実施形態の類似文書
検索装置において、不要語リストを作成するために必要
となるユーザの操作は、1つ乃至少数の不要語の指定、
或いは不要語の数の指定、或いは出現頻度の基準値のい
ずれかでよく、このような簡単な指定操作がユーザによ
って事前に行われるだけで、最適かつ妥当な不要語を漏
れなくリストアップでき、類似文書検索の精度の向上と
安定化を図ることができる。
Thus, according to the similar document search apparatus of the present embodiment, the work load of the user when creating the unnecessary word list is greatly reduced, and overall similar document search efficiency can be improved. That is, in the similar document search device of the present embodiment, the user operation required to create the unnecessary word list includes one or a small number of unnecessary words,
Alternatively, either the designation of the number of unnecessary words or the reference value of the appearance frequency may be performed, and only such a simple designation operation is performed in advance by the user, and the optimum and appropriate unnecessary words can be listed without omission, The accuracy of similar document search can be improved and stabilized.

【0063】なお、本実施形態では、不要語の代表とし
てユーザにより指定された単語の出現頻度を基準値とし
て、この基準値以上の出現頻度を持つすべての単語を不
要語として設定する場合について説明したが、この基準
値よりも低値側に一定マージンを確保して、このマージ
ン内の出現頻度をもつ単語も不要語として判定するよう
にしてもよい。
In this embodiment, a case will be described in which the appearance frequency of a word specified by the user as a representative of the unnecessary word is set as a reference value, and all words having an appearance frequency equal to or higher than the reference value are set as unnecessary words. However, a certain margin may be secured on the lower side than this reference value, and a word having an appearance frequency within this margin may be determined as an unnecessary word.

【0064】[0064]

【発明の効果】以上説明したように本発明によれば、不
要語リストの作成においてユーザが不要語とすべき単語
を一つ一つ登録しなくてもよく、例えば、ユーザが1つ
乃至少数の不要語を指定したり、不要語の数を指定した
り、出現頻度の基準値を入力するだけで、所望の不要語
リストを作成することができる。これにより、類似文書
検索の全体的な効率を高めることができ、また、検索対
象文書データベースの種類毎に最適かつ妥当な不要語を
漏れなく抽出することができるので、類似文書検索の精
度の向上と安定化を図ることができる。
As described above, according to the present invention, it is not necessary for the user to register each word to be an unnecessary word in the creation of the unnecessary word list. By simply specifying the unnecessary words, the number of unnecessary words, and inputting the reference value of the appearance frequency, a desired unnecessary word list can be created. As a result, the overall efficiency of the similar document search can be improved, and the optimum and appropriate unnecessary words can be extracted without omission for each type of the search target document database, thereby improving the accuracy of the similar document search. And stabilization.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施形態である類似文書検索装置のハ
ードウェア構成を示す図
FIG. 1 is a diagram showing a hardware configuration of a similar document search device according to an embodiment of the present invention.

【図2】図1の類似文書検索装置の制御装置の構成を示
す機能ブロック図
FIG. 2 is a functional block diagram showing a configuration of a control device of the similar document search device of FIG. 1;

【図3】文書データベースおよび不要語リストの作成手
順を示すフローチャート
FIG. 3 is a flowchart showing a procedure for creating a document database and an unnecessary word list.

【図4】ユーザにより指定された不要語の例を示す図FIG. 4 is a diagram showing an example of an unnecessary word specified by a user.

【図5】ユーザにより指定された不要語の数(出現頻度
の順位)の例を示す図
FIG. 5 is a diagram showing an example of the number of unnecessary words specified by the user (order of appearance frequency).

【図6】ユーザにより指定された出現頻度の基準値の例
を示す図
FIG. 6 is a diagram illustrating an example of a reference value of an appearance frequency specified by a user;

【図7】検索対象文書の例を示す図FIG. 7 shows an example of a search target document.

【図8】検索対象単語情報格納バッファに格納された単
語と出現頻度の例を示す図
FIG. 8 is a diagram showing an example of words stored in a search target word information storage buffer and appearance frequencies;

【図9】全検索対象単語情報格納バッファに格納され
た、全検索対象文書の単語とその出現頻度の統計値の例
を示す図
FIG. 9 is a diagram illustrating an example of words of all documents to be searched and statistical values of their appearance frequencies stored in a buffer for storing all words to be searched.

【図10】不要語バッファに格納された不要語の例を示
す図
FIG. 10 is a diagram illustrating an example of unnecessary words stored in an unnecessary word buffer.

【図11】類似文書検索の動作の手順を示すフローチャ
ート
FIG. 11 is a flowchart showing a procedure of a similar document search operation;

【図12】検索キー文書の例を示す図FIG. 12 illustrates an example of a search key document.

【図13】検索キー単語情報格納バッファに格納された
単語と出現頻度の例を示す図
FIG. 13 is a diagram showing an example of words stored in a search key word information storage buffer and appearance frequencies;

【図14】共通単語情報格納バッファに格納された共通
単語と出現頻度の例を示す図
FIG. 14 is a diagram showing an example of common words stored in a common word information storage buffer and appearance frequencies;

【図15】類似度格納バッファに格納された検索キー文
書と検索対象文書との類似度の例を示す図
FIG. 15 is a diagram showing an example of the similarity between the search key document stored in the similarity storage buffer and the search target document.

【図16】類似文書検索結果の例を示す図FIG. 16 is a diagram illustrating an example of a similar document search result.

【符号の説明】[Explanation of symbols]

200・・・・・・メイン処理部 201・・・・・・初期化部 202・・・・・・入力部 203・・・・・・出力部 204・・・・・・検索対象文書読み出し部 205・・・・・・検索対象文書単語抽出部 206・・・・・・検索対象単語出現頻度算出部 207・・・・・・検索対象単語情報算出部 208・・・・・・検索対象単語統計算出部 209・・・・・・不要語設定部 210・・・・・・不要語リスト作成部 211・・・・・・不要語リスト読み出し部 212・・・・・・検索キー文書入力部 213・・・・・・検索キー単語抽出部 214・・・・・・検索キー単語出現頻度算出部 215・・・・・・検索対象単語情報読み出し部 216・・・・・・共通単語抽出部 217・・・・・・不要語除去部 218・・・・・・類似度算出部 219・・・・・・検索結果出力部 200: Main processing unit 201: Initializing unit 202: Input unit 203: Output unit 204: Search target document reading unit 205: Search target document word extraction unit 206: Search target word appearance frequency calculation unit 207: Search target word information calculation unit 208: Search target word Statistical calculation unit 209 Unnecessary word setting unit 210 Unnecessary word list creation unit 211 Unnecessary word list reading unit 212 Search key document input unit 213: Search key word extraction unit 214: Search key word appearance frequency calculation unit 215: Search target word information reading unit 216: Common word extraction unit 217: Unnecessary word removing unit 218: Similarity score calculating unit 219 ...... search result output unit

フロントページの続き (72)発明者 中本 幸夫 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 仁科 卓哉 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内 (72)発明者 久保田 直秀 東京都青梅市新町1381番地1 東芝コンピ ュータエンジニアリング株式会社内Continued on the front page (72) Inventor Yukio Nakamoto 1381-1, Shinmachi, Ome-shi, Tokyo Toshiba Computer Engineering Co., Ltd. (72) Inventor Takuya Nishina 1381-1, Shinmachi, Ome-shi, Tokyo Toshiba Computer Engineering (72) Inventor Naohide Kubota 1381-1, Shinmachi, Ome-shi, Tokyo Toshiba Computer Engineering Co., Ltd.

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を含む複数の
文書データが格納された文書データ格納手段と、 任意の単語を指定する単語指定手段と、 前記文書データ格納手段に格納された各文書データから
単語を抽出する単語抽出手段と、 前記単語指定手段により指定された任意の単語および前
記単語抽出手段により抽出された単語の前記各文書デー
タ中での出現頻度をそれぞれ算出する出現頻度算出手段
と、 前記出現頻度算出手段によって算出された前記任意の単
語の出現頻度を基準として、前記単語抽出手段により抽
出された単語のうちの少なくとも一部の単語を不要語と
して判定する不要語判定手段と、 前記検索キー文書および前記検索対象文書から前記不要
語判定手段により判定された不要語をそれぞれ除いて両
文書間の類似度を算出する手段と、 を具備することを特徴とする類似文書検索装置。
1. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents using a certain document as a search key document, wherein a plurality of search target documents including the search key document and the search target document are included. Document data storage means in which document data is stored; word specification means for specifying an arbitrary word; word extraction means for extracting a word from each document data stored in the document data storage means; An appearance frequency calculation unit that calculates an appearance frequency of each of the specified arbitrary word and the word extracted by the word extraction unit in each of the document data; and an occurrence frequency of the arbitrary word calculated by the appearance frequency calculation unit. It is unnecessary to determine at least some of the words extracted by the word extracting means as unnecessary words based on the frequency of appearance. Determination means; and means for calculating a similarity between the two documents by removing the unnecessary words determined by the unnecessary word determination means from the search key document and the search target document, respectively. Document search device.
【請求項2】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を含む複数の
文書データが格納された文書データ格納手段と、 任意の単語を指定する単語指定手段と、 前記文書データ格納手段に格納された各文書データから
単語を抽出する単語抽出手段と、 前記単語指定手段により指定された任意の単語および前
記単語抽出手段により抽出された単語の前記各文書デー
タ中での出現頻度をそれぞれ算出する出現頻度算出手段
と、 前記単語抽出手段により抽出された単語のうち、前記出
現頻度算出手段によって算出された出現頻度が、前記任
意の単語について算出された出現頻度以上の単語を不要
語として判定する不要語判定手段と、 前記検索キー文書および前記検索対象文書から前記不要
語判定手段により判定された不要語をそれぞれ除いて両
文書間の類似度を算出する手段と、 を具備することを特徴とする類似文書検索装置。
2. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents using a certain document as a search key document, comprising: a plurality of search target documents including the search key document and the search target document. Document data storage means in which document data is stored; word specification means for specifying an arbitrary word; word extraction means for extracting a word from each document data stored in the document data storage means; An appearance frequency calculation means for calculating an appearance frequency of each of the specified arbitrary word and the word extracted by the word extraction means in each of the document data; and, among the words extracted by the word extraction means, A word whose appearance frequency calculated by the frequency calculation means is equal to or higher than the appearance frequency calculated for the arbitrary word is determined as an unnecessary word. Key word determination means, and means for calculating a similarity between the two documents by removing the unnecessary words determined by the unnecessary word determination means from the search key document and the search target document, respectively. Similar document search device.
【請求項3】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を含む複数の
文書データが格納された文書データ格納手段と、 複数の任意の単語を指定する単語指定手段と、 前記文書データ格納手段に格納された各文書データから
単語を抽出する単語抽出手段と、 前記単語指定手段により指定された複数の任意の単語お
よび前記単語抽出手段により抽出された単語の前記各文
書データ中での出現頻度をそれぞれ算出する出現頻度算
出手段と、 前記単語抽出手段により抽出された単語のうち、前記出
現頻度算出手段によって算出された出現頻度が、前記出
現頻度算出手段によって算出された複数の任意の単語の
出現頻度のうちの最小出現頻度以上の単語を不要語とし
て判定する不要語判定手段と、 前記検索キー文書および前記検索対象文書から前記不要
語判定手段により判定された不要語をそれぞれ除いて両
文書間の類似度を算出する手段と、 を具備することを特徴とする類似文書検索装置。
3. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents using a certain document as a search key document, comprising: a plurality of search target documents including the search key document and the search target document. Document data storing means for storing document data; word specifying means for specifying a plurality of arbitrary words; word extracting means for extracting words from each document data stored in the document data storing means; A plurality of arbitrary words specified by a means and an appearance frequency calculating means for calculating an appearance frequency of each of the words extracted by the word extracting means in each of the document data; The appearance frequency calculated by the appearance frequency calculation means is the appearance of a plurality of arbitrary words calculated by the appearance frequency calculation means. Unnecessary word determining means for determining a word having a frequency equal to or higher than the minimum frequency of occurrence as an unnecessary word; and removing the unnecessary words determined by the unnecessary word determining means from the search key document and the search target document. Means for calculating the similarity of the similar document search device.
【請求項4】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を含む複数の
文書データが格納された文書データ格納手段と、 前記文書データ格納手段に格納された各文書データから
単語を抽出する単語抽出手段と、 前記単語抽出手段により抽出される単語のうち不要語と
すべき単語の数を任意に指定する不要語数指定手段と、 前記単語抽出手段により抽出された単語の前記各文書デ
ータ中での出現頻度を算出する出現頻度算出手段と、 前記単語抽出手段により抽出された単語のうち、前記出
現頻度算出手段により算出された出現頻度が高いものか
ら優先に、前記不要語数指定手段により指定された数の
単語を不要語として判定する不要語判定手段と、 前記検索キー文書および前記検索対象文書から前記不要
語判定手段により判定された不要語を除いて両文書間の
類似度を算出する手段と、 を具備することを特徴とする類似文書検索装置。
4. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents using a certain document as a search key document, comprising: a plurality of search target documents including the search key document and the search target document. Document data storing means for storing document data; word extracting means for extracting words from each document data stored in the document data storing means; and unnecessary words among words extracted by the word extracting means. Unnecessary word number specifying means for arbitrarily specifying the number of words; appearance frequency calculating means for calculating the appearance frequency of each word extracted by the word extracting means in each of the document data; extracted by the word extracting means Of the words, words having a higher appearance frequency calculated by the appearance frequency calculation means are given priority, and the number of words designated by the unnecessary word number designation means is given priority. Unnecessary word determining means for determining as a word; and means for calculating a similarity between the two documents by removing the unnecessary words determined by the unnecessary word determining means from the search key document and the search target document. A similar document search device characterized by the following.
【請求項5】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索装置において、 前記検索キー文書および前記検索対象文書を含む複数の
文書データが格納された文書データ格納手段と、 前記文書データ格納手段に格納された各文書データから
単語を抽出する単語抽出手段と、 前記単語抽出手段により抽出された単語の前記各文書デ
ータ中での出現頻度を算出する出現頻度算出手段と、 任意の出現頻度を指定する出現頻度指定手段と、 前記単語抽出手段により抽出された単語のうち、前記出
現頻度算出手段によって算出された出現頻度が、前記出
現頻度指定手段により指定された任意の出現頻度以上の
単語を不要語として判定する不要語判定手段と、 前記検索キー文書および前記検索対象文書から前記不要
語判定手段により判定された不要語を除いて各文書間の
類似度を算出する手段と、 を具備することを特徴とする類似文書検索装置。
5. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents using a certain document as a search key document, comprising: a plurality of search target documents including the search key document and the search target document. Document data storage means in which document data is stored; word extraction means for extracting a word from each document data stored in the document data storage means; in each of the document data of words extracted by the word extraction means An appearance frequency calculating means for calculating an appearance frequency of, an appearance frequency designating means for designating an arbitrary appearance frequency, and, among words extracted by the word extracting means, an appearance frequency calculated by the appearance frequency calculating means, Unnecessary word determining means for determining a word having an arbitrary appearance frequency or more designated by the appearance frequency designating means as an unnecessary word; And a means for calculating the degree of similarity between the respective documents by excluding the unnecessary words determined by the unnecessary word determining means from the search target document.
【請求項6】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索する類似文書検索方法において、 任意の単語を指定する工程と、 前記検索キー文書および前記検索対象文書を含む複数の
文書データから単語を抽出する工程と、 前記指定された任意の単語および前記抽出された単語の
前記各文書データ中での出現頻度をそれぞれ算出する工
程と、 前記算出された前記任意の単語の出現頻度を基準とし
て、前記抽出された単語のうちの少なくとも一部の単語
を不要語として判定する工程と、 前記検索キー文書および前記検索対象文書から前記判定
された不要語をそれぞれ除いて両文書間の類似度を算出
する工程とを有することを特徴とする類似文書検索方
法。
6. A similar document search method for searching a document similar to the search key document from a plurality of search target documents using a certain document as a search key document, wherein an arbitrary word is specified; And extracting words from a plurality of document data including the search target document; calculating the appearance frequency of each of the designated arbitrary words and the extracted words in each of the document data; Determining at least a part of the extracted words as unnecessary words based on the calculated appearance frequency of the arbitrary word; and determining the words from the search key document and the search target document. Calculating a similarity between the two documents by removing unnecessary words from each other.
【請求項7】 ある文書を検索キー文書としてこの検索
キー文書と類似する文書を複数の検索対象文書の中から
検索するためのプログラムが記録された記録媒体におい
て、 任意の単語を指定する単語指定手段と、 前記検索キー文書および前記検索対象文書を含む複数の
文書データから単語を抽出する単語抽出手段と、 前記単語指定手段により指定された任意の単語および前
記単語抽出手段により抽出された単語の前記各文書デー
タ中での出現頻度をそれぞれ算出する出現頻度算出手段
と、 前記出現頻度算出手段によって算出された前記任意の単
語の出現頻度を基準として、前記単語抽出手段により抽
出された単語のうちの少なくとも一部の単語を不要語と
して判定する不要語判定手段と、 前記検索キー文書および前記検索対象文書から前記不要
語判定手段により判定された不要語をそれぞれ除いて両
文書間の類似度を算出する手段とを有するプログラムが
記録されていることを特徴とする記録媒体。
7. A word designation for designating an arbitrary word in a recording medium in which a program for retrieving a document similar to the search key document from a plurality of search target documents using a certain document as a search key document is recorded. Means, word extraction means for extracting a word from a plurality of document data including the search key document and the search target document, and an arbitrary word designated by the word designation means and a word extracted by the word extraction means An appearance frequency calculation unit for calculating the appearance frequency in each of the document data; and a word extracted by the word extraction unit based on the appearance frequency of the arbitrary word calculated by the appearance frequency calculation unit. Unnecessary word determining means for determining at least a part of the words as unnecessary words; and Recording medium comprising a program and a means for calculating a similarity between the determined unnecessary words both documents except each is recorded by a main character discriminating unit.
JP10061726A 1998-03-12 1998-03-12 Similar document retrieval device and method and recording medium recording similar document retrieval program Withdrawn JPH11259515A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10061726A JPH11259515A (en) 1998-03-12 1998-03-12 Similar document retrieval device and method and recording medium recording similar document retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10061726A JPH11259515A (en) 1998-03-12 1998-03-12 Similar document retrieval device and method and recording medium recording similar document retrieval program

Publications (1)

Publication Number Publication Date
JPH11259515A true JPH11259515A (en) 1999-09-24

Family

ID=13179520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10061726A Withdrawn JPH11259515A (en) 1998-03-12 1998-03-12 Similar document retrieval device and method and recording medium recording similar document retrieval program

Country Status (1)

Country Link
JP (1) JPH11259515A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265788A (en) * 2000-03-23 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> Document classification method and apparatus, and recording medium storing document classification program
JP2002024280A (en) * 2000-07-04 2002-01-25 Shin Etsu Polymer Co Ltd Device and method for document retrieval
JP2006154658A (en) * 2004-12-01 2006-06-15 Nec Corp Speech recognition dictionary creation system, speech recognition dictionary creation method, speech recognition system, and robot
JP2010009254A (en) * 2008-06-25 2010-01-14 Yahoo Japan Corp Feature word selection device, method, and program
JP2010055159A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Information retrieval device, information retrieval method, and program
JP2010055155A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Server device, information processing method, and program
JP2010182340A (en) * 2010-05-28 2010-08-19 Fujitsu Ltd Content navigation program
WO2011042946A1 (en) * 2009-10-05 2011-04-14 株式会社 東芝 Similar content search device and program
JP2013109563A (en) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Retrieval condition extraction device, retrieval condition extraction method and retrieval condition extraction program
JP2014229069A (en) * 2013-05-22 2014-12-08 日本電気株式会社 Correlation determination system, method, and program
JP2020013535A (en) * 2018-07-06 2020-01-23 株式会社日立システムズ Information processing device, inspection evaluation system and inspection evaluation method

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265788A (en) * 2000-03-23 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> Document classification method and apparatus, and recording medium storing document classification program
JP2002024280A (en) * 2000-07-04 2002-01-25 Shin Etsu Polymer Co Ltd Device and method for document retrieval
JP2006154658A (en) * 2004-12-01 2006-06-15 Nec Corp Speech recognition dictionary creation system, speech recognition dictionary creation method, speech recognition system, and robot
JP2010009254A (en) * 2008-06-25 2010-01-14 Yahoo Japan Corp Feature word selection device, method, and program
US8838616B2 (en) 2008-08-26 2014-09-16 Nec Biglobe, Ltd. Server device for creating list of general words to be excluded from search result
JP2010055155A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Server device, information processing method, and program
JP2010055159A (en) * 2008-08-26 2010-03-11 Nec Biglobe Ltd Information retrieval device, information retrieval method, and program
WO2011042946A1 (en) * 2009-10-05 2011-04-14 株式会社 東芝 Similar content search device and program
US8904437B2 (en) 2009-10-05 2014-12-02 Kabushiki Kaisha Toshiba Similar content search device and computer-readable storage medium
JP2010182340A (en) * 2010-05-28 2010-08-19 Fujitsu Ltd Content navigation program
JP2013109563A (en) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Retrieval condition extraction device, retrieval condition extraction method and retrieval condition extraction program
JP2014229069A (en) * 2013-05-22 2014-12-08 日本電気株式会社 Correlation determination system, method, and program
JP2020013535A (en) * 2018-07-06 2020-01-23 株式会社日立システムズ Information processing device, inspection evaluation system and inspection evaluation method
JP2023054101A (en) * 2018-07-06 2023-04-13 株式会社日立システムズ Information processing device, inspection evaluation system and inspection evaluation method
JP2024098055A (en) * 2018-07-06 2024-07-19 株式会社日立システムズ Information processing device, inspection and evaluation system, and inspection and evaluation method

Similar Documents

Publication Publication Date Title
US7181437B2 (en) Associative database scanning and information retrieval
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP2004348591A (en) Document search method and apparatus
JPH11259515A (en) Similar document retrieval device and method and recording medium recording similar document retrieval program
US11829710B2 (en) Deriving global intent from a composite document to facilitate editing of the composite document
KR20000069633A (en) File processing method, data processing device, and storage medium
JPH1173415A (en) Device and method for retrieving similar document
JPH0785080A (en) System for retrieving all document
JPH11110395A (en) Device and method for retrieving similar document
JP2000112990A (en) Text search device, effective word frequency creation device, text search method, effective word frequency creation method, and recording medium
JP2001147923A (en) Device and method for retrieving similar document and recording medium
JP4076900B2 (en) Name analysis method, apparatus, and program
RU2409849C2 (en) Method of searching for information in multi-topic unstructured text arrays
JP2006251975A (en) Text sorting method and program by the method, and text sorter
JPH11259487A (en) Similar document retrieving device, similar document retrieving method and storage medium recorded with program for retrieving similar document
JP2005301855A (en) Document search method, document search program, and document search apparatus for executing the same
JP2003108576A (en) Database control device and database control method
JP2000259658A (en) Document classification device
JP2000331027A (en) Similar document retrieving device and similar document retrieving method
JP7284371B2 (en) Information processing device, information processing method, and program
JP2002099573A (en) Device and method for similar document retrieval, and recording medium
JP4355470B2 (en) Language processing apparatus, control method therefor, and program
JP4040233B2 (en) Important sentence extraction device and storage medium
JP2003022276A (en) Device and method for retrieving document

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050607