JP2012104051A - Document index creating device - Google Patents
Document index creating device Download PDFInfo
- Publication number
- JP2012104051A JP2012104051A JP2010254129A JP2010254129A JP2012104051A JP 2012104051 A JP2012104051 A JP 2012104051A JP 2010254129 A JP2010254129 A JP 2010254129A JP 2010254129 A JP2010254129 A JP 2010254129A JP 2012104051 A JP2012104051 A JP 2012104051A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- sentence
- unit
- weight value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000000926 separation method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000010606 normalization Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の文書ファイルを蓄積する文書データベースに対して文書検索処理が行われる際に用いられる文書インデックスの作成装置に関する。 The present invention relates to a document index creation apparatus used when a document search process is performed on a document database that stores a plurality of document files.
例えばインターネットのようなワールドワイドな通信ネットワーク若しくは企業内の社内ネットワークのようなローカル通信ネットワーク上において、多数の文書ファイルを蓄積する文書データベースに対して端末機からクエリを入力して検索処理を実行させ、所望の文書ファイルを抽出する検索システムが汎用されている。このような検索システムにおいては、端末機から入力されたクエリを解析して作成される検索インデックスと、蓄積された文書ファイルの各々について予め作成された文書インデックスとを、所定の検索アルゴリズムを用いて照合させて、類似度の高い文書ファイルをヒット文書として抽出する手法が取られている。 For example, on a global communication network such as the Internet or a local communication network such as an in-house network in a company, a search process is executed by inputting a query from a terminal to a document database storing a large number of document files. A search system for extracting a desired document file is widely used. In such a search system, a search index created by analyzing a query input from a terminal, and a document index created in advance for each of the stored document files, using a predetermined search algorithm A technique is adopted in which document files with high similarity are extracted as hit documents by collation.
上記文書インデックスは、通常は単語で構成される。そして、検索精度を上げるため、特定の単語について重み付けを高くし、そのような特定の単語を含む文書ファイルが検索において優先的に(ランキング上位として)抽出されるように工夫されている。この重み付け付与方法の一つとして、文書ファイル中において出現頻度が高い単語について、高い重み付けを付与するという手法がある。また、他の文書ファイルからリンク(ブックマーク)されている数が多いほど重要度が高い文書ファイルとみなし、そのような文書ファイルに含まれている単語の全てについて高い重み付けを付与するという、いわゆるページランク方式(特許文献1参照)も知られている。 The document index is usually composed of words. In order to improve the search accuracy, the specific word is given high weighting, and a document file including such a specific word is devised so that it is extracted preferentially (as a high ranking ranking) in the search. As one of the weighting methods, there is a method of assigning a high weight to a word that appears frequently in a document file. In addition, a so-called page in which, as the number of links (bookmarks) from other document files increases, it is regarded as a document file having a higher importance level, and all words included in such document files are given higher weights. A rank method (see Patent Document 1) is also known.
しかしながら、単純に文書ファイル中において出現頻度が高い単語に対して高い重み値を与えるという方式では、その文書ファイルの本来的なコンテンツにマッチしない文書インデックスが作成されてしまう怖れがある。例えば、ある「単語A」が文書ファイルX中の記述に1回だけ出現している場合、出現頻度という観点だけを考慮するならば、ただ1回だけの出現であるので「単語A」には低い重み値が与えられることになる。しかし、文書ファイルXの記述において、たまたま「単語A」を繰り返して使用していないものの、「単語A」に極めて関連深い内容を包含しているケースは多々ある。このような文書ファイルXは、キーワードとして「単語A」を設定したユーザにとって有用な文書ファイルである可能性が高いと言える。しかしながら、当該文書ファイルXは、「単語A」について低い重み値が与えられることから、検索結果のランキング上位には表れず、ユーザがこれを看過してしまうという問題があった。 However, in the method of simply giving a high weight value to words that appear frequently in a document file, there is a fear that a document index that does not match the original contents of the document file may be created. For example, when a certain “word A” appears only once in the description in the document file X, if only the viewpoint of appearance frequency is considered, it appears only once, so “word A” A low weight value will be given. However, in the description of the document file X, although “Word A” is not used repeatedly, there are many cases in which “Word A” includes very closely related contents. It can be said that such a document file X is highly likely to be a useful document file for a user who sets “word A” as a keyword. However, since the document file X is given a low weight value for “word A”, the document file X does not appear at the top of the ranking of the search results, and the user overlooks this.
本発明の目的は、文書ファイルの記述内容に可及的に即した文書インデックスを作成することができる文書インデックス作成装置を提供することにある。 SUMMARY OF THE INVENTION An object of the present invention is to provide a document index creation device that can create a document index that matches the description contents of a document file as much as possible.
上記目的を達成する本発明の一の局面に係る文書インデックス作成装置は、複数の文書ファイルを蓄積する文書データベースと、前記文書データベースから文書インデックスの作成対象とする1の文書ファイルを抽出する抽出手段と、前記1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る文章分離手段と、前記文書データに対して文書解析処理を行って単語群を抽出する文書解析手段と、前記単語群の中から1の注目単語を指定し、前記複数の単位文章を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する選別手段と、前記第1単位文章と前記第2単位文章との文章関連度を評価する評価手段と、前記文書解析手段により抽出された単語群の各々に重み値を与えて文書インデックスを作成する作成手段と、を備え、前記作成手段は、前記注目単語の出現頻度と、前記文章関連度の評価値とを用いて前記注目単語に対する前記重み値を設定する装置である(請求項1)。 A document index creation device according to an aspect of the present invention that achieves the above object includes a document database that stores a plurality of document files, and an extraction unit that extracts one document file to be created as a document index from the document database. A document separation unit that divides the document data of the one document file into a plurality of unit sentences based on an identifier indicating a sentence break included in the document data, and performs document analysis processing on the document data. Document analysis means for extracting a word group, one attention word from the word group is specified, the plurality of unit sentences, a first unit sentence in which the attention word appears, and a first word in which the attention word does not appear Selecting means for selecting two unit sentences; evaluation means for evaluating a sentence relevance between the first unit sentences and the second unit sentences; and the document analyzing means. Creating means for creating a document index by giving a weight value to each of the extracted word groups, the creating means using the appearance frequency of the attention word and the evaluation value of the sentence relevance An apparatus for setting the weight value for a word of interest (claim 1).
この構成によれば、単純に1の文書ファイル中における注目単語の出現頻度だけで単語重み値が設定されない。すなわち、注目単語を含む第1単位文章と、注目単語を含まない第2単位文章との文章関連度が評価され、その評価値を注目単語の出現頻度に加味して文書インデックスが作成される。文章関連度が高いということは、第2単位文章には直接的に注目単語が用いられていなくとも、当該第2単位文章には注目単語に関連する記述が含まれている可能性が高いと推定することができる。この場合、注目単語の出現頻度が低くとも、注目単語を含まない第2単位文章において関連記述が存在する可能性が高いことを根拠として、当該注目単語に比較的高い重み値を与えることで、1の文書ファイルについて実際の記述内容に即した文書インデックスを作成できるようになる。 According to this configuration, the word weight value is not set simply by the appearance frequency of the attention word in one document file. That is, the sentence relevance between the first unit sentence including the attention word and the second unit sentence not including the attention word is evaluated, and the document index is created by adding the evaluation value to the appearance frequency of the attention word. The high degree of sentence relevance means that even if the attention word is not directly used in the second unit sentence, there is a high possibility that the second unit sentence includes a description related to the attention word. Can be estimated. In this case, even if the appearance frequency of the attention word is low, on the basis of the high possibility that the related description exists in the second unit sentence not including the attention word, by giving a relatively high weight value to the attention word, A document index corresponding to the actual description content can be created for one document file.
上記構成において、前記評価手段は、前記第1単位文章に含まれる単語群の出現頻度と、前記第2単位文章に含まれる単語群の出現頻度との類似性に基づいて、前記文章関連度を評価することが望ましい(請求項2)。 In the above-described configuration, the evaluation unit calculates the sentence relevance level based on the similarity between the appearance frequency of the word group included in the first unit sentence and the appearance frequency of the word group included in the second unit sentence. It is desirable to evaluate (Claim 2).
この構成によれば、第1単位文章と第2単位文章との文章関連度を、簡易に判定することができる。 According to this configuration, it is possible to easily determine the sentence relevance between the first unit sentence and the second unit sentence.
この場合、前記評価手段は、前記文章関連度の評価値として、さらに前記第1単位文章が含む全単語の出現頻度に対する前記注目単語の出現頻度の比に基づき当該注目単語の単語密度を求め、前記作成手段は、前記文章関連度に前記単語密度を乗じて、前記第2単位文章の重み値を求め、前記注目単語の出現頻度に基づく基礎重み値に、前記第2単位文章の重み値を加算して、前記注目単語に対する重み値を設定することが望ましい(請求項3)。 In this case, the evaluation unit obtains the word density of the attention word based on the ratio of the appearance frequency of the attention word to the appearance frequency of all words included in the first unit sentence as the evaluation value of the sentence relevance level, The creation means multiplies the sentence relevance by the word density to obtain a weight value of the second unit sentence, and sets the weight value of the second unit sentence to a basic weight value based on the appearance frequency of the attention word. It is desirable to add and set a weight value for the attention word.
この構成によれば、第1単位文章において注目単語の単語密度が高い程、第2単位文章の重み値の重み値が高くなる。これは、第1単位文章において注目単語が頻出している程、第2単位文章において注目単語に関連する記述が為されている可能性が高いという推定に基づく。従って、一層、文書ファイルの記述内容に沿った文書インデックスを作成することができる。 According to this configuration, the higher the word density of the attention word in the first unit sentence, the higher the weight value of the second unit sentence. This is based on the presumption that the more frequently the attention word appears in the first unit sentence, the more likely the description related to the attention word is made in the second unit sentence. Therefore, it is possible to further create a document index according to the description content of the document file.
上記構成において、文章分離手段は、改行を示す識別子、及び/又は空白行の存在を示す識別子に基づいて、前記文章を段落単位に区切ることが望ましい(請求項4)。 In the above configuration, it is desirable that the sentence separating unit divides the sentence into paragraphs based on an identifier indicating a line break and / or an identifier indicating the presence of a blank line.
この構成によれば、文章の通常の区切りである段落単位で文章を区切ることができる。従って、単位文章同士の比較を、的確に行うことができる。 According to this configuration, it is possible to divide a sentence in units of paragraphs, which are normal divisions of sentences. Therefore, it is possible to accurately compare unit sentences.
また、前記1の文書ファイルの文書データを構成する文字数に基づいて、前記注目単語に対する重み値を正規化する正規化手段をさらに備えることが望ましい(請求項5)。 Further, it is desirable to further include normalizing means for normalizing a weight value for the attention word based on the number of characters constituting the document data of the one document file.
この構成によれば、文書データの長短の影響を是正して、重み値を設定することができる。 According to this configuration, the weight value can be set by correcting the influence of the document data.
本発明によれば、文書データベースに対する文書検索システムにおいて、文書ファイルの記述内容に即した文書インデックスを作成する文書インデックス作成装置を提供することができる。これにより、検索精度を向上させ、文書検索システムを用いた各種の処理業務の効率化を図ることが可能となる。 According to the present invention, it is possible to provide a document index creation device that creates a document index corresponding to the description content of a document file in a document search system for a document database. As a result, it is possible to improve the search accuracy and improve the efficiency of various processing operations using the document search system.
以下、図面に基づいて本発明の実施形態につき詳細に説明する。図1は、本発明に係る文書インデックス作成装置が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、通信ネットワーク上において利用可能な文書データベース10と、この文書データベース10に対して所定の検索アルゴリズムを用いて検索処理を行う検索エンジン20と、ユーザが利用する端末装置30と、主に文書検索用の文書インデックスの作成処理を行うデータ処理装置40とが、インターネットIN又はローカルネットLNを介してデータ通信可能に接続されてなる。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram schematically showing a hardware configuration of a network system S to which a document index creation apparatus according to the present invention is applied. The network system S includes a
文書データベース10は、検索対象となる多数の文書ファイルが大量に記憶されているデータベースである。文書データベース10がインターネットINに接続されるものである場合、この文書データベース10は各々ドメイン名を持つ多数のウエブサイトの集合となる。このような文書データベース10としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。また、文書データベース10が企業等の内部で構築されているローカルネットLNに接続されるものである場合、この文書データベース10は当該企業内の共用文書ファイルを保管するデータベースとなる。
The
検索エンジン20は、所定のパラメータを有する検索アルゴリズムが搭載され、文書データベース10に対し、与えられたクエリに対応する文書ファイルの検索処理を行う。すなわち検索エンジン20は、クエリを文書解析して検索インデックスを作成すると共に、文書データベース10に記憶されている検索対象の文書ファイル毎にキーワードや属性(メタデータ)を抽出して作成された検索用の文書インデックスを読み出す。さらに検索エンジン20は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い(クエリに適合する)文書ファイルを抽出する。
The
端末装置30は、多数のユーザに各々保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機31、32、33、34・・・である。端末装置30は、インターネットIN又はローカルネットLNを介して検索エンジン20及び文書データベース10にアクセス可能とされている。例えば端末機31は、検索処理条件となるキーワードや文章(クエリ)を入力するためのキーボード311と、検索画面、ヒット文書のリスト、文書のコンテンツ等を表示するディスプレイ312と、ディスプレイ312上の表示画面に対してコマンド(文書の選択指示や選択終了指示等)を入力するためのマウス313を備えている。
The
各ユーザは、各自の通信端末機31、32、33、34・・・のキーボード311を介して、検索エンジン20にクエリを与え、そのクエリでの検索処理によりヒットした文書ファイルのリストを取得する。さらにユーザは、前記リストの中から希望する文書ファイルを選択し、その文書ファイルの内容を自身のディスプレイ312で表示させることができる。
Each user gives a query to the
データ処理装置40は、文書データベース10に記憶されている検索対象の文書ファイル毎に文書解析処理を行ってキーワードや属性を抽出し、検索用の文書インデックスを作成する。この文書インデックスは、各文書ファイルから抽出された単語等と、この単語の各々に付与される重み値とを含む。重み値は、各々の単語の各文書ファイル中における重要度を表すもので、その文書ファイルにおいて高い値が重み値として与えられている単語が検索クエリとなった場合、当該文書ファイルが検索ヒットランキングの上位にランクされることとなる。通常、重み値は単語の出現頻度をベースとして設定されるが、本実施形態では、検索クエリとされ得る単語(キーワード)を含む段落と、この単語を含まない段落との関連性を考慮して重み値を設定する点に特徴を有する。この点については、後記で詳述する。
The
図2は、ネットワークシステムSにより実行される文書ファイル検索処理の概要を示す模式的なフローチャートである。検索エンジン20は、検索元側の処理として、端末装置30からクエリが与えられると、このクエリ文書に対して例えば形態素解析等を含む文書解析処理を行う(ステップS1)。次いで、上記の文書解析処理で得られた単語をベースにして検索インデックスが作成される(ステップS2)。この検索インデックスは、主に質問事象に関連深いキーワード群からなる。そして、当該検索インデックスを用いて、大量のデータを含む文書データベース10に対して文書の検索処理を行う(ステップS3)。
FIG. 2 is a schematic flowchart showing an outline of the document file search process executed by the network system S. When a query is given from the
また、検索先側の処理として、データ処理装置40は、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)を定期的に行う。本実施形態は、この文書インデックス作成のステップに特徴を有する。ステップS3の検索処理で得られた結果は、前記クエリを入力したユーザの端末装置30に、検索アルゴリズムでの合致度合いに応じた順位付けをしてリスト出力(ランキング表示)される(ステップS4)。
As processing on the search destination side, the
図3は、従来の一般的な文書検索例を示す模式図である。端末装置30から、検索クエリとしてキーワード「A」が与えられた場合、検索エンジンにより文書データベース10に対して検索処理が行われる。すると、単語Aを含む文書ファイルがヒット文書として抽出され、とりわけ単語Aの出現頻度が高い文書ファイルが、端末装置30においてランキング上位に表示されることになる。ここでは、単語Aが5回出現している文書ファイルXを示している。
FIG. 3 is a schematic diagram showing an example of a conventional general document search. When the keyword “A” is given as a search query from the
しかしながら、文書ファイルの本来的なコンテンツは、単語の出現頻度だけでは計れない場合が多々ある。例えば、「単語A」が文書ファイルX中の記述に5回も出現しているが、実は「単語A」に関連した記述が文書全体としては浅い場合や、逆に、「単語A」が1回しか出現しない文書ファイルであっても、文書全体としてみれば「単語A」に極めて関連深い内容を包含している場合がある。このような場合、ユーザにとって有用な文書ファイルは明らかに後者であるが、「単語A」の出現頻度が低いことから後者の文書ファイルは上位にランキングされず、結果的にユーザが看過してしまうことが生じ得る。従って、単純に文書ファイル中において出現頻度が高い単語に対して高い重み値を与えるという方式では、その文書ファイルの本来的なコンテンツにマッチしない文書インデックスが作成されてしまう怖れがあると言うことができる。 However, there are many cases where the original content of a document file cannot be measured only by the appearance frequency of words. For example, although “word A” appears five times in the description in the document file X, the description related to “word A” is actually shallow as a whole document, or conversely, “word A” is 1 Even a document file that appears only once may contain content that is very closely related to “word A” as a whole document. In such a case, the document file useful for the user is obviously the latter, but the appearance frequency of “word A” is low, so the latter document file is not ranked high, and the user overlooks as a result. Can happen. Therefore, simply giving a high weight value to words that occur frequently in a document file may create a document index that does not match the original content of the document file. Can do.
図4は、本実施形態における単語への重み付与の考え方を示す模式図である。本実施形態では、単純に単語A(注目単語)の出現頻度に依拠するのではなく、単語Aを含む段落(第1単位文章)と、当該段落に近接し単語Aが出現しない段落(第2単位文章)との文章関連性を評価する。そして、その文章関連度に応じた段落重み値を、単語Aの本来の重み値(単語出現頻度に依拠)に対して付加する。 FIG. 4 is a schematic diagram showing the concept of weighting a word in the present embodiment. In this embodiment, instead of simply relying on the appearance frequency of the word A (word of interest), a paragraph including the word A (first unit sentence) and a paragraph in which the word A does not appear adjacent to the paragraph (second) Evaluate the text relevance to the unit text. Then, the paragraph weight value corresponding to the sentence relevance level is added to the original weight value of word A (which depends on the word appearance frequency).
ユーザが端末装置30から与えたキーワード(例えば単語A)を含む段落は、当然、ユーザが希望する記述を含む段落であると言うことができる。その一方で、単語Aを含まない段落の記述が、ユーザが期待する話題と全く無関係であると言うことはできない。むしろ、単語Aを含む段落に近接する段落では、たとえ単語Aが用いられていなくとも、単語Aに関連した話題に関する記述が存在している可能性が高いと言える。この場合、ユーザにとって、当該文書ファイルの情報価値は高いものとなる。そこで、単語Aを含んでいないが文章関連度の高い段落が、単語Aを含む先行段落に近接して存在している場合には、それ相応の重み値を単語Aに追加して、文書インデックスを作成することとする。これにより、単語Aが検索クエリとして与えられた場合に、当該文書ファイルが上位にランキングされるようになり、ユーザが当該文書ファイルを看過してしまう確率を抑制することができる。
It can be said that the paragraph including the keyword (for example, word A) given by the user from the
図5は、ネットワークシステムSの機能構成を示す機能ブロック図である。文書データベース10は、各種の文書ファイルが記憶された複数の文書サーバ11、12、13・・・(Webサーバ又は社内ローカルサーバ)を含む。検索エンジン20は、文書インデックス記憶部21、検索インデックス作成部22、検索処理部23及びランキング表示処理部24を機能的に備えている。端末装置30は、既述の通り、クエリ入力部301、表示部302及び操作部303を備えている。データ処理装置40(文書インデックス作成装置)は、文書抽出部41、文書解析部42(文書解析手段)、文書インデックス作成部43(作成手段)及び記憶部40Mを備えている。
FIG. 5 is a functional block diagram showing a functional configuration of the network system S. As shown in FIG. The
文書インデックス記憶部21は、文書データベース10に含まれる文書ファイルを検索させるための文書インデックスを記憶する。文書インデックスは、所定の作成タイミング(例えば1日1回)にデータ処理装置40により作成され、記憶内容が更新される。
The document
検索インデックス作成部22は、端末装置30から与えられたクエリ(キーワードや質問文書)を文書解析し、検索インデックスを作成する処理を行う。例えば、クエリが質問文書である場合は、その文書内において自立する単語として抽出すると共に、これら単語の出現頻度等を参照して重み付けする等して、検索インデックスを作成する。
The search
検索処理部23は、検索アルゴリズムを用いて、文書データベース10に対して文書ファイルの検索処理を行う。具体的には、前記検索インデックスと前記文書インデックスとを照合し、検索インデックス(クエリ)に対する類似度が高い文書ファイルを抽出する。ここで、この検索処理には、予め設定された検索アルゴリズムが用いられる。この検索アルゴリズムとしては、コサイン尺度、Dice係数、Jaccard係数、Tスコア、相互情報量、Simpson係数などを例示することができる。
The
ランキング表示処理部24は、検索処理部23による検索処理でヒットした複数の文書ファイルに、クエリに対する類似度(合致度合い)が高い順に順位付けしたリストを作成する。このリストは、端末装置30によりブラウジングが可能であり、実際は検索処理の完了後に表示部302で表示される。
The ranking
端末装置30のクエリ入力部301は、ユーザから検索処理のためのキーワード等のクエリの入力を受け付ける部位であって、例えば図1に示すキーボード311である。
The
表示部302は、例えば図1に示すディスプレイ312であって、検索エンジン20のブラウジング画面(クエリ入力画面)、ヒット文書ファイルのリスト並びにその抜粋文、及び前記リストからユーザによって選択された文書ファイルの内容等を表示する。
The
操作部303は、例えば図1に示すマウス313であって、表示部302に表示された画像上の選択部、リンク部、タスクバー等に対して操作指示を与える。ユーザは、表示部302に表示されたヒット文書ファイルのリストのいずれかを選択しその内容を表示させる選択指示、及び、その表示を停止させる選択終了指示を、この操作部303を介して与える。
The
データ処理装置40は、文書データベース10に含まれる文書ファイルを検索させる文書インデックスを作成するために、文書ファイルを文書データベース10から抽出し、当該文書ファイルに記述されている文章を文書解析して単語を抽出し、各単語に重み値を設定する。
The
文書抽出部41は、文書インデックスの作成処理のトリガとして、所定の周期毎に、文書データベース10から複数の文書ファイルを抽出する処理を行う。
The
文書解析部42は、文書抽出部41により抽出された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。同義語処理は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用して、表現が異なる用語を単一の単語と扱うようにする処理である。かかる文書解析処理により、自立する単語が導出される。
The
文書インデックス作成部43は、文書解析部42にて抽出された単語をベースとして、文書ファイル毎に、文書インデックスの素地となる基礎インデックス(重みが未だ与えられていないインデックス)を作成する。そして、前記基礎インデックスに列記された単語について、単語の出現頻度と図4に基づき説明した段落重み値とを用いて各単語に重み付けをして、文書インデックスを完成させる。
The document
記憶部40Mは、データ処理装置40における各種の作業データ等を一次的に記憶する作業領域として用いられるメモリである。記憶部40Mは、例えば文書解析部42により抽出された文書ファイル毎の単語リストや、文書インデックス作成部43が算出する文章関連度データ、単語密度データ、段落重みデータ、単語頻度データ等を一時的に記憶する。また、各種の設定値や演算式等も、この記憶部40Mに格納される。
The
文書インデックス作成部43は、上記の処理を実行させるため機能的に、文章分離部44(文章分離手段)、選別部45(選別手段)、関連度算出部46(評価手段)、単語密度算出部47、段落重み算出部48及び重み設定部49を備えている。
The document
文章分離部44は、1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る処理を行う。本実施形態では、単位文章は、空白行で区切られた一つの段落と定義している。このため文章分離部44は、文書データに含まれる改行を示す識別子、及びこれに続く空白行の存在を示す識別子に基づいて、文書データを段落単位の文章に区切る処理を行う。もちろん、空白行が存在を要求せず、改行を示す識別子の存在をベースに文章を分離させても良い。あるいは、改行を示す識別子を検出せず、空白行を示すタグ等だけに依拠して、文章を分離させるようにしても良い。
The
選別部45は、上記文書解析部42により抽出され記憶部40Mに格納されている単語群の中から1の注目単語を指定し、文章分離部44により区分された段落単位の文章(単位文章)を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する処理を行う。
The
図6(a)は、文章分離部44及び選別部45による処理を説明するための模式図である。ここでは、文書ファイルX中に記述されている文章が、文章分離部44によって、段落1〜段落7の7個の段落に区分されている例を示している。そして、選別部45が、「単語A」を注目単語に設定し、この「単語A」が含まれる段落1及び段落5を第1単位文章とし、「単語A」が含まれていない段落2、段落3、段落4、段落6及び段落7を第2単位文章として区分した事例を示している。
FIG. 6A is a schematic diagram for explaining processing by the
関連度算出部46は、前記第1単位文章と前記第2単位文章との文章関連度を評価する。具体的には、文書データの記述順でみて、最初に登場する1の第1単位文章を基準として、これに続いて登場する1又は複数の第2単位文章との文章関連度を評価する。新たな第1単位文章が登場すると、この第1単位文章を基準として、これに続いて登場する1又は複数の第2単位文章との文章関連度を評価する。文章関連度の評価は、第1単位文章となる段落に含まれる単語群の出現頻度(例えば単語A=3回、単語B=1回、単語C=5回・・・のような、当該段落から抽出される単語とその出現回数とのテーブル)と、第2単位文章となる段落に含まれる単語群の出現頻度とを用い、コサイン尺度のようなベクトル計算手法を利用して両者の類似度(文章関連度)を数値で評価する方法を採ることができる。
The degree-of-
図6(a)の例ならば、関連度算出部46は、段落1(第1単位文章)と、これに続く段落2、段落3及び段落4(第2単位文章)との文章関連度を、上述のベクトル計算手法等を用いてそれぞれ算出する。一方、続く段落5は「単語A」を含む第1単位文章となる段落であるので、関連度算出部46は、以降は段落5(第1単位文章)と、これに続く段落6及び段落7(第2単位文章)との文章類似度を算出する。図6(b)の「関連度」の欄には、関連度算出部46により求められた関連度の数値が表示されている。
In the example of FIG. 6A, the
単語密度算出部47は、第1単位文章が含む全単語の出現頻度に対する注目単語(例えば単語A)の出現頻度の比に基づき、当該注目単語の第1単位文章中における単語密度を求める。例えば、段落1において、「単語A=3回、単語B=1回、単語C=5回・・・」というようなテーブルが求められているとして、次式
単語Aの単語密度=単語Aの出現頻度(3回)/単語A、B、C・・・の出現頻度の合計(3回+1回+5回+・・・)
にて単語密度を求める。
The word
Find the word density at.
この単語密度は、注目単語の出現頻度が高い段落(第1単位文章)の後には、注目単語の影響を受ける記述が続く可能性が高いという推定に基づき、1の第1単位文章と、これに続く1又は複数の第2単位文章との文章セットの評価のための係数として用いられる。図6(b)の例では、段落1における単語Aの単語密度が0.05、段落5における単語Aの単語密度が0.03である例を示している。
This word density is based on the assumption that there is a high possibility that the description affected by the attention word will follow the paragraph (first unit sentence) where the occurrence frequency of the attention word is high. Is used as a coefficient for evaluating a sentence set with one or a plurality of second unit sentences. In the example of FIG. 6B, an example is shown in which the word density of the word A in the
段落重み算出部48は、関連度算出部46が算出した第2単位文章毎の文章関連度に、単語密度算出部47が求めた単語密度を乗じて、第2単位文章毎の段落重み値を算出する。図6(b)に示す通り、段落1における単語Aの単語密度=0.05を、これに続く段落2、段落3及び段落4の文章関連度=0.82、0.62及び0.41にそれぞれ乗じることで、各段落の段落重み値が導出される。段落5以降については、段落5における単語Aの単語密度=0.03を、これに続く段落6及び段落7の文章関連度=0.66及び0.33にそれぞれ乗じることで、各段落の段落重み値が導出される。
The
重み設定部49は、注目単語の通常の重み値(基礎重み値;例えばその注目単語の出現頻度、或いは該出現頻度に文書頻度の逆数を乗じた値)に、段落重み算出部48により求められた第2単位文章毎の段落重み値の合計を加算して、注目単語についての重み値を設定する。図6(b)の例では、重み設定部49は、単語Aの出現頻度に基づく基礎重み値に、段落2、段落3、段落4、段落6及び段落7の段落重みの合計値=0.13を加算して、単語Aについての重み値を設定する。これにより、文書ファイルXにおける単語Aの文書インデックスの作成が完了することになる。
The
続いて、本実施形態のデータ処理装置40による文書インデックス作成処理動作を、図7及び図8に示すフローチャートに基づいて説明する。データ処理装置40は、処理対象とする文書データベース10中の文書ファイル群の各々に付与されているナンバリングに対応するカウンタpを“0”に設定した上で(ステップS11)、p=p+1にカウンタを進める(ステップS12)。そして、p番目の文書ファイル(初回は、1番のナンバーが付与されている文書ファイル)が、文書抽出部41により抽出される(ステップS13)。
Next, the document index creation processing operation by the
次に、文書解析部42は、p番目の文書ファイルに対して文書解析処理を施し、その文書データから単語群を抽出する(ステップS14)。そして、文書解析部42は、抽出した単語について重複出現数を求め、各々の単語の単語頻度を求める(ステップS15)。この単語群及びその出現頻度のデータは、記憶部40Mに格納される。
Next, the
続いて、文章分離部44により、p番目の文書ファイルの文書データが段落単位に分割される(ステップS16)。そして、p番目の文書ファイルに対して抽出されている文書インデックス用の単語群の各々に付与されているナンバリングに対応するカウンタqを“0”に設定した上で(ステップS17)、q=q+1にカウンタを進める(ステップS18)。これにより、q番目の単語が注目単語として設定される。
Subsequently, the
次に、選別部45が、上記分割された段落について、q番目の単語が出現する第1単位文章(段落)と、q番目の単語が出現しない第2単位文章(段落)とに選別する(ステップS19)。そして、関連度算出部46が、ベクトル計算手法等を用いて、前記第1単位文章と前記第2単位文章の各々との文章関連度を評価する(ステップS20)。
Next, the sorting
その後、単語密度算出部47が、q番目の単語の第1単位文章中における単語密度を求める(ステップS21)。続いて、段落重み算出部48が、ステップS21で得られた単語密度と、ステップS20で得られた各第2単位文章の文章関連度とを乗じることで、各第2単位文章の段落重みを算出する(ステップS22)。最後に、重み設定部49が、q番目の単語の出現頻度の基づく基礎重み値に、前記段落重み値を加算し(ステップS23)、q番目の単語の重み値を決定する(ステップS24)。求められた重み値は、記憶部40Mに格納される。
Thereafter, the word
なお、ステップS24において、重み設定部49が、p番目の文書ファイルの文書データを構成する文字数に基づいて、q番目の単語の重み値を正規化する処理を加えることが望ましい。これは、文書データが長い程、段落数が多くなり、その分だけ段落重み値の加算値も大きくなってしまう不具合を抑制するためである。例えば、求められた重み値を文字数で除算する方法が、前記正規化処理の簡易例として挙げることができる。
In step S24, it is desirable that the
続いて、単語群のカウンタqが最終であるか否かが確認され(ステップS25)、最終でない場合は(ステップS25でNO)、ステップS18に戻って次の注目単語について同様な重み値算出処理が繰り返される。一方、カウンタqが最終である場合(ステップS25でYES)、文書ファイルのカウンタpが最終であるか否かが確認される(ステップS26)。カウンタpが最終でない場合は(ステップS26でNO)、ステップS12に戻って次の文書ファイルについて同じ処理が繰り返される。一方、カウンタpが最終である場合(ステップS26でYES)、処理を終える。 Subsequently, it is confirmed whether or not the word group counter q is final (step S25). If it is not final (NO in step S25), the process returns to step S18 and the same weight value calculation processing is performed for the next attention word. Is repeated. On the other hand, if the counter q is final (YES in step S25), it is confirmed whether or not the document file counter p is final (step S26). If the counter p is not final (NO in step S26), the process returns to step S12 and the same processing is repeated for the next document file. On the other hand, if the counter p is final (YES in step S26), the process ends.
以上説明した本実施形態に係るネットワークシステムSによれば、文書データベース10に対する文書検索システムにおいて、文書ファイルの記述内容に即した文書インデックスを作成することができる。これにより、検索精度を向上させ、ユーザが必要とする文書ファイルを検索ランキング上位で提供できる確率を高めることができ、ひいては文書検索システムを用いた各種の処理業務の効率化を図ることが可能となる。
According to the network system S according to the present embodiment described above, the document index corresponding to the description content of the document file can be created in the document search system for the
S ネットワークシステム
10 データベース
20 検索エンジン
21 文書インデックス記憶部
22 検索インデックス作成部
23 検索処理部
24 ランキング表示処理部
30 端末装置
40 データ処理装置
41 文書抽出部
42 文書解析部(文書解析手段)
43 文書インデックス作成部(作成手段)
44 文章分離部(文章分離手段)
45 選別部(選別手段)
46 関連度算出部(評価手段)
47 単語密度算出部
48 段落重み算出部
49 重み設定部
43 Document index creation unit (creation means)
44 sentence separation part (sentence separation means)
45 Sorting part (sorting means)
46 relevance calculator (evaluation means)
47 Word
Claims (5)
前記文書データベースから文書インデックスの作成対象とする1の文書ファイルを抽出する抽出手段と、
前記1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る文章分離手段と、
前記文書データに対して文書解析処理を行って単語群を抽出する文書解析手段と、
前記単語群の中から1の注目単語を指定し、前記複数の単位文章を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する選別手段と、
前記第1単位文章と前記第2単位文章との文章関連度を評価する評価手段と、
前記文書解析手段により抽出された単語群の各々に重み値を与えて文書インデックスを作成する作成手段と、を備え、
前記作成手段は、前記注目単語の出現頻度と、前記文章関連度の評価値とを用いて前記注目単語に対する前記重み値を設定する、文書インデックス作成装置。 A document database for storing multiple document files;
Extraction means for extracting one document file as a document index creation target from the document database;
Sentence separation means for dividing the document data of the one document file into a plurality of unit sentences based on an identifier indicating a sentence break included in the document data;
Document analysis means for performing a document analysis process on the document data and extracting a word group;
Selecting means for designating one attention word from the word group, and selecting the plurality of unit sentences into a first unit sentence in which the attention word appears and a second unit sentence in which the attention word does not appear; ,
An evaluation means for evaluating a sentence relevance between the first unit sentence and the second unit sentence;
Creating means for creating a document index by giving a weight value to each of the word groups extracted by the document analysis means,
The document index creation device, wherein the creation unit sets the weight value for the attention word using the appearance frequency of the attention word and the evaluation value of the sentence relevance.
請求項1に記載の文書インデックス作成装置。 The evaluation means evaluates the sentence relevance based on the similarity between the appearance frequency of the word group included in the first unit sentence and the appearance frequency of the word group included in the second unit sentence;
The document index creation device according to claim 1.
前記文章関連度の評価値として、さらに前記第1単位文章が含む全単語の出現頻度に対する前記注目単語の出現頻度の比に基づき当該注目単語の単語密度を求め、
前記作成手段は、
前記文章関連度に前記単語密度を乗じて、前記第2単位文章の重み値を求め、
前記注目単語の出現頻度に基づく基礎重み値に、前記第2単位文章の重み値を加算して、前記注目単語に対する重み値を設定する、
請求項2に記載の文書インデックス作成装置。 The evaluation means includes
As the evaluation value of the sentence relevance level, the word density of the attention word is obtained based on the ratio of the appearance frequency of the attention word to the appearance frequency of all words included in the first unit sentence.
The creating means includes
Multiplying the sentence relevance by the word density to obtain a weight value of the second unit sentence,
Adding a weight value of the second unit sentence to a basic weight value based on the appearance frequency of the attention word, and setting a weight value for the attention word;
The document index creation device according to claim 2.
請求項1〜3のいずれかに記載の文書インデックス作成装置。 The sentence separating means divides the sentence into paragraphs based on an identifier indicating a line break and / or an identifier indicating the presence of a blank line.
The document index creation apparatus according to claim 1.
請求項1〜4のいずれかに記載の文書インデックス作成装置。
And a normalizing unit for normalizing a weight value for the attention word based on the number of characters constituting the document data of the one document file.
The document index creation device according to any one of claims 1 to 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254129A JP2012104051A (en) | 2010-11-12 | 2010-11-12 | Document index creating device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010254129A JP2012104051A (en) | 2010-11-12 | 2010-11-12 | Document index creating device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012104051A true JP2012104051A (en) | 2012-05-31 |
Family
ID=46394331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010254129A Pending JP2012104051A (en) | 2010-11-12 | 2010-11-12 | Document index creating device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012104051A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451168A (en) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | File Classification System and Method Based on Vocabulary Statistics |
JP2018055604A (en) * | 2016-09-30 | 2018-04-05 | ジャパンモード株式会社 | Innovation creation support program |
JP2019153119A (en) * | 2018-03-05 | 2019-09-12 | コニカミノルタ株式会社 | Sentence extraction device and program |
JPWO2020109921A1 (en) * | 2018-11-30 | 2020-06-04 | ||
US12430369B2 (en) | 2018-11-30 | 2025-09-30 | Semiconductor Energy Laboratory Co., Ltd. | Document search method, document search system, program, and non-transitory computer readable storage medium |
-
2010
- 2010-11-12 JP JP2010254129A patent/JP2012104051A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451168A (en) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | File Classification System and Method Based on Vocabulary Statistics |
CN107451168B (en) * | 2016-05-30 | 2023-08-04 | 台湾中华电信股份有限公司 | File classification system and method based on vocabulary statistics |
JP2018055604A (en) * | 2016-09-30 | 2018-04-05 | ジャパンモード株式会社 | Innovation creation support program |
JP2019153119A (en) * | 2018-03-05 | 2019-09-12 | コニカミノルタ株式会社 | Sentence extraction device and program |
JPWO2020109921A1 (en) * | 2018-11-30 | 2020-06-04 | ||
JP7499183B2 (en) | 2018-11-30 | 2024-06-13 | 株式会社半導体エネルギー研究所 | Document retrieval system for translation |
JP2024103687A (en) * | 2018-11-30 | 2024-08-01 | 株式会社半導体エネルギー研究所 | Document Search System |
JP7705518B2 (en) | 2018-11-30 | 2025-07-09 | 株式会社半導体エネルギー研究所 | Document Search System |
US12430369B2 (en) | 2018-11-30 | 2025-09-30 | Semiconductor Energy Laboratory Co., Ltd. | Document search method, document search system, program, and non-transitory computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674429B (en) | Method, apparatus, device and computer readable storage medium for information retrieval | |
JP7012661B2 (en) | Systems and methods that provide a visible list of results | |
US8819047B2 (en) | Fact verification engine | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
US20060259481A1 (en) | Method of analyzing documents | |
CN104471568A (en) | Learning-Based Processing of Natural Language Problems | |
US20130036076A1 (en) | Method for keyword extraction | |
US20110307432A1 (en) | Relevance for name segment searches | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
JP2011103075A (en) | Method for extracting excerpt sentence | |
CN104484380A (en) | Personalized search method and personalized search device | |
JP2014197300A (en) | Text information processor, text information processing method, and text information processing program | |
JP2014106665A (en) | Document retrieval device and document retrieval method | |
US20140201185A1 (en) | Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations | |
KR102256007B1 (en) | System and method for searching documents and providing an answer to a natural language question | |
US20050114317A1 (en) | Ordering of web search results | |
WO2011022867A1 (en) | Method and apparatus for searching electronic documents | |
US8176031B1 (en) | System and method for manipulating database search results | |
Mitrov et al. | Combining Semantic Matching, Word Embeddings, Transformers, and LLMs for Enhanced Document Ranking: Application in Systematic Reviews | |
JP5964149B2 (en) | Apparatus and program for identifying co-occurrence words | |
JP2012104051A (en) | Document index creating device | |
KR100703193B1 (en) | Document Summary Apparatus and Method Using Non-Negative Matrix Factorization | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP5491446B2 (en) | Topic word acquisition apparatus, method, and program | |
Wang et al. | User intention-based document summarization on heterogeneous sentence networks |