[go: up one dir, main page]

JP2012104051A - Document index creating device - Google Patents

Document index creating device Download PDF

Info

Publication number
JP2012104051A
JP2012104051A JP2010254129A JP2010254129A JP2012104051A JP 2012104051 A JP2012104051 A JP 2012104051A JP 2010254129 A JP2010254129 A JP 2010254129A JP 2010254129 A JP2010254129 A JP 2010254129A JP 2012104051 A JP2012104051 A JP 2012104051A
Authority
JP
Japan
Prior art keywords
document
word
sentence
unit
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010254129A
Other languages
Japanese (ja)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2010254129A priority Critical patent/JP2012104051A/en
Publication of JP2012104051A publication Critical patent/JP2012104051A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To create a document index which corresponds to described contents of a document file as much as possible.SOLUTION: In the network system S which includes a document database 10, a search engine 20 for searching the document database 10 using a predetermined search algorithm, a terminal device 30 used by a user, and a data processing device 40 for creating a document index for document search, the data processing device 40 divides document data of one document file into a plurality of document paragraphs, discriminates the paragraphs into a first unit sentence (paragraph) including an attention word A and a second unit sentence (paragraph) including no attention work A, evaluates a degree of relevance between the first unit sentence and the second unit sentence, obtains a paragraph weight value of the second unit sentence, and sets the weight value of the attention word A by adding the paragraph weight value to a basis weight value based on the appearance frequency of the attention word A.

Description

本発明は、複数の文書ファイルを蓄積する文書データベースに対して文書検索処理が行われる際に用いられる文書インデックスの作成装置に関する。   The present invention relates to a document index creation apparatus used when a document search process is performed on a document database that stores a plurality of document files.

例えばインターネットのようなワールドワイドな通信ネットワーク若しくは企業内の社内ネットワークのようなローカル通信ネットワーク上において、多数の文書ファイルを蓄積する文書データベースに対して端末機からクエリを入力して検索処理を実行させ、所望の文書ファイルを抽出する検索システムが汎用されている。このような検索システムにおいては、端末機から入力されたクエリを解析して作成される検索インデックスと、蓄積された文書ファイルの各々について予め作成された文書インデックスとを、所定の検索アルゴリズムを用いて照合させて、類似度の高い文書ファイルをヒット文書として抽出する手法が取られている。   For example, on a global communication network such as the Internet or a local communication network such as an in-house network in a company, a search process is executed by inputting a query from a terminal to a document database storing a large number of document files. A search system for extracting a desired document file is widely used. In such a search system, a search index created by analyzing a query input from a terminal, and a document index created in advance for each of the stored document files, using a predetermined search algorithm A technique is adopted in which document files with high similarity are extracted as hit documents by collation.

上記文書インデックスは、通常は単語で構成される。そして、検索精度を上げるため、特定の単語について重み付けを高くし、そのような特定の単語を含む文書ファイルが検索において優先的に(ランキング上位として)抽出されるように工夫されている。この重み付け付与方法の一つとして、文書ファイル中において出現頻度が高い単語について、高い重み付けを付与するという手法がある。また、他の文書ファイルからリンク(ブックマーク)されている数が多いほど重要度が高い文書ファイルとみなし、そのような文書ファイルに含まれている単語の全てについて高い重み付けを付与するという、いわゆるページランク方式(特許文献1参照)も知られている。   The document index is usually composed of words. In order to improve the search accuracy, the specific word is given high weighting, and a document file including such a specific word is devised so that it is extracted preferentially (as a high ranking ranking) in the search. As one of the weighting methods, there is a method of assigning a high weight to a word that appears frequently in a document file. In addition, a so-called page in which, as the number of links (bookmarks) from other document files increases, it is regarded as a document file having a higher importance level, and all words included in such document files are given higher weights. A rank method (see Patent Document 1) is also known.

USP6,285,999号公報USP 6,285,999 gazette

しかしながら、単純に文書ファイル中において出現頻度が高い単語に対して高い重み値を与えるという方式では、その文書ファイルの本来的なコンテンツにマッチしない文書インデックスが作成されてしまう怖れがある。例えば、ある「単語A」が文書ファイルX中の記述に1回だけ出現している場合、出現頻度という観点だけを考慮するならば、ただ1回だけの出現であるので「単語A」には低い重み値が与えられることになる。しかし、文書ファイルXの記述において、たまたま「単語A」を繰り返して使用していないものの、「単語A」に極めて関連深い内容を包含しているケースは多々ある。このような文書ファイルXは、キーワードとして「単語A」を設定したユーザにとって有用な文書ファイルである可能性が高いと言える。しかしながら、当該文書ファイルXは、「単語A」について低い重み値が与えられることから、検索結果のランキング上位には表れず、ユーザがこれを看過してしまうという問題があった。   However, in the method of simply giving a high weight value to words that appear frequently in a document file, there is a fear that a document index that does not match the original contents of the document file may be created. For example, when a certain “word A” appears only once in the description in the document file X, if only the viewpoint of appearance frequency is considered, it appears only once, so “word A” A low weight value will be given. However, in the description of the document file X, although “Word A” is not used repeatedly, there are many cases in which “Word A” includes very closely related contents. It can be said that such a document file X is highly likely to be a useful document file for a user who sets “word A” as a keyword. However, since the document file X is given a low weight value for “word A”, the document file X does not appear at the top of the ranking of the search results, and the user overlooks this.

本発明の目的は、文書ファイルの記述内容に可及的に即した文書インデックスを作成することができる文書インデックス作成装置を提供することにある。   SUMMARY OF THE INVENTION An object of the present invention is to provide a document index creation device that can create a document index that matches the description contents of a document file as much as possible.

上記目的を達成する本発明の一の局面に係る文書インデックス作成装置は、複数の文書ファイルを蓄積する文書データベースと、前記文書データベースから文書インデックスの作成対象とする1の文書ファイルを抽出する抽出手段と、前記1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る文章分離手段と、前記文書データに対して文書解析処理を行って単語群を抽出する文書解析手段と、前記単語群の中から1の注目単語を指定し、前記複数の単位文章を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する選別手段と、前記第1単位文章と前記第2単位文章との文章関連度を評価する評価手段と、前記文書解析手段により抽出された単語群の各々に重み値を与えて文書インデックスを作成する作成手段と、を備え、前記作成手段は、前記注目単語の出現頻度と、前記文章関連度の評価値とを用いて前記注目単語に対する前記重み値を設定する装置である(請求項1)。   A document index creation device according to an aspect of the present invention that achieves the above object includes a document database that stores a plurality of document files, and an extraction unit that extracts one document file to be created as a document index from the document database. A document separation unit that divides the document data of the one document file into a plurality of unit sentences based on an identifier indicating a sentence break included in the document data, and performs document analysis processing on the document data. Document analysis means for extracting a word group, one attention word from the word group is specified, the plurality of unit sentences, a first unit sentence in which the attention word appears, and a first word in which the attention word does not appear Selecting means for selecting two unit sentences; evaluation means for evaluating a sentence relevance between the first unit sentences and the second unit sentences; and the document analyzing means. Creating means for creating a document index by giving a weight value to each of the extracted word groups, the creating means using the appearance frequency of the attention word and the evaluation value of the sentence relevance An apparatus for setting the weight value for a word of interest (claim 1).

この構成によれば、単純に1の文書ファイル中における注目単語の出現頻度だけで単語重み値が設定されない。すなわち、注目単語を含む第1単位文章と、注目単語を含まない第2単位文章との文章関連度が評価され、その評価値を注目単語の出現頻度に加味して文書インデックスが作成される。文章関連度が高いということは、第2単位文章には直接的に注目単語が用いられていなくとも、当該第2単位文章には注目単語に関連する記述が含まれている可能性が高いと推定することができる。この場合、注目単語の出現頻度が低くとも、注目単語を含まない第2単位文章において関連記述が存在する可能性が高いことを根拠として、当該注目単語に比較的高い重み値を与えることで、1の文書ファイルについて実際の記述内容に即した文書インデックスを作成できるようになる。   According to this configuration, the word weight value is not set simply by the appearance frequency of the attention word in one document file. That is, the sentence relevance between the first unit sentence including the attention word and the second unit sentence not including the attention word is evaluated, and the document index is created by adding the evaluation value to the appearance frequency of the attention word. The high degree of sentence relevance means that even if the attention word is not directly used in the second unit sentence, there is a high possibility that the second unit sentence includes a description related to the attention word. Can be estimated. In this case, even if the appearance frequency of the attention word is low, on the basis of the high possibility that the related description exists in the second unit sentence not including the attention word, by giving a relatively high weight value to the attention word, A document index corresponding to the actual description content can be created for one document file.

上記構成において、前記評価手段は、前記第1単位文章に含まれる単語群の出現頻度と、前記第2単位文章に含まれる単語群の出現頻度との類似性に基づいて、前記文章関連度を評価することが望ましい(請求項2)。   In the above-described configuration, the evaluation unit calculates the sentence relevance level based on the similarity between the appearance frequency of the word group included in the first unit sentence and the appearance frequency of the word group included in the second unit sentence. It is desirable to evaluate (Claim 2).

この構成によれば、第1単位文章と第2単位文章との文章関連度を、簡易に判定することができる。   According to this configuration, it is possible to easily determine the sentence relevance between the first unit sentence and the second unit sentence.

この場合、前記評価手段は、前記文章関連度の評価値として、さらに前記第1単位文章が含む全単語の出現頻度に対する前記注目単語の出現頻度の比に基づき当該注目単語の単語密度を求め、前記作成手段は、前記文章関連度に前記単語密度を乗じて、前記第2単位文章の重み値を求め、前記注目単語の出現頻度に基づく基礎重み値に、前記第2単位文章の重み値を加算して、前記注目単語に対する重み値を設定することが望ましい(請求項3)。   In this case, the evaluation unit obtains the word density of the attention word based on the ratio of the appearance frequency of the attention word to the appearance frequency of all words included in the first unit sentence as the evaluation value of the sentence relevance level, The creation means multiplies the sentence relevance by the word density to obtain a weight value of the second unit sentence, and sets the weight value of the second unit sentence to a basic weight value based on the appearance frequency of the attention word. It is desirable to add and set a weight value for the attention word.

この構成によれば、第1単位文章において注目単語の単語密度が高い程、第2単位文章の重み値の重み値が高くなる。これは、第1単位文章において注目単語が頻出している程、第2単位文章において注目単語に関連する記述が為されている可能性が高いという推定に基づく。従って、一層、文書ファイルの記述内容に沿った文書インデックスを作成することができる。   According to this configuration, the higher the word density of the attention word in the first unit sentence, the higher the weight value of the second unit sentence. This is based on the presumption that the more frequently the attention word appears in the first unit sentence, the more likely the description related to the attention word is made in the second unit sentence. Therefore, it is possible to further create a document index according to the description content of the document file.

上記構成において、文章分離手段は、改行を示す識別子、及び/又は空白行の存在を示す識別子に基づいて、前記文章を段落単位に区切ることが望ましい(請求項4)。   In the above configuration, it is desirable that the sentence separating unit divides the sentence into paragraphs based on an identifier indicating a line break and / or an identifier indicating the presence of a blank line.

この構成によれば、文章の通常の区切りである段落単位で文章を区切ることができる。従って、単位文章同士の比較を、的確に行うことができる。   According to this configuration, it is possible to divide a sentence in units of paragraphs, which are normal divisions of sentences. Therefore, it is possible to accurately compare unit sentences.

また、前記1の文書ファイルの文書データを構成する文字数に基づいて、前記注目単語に対する重み値を正規化する正規化手段をさらに備えることが望ましい(請求項5)。   Further, it is desirable to further include normalizing means for normalizing a weight value for the attention word based on the number of characters constituting the document data of the one document file.

この構成によれば、文書データの長短の影響を是正して、重み値を設定することができる。   According to this configuration, the weight value can be set by correcting the influence of the document data.

本発明によれば、文書データベースに対する文書検索システムにおいて、文書ファイルの記述内容に即した文書インデックスを作成する文書インデックス作成装置を提供することができる。これにより、検索精度を向上させ、文書検索システムを用いた各種の処理業務の効率化を図ることが可能となる。   According to the present invention, it is possible to provide a document index creation device that creates a document index corresponding to the description content of a document file in a document search system for a document database. As a result, it is possible to improve the search accuracy and improve the efficiency of various processing operations using the document search system.

本発明に係る文書インデックス作成装置が適用されるネットワークシステムのハードウェア構成を概略的に示す構成図である。It is a block diagram which shows roughly the hardware constitutions of the network system with which the document index creation apparatus concerning this invention is applied. 上記ネットワークシステムを用いた検索システムの概要を示す模式的フローチャートである。It is a typical flowchart which shows the outline | summary of the search system using the said network system. 文書検索の一般例を示す図である。It is a figure which shows the general example of a document search. 本発明の実施形態における単語重み付与の考え方を示す模式図である。It is a schematic diagram which shows the concept of word weight provision in embodiment of this invention. ネットワークシステムの機能構成を示す機能ブロック図である。It is a functional block diagram which shows the function structure of a network system. 本発明の実施形態における単語重み付与の手法を示す図であって、(a)は文書ファイルの模式図、(b)は段落重みの算出処理を説明するための表形式の図である。It is a figure which shows the technique of word weight provision in embodiment of this invention, Comprising: (a) is a schematic diagram of a document file, (b) is a figure of the table format for demonstrating the calculation process of a paragraph weight. 文書インデックスの作成処理を示すフローチャートである。It is a flowchart which shows the creation process of a document index. 文書インデックスの作成処理を示すフローチャートである。It is a flowchart which shows the creation process of a document index.

以下、図面に基づいて本発明の実施形態につき詳細に説明する。図1は、本発明に係る文書インデックス作成装置が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、通信ネットワーク上において利用可能な文書データベース10と、この文書データベース10に対して所定の検索アルゴリズムを用いて検索処理を行う検索エンジン20と、ユーザが利用する端末装置30と、主に文書検索用の文書インデックスの作成処理を行うデータ処理装置40とが、インターネットIN又はローカルネットLNを介してデータ通信可能に接続されてなる。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram schematically showing a hardware configuration of a network system S to which a document index creation apparatus according to the present invention is applied. The network system S includes a document database 10 that can be used on a communication network, a search engine 20 that performs a search process on the document database 10 using a predetermined search algorithm, a terminal device 30 that a user uses, A data processing apparatus 40 that mainly performs processing for creating a document index for document search is connected to be able to perform data communication via the Internet IN or the local network LN.

文書データベース10は、検索対象となる多数の文書ファイルが大量に記憶されているデータベースである。文書データベース10がインターネットINに接続されるものである場合、この文書データベース10は各々ドメイン名を持つ多数のウエブサイトの集合となる。このような文書データベース10としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。また、文書データベース10が企業等の内部で構築されているローカルネットLNに接続されるものである場合、この文書データベース10は当該企業内の共用文書ファイルを保管するデータベースとなる。   The document database 10 is a database in which a large number of document files to be searched are stored. When the document database 10 is connected to the Internet IN, the document database 10 is a set of a large number of websites each having a domain name. As such a document database 10, for example, a database accessible through a portal site such as Yahoo (registered trademark) or Google (registered trademark) can be exemplified. When the document database 10 is connected to a local net LN built inside a company or the like, the document database 10 is a database that stores shared document files in the company.

検索エンジン20は、所定のパラメータを有する検索アルゴリズムが搭載され、文書データベース10に対し、与えられたクエリに対応する文書ファイルの検索処理を行う。すなわち検索エンジン20は、クエリを文書解析して検索インデックスを作成すると共に、文書データベース10に記憶されている検索対象の文書ファイル毎にキーワードや属性(メタデータ)を抽出して作成された検索用の文書インデックスを読み出す。さらに検索エンジン20は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い(クエリに適合する)文書ファイルを抽出する。   The search engine 20 is equipped with a search algorithm having predetermined parameters, and performs a search process for a document file corresponding to a given query with respect to the document database 10. That is, the search engine 20 analyzes a query to create a search index, and extracts a keyword or attribute (metadata) for each search target document file stored in the document database 10. Read the document index. Further, the search engine 20 performs a collation process between the document index and the search index using the search algorithm, and extracts a document file having a high degree of matching (matching a query).

端末装置30は、多数のユーザに各々保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機31、32、33、34・・・である。端末装置30は、インターネットIN又はローカルネットLNを介して検索エンジン20及び文書データベース10にアクセス可能とされている。例えば端末機31は、検索処理条件となるキーワードや文章(クエリ)を入力するためのキーボード311と、検索画面、ヒット文書のリスト、文書のコンテンツ等を表示するディスプレイ312と、ディスプレイ312上の表示画面に対してコマンド(文書の選択指示や選択終了指示等)を入力するためのマウス313を備えている。   The terminal device 30 is a communication terminal 31, 32, 33, 34... Such as a personal computer, a mobile phone, or a personal digital assistant owned by many users. The terminal device 30 can access the search engine 20 and the document database 10 via the Internet IN or the local net LN. For example, the terminal 31 has a keyboard 311 for inputting keywords and sentences (queries) as search processing conditions, a display 312 for displaying a search screen, a list of hit documents, document contents, and the like, and a display on the display 312. A mouse 313 for inputting a command (such as a document selection instruction or a selection end instruction) to the screen is provided.

各ユーザは、各自の通信端末機31、32、33、34・・・のキーボード311を介して、検索エンジン20にクエリを与え、そのクエリでの検索処理によりヒットした文書ファイルのリストを取得する。さらにユーザは、前記リストの中から希望する文書ファイルを選択し、その文書ファイルの内容を自身のディスプレイ312で表示させることができる。   Each user gives a query to the search engine 20 via the keyboard 311 of the respective communication terminal 31, 32, 33, 34..., And obtains a list of document files hit by the search processing using the query. . Further, the user can select a desired document file from the list and display the contents of the document file on his / her display 312.

データ処理装置40は、文書データベース10に記憶されている検索対象の文書ファイル毎に文書解析処理を行ってキーワードや属性を抽出し、検索用の文書インデックスを作成する。この文書インデックスは、各文書ファイルから抽出された単語等と、この単語の各々に付与される重み値とを含む。重み値は、各々の単語の各文書ファイル中における重要度を表すもので、その文書ファイルにおいて高い値が重み値として与えられている単語が検索クエリとなった場合、当該文書ファイルが検索ヒットランキングの上位にランクされることとなる。通常、重み値は単語の出現頻度をベースとして設定されるが、本実施形態では、検索クエリとされ得る単語(キーワード)を含む段落と、この単語を含まない段落との関連性を考慮して重み値を設定する点に特徴を有する。この点については、後記で詳述する。   The data processing device 40 performs document analysis processing for each search target document file stored in the document database 10, extracts keywords and attributes, and creates a search document index. The document index includes a word extracted from each document file and a weight value assigned to each word. The weight value represents the importance of each word in each document file. When a word having a high value as a weight value in the document file becomes a search query, the document file is searched for a hit ranking. Will be ranked higher. Normally, the weight value is set based on the appearance frequency of a word. However, in the present embodiment, the relation between a paragraph that includes a word (keyword) that can be a search query and a paragraph that does not include the word is considered. It is characterized in that the weight value is set. This will be described in detail later.

図2は、ネットワークシステムSにより実行される文書ファイル検索処理の概要を示す模式的なフローチャートである。検索エンジン20は、検索元側の処理として、端末装置30からクエリが与えられると、このクエリ文書に対して例えば形態素解析等を含む文書解析処理を行う(ステップS1)。次いで、上記の文書解析処理で得られた単語をベースにして検索インデックスが作成される(ステップS2)。この検索インデックスは、主に質問事象に関連深いキーワード群からなる。そして、当該検索インデックスを用いて、大量のデータを含む文書データベース10に対して文書の検索処理を行う(ステップS3)。   FIG. 2 is a schematic flowchart showing an outline of the document file search process executed by the network system S. When a query is given from the terminal device 30 as processing on the search source side, the search engine 20 performs document analysis processing including, for example, morphological analysis on the query document (step S1). Next, a search index is created based on the words obtained by the document analysis process (step S2). This search index mainly consists of a group of keywords that are closely related to the question event. Then, using the search index, a document search process is performed on the document database 10 including a large amount of data (step S3).

また、検索先側の処理として、データ処理装置40は、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)を定期的に行う。本実施形態は、この文書インデックス作成のステップに特徴を有する。ステップS3の検索処理で得られた結果は、前記クエリを入力したユーザの端末装置30に、検索アルゴリズムでの合致度合いに応じた順位付けをしてリスト出力(ランキング表示)される(ステップS4)。   As processing on the search destination side, the data processing device 40 periodically performs document analysis for extracting metadata (step S01) and creation of a document index (step S02). The present embodiment is characterized by this document index creation step. The results obtained in the search process in step S3 are output as a list (ranking display) after ranking according to the degree of match in the search algorithm to the terminal device 30 of the user who has input the query (step S4). .

図3は、従来の一般的な文書検索例を示す模式図である。端末装置30から、検索クエリとしてキーワード「A」が与えられた場合、検索エンジンにより文書データベース10に対して検索処理が行われる。すると、単語Aを含む文書ファイルがヒット文書として抽出され、とりわけ単語Aの出現頻度が高い文書ファイルが、端末装置30においてランキング上位に表示されることになる。ここでは、単語Aが5回出現している文書ファイルXを示している。   FIG. 3 is a schematic diagram showing an example of a conventional general document search. When the keyword “A” is given as a search query from the terminal device 30, the search processing is performed on the document database 10 by the search engine. Then, a document file including the word A is extracted as a hit document, and a document file having a particularly high appearance frequency of the word A is displayed in a higher ranking on the terminal device 30. Here, the document file X in which the word A appears five times is shown.

しかしながら、文書ファイルの本来的なコンテンツは、単語の出現頻度だけでは計れない場合が多々ある。例えば、「単語A」が文書ファイルX中の記述に5回も出現しているが、実は「単語A」に関連した記述が文書全体としては浅い場合や、逆に、「単語A」が1回しか出現しない文書ファイルであっても、文書全体としてみれば「単語A」に極めて関連深い内容を包含している場合がある。このような場合、ユーザにとって有用な文書ファイルは明らかに後者であるが、「単語A」の出現頻度が低いことから後者の文書ファイルは上位にランキングされず、結果的にユーザが看過してしまうことが生じ得る。従って、単純に文書ファイル中において出現頻度が高い単語に対して高い重み値を与えるという方式では、その文書ファイルの本来的なコンテンツにマッチしない文書インデックスが作成されてしまう怖れがあると言うことができる。   However, there are many cases where the original content of a document file cannot be measured only by the appearance frequency of words. For example, although “word A” appears five times in the description in the document file X, the description related to “word A” is actually shallow as a whole document, or conversely, “word A” is 1 Even a document file that appears only once may contain content that is very closely related to “word A” as a whole document. In such a case, the document file useful for the user is obviously the latter, but the appearance frequency of “word A” is low, so the latter document file is not ranked high, and the user overlooks as a result. Can happen. Therefore, simply giving a high weight value to words that occur frequently in a document file may create a document index that does not match the original content of the document file. Can do.

図4は、本実施形態における単語への重み付与の考え方を示す模式図である。本実施形態では、単純に単語A(注目単語)の出現頻度に依拠するのではなく、単語Aを含む段落(第1単位文章)と、当該段落に近接し単語Aが出現しない段落(第2単位文章)との文章関連性を評価する。そして、その文章関連度に応じた段落重み値を、単語Aの本来の重み値(単語出現頻度に依拠)に対して付加する。   FIG. 4 is a schematic diagram showing the concept of weighting a word in the present embodiment. In this embodiment, instead of simply relying on the appearance frequency of the word A (word of interest), a paragraph including the word A (first unit sentence) and a paragraph in which the word A does not appear adjacent to the paragraph (second) Evaluate the text relevance to the unit text. Then, the paragraph weight value corresponding to the sentence relevance level is added to the original weight value of word A (which depends on the word appearance frequency).

ユーザが端末装置30から与えたキーワード(例えば単語A)を含む段落は、当然、ユーザが希望する記述を含む段落であると言うことができる。その一方で、単語Aを含まない段落の記述が、ユーザが期待する話題と全く無関係であると言うことはできない。むしろ、単語Aを含む段落に近接する段落では、たとえ単語Aが用いられていなくとも、単語Aに関連した話題に関する記述が存在している可能性が高いと言える。この場合、ユーザにとって、当該文書ファイルの情報価値は高いものとなる。そこで、単語Aを含んでいないが文章関連度の高い段落が、単語Aを含む先行段落に近接して存在している場合には、それ相応の重み値を単語Aに追加して、文書インデックスを作成することとする。これにより、単語Aが検索クエリとして与えられた場合に、当該文書ファイルが上位にランキングされるようになり、ユーザが当該文書ファイルを看過してしまう確率を抑制することができる。   It can be said that the paragraph including the keyword (for example, word A) given by the user from the terminal device 30 is a paragraph including the description desired by the user. On the other hand, it cannot be said that the description of a paragraph that does not include the word A is completely unrelated to the topic expected by the user. Rather, in the paragraph adjacent to the paragraph including the word A, it can be said that there is a high possibility that a description related to the topic related to the word A exists even if the word A is not used. In this case, the information value of the document file is high for the user. Therefore, if a paragraph that does not include word A but has a high degree of text relevance exists close to the preceding paragraph that includes word A, a corresponding weight value is added to word A, and the document index Let's create. Thereby, when the word A is given as a search query, the document file is ranked higher, and the probability that the user overlooks the document file can be suppressed.

図5は、ネットワークシステムSの機能構成を示す機能ブロック図である。文書データベース10は、各種の文書ファイルが記憶された複数の文書サーバ11、12、13・・・(Webサーバ又は社内ローカルサーバ)を含む。検索エンジン20は、文書インデックス記憶部21、検索インデックス作成部22、検索処理部23及びランキング表示処理部24を機能的に備えている。端末装置30は、既述の通り、クエリ入力部301、表示部302及び操作部303を備えている。データ処理装置40(文書インデックス作成装置)は、文書抽出部41、文書解析部42(文書解析手段)、文書インデックス作成部43(作成手段)及び記憶部40Mを備えている。   FIG. 5 is a functional block diagram showing a functional configuration of the network system S. As shown in FIG. The document database 10 includes a plurality of document servers 11, 12, 13... (Web server or in-house local server) in which various document files are stored. The search engine 20 functionally includes a document index storage unit 21, a search index creation unit 22, a search processing unit 23, and a ranking display processing unit 24. As described above, the terminal device 30 includes the query input unit 301, the display unit 302, and the operation unit 303. The data processing device 40 (document index creation device) includes a document extraction unit 41, a document analysis unit 42 (document analysis unit), a document index creation unit 43 (creation unit), and a storage unit 40M.

文書インデックス記憶部21は、文書データベース10に含まれる文書ファイルを検索させるための文書インデックスを記憶する。文書インデックスは、所定の作成タイミング(例えば1日1回)にデータ処理装置40により作成され、記憶内容が更新される。   The document index storage unit 21 stores a document index for searching for document files included in the document database 10. The document index is created by the data processing device 40 at a predetermined creation timing (for example, once a day), and the stored content is updated.

検索インデックス作成部22は、端末装置30から与えられたクエリ(キーワードや質問文書)を文書解析し、検索インデックスを作成する処理を行う。例えば、クエリが質問文書である場合は、その文書内において自立する単語として抽出すると共に、これら単語の出現頻度等を参照して重み付けする等して、検索インデックスを作成する。   The search index creation unit 22 performs document analysis on a query (keyword or question document) given from the terminal device 30 and creates a search index. For example, when the query is a question document, a search index is created by extracting the words as independent words in the document and weighting them by referring to the appearance frequency of these words.

検索処理部23は、検索アルゴリズムを用いて、文書データベース10に対して文書ファイルの検索処理を行う。具体的には、前記検索インデックスと前記文書インデックスとを照合し、検索インデックス(クエリ)に対する類似度が高い文書ファイルを抽出する。ここで、この検索処理には、予め設定された検索アルゴリズムが用いられる。この検索アルゴリズムとしては、コサイン尺度、Dice係数、Jaccard係数、Tスコア、相互情報量、Simpson係数などを例示することができる。   The search processing unit 23 performs a document file search process on the document database 10 using a search algorithm. Specifically, the search index and the document index are collated, and a document file having a high similarity to the search index (query) is extracted. Here, a preset search algorithm is used for this search process. Examples of the search algorithm include a cosine scale, Dice coefficient, Jaccard coefficient, T score, mutual information amount, and Simpson coefficient.

ランキング表示処理部24は、検索処理部23による検索処理でヒットした複数の文書ファイルに、クエリに対する類似度(合致度合い)が高い順に順位付けしたリストを作成する。このリストは、端末装置30によりブラウジングが可能であり、実際は検索処理の完了後に表示部302で表示される。   The ranking display processing unit 24 creates a list in which a plurality of document files hit by the search processing by the search processing unit 23 are ranked in descending order of similarity (matching degree) to the query. This list can be browsed by the terminal device 30 and is actually displayed on the display unit 302 after the search process is completed.

端末装置30のクエリ入力部301は、ユーザから検索処理のためのキーワード等のクエリの入力を受け付ける部位であって、例えば図1に示すキーボード311である。   The query input unit 301 of the terminal device 30 is a part that receives an input of a query such as a keyword for search processing from a user, and is, for example, the keyboard 311 shown in FIG.

表示部302は、例えば図1に示すディスプレイ312であって、検索エンジン20のブラウジング画面(クエリ入力画面)、ヒット文書ファイルのリスト並びにその抜粋文、及び前記リストからユーザによって選択された文書ファイルの内容等を表示する。   The display unit 302 is, for example, the display 312 shown in FIG. 1, and includes a browsing screen (query input screen) of the search engine 20, a list of hit document files and their excerpts, and a document file selected by the user from the list. Display the contents.

操作部303は、例えば図1に示すマウス313であって、表示部302に表示された画像上の選択部、リンク部、タスクバー等に対して操作指示を与える。ユーザは、表示部302に表示されたヒット文書ファイルのリストのいずれかを選択しその内容を表示させる選択指示、及び、その表示を停止させる選択終了指示を、この操作部303を介して与える。   The operation unit 303 is, for example, the mouse 313 illustrated in FIG. 1 and gives an operation instruction to the selection unit, the link unit, the task bar, and the like on the image displayed on the display unit 302. The user gives a selection instruction to select one of the hit document file lists displayed on the display unit 302 to display the contents and a selection end instruction to stop the display via the operation unit 303.

データ処理装置40は、文書データベース10に含まれる文書ファイルを検索させる文書インデックスを作成するために、文書ファイルを文書データベース10から抽出し、当該文書ファイルに記述されている文章を文書解析して単語を抽出し、各単語に重み値を設定する。   The data processing device 40 extracts a document file from the document database 10 in order to create a document index for searching for a document file included in the document database 10, analyzes a sentence described in the document file, and analyzes a word And set a weight value for each word.

文書抽出部41は、文書インデックスの作成処理のトリガとして、所定の周期毎に、文書データベース10から複数の文書ファイルを抽出する処理を行う。   The document extraction unit 41 performs a process of extracting a plurality of document files from the document database 10 at predetermined intervals as a trigger for creating a document index.

文書解析部42は、文書抽出部41により抽出された各文書ファイルが含む文書データに対して、正規化処理、文書構造解析処理、同義語処理などの文書解析処理を行い、文書データを単語単位に分割する。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。同義語処理は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用して、表現が異なる用語を単一の単語と扱うようにする処理である。かかる文書解析処理により、自立する単語が導出される。   The document analysis unit 42 performs document analysis processing such as normalization processing, document structure analysis processing, synonym processing on the document data included in each document file extracted by the document extraction unit 41, and converts the document data into word units. Divide into The normalization process is a process for deleting characters and symbols unnecessary for analysis from the analysis target document and unifying full-width and half-width characters so that the document structure analysis can be performed normally. In the document structure analysis process, the classification target documents after the normalization process are each subjected to a morphological analysis to divide the document into words, and a parsing process to perform dependency between words (nouns and verbs). And the like. The synonym process is a process in which terms having different expressions are treated as a single word by utilizing a thesaurus (synonym dictionary) that absorbs fluctuations of synonyms and notations. By such document analysis processing, independent words are derived.

文書インデックス作成部43は、文書解析部42にて抽出された単語をベースとして、文書ファイル毎に、文書インデックスの素地となる基礎インデックス(重みが未だ与えられていないインデックス)を作成する。そして、前記基礎インデックスに列記された単語について、単語の出現頻度と図4に基づき説明した段落重み値とを用いて各単語に重み付けをして、文書インデックスを完成させる。   The document index creation unit 43 creates a basic index (an index to which no weight is given yet) as a basis for the document index for each document file, based on the words extracted by the document analysis unit 42. Then, the words listed in the basic index are weighted using the word appearance frequency and the paragraph weight value described with reference to FIG. 4 to complete the document index.

記憶部40Mは、データ処理装置40における各種の作業データ等を一次的に記憶する作業領域として用いられるメモリである。記憶部40Mは、例えば文書解析部42により抽出された文書ファイル毎の単語リストや、文書インデックス作成部43が算出する文章関連度データ、単語密度データ、段落重みデータ、単語頻度データ等を一時的に記憶する。また、各種の設定値や演算式等も、この記憶部40Mに格納される。   The storage unit 40M is a memory used as a work area for temporarily storing various work data and the like in the data processing device 40. The storage unit 40M temporarily stores, for example, a word list for each document file extracted by the document analysis unit 42, sentence relevance data calculated by the document index creation unit 43, word density data, paragraph weight data, word frequency data, and the like. To remember. Various set values and arithmetic expressions are also stored in the storage unit 40M.

文書インデックス作成部43は、上記の処理を実行させるため機能的に、文章分離部44(文章分離手段)、選別部45(選別手段)、関連度算出部46(評価手段)、単語密度算出部47、段落重み算出部48及び重み設定部49を備えている。   The document index creation unit 43 is functionally configured to execute the above processing. The document separation unit 44 (sentence separation unit), the selection unit 45 (selection unit), the relevance calculation unit 46 (evaluation unit), and the word density calculation unit 47, a paragraph weight calculation unit 48, and a weight setting unit 49.

文章分離部44は、1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る処理を行う。本実施形態では、単位文章は、空白行で区切られた一つの段落と定義している。このため文章分離部44は、文書データに含まれる改行を示す識別子、及びこれに続く空白行の存在を示す識別子に基づいて、文書データを段落単位の文章に区切る処理を行う。もちろん、空白行が存在を要求せず、改行を示す識別子の存在をベースに文章を分離させても良い。あるいは、改行を示す識別子を検出せず、空白行を示すタグ等だけに依拠して、文章を分離させるようにしても良い。   The sentence separation unit 44 performs a process of dividing the document data of one document file into a plurality of unit sentences based on an identifier indicating a sentence break included in the document data. In this embodiment, the unit sentence is defined as one paragraph separated by blank lines. For this reason, the sentence separation unit 44 performs a process of dividing the document data into paragraph-by-paragraph sentences based on an identifier indicating a line break included in the document data and an identifier indicating the presence of a blank line following the identifier. Of course, a blank line may not be requested, and the sentence may be separated based on the presence of an identifier indicating a line break. Alternatively, the sentence may be separated by relying only on a tag indicating a blank line or the like without detecting an identifier indicating a line feed.

選別部45は、上記文書解析部42により抽出され記憶部40Mに格納されている単語群の中から1の注目単語を指定し、文章分離部44により区分された段落単位の文章(単位文章)を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する処理を行う。   The selection unit 45 designates one word of interest from the word group extracted by the document analysis unit 42 and stored in the storage unit 40M, and is a paragraph unit sentence (unit sentence) divided by the sentence separation unit 44. Is selected into a first unit sentence in which the attention word appears and a second unit sentence in which the attention word does not appear.

図6(a)は、文章分離部44及び選別部45による処理を説明するための模式図である。ここでは、文書ファイルX中に記述されている文章が、文章分離部44によって、段落1〜段落7の7個の段落に区分されている例を示している。そして、選別部45が、「単語A」を注目単語に設定し、この「単語A」が含まれる段落1及び段落5を第1単位文章とし、「単語A」が含まれていない段落2、段落3、段落4、段落6及び段落7を第2単位文章として区分した事例を示している。   FIG. 6A is a schematic diagram for explaining processing by the sentence separation unit 44 and the selection unit 45. Here, an example is shown in which a sentence described in the document file X is divided into seven paragraphs of paragraphs 1 to 7 by the sentence separation unit 44. Then, the selection unit 45 sets “word A” as the attention word, paragraphs 1 and 5 including this “word A” are set as the first unit sentence, and paragraph 2 does not include “word A”. An example in which Paragraph 3, Paragraph 4, Paragraph 6 and Paragraph 7 are classified as second unit sentences is shown.

関連度算出部46は、前記第1単位文章と前記第2単位文章との文章関連度を評価する。具体的には、文書データの記述順でみて、最初に登場する1の第1単位文章を基準として、これに続いて登場する1又は複数の第2単位文章との文章関連度を評価する。新たな第1単位文章が登場すると、この第1単位文章を基準として、これに続いて登場する1又は複数の第2単位文章との文章関連度を評価する。文章関連度の評価は、第1単位文章となる段落に含まれる単語群の出現頻度(例えば単語A=3回、単語B=1回、単語C=5回・・・のような、当該段落から抽出される単語とその出現回数とのテーブル)と、第2単位文章となる段落に含まれる単語群の出現頻度とを用い、コサイン尺度のようなベクトル計算手法を利用して両者の類似度(文章関連度)を数値で評価する方法を採ることができる。   The degree-of-association calculation unit 46 evaluates the degree of sentence relevance between the first unit sentence and the second unit sentence. Specifically, in the description order of document data, the first first unit sentence that appears first is used as a reference, and the degree of sentence relevance with one or more second unit sentences that appear subsequently is evaluated. When a new first unit sentence appears, the degree of sentence relevance with one or a plurality of second unit sentences appearing after the first unit sentence is evaluated. The evaluation of the sentence relevance is based on the appearance frequency of the word group included in the paragraph as the first unit sentence (for example, the word A = 3 times, the word B = 1 time, the word C = 5 times, etc. Between the words extracted from the table and the number of occurrences thereof) and the appearance frequency of the word group included in the paragraph as the second unit sentence, and using a vector calculation method such as a cosine scale, the similarity between the two A method of evaluating (text relevance) numerically can be adopted.

図6(a)の例ならば、関連度算出部46は、段落1(第1単位文章)と、これに続く段落2、段落3及び段落4(第2単位文章)との文章関連度を、上述のベクトル計算手法等を用いてそれぞれ算出する。一方、続く段落5は「単語A」を含む第1単位文章となる段落であるので、関連度算出部46は、以降は段落5(第1単位文章)と、これに続く段落6及び段落7(第2単位文章)との文章類似度を算出する。図6(b)の「関連度」の欄には、関連度算出部46により求められた関連度の数値が表示されている。   In the example of FIG. 6A, the relevance calculation unit 46 calculates the sentence relevance between paragraph 1 (first unit sentence) and subsequent paragraphs 2, 3, and 4 (second unit sentences). , Respectively, using the above-described vector calculation method or the like. On the other hand, since the following paragraph 5 is a paragraph that becomes a first unit sentence including “word A”, the relevance calculation unit 46 thereafter performs paragraph 5 (first unit sentence), and subsequent paragraphs 6 and 7. The sentence similarity with (second unit sentence) is calculated. In the “relevance” column of FIG. 6B, the numerical value of the relevance obtained by the relevance calculation unit 46 is displayed.

単語密度算出部47は、第1単位文章が含む全単語の出現頻度に対する注目単語(例えば単語A)の出現頻度の比に基づき、当該注目単語の第1単位文章中における単語密度を求める。例えば、段落1において、「単語A=3回、単語B=1回、単語C=5回・・・」というようなテーブルが求められているとして、次式
単語Aの単語密度=単語Aの出現頻度(3回)/単語A、B、C・・・の出現頻度の合計(3回+1回+5回+・・・)
にて単語密度を求める。
The word density calculation unit 47 obtains the word density in the first unit sentence of the attention word based on the ratio of the appearance frequency of the attention word (for example, word A) to the appearance frequency of all the words included in the first unit sentence. For example, in Paragraph 1, assuming that a table such as “word A = 3 times, word B = 1 time, word C = 5 times,...” Is obtained, the following formula: word density of word A = word A Appearance frequency (3 times) / Total appearance frequency of words A, B, C... (3 times + 1 time + 5 times +...)
Find the word density at.

この単語密度は、注目単語の出現頻度が高い段落(第1単位文章)の後には、注目単語の影響を受ける記述が続く可能性が高いという推定に基づき、1の第1単位文章と、これに続く1又は複数の第2単位文章との文章セットの評価のための係数として用いられる。図6(b)の例では、段落1における単語Aの単語密度が0.05、段落5における単語Aの単語密度が0.03である例を示している。   This word density is based on the assumption that there is a high possibility that the description affected by the attention word will follow the paragraph (first unit sentence) where the occurrence frequency of the attention word is high. Is used as a coefficient for evaluating a sentence set with one or a plurality of second unit sentences. In the example of FIG. 6B, an example is shown in which the word density of the word A in the paragraph 1 is 0.05 and the word density of the word A in the paragraph 5 is 0.03.

段落重み算出部48は、関連度算出部46が算出した第2単位文章毎の文章関連度に、単語密度算出部47が求めた単語密度を乗じて、第2単位文章毎の段落重み値を算出する。図6(b)に示す通り、段落1における単語Aの単語密度=0.05を、これに続く段落2、段落3及び段落4の文章関連度=0.82、0.62及び0.41にそれぞれ乗じることで、各段落の段落重み値が導出される。段落5以降については、段落5における単語Aの単語密度=0.03を、これに続く段落6及び段落7の文章関連度=0.66及び0.33にそれぞれ乗じることで、各段落の段落重み値が導出される。   The paragraph weight calculator 48 multiplies the sentence relevance for each second unit sentence calculated by the relevance calculator 46 by the word density obtained by the word density calculator 47 to obtain a paragraph weight value for each second unit sentence. calculate. As shown in FIG. 6B, the word density of the word A in the paragraph 1 is set to 0.05, and the sentence relevance levels of the following paragraphs 2, 3, and 4 are set to 0.82, 0.62, and 0.41. By multiplying each, the paragraph weight value of each paragraph is derived. For paragraph 5 and subsequent paragraphs, multiply the word density = 0.03 of word A in paragraph 5 by the sentence relevance = 0.66 and 0.33 of paragraph 6 and paragraph 7 following this, respectively. A weight value is derived.

重み設定部49は、注目単語の通常の重み値(基礎重み値;例えばその注目単語の出現頻度、或いは該出現頻度に文書頻度の逆数を乗じた値)に、段落重み算出部48により求められた第2単位文章毎の段落重み値の合計を加算して、注目単語についての重み値を設定する。図6(b)の例では、重み設定部49は、単語Aの出現頻度に基づく基礎重み値に、段落2、段落3、段落4、段落6及び段落7の段落重みの合計値=0.13を加算して、単語Aについての重み値を設定する。これにより、文書ファイルXにおける単語Aの文書インデックスの作成が完了することになる。   The weight setting unit 49 is obtained by the paragraph weight calculation unit 48 with the normal weight value of the attention word (basic weight value; for example, the appearance frequency of the attention word or a value obtained by multiplying the appearance frequency by the reciprocal of the document frequency). The sum of the paragraph weight values for each second unit sentence is added to set the weight value for the attention word. In the example of FIG. 6B, the weight setting unit 49 adds the basic weight value based on the appearance frequency of the word A to the total weight of the paragraph weights of the paragraph 2, the paragraph 3, the paragraph 4, the paragraph 6, and the paragraph 7 = 0. 13 is added to set the weight value for word A. Thereby, the creation of the document index of the word A in the document file X is completed.

続いて、本実施形態のデータ処理装置40による文書インデックス作成処理動作を、図7及び図8に示すフローチャートに基づいて説明する。データ処理装置40は、処理対象とする文書データベース10中の文書ファイル群の各々に付与されているナンバリングに対応するカウンタpを“0”に設定した上で(ステップS11)、p=p+1にカウンタを進める(ステップS12)。そして、p番目の文書ファイル(初回は、1番のナンバーが付与されている文書ファイル)が、文書抽出部41により抽出される(ステップS13)。   Next, the document index creation processing operation by the data processing apparatus 40 of the present embodiment will be described based on the flowcharts shown in FIGS. The data processing device 40 sets a counter p corresponding to the numbering assigned to each of the document file groups in the document database 10 to be processed to “0” (step S11), and then counters p = p + 1. (Step S12). Then, the p-th document file (the document file to which the first number is assigned for the first time) is extracted by the document extraction unit 41 (step S13).

次に、文書解析部42は、p番目の文書ファイルに対して文書解析処理を施し、その文書データから単語群を抽出する(ステップS14)。そして、文書解析部42は、抽出した単語について重複出現数を求め、各々の単語の単語頻度を求める(ステップS15)。この単語群及びその出現頻度のデータは、記憶部40Mに格納される。   Next, the document analysis unit 42 performs document analysis processing on the p-th document file, and extracts a word group from the document data (step S14). Then, the document analysis unit 42 obtains the number of overlapping appearances for the extracted words, and obtains the word frequency of each word (step S15). This word group and its appearance frequency data are stored in the storage unit 40M.

続いて、文章分離部44により、p番目の文書ファイルの文書データが段落単位に分割される(ステップS16)。そして、p番目の文書ファイルに対して抽出されている文書インデックス用の単語群の各々に付与されているナンバリングに対応するカウンタqを“0”に設定した上で(ステップS17)、q=q+1にカウンタを進める(ステップS18)。これにより、q番目の単語が注目単語として設定される。   Subsequently, the sentence separation unit 44 divides the document data of the p-th document file into paragraphs (step S16). Then, a counter q corresponding to the numbering assigned to each of the word groups for document index extracted for the p-th document file is set to “0” (step S17), and q = q + 1. The counter is advanced to (step S18). Thereby, the q-th word is set as the attention word.

次に、選別部45が、上記分割された段落について、q番目の単語が出現する第1単位文章(段落)と、q番目の単語が出現しない第2単位文章(段落)とに選別する(ステップS19)。そして、関連度算出部46が、ベクトル計算手法等を用いて、前記第1単位文章と前記第2単位文章の各々との文章関連度を評価する(ステップS20)。   Next, the sorting unit 45 sorts the divided paragraphs into a first unit sentence (paragraph) in which the q-th word appears and a second unit sentence (paragraph) in which the q-th word does not appear ( Step S19). Then, the relevance calculation unit 46 evaluates the text relevance between the first unit sentence and each of the second unit sentences using a vector calculation method or the like (step S20).

その後、単語密度算出部47が、q番目の単語の第1単位文章中における単語密度を求める(ステップS21)。続いて、段落重み算出部48が、ステップS21で得られた単語密度と、ステップS20で得られた各第2単位文章の文章関連度とを乗じることで、各第2単位文章の段落重みを算出する(ステップS22)。最後に、重み設定部49が、q番目の単語の出現頻度の基づく基礎重み値に、前記段落重み値を加算し(ステップS23)、q番目の単語の重み値を決定する(ステップS24)。求められた重み値は、記憶部40Mに格納される。   Thereafter, the word density calculation unit 47 obtains the word density in the first unit sentence of the qth word (step S21). Subsequently, the paragraph weight calculation unit 48 multiplies the word density obtained in step S21 by the sentence relevance of each second unit sentence obtained in step S20, thereby obtaining the paragraph weight of each second unit sentence. Calculate (step S22). Finally, the weight setting unit 49 adds the paragraph weight value to the basic weight value based on the appearance frequency of the qth word (step S23), and determines the qth word weight value (step S24). The obtained weight value is stored in the storage unit 40M.

なお、ステップS24において、重み設定部49が、p番目の文書ファイルの文書データを構成する文字数に基づいて、q番目の単語の重み値を正規化する処理を加えることが望ましい。これは、文書データが長い程、段落数が多くなり、その分だけ段落重み値の加算値も大きくなってしまう不具合を抑制するためである。例えば、求められた重み値を文字数で除算する方法が、前記正規化処理の簡易例として挙げることができる。   In step S24, it is desirable that the weight setting unit 49 performs a process of normalizing the weight value of the qth word based on the number of characters constituting the document data of the pth document file. This is in order to suppress the problem that the longer the document data, the greater the number of paragraphs and the larger the added value of the paragraph weight value. For example, a method of dividing the obtained weight value by the number of characters can be given as a simple example of the normalization process.

続いて、単語群のカウンタqが最終であるか否かが確認され(ステップS25)、最終でない場合は(ステップS25でNO)、ステップS18に戻って次の注目単語について同様な重み値算出処理が繰り返される。一方、カウンタqが最終である場合(ステップS25でYES)、文書ファイルのカウンタpが最終であるか否かが確認される(ステップS26)。カウンタpが最終でない場合は(ステップS26でNO)、ステップS12に戻って次の文書ファイルについて同じ処理が繰り返される。一方、カウンタpが最終である場合(ステップS26でYES)、処理を終える。   Subsequently, it is confirmed whether or not the word group counter q is final (step S25). If it is not final (NO in step S25), the process returns to step S18 and the same weight value calculation processing is performed for the next attention word. Is repeated. On the other hand, if the counter q is final (YES in step S25), it is confirmed whether or not the document file counter p is final (step S26). If the counter p is not final (NO in step S26), the process returns to step S12 and the same processing is repeated for the next document file. On the other hand, if the counter p is final (YES in step S26), the process ends.

以上説明した本実施形態に係るネットワークシステムSによれば、文書データベース10に対する文書検索システムにおいて、文書ファイルの記述内容に即した文書インデックスを作成することができる。これにより、検索精度を向上させ、ユーザが必要とする文書ファイルを検索ランキング上位で提供できる確率を高めることができ、ひいては文書検索システムを用いた各種の処理業務の効率化を図ることが可能となる。   According to the network system S according to the present embodiment described above, the document index corresponding to the description content of the document file can be created in the document search system for the document database 10. As a result, it is possible to improve the search accuracy, increase the probability that the document file required by the user can be provided at the top of the search ranking, and to improve the efficiency of various processing operations using the document search system. Become.

S ネットワークシステム
10 データベース
20 検索エンジン
21 文書インデックス記憶部
22 検索インデックス作成部
23 検索処理部
24 ランキング表示処理部
30 端末装置
40 データ処理装置
41 文書抽出部
42 文書解析部(文書解析手段)
43 文書インデックス作成部(作成手段)
44 文章分離部(文章分離手段)
45 選別部(選別手段)
46 関連度算出部(評価手段)
47 単語密度算出部
48 段落重み算出部
49 重み設定部

S network system 10 database 20 search engine 21 document index storage unit 22 search index creation unit 23 search processing unit 24 ranking display processing unit 30 terminal device 40 data processing device 41 document extraction unit 42 document analysis unit (document analysis unit)
43 Document index creation unit (creation means)
44 sentence separation part (sentence separation means)
45 Sorting part (sorting means)
46 relevance calculator (evaluation means)
47 Word density calculation unit 48 Paragraph weight calculation unit 49 Weight setting unit

Claims (5)

複数の文書ファイルを蓄積する文書データベースと、
前記文書データベースから文書インデックスの作成対象とする1の文書ファイルを抽出する抽出手段と、
前記1の文書ファイルの文書データを、当該文書データに含まれる文章の区切りを示す識別子に基づいて複数の単位文章に区切る文章分離手段と、
前記文書データに対して文書解析処理を行って単語群を抽出する文書解析手段と、
前記単語群の中から1の注目単語を指定し、前記複数の単位文章を、前記注目単語が出現する第1単位文章と、前記注目単語が出現しない第2単位文章とに選別する選別手段と、
前記第1単位文章と前記第2単位文章との文章関連度を評価する評価手段と、
前記文書解析手段により抽出された単語群の各々に重み値を与えて文書インデックスを作成する作成手段と、を備え、
前記作成手段は、前記注目単語の出現頻度と、前記文章関連度の評価値とを用いて前記注目単語に対する前記重み値を設定する、文書インデックス作成装置。
A document database for storing multiple document files;
Extraction means for extracting one document file as a document index creation target from the document database;
Sentence separation means for dividing the document data of the one document file into a plurality of unit sentences based on an identifier indicating a sentence break included in the document data;
Document analysis means for performing a document analysis process on the document data and extracting a word group;
Selecting means for designating one attention word from the word group, and selecting the plurality of unit sentences into a first unit sentence in which the attention word appears and a second unit sentence in which the attention word does not appear; ,
An evaluation means for evaluating a sentence relevance between the first unit sentence and the second unit sentence;
Creating means for creating a document index by giving a weight value to each of the word groups extracted by the document analysis means,
The document index creation device, wherein the creation unit sets the weight value for the attention word using the appearance frequency of the attention word and the evaluation value of the sentence relevance.
前記評価手段は、前記第1単位文章に含まれる単語群の出現頻度と、前記第2単位文章に含まれる単語群の出現頻度との類似性に基づいて、前記文章関連度を評価する、
請求項1に記載の文書インデックス作成装置。
The evaluation means evaluates the sentence relevance based on the similarity between the appearance frequency of the word group included in the first unit sentence and the appearance frequency of the word group included in the second unit sentence;
The document index creation device according to claim 1.
前記評価手段は、
前記文章関連度の評価値として、さらに前記第1単位文章が含む全単語の出現頻度に対する前記注目単語の出現頻度の比に基づき当該注目単語の単語密度を求め、
前記作成手段は、
前記文章関連度に前記単語密度を乗じて、前記第2単位文章の重み値を求め、
前記注目単語の出現頻度に基づく基礎重み値に、前記第2単位文章の重み値を加算して、前記注目単語に対する重み値を設定する、
請求項2に記載の文書インデックス作成装置。
The evaluation means includes
As the evaluation value of the sentence relevance level, the word density of the attention word is obtained based on the ratio of the appearance frequency of the attention word to the appearance frequency of all words included in the first unit sentence.
The creating means includes
Multiplying the sentence relevance by the word density to obtain a weight value of the second unit sentence,
Adding a weight value of the second unit sentence to a basic weight value based on the appearance frequency of the attention word, and setting a weight value for the attention word;
The document index creation device according to claim 2.
文章分離手段は、改行を示す識別子、及び/又は空白行の存在を示す識別子に基づいて、前記文章を段落単位に区切る、
請求項1〜3のいずれかに記載の文書インデックス作成装置。
The sentence separating means divides the sentence into paragraphs based on an identifier indicating a line break and / or an identifier indicating the presence of a blank line.
The document index creation apparatus according to claim 1.
前記1の文書ファイルの文書データを構成する文字数に基づいて、前記注目単語に対する重み値を正規化する正規化手段をさらに備える、
請求項1〜4のいずれかに記載の文書インデックス作成装置。


And a normalizing unit for normalizing a weight value for the attention word based on the number of characters constituting the document data of the one document file.
The document index creation device according to any one of claims 1 to 4.


JP2010254129A 2010-11-12 2010-11-12 Document index creating device Pending JP2012104051A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010254129A JP2012104051A (en) 2010-11-12 2010-11-12 Document index creating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010254129A JP2012104051A (en) 2010-11-12 2010-11-12 Document index creating device

Publications (1)

Publication Number Publication Date
JP2012104051A true JP2012104051A (en) 2012-05-31

Family

ID=46394331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010254129A Pending JP2012104051A (en) 2010-11-12 2010-11-12 Document index creating device

Country Status (1)

Country Link
JP (1) JP2012104051A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451168A (en) * 2016-05-30 2017-12-08 中华电信股份有限公司 File Classification System and Method Based on Vocabulary Statistics
JP2018055604A (en) * 2016-09-30 2018-04-05 ジャパンモード株式会社 Innovation creation support program
JP2019153119A (en) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 Sentence extraction device and program
JPWO2020109921A1 (en) * 2018-11-30 2020-06-04
US12430369B2 (en) 2018-11-30 2025-09-30 Semiconductor Energy Laboratory Co., Ltd. Document search method, document search system, program, and non-transitory computer readable storage medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451168A (en) * 2016-05-30 2017-12-08 中华电信股份有限公司 File Classification System and Method Based on Vocabulary Statistics
CN107451168B (en) * 2016-05-30 2023-08-04 台湾中华电信股份有限公司 File classification system and method based on vocabulary statistics
JP2018055604A (en) * 2016-09-30 2018-04-05 ジャパンモード株式会社 Innovation creation support program
JP2019153119A (en) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 Sentence extraction device and program
JPWO2020109921A1 (en) * 2018-11-30 2020-06-04
JP7499183B2 (en) 2018-11-30 2024-06-13 株式会社半導体エネルギー研究所 Document retrieval system for translation
JP2024103687A (en) * 2018-11-30 2024-08-01 株式会社半導体エネルギー研究所 Document Search System
JP7705518B2 (en) 2018-11-30 2025-07-09 株式会社半導体エネルギー研究所 Document Search System
US12430369B2 (en) 2018-11-30 2025-09-30 Semiconductor Energy Laboratory Co., Ltd. Document search method, document search system, program, and non-transitory computer readable storage medium

Similar Documents

Publication Publication Date Title
CN110674429B (en) Method, apparatus, device and computer readable storage medium for information retrieval
JP7012661B2 (en) Systems and methods that provide a visible list of results
US8819047B2 (en) Fact verification engine
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
US20060259481A1 (en) Method of analyzing documents
CN104471568A (en) Learning-Based Processing of Natural Language Problems
US20130036076A1 (en) Method for keyword extraction
US20110307432A1 (en) Relevance for name segment searches
US10678820B2 (en) System and method for computerized semantic indexing and searching
JP2011103075A (en) Method for extracting excerpt sentence
CN104484380A (en) Personalized search method and personalized search device
JP2014197300A (en) Text information processor, text information processing method, and text information processing program
JP2014106665A (en) Document retrieval device and document retrieval method
US20140201185A1 (en) Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
KR102256007B1 (en) System and method for searching documents and providing an answer to a natural language question
US20050114317A1 (en) Ordering of web search results
WO2011022867A1 (en) Method and apparatus for searching electronic documents
US8176031B1 (en) System and method for manipulating database search results
Mitrov et al. Combining Semantic Matching, Word Embeddings, Transformers, and LLMs for Enhanced Document Ranking: Application in Systematic Reviews
JP5964149B2 (en) Apparatus and program for identifying co-occurrence words
JP2012104051A (en) Document index creating device
KR100703193B1 (en) Document Summary Apparatus and Method Using Non-Negative Matrix Factorization
JP4428703B2 (en) Information retrieval method and system, and computer program
JP5491446B2 (en) Topic word acquisition apparatus, method, and program
Wang et al. User intention-based document summarization on heterogeneous sentence networks