[go: up one dir, main page]

JP2005242454A - Document information retrieval apparatus, document information retrieval method and program thereof - Google Patents

Document information retrieval apparatus, document information retrieval method and program thereof Download PDF

Info

Publication number
JP2005242454A
JP2005242454A JP2004048023A JP2004048023A JP2005242454A JP 2005242454 A JP2005242454 A JP 2005242454A JP 2004048023 A JP2004048023 A JP 2004048023A JP 2004048023 A JP2004048023 A JP 2004048023A JP 2005242454 A JP2005242454 A JP 2005242454A
Authority
JP
Japan
Prior art keywords
document information
strength
similarity
linked
link destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004048023A
Other languages
Japanese (ja)
Inventor
Takashige Tanaka
敬重 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2004048023A priority Critical patent/JP2005242454A/en
Publication of JP2005242454A publication Critical patent/JP2005242454A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 受け付けた入力文章に基づいて、従来より検索結果の精度が高く文書情報を検索することのできる文書情報検索装置を提供する。
【解決手段】 固定関係強度を算出し、可変関係強度を算出する。また検索時に入力文章情報と文書情報との類似度を計算し、また類似度の高い順に文書情報を保持する類似度順文書情報一覧を生成し、類似度順文書情報一覧の文書情報に記述されたリンク先のリンク先文書情報とそのリンク先文書情報をリンク先に指定している類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を算出する。また、類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、類似度に基づいて重複しないように挿入した後、文書情報とリンク先文書情報の順序を入れ替え、文書情報とリンク先文書情報とを含む検索結果一覧を生成する。
【選択図】 図1
PROBLEM TO BE SOLVED: To provide a document information retrieval device capable of retrieving document information based on an accepted input sentence and having a higher retrieval result accuracy than before.
A fixed relationship strength is calculated, and a variable relationship strength is calculated. In addition, the similarity between the input text information and the document information is calculated at the time of retrieval, and a similarity order document information list that holds the document information in descending order of similarity is generated and described in the document information of the similarity order document information list. The relationship strength total value indicating the strength of the relationship between the link destination document information of the selected link destination and all the document information in the similarity order document information list in which the link destination document information is designated as the link destination is calculated. . Further, after inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, the order of the document information and the linked document information is changed, and the document information and A search result list including link destination document information is generated.
[Selection] Figure 1

Description

本発明は、文書情報を検索する文書情報検索装置および文書情報検索方法ならびにそのプログラムに関する。   The present invention relates to a document information retrieval apparatus, a document information retrieval method, and a program for retrieving document information.

従来、文書情報を検索する文書情報検索装置は、例えばインターネットのYahoo(登録商標)やGoogle(登録商法)などの検索サイトやアプリケーションソフトウェアに組み込まれたFAQ(Frequently Asked Question)データベースの機能などで利用されている。この文書情報検索装置の技術としては、例えば、ベクトル検索と呼ばれる検索の精度を向上を図るための技術や、ページランクと呼ばれる検索の精度向上を図るための技術や、文書情報の文書内容の分類によって検索の精度向上を図る技術などが公開されている(例えば、特許文献1参照)。
米国特許第6278992号明細書
2. Description of the Related Art Conventionally, a document information retrieval device that retrieves document information is used for a search site such as Yahoo (registered trademark) or Google (registered commercial law) on the Internet, or a function of a FAQ (Frequently Asked Question) database incorporated in application software. Has been. Examples of the document information retrieval apparatus include a technique called a vector search for improving the accuracy of a search, a technique called a page rank for improving the accuracy of a search, and a classification of document contents of document information. A technique for improving the accuracy of search is disclosed (for example, see Patent Document 1).
US Pat. No. 6,278,992

ここで、文書情報検索装置は、例えばユーザから文章の入力を受け付け、その入力文章に類似する文書情報を検索し、その文書情報を出力結果として出力するが、このような検索の処理においては、検索結果として上位に出力された文書情報のリンク先の他の文書情報(リンク先文書情報)が、検索結果の下位に存在することとなったり、そのリンク先文書情報が検索結果に表れないようなったりする場合がある。しかしながらそのリンク先文書情報には、検索結果として出力されるべき重要なもの存在することが多くあるので、検索結果の精度がよくなかった。   Here, the document information search device accepts input of a sentence from a user, for example, searches for document information similar to the input sentence, and outputs the document information as an output result. In such a search process, The other document information (link destination document information) of the link destination of the document information output as the higher order as the search result is present in the lower order of the search result, or the link destination document information does not appear in the search result. It may become. However, since the linked document information often contains important information that should be output as a search result, the accuracy of the search result is not good.

そこでこの発明は、受け付けた入力文章に基づいて、従来より検索結果の精度が高く文書情報を検索することのできる文書情報検索装置および文書情報検索方法ならびにそのプログラムを提供することを目的としている。   Therefore, an object of the present invention is to provide a document information search device, a document information search method, and a program thereof that can search document information with higher accuracy of search results than the conventional one based on received input text.

本発明は、上述の課題を解決すべくなされたもので、文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置であって、前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出手段と、前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出手段と、検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成手段と、前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出手段と、前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成手段とを備えることを特徴とする文書情報検索装置である。
これにより、文書情報検索装置は、入力文章に類似する文書情報の他に、その文書情報からリンクを張られており、かつ当該文書情報よりも入力文章と関係が深いと判断されるリンク先文書情報を検索結果として出力することができる。
The present invention has been made to solve the above-described problem, and is a document information search apparatus that holds document information and link destination document information of a link destination of the document information, the document information and the link destination document. A fixed relationship strength calculating means for calculating a fixed relationship strength indicating the strength of a fixed relationship between information, and a variable relationship strength indicating a strength of a variable relationship between the document information and the linked document information A variable relation strength calculating means for calculating the similarity, calculating similarity between the input text information received at the time of search and the document information, and generating a similarity order document information list holding the document information in descending order of similarity A degree-by-degree document information list generating means, the link-destination document information at the link destination of the document information in the degree-of-similarity order document information list, Everything in A relationship strength total value calculating means for calculating a relationship strength total value indicating the strength of the relationship with the document information based on the fixed relationship strength and the variable relationship strength, and each document information in the similarity order document information list After the link destination document information is inserted so as not to overlap based on the similarity, the threshold value of the predetermined relationship strength total value and the link destination document information are included in the similarity order document information list as document information. Search result list generation means for generating a search result list including the document information and the linked document information by switching the order of the document information and the linked document information based on whether or not the document information is included. Is a document information retrieval apparatus characterized by
As a result, the document information retrieval apparatus is linked to the document information other than the document information similar to the input sentence, and is determined to be linked to the input sentence more deeply than the document information. Information can be output as search results.

また本発明は、前記類似度順文書情報一覧が、所定の類似度以上の文書情報を保持することを特徴とする。これにより入力文章と類似度の低い文書情報を検索結果から削除することができる。   Also, the invention is characterized in that the similarity order document information list holds document information having a predetermined similarity or higher. As a result, document information having a low similarity to the input sentence can be deleted from the search result.

また本発明は、前記固定関係強度の算出が、前記文書情報と前記リンク先文書情報の文書内容分類が一致するか否かの判断、前記文書情報と前記リンク先文書情報の類似度、前記リンク先文書情報が前記文書情報からリンクされている数のいずれかまたは全てに基づいて算出されることを特徴とする。これにより、文書情報の修正があるまで固定的な文書情報とリンク先文書情報との間の固定な関係の強さを示す固定関係強度を算出することができる。   According to the present invention, the calculation of the fixed relationship strength is performed to determine whether the document content classification of the document information and the linked document information matches, the similarity between the document information and the linked document information, the link The pre-document information is calculated based on any or all of the numbers linked from the document information. Thereby, it is possible to calculate the fixed relationship strength indicating the strength of the fixed relationship between the fixed document information and the linked document information until the document information is corrected.

また本発明は、前記可変関係強度の算出が、検索処理における前記文書情報から前記リンク先文書情報へのアクセスの回数、前記リンク先文書情報の強制的な検索結果への出力の指示のいずれかまたは全てに基づいて算出されることを特徴とする。これにより、文書情報とリンク先文書情報との可変な関係の強さを示す可変関係強度を算出することができる。   According to the present invention, the calculation of the variable relationship strength is any one of a number of accesses from the document information to the link destination document information in a search process and an instruction to output the link destination document information to a forced search result. Or it is calculated based on all. Thereby, it is possible to calculate the variable relationship strength indicating the strength of the variable relationship between the document information and the link destination document information.

また本発明は、所定の期間を経過した場合には、前記関係強度合計値を、前記可変関係強度の値とすることを特徴とする。検索結果で出力された文書情報をからユーザが最終的にアクセスする文書情報をログで保持しており、このログに基づいて可変関係強度が算出され、検索用インデックスの関係強度テーブルに記録されるので、所定の期間を経過した場合には、可変関係強度のみで十分ユーザの要求する文書情報を検索できるようになる。   Further, the present invention is characterized in that, when a predetermined period has elapsed, the relationship strength total value is set to the value of the variable relationship strength. Document information that is finally accessed by the user is stored in a log from the document information output as a search result. Based on this log, the variable relationship strength is calculated and recorded in the relationship strength table of the search index. Therefore, when a predetermined period elapses, the document information requested by the user can be retrieved sufficiently with only the variable relation strength.

また本発明は、文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置における文書情報検索方法であって、前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出過程と、前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出過程と、検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成過程と、前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出過程と、前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成過程とを有することを特徴とする文書情報検索方法である。   The present invention is also a document information search method in a document information search apparatus that holds document information and link destination document information of a link destination of the document information, and fixes between the document information and the link destination document information. A fixed relationship strength calculating process for calculating a fixed relationship strength indicating the strength of a relationship, and a variable relationship strength for calculating a variable relationship strength indicating a strength of a variable relationship between the document information and the linked document information Similarity order document information list generation that calculates the similarity between the input text information received at the time of search and the document information, and generates a similarity order document information list that holds the document information in descending order of similarity And all the document information in the similarity order document information list in which the link destination document information of the document information in the similarity order document information list and the link destination document information are designated as the link destination Between the relationship strength total value calculation process for calculating the relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength, and each document information in the similarity order document information list Whether the link destination document information is inserted based on the similarity so as not to overlap, and whether a predetermined threshold value of the relation strength total value and the link destination document information are included in the similarity order document information list as document information. A search result list generation step of generating a search result list including the document information and the link destination document information by switching the order of the document information and the link destination document information based on the information on whether or not This is a document information search method.

また本発明は、文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置のコンピュータに実行させるプログラムであって、前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出処理と、前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出処理と、検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成処理と、前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出処理と、前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成処理とをコンピュータに実行させるプログラムである。   The present invention is also a program for causing a computer of a document information search apparatus that holds document information and link destination document information of a link destination of the document information to execute between the document information and the link destination document information. Fixed relationship strength calculation processing for calculating a fixed relationship strength indicating the strength of a fixed relationship, and a variable relationship for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information Similarity-order document information list that calculates the similarity between the input text information received at the time of retrieval and the document information, and generates a similarity-order document information list that holds the document information in descending order of similarity All the links in the similarity order document information list in which the link destination document information of the link destination of the document information in the similarity order document information list and the link destination document information is designated as the link destination A relationship strength total value calculation process for calculating a relationship strength total value indicating the strength of the relationship with the document information based on the fixed relationship strength and the variable relationship strength, and each document in the similarity order document information list After inserting linked document information between the information so as not to overlap based on the similarity, the threshold value of the predetermined relation strength total value and the linked document information are used as document information as the document information list in order of similarity And a search result list generation process for generating a search result list including the document information and the link destination document information by switching the order of the document information and the link destination document information based on whether or not the information is included in the computer. This is a program to be executed.

以下、本発明の一実施形態による文書情報検索装置を図面を参照して説明する。図1は同実施形態の文書情報検索装置の構成を示す概略ブロック図である。この図において、符号10は文書情報検索装置の検索用インデックスを作成するインデックス作成部である。また符号11は文書情報の検索処理をおこなう検索エンジンである。また12は文書情報を記憶した文書情報データベースである。ここで、文書情報とは、例えばマークアップ言語のHTMLなどで記述された文書のデータなどである。また13は文書情報データベース12から文書情報を抽出してインデックス作成部10に送信する抽出部である。また14は検索用インデックスを記憶する検索用インデックスデータベースである。また15は単語と品詞とを対応付けて記憶する形態素解析辞書データベースであり、この形態素解析辞書データベース15の記憶する情報を用いてインデックス作成部10が文書情報が保持する文章の形態素解析を行なう。   A document information retrieval apparatus according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of the document information search apparatus of the embodiment. In this figure, reference numeral 10 denotes an index creation unit for creating a search index of the document information search apparatus. Reference numeral 11 denotes a search engine that performs document information search processing. A document information database 12 stores document information. Here, the document information is, for example, document data described in markup language HTML or the like. An extraction unit 13 extracts document information from the document information database 12 and transmits the document information to the index creation unit 10. Reference numeral 14 denotes a search index database for storing a search index. Reference numeral 15 denotes a morphological analysis dictionary database that stores words and parts of speech in association with each other, and the index creation unit 10 performs morphological analysis of sentences held in the document information by using information stored in the morphological analysis dictionary database 15.

またインデックス作成部10において、符号101は文書情報に含まれる文章を形態素解析する形態素解析部である。また符号102は文書情報に含まれる文章の各単語について重要度(以降、TFIDFと呼ぶ)を計算する、重要度計算部である。また符号103は各文書情報の内容からそれぞれの文書情報の分類を決定する分類決定部である。また符号104は文書情報とその文書情報のリンク先(以降、リンク先文書情報と呼ぶ)との間の固定の関係の強さを示す固定関係強度を算出する、固定関係強度算出部である。また符号105は文書情報とリンク先文書情報との間の可変の関係の強さを示す可変関係強度を算出する、可変関係強度算出部である。   In the index creation unit 10, reference numeral 101 denotes a morpheme analysis unit that performs a morphological analysis on a sentence included in document information. Reference numeral 102 denotes an importance calculation unit that calculates importance (hereinafter referred to as TFIDF) for each word of the sentence included in the document information. Reference numeral 103 denotes a classification determining unit that determines the classification of each document information from the contents of each document information. Reference numeral 104 denotes a fixed relationship strength calculation unit that calculates a fixed relationship strength indicating the strength of a fixed relationship between document information and a link destination of the document information (hereinafter referred to as link destination document information). Reference numeral 105 denotes a variable relationship strength calculation unit that calculates a variable relationship strength indicating the strength of the variable relationship between the document information and the linked document information.

また検索エンジン11において、符号111は入力された入力文章と文書情報データベース12の記憶する文書情報との類似度をベクトル計算によって算出するベクトル計算部である。また符号112は入力された入力文章に類似する文章情報を検索結果として決定する検索処理を行ない、また検索結果を出力する検索処理部である。   In the search engine 11, reference numeral 111 denotes a vector calculation unit that calculates the degree of similarity between the input text input and the document information stored in the document information database 12 by vector calculation. Reference numeral 112 denotes a search processing unit that performs a search process for determining sentence information similar to the input sentence as a search result and outputs the search result.

そして、この文書情報検索装置は、予め、文書情報データベース12で記憶の各文書情報のリンク先のリンク先文書情報を検出し、文書情報とリンク先文書情報との関係の強さを算出しておく。ここで文書情報とリンク先文書情報との関係の強さは、文書情報とリンク先文書情報の間で固定的な関係の強さを示す固定関係強度と、文書情報とリンク先文書情報の間で可変的な関係の強さを示す可変関係強度とで表される。固定関係強度は文書情報データベース12で記憶の文書情報が修正されるまで固定である。また可変関係強度は、文書情報の検索処理が行なわれるにつれて徐々に値が変化する。また可変関係強度は文書情報検索装置の管理者などによっても修正されて値が変化する。そして、検索時において、文書情報検索装置は、ユーザなどによって入力された入力文章に類似の文書情報の他に、その文書情報にリンクされているリンク先文書情報を検索結果として出力する。この時、文書情報検索装置は、リンク先文書情報で重要な情報については、検索結果の上位に現れるように出力する。そして、この時上述の固定関係強度や可変関係強度が利用されて検索処理が行なわれる。
なお、上記では、文書情報とリンク先文書情報とを区別して記載しているが、ある文書情報が他の文書情報のリンク先文書情報となることもある。従って、文書情報データベース12の記憶する文書情報は、他の文書情報からリンクが張られていればリンク先文書情報でもある。
Then, this document information retrieval apparatus detects in advance the link destination document information of each document information stored in the document information database 12 and calculates the strength of the relationship between the document information and the link destination document information. deep. Here, the strength of the relationship between the document information and the linked document information includes the fixed relationship strength indicating the strength of the fixed relationship between the document information and the linked document information, and the relationship between the document information and the linked document information. And the variable relationship strength indicating the strength of the variable relationship. The strength of the fixed relationship is fixed until the document information stored in the document information database 12 is corrected. The variable relation strength gradually changes as document information search processing is performed. The variable relationship strength is also corrected by the administrator of the document information retrieval apparatus and the value changes. At the time of retrieval, the document information retrieval apparatus outputs linked document information linked to the document information as a retrieval result in addition to document information similar to the input sentence input by the user or the like. At this time, the document information search apparatus outputs important information in the link destination document information so that it appears at the top of the search result. At this time, search processing is performed using the above-described fixed relationship strength and variable relationship strength.
In the above description, the document information and the linked document information are distinguished from each other. However, some document information may be linked document information of other document information. Therefore, the document information stored in the document information database 12 is linked document information if a link is established from other document information.

図2は検索用インデックスデータベースのデータ構造を示す図である。
図2を用いて検索用インデックスのデータ構造について説明する。この図が示すように、検索用インデックスデータベース14は、文書テーブルと、文書内単語テーブルと、単語テーブルと、分類テーブルと、関係強度テーブルとからなる検索用インデックスを保持している。そして文書テーブルでは文書情報データベース12で記憶している文書情報ごとの文書IDと文書タイトルとその文書情報が他の文書情報からリンクされている数(以降、リンク数と呼ぶ)とを対応付けて保持している。また文書内単語テーブルは文書IDと、その文書IDの文書情報に含まれる単語それぞれの単語IDと、当該単語IDとなる単語がその文書IDの文書情報で出現する回数<TF(term frequency)値>と、当該単語の重要度<TFIDF(term frequency,inverse document frequency)値>とを対応付けて記憶している。また単語テーブルは、全ての文書情報から抽出した各単語ごとに作成されるものであり、単語IDと、その単語IDの単語が全ての文書情報のうちいくつの文書情報で出現したかを示す数<DF(document frequency)値>とを対応付けて記憶している。
なお、ある任意の単語をt、文書情報の数をdとすると、上記TFIDF値は以下の式によって計算できる。
FIG. 2 shows the data structure of the search index database.
The data structure of the search index will be described with reference to FIG. As shown in this figure, the search index database 14 holds a search index consisting of a document table, an in-document word table, a word table, a classification table, and a relationship strength table. In the document table, the document ID and document title for each document information stored in the document information database 12 are associated with the number of linked document information from other document information (hereinafter referred to as the number of links). keeping. The in-document word table includes the document ID, the word ID of each word included in the document information of the document ID, and the number of times that the word corresponding to the word ID appears in the document information of the document ID <TF (term frequency) value. > And the importance level <TFIDF (term frequency, inverse document frequency) value> of the word. The word table is created for each word extracted from all document information, and a word ID and a number indicating how many pieces of document information a word of the word ID appears in all document information. <DF (document frequency) value> is stored in association with each other.
If the arbitrary word is t and the number of document information is d, the TFIDF value can be calculated by the following equation.

Figure 2005242454
Figure 2005242454

また分類テーブルは、文書IDとその文書IDの文書情報が分類された文書内容の分類を示す分類IDと、その分類IDの分類名とを対応付けて記憶している。また、関係強度テーブルは、文書IDとその文書IDの文書情報のリンク先の文書情報のIDであるリンク先文書情報IDと、それら文書IDとリンク先文書IDで示される文書情報とリンク先文書情報の間の固定関係強度と可変関係強度とを対応付けて記憶する関係強度テーブルである。   The classification table stores a document ID, a classification ID indicating the classification of the document content in which the document information of the document ID is classified, and a classification name of the classification ID in association with each other. In addition, the relationship strength table includes a document ID, a link destination document information ID that is an ID of a link destination document information of the document information of the document ID, document information indicated by the document ID and the link destination document ID, and a link destination document. It is the relationship strength table which memorize | stores the fixed relationship strength and variable relationship strength between information in correlation.

次に、インデックス作成部10における検索用インデックスの作成処理について説明する。
まず、インデックス作成部10は、文書情報データベース12から文書情報を1つ抽出するよう抽出部13に指示する。そして1つの文書情報を受け取ると、インデックス作成部10の形態素解析部101が、形態素解析辞書データベース15に記述されている単語と品詞との対応表に基づいて、文書情報に記述されている文章を形態素解析し、単語に分解する。そしてインデックス作成部10は1つの文書情報に文書IDを割当て、また形態素解析により得られた各単語に単語IDを割当てる。そして、インデックス作成部10は文書内単語テーブルに、文書IDに対応付けて、その文章IDの文書情報の形態素解析により分解された各単語ごとに、単語IDとその単語のTF値を記録する。またインデックス作成部10は単語テーブルに、形態素解析により得られた単語の単語IDとDF値とを対応付けて記録する。また重要度計算部102が各単語のTFIDF値を計算して、文書内単語テーブルに記録する。なお、この形態素解析部101と重要度計算部102の処理は、文書情報データベース12が記憶する全ての文書情報について行なわれ、文書内単語テーブルと単語テーブルとが作成される。
Next, search index creation processing in the index creation unit 10 will be described.
First, the index creation unit 10 instructs the extraction unit 13 to extract one piece of document information from the document information database 12. When one piece of document information is received, the morpheme analysis unit 101 of the index creation unit 10 reads the sentence described in the document information based on the correspondence table between words and parts of speech described in the morpheme analysis dictionary database 15. Perform morphological analysis and break it down into words. Then, the index creation unit 10 assigns a document ID to one piece of document information, and assigns a word ID to each word obtained by morphological analysis. Then, the index creation unit 10 records the word ID and the TF value of the word for each word decomposed by the morphological analysis of the document information of the sentence ID in the document word table in association with the document ID. Further, the index creating unit 10 records the word ID and the DF value of the word obtained by the morphological analysis in association with each other in the word table. The importance calculation unit 102 calculates the TFIDF value of each word and records it in the in-document word table. The processes of the morphological analysis unit 101 and the importance level calculation unit 102 are performed for all document information stored in the document information database 12, and an in-document word table and a word table are created.

次にインデックス作成部10の分類決定部103が、各文書情報の内容から分類を決定する。例えば、文書情報データベース12に記録されている文章情報がコンピュータ関連の文書に関わるものである場合には、分類決定部103は、文書情報に含まれる単語によって、各文書情報をOS(Operating System)やコンピュータの機種などにより分類し、分類テーブルに文書IDとその文書IDの文書情報の分類IDと分類名とを対応付けて記録する。なお、予め文書情報に分類を決定するための識別番号などが記録されており、これに基づいて分類決定部103が分類テーブルを作成していくようにしてもよい。また1つの文書情報に複数の分類が設定されて分類IDが付けられるようにしてもよい。   Next, the classification determination unit 103 of the index creation unit 10 determines the classification from the contents of each document information. For example, if the text information recorded in the document information database 12 is related to a computer-related document, the classification determining unit 103 assigns each document information to an OS (Operating System) using words included in the document information. And the computer model, etc., and the document ID, the classification ID of the document information of the document ID, and the classification name are recorded in association with each other in the classification table. Note that an identification number or the like for determining the classification is recorded in the document information in advance, and the classification determination unit 103 may create a classification table based on this. A plurality of classifications may be set for one document information and a classification ID may be attached.

上述の文書テーブル、文書内単語テーブル、単語テーブル、分類テーブルが作成されると、次に、固定関係強度算出部104は以下の処理により文書情報とその文書情報のリンク先文書情報との間の固定関係強度を算出する。
まず、固定関係強度算出部104は抽出部13から転送された文書情報を読み込んで、その文書情報にリンクされているリンク先文書情報があるか否かを確認する。例えば、文書情報がHTML(Hyper Text Markup Language)などのマークアップ言語で記述された文書情報である場合には、href属性を保持するタグに記述されているURL(Uniform Resource Locator)などにリンク先文書情報が指定されている。ここで、ある文章情報の文書IDがTN100006146であり、その文章情報に記述されている3つのリンク先文章情報の文書IDがTN100005389、TN100004412、TN100008455であるとする。また、これらの文書情報はコンピュータ関連の内容を保持しており、OSの種類による分類と、コンピュータの機種名による分類と、コンピュータの部品名による分類が行なわれているものとする。
When the above-described document table, in-document word table, word table, and classification table are created, the fixed relationship strength calculation unit 104 next performs processing between the document information and the linked document information of the document information by the following processing. Calculate the strength of the fixed relationship.
First, the fixed relationship strength calculation unit 104 reads the document information transferred from the extraction unit 13 and checks whether there is linked document information linked to the document information. For example, when the document information is document information described in a markup language such as HTML (Hyper Text Markup Language), the link destination is a URL (Uniform Resource Locator) described in a tag holding the href attribute. Document information is specified. Here, it is assumed that the document ID of certain text information is TN100006146, and the document IDs of the three linked text information described in the text information are TN100005389, TN100004412, and TN100008455. Further, it is assumed that these document information holds computer-related contents, and is classified according to the type of OS, classified according to the model name of the computer, and classified according to the part name of the computer.

固定関係強度算出部104は、文書IDがTN100006146、TN100005389、TN100004412、TN100008455の各文書情報のOSの分類、コンピュータ機種名の分類、部品名の分類を、分類テーブルから読み取る。ここで、TN100006146は、OS分類が「NT」と「2000」、機種名分類が「Endever6100」、部品名分類が「HDD」であるとする。またTN100005389は、OS分類が「98」、機種名分類が「EDCUBE100」、部品名分類が「DVD」であるとする。またTN10000412のOS分類が「XP」、機種名分類が「Endever6100」、部品名分類が「CPU」であるとする。またTN100008455は、OS分類が「2000」、機種名分類が「Endever6100」、部品名分類が「メモリ」であるとする。   The fixed relationship strength calculation unit 104 reads the OS classification, the computer model name classification, and the component name classification of each document information whose document IDs are TN100006146, TN100005389, TN100004412, and TN100008455 from the classification table. Here, it is assumed that the TN 100006146 has the OS classification “NT” and “2000”, the model name classification “Endever 6100”, and the part name classification “HDD”. In TN100005389, the OS classification is “98”, the model name classification is “EDCUBE100”, and the part name classification is “DVD”. Further, it is assumed that the OS classification of the TN10000412 is “XP”, the model name classification is “Endever6100”, and the part name classification is “CPU”. In TN100008455, the OS classification is “2000”, the model name classification is “Endever 6100”, and the part name classification is “memory”.

図3は文書情報の分類を示す表である。
固定関係強度算出部104は1つの文書情報の文書IDとその文書情報のリンク先文書情報の文書IDに対応付けて分類の情報を保持する図3の表を、分類テーブルに基づいて作成し、この表に基づいて、次に、文書情報(TN100006146)とそのリンク先文書情報(TN100005389、TN100004412、TN100008455)との間の分類による固定関係強度を算出する。
FIG. 3 is a table showing the classification of document information.
The fixed relationship strength calculation unit 104 creates the table of FIG. 3 that holds the classification information in association with the document ID of one document information and the document ID of the linked document information of the document information based on the classification table, Next, based on this table, the fixed relationship strength by classification between the document information (TN100006146) and the linked document information (TN100005389, TN100004412, TN100008455) is calculated.

固定関係強度算出部104は、図3より、文書情報TN100006146と分類が同じリンク先文書情報を検出する。ここで、文書情報TN100006146とリンク先文書情報TN100008455とはOSの分類が同一である。また文書情報TN100006146とリンク先文書情報TN100004412、TN100008455とは機種名の分類が同一である。従って、固定関係強度算出部104は文書情報TN100006146とリンク先文書情報TN100004412との間の分類による関係の強さと、また文書情報TN100006146とリンク先文書情報TN100008455との間の分類による関係の強さとがあると判断する。なお、OSの分類が同一の場合、分類による2つの文書情報の固定関係強度は“1”増え、機種名の分類が同一の場合、分類による2つの文書情報の固定関係強度は“2”増えるとすると、文書情報TN100006146とリンク先文書情報TN100005389との間の固定関係強度は“0”、文書情報TN100006146とリンク先文書情報TN100004412との間の固定関係強度は“2”となる。また、文書情報TN100006146とリンク先文書情報TN100008455との間の固定関係強度は、OSの種類と機種名の2つの分類が同一のため“3”となる。   The fixed relationship strength calculation unit 104 detects linked document information having the same classification as the document information TN100006146 from FIG. Here, the document information TN100006146 and the link destination document information TN100008455 have the same OS classification. The document information TN100006146, the link destination document information TN100004412, and the TN100008455 have the same model name classification. Accordingly, the fixed relationship strength calculation unit 104 determines the strength of the relationship between the document information TN100006146 and the link destination document information TN100004412 and the strength of the relationship between the document information TN100006146 and the link destination document information TN100008455. Judge that there is. When the OS classification is the same, the fixed relationship strength between the two document information by the classification increases by “1”, and when the model name classification is the same, the fixed relationship strength between the two document information by the classification increases by “2”. Then, the fixed relationship strength between the document information TN100006146 and the linked document information TN100005389 is “0”, and the fixed relationship strength between the document information TN100006146 and the linked document information TN100004412 is “2”. The strength of the fixed relationship between the document information TN100006146 and the linked document information TN100008455 is “3” because the two types of OS type and model name are the same.

図4は文書情報間の固定関係強度を示す第1の表である。
固定関係強度算出部104は、文書情報とリンク先文書情報との間の分類による固定関係強度を示す図4のような表を作成して、メモリ上に保持する。
次に、固定関係強度算出部104は、文書情報とリンク先文書情報との間の類似度を算出する。
FIG. 4 is a first table showing the strength of the fixed relationship between document information.
The fixed relationship strength calculation unit 104 creates a table as shown in FIG. 4 indicating the fixed relationship strength based on the classification between the document information and the linked document information, and stores the table in the memory.
Next, the fixed relationship strength calculation unit 104 calculates the similarity between the document information and the linked document information.

図5は類似時算出の処理の概略を示す図である。ここで、上述の類似度の算出の技術を、図5を用いて説明する。例えば、A文書とB文書に単語xと単語yの2つの単語が含まれる場合、A文書における2つの単語x、yのTFIDF値で表される2次元のベクトル(a)と、B文書における2つの単語x、yのTFIDF値で表される2次元のベクトル(b)とを算出する。そして、固定関係強度算出部104は、はベクトル(a)とベクトル(b)とが成す角度を算出する(c)。この角度のCosθの値が類似度である。そして、Cosθで表される類似度が、所定の値よりも小さい場合に、文書Aと文書Bとが類似していると判断する。なお実際には1つの文書には多くの単語が含まれるので、その単語の数の次元でのベクトルが算出され、そのベクトルを用いて2つの文書の類似度が算される。   FIG. 5 is a diagram showing an outline of the similar time calculation process. Here, the technique for calculating the above-described similarity will be described with reference to FIG. For example, when the A document and the B document include two words x and y, the two-dimensional vector (a) represented by the TFIDF values of the two words x and y in the A document and the B document A two-dimensional vector (b) represented by TFIDF values of two words x and y is calculated. Then, the fixed relationship strength calculation unit 104 calculates the angle formed by the vector (a) and the vector (b) (c). The value of Cos θ at this angle is the similarity. Then, when the similarity represented by Cos θ is smaller than a predetermined value, it is determined that the document A and the document B are similar. Actually, since one document includes many words, a vector in the dimension of the number of words is calculated, and the similarity between the two documents is calculated using the vector.

このような類似度の算出によって、固定関係強度算出部104は、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)とが類似しているか否かを判断する。そして、文書情報(TN100006146)と類似している場合には、図4の表の固定関係強度に“2”が加えられる。   By calculating the similarity, the fixed relationship strength calculation unit 104 determines whether or not the document information (TN100006146) and the linked document information (TN100005389, TN100004412, TN100008455) are similar. If the document information (TN100006146) is similar, “2” is added to the fixed relationship strength in the table of FIG.

図6は、文書情報間の固定関係強度を示す第2の表である。この図が示すように、文書情報(TN100006146)とリンク先文書情報(TN100004412)とが類似しており、また文書情報(TN100006146)とリンク先文書情報(TN100008455)とが類似していると判断された場合、図4で示した文書情報(TN100006146)とリンク先文書情報(TN100004412)の組合せに対応する固定関係強度と、文書情報(TN100006146)とリンク先文書情報(TN100008455)の組合せに対応する固定関係強度が、固定関係強度算出部104によって“2”増加させられる。   FIG. 6 is a second table showing the strength of the fixed relationship between document information. As shown in this figure, it is determined that the document information (TN100006146) and the link destination document information (TN100004412) are similar, and the document information (TN100006146) and the link destination document information (TN100008455) are similar. In this case, the fixed relationship strength corresponding to the combination of the document information (TN100006146) and the link destination document information (TN100004412) shown in FIG. 4 and the fixed relationship corresponding to the combination of the document information (TN100006146) and the link destination document information (TN100008455) The relationship strength is increased by “2” by the fixed relationship strength calculation unit 104.

また固定関係強度算出部104は、各リンク先文書情報が、他の文書情報からリンクされている数(被リンク数)を検索インデックスの文書テーブルから読み取って、所定のリンク数以上であれば、文書情報(TN100006146)との関係が強いと判断し、図6の表に“2”を加える。これは、リンク数が多いほど重要な文書情報であると考えられるからである。   In addition, the fixed relationship strength calculation unit 104 reads the number of linked document information from other document information (number of links) from the document table of the search index, and if it is equal to or greater than a predetermined number of links, It is determined that the relationship with the document information (TN100006146) is strong, and “2” is added to the table of FIG. This is because the more the number of links, the more important document information is considered.

図7は、文書情報間の固定関係強度を示す第3の表である。
この図は、リンク先文書情報(TN100008455)が多くの他の文書情報からリンクされているので、文書情報(TN100006146)とリンク先文書情報(TN100008455)の関係の強さに“2”が加えられたことを示している。
FIG. 7 is a third table showing the strength of the fixed relationship between document information.
In this figure, since the linked document information (TN100008455) is linked from many other document information, “2” is added to the strength of the relationship between the document information (TN100006146) and the linked document information (TN100008455). It shows that.

以上の処理により、固定関係強度算出部104は、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)との間の固定の関係の強さを示す、固定関係強度を算出する。
なお、文書情報とリンク先文書情報との分類による関係の強さや、類似度による関係の強さや、被リンク数に基づく関係の強さは、文書情報(TN100006146)やリンク先文書情報(TN100005389、TN100004412、TN100008455)が変更されるまで固定である。従って、本実施形態においては、これらの関係の強さを固定関係強度と呼んでいる。
また固定関係強度算出部104は、関係強度テーブルの文書IDとリンク先文書IDの組合せ毎に、上述の固定関係強度を算出の処理を行なう。
Through the above processing, the fixed relationship strength calculation unit 104 calculates the fixed relationship strength indicating the strength of the fixed relationship between the document information (TN100006146) and the link destination document information (TN100005389, TN100004412, TN100008455).
Note that the strength of the relationship based on the classification of the document information and the linked document information, the strength of the relationship based on the similarity, and the strength of the relationship based on the number of linked documents are document information (TN100006146) and linked document information (TN100005389, TN100004412 and TN100008455) are fixed. Therefore, in this embodiment, the strength of these relationships is called the fixed relationship strength.
The fixed relationship strength calculation unit 104 performs the above-described processing for calculating the fixed relationship strength for each combination of the document ID and the link destination document ID in the relationship strength table.

次に、可変関係強度算出部105が、文書情報の検索処理の発生や、管理者による文書検索システムの修正によって、徐々に値が変化する可変関係強度を算出する際の処理について、上述と同様に文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)とを用いて説明する。
まず、可変関係強度算出部105は、文書情報の検索処理によって溜まっていくログ情報に基づいて、その文書情報からリンク先文書情報にアクセスしたログを抽出する。なお、ログ情報は例えば文書情報検索装置のログ取得部がログ記憶部などに保存しておく。そして、可変関係強度算出部105は、文書情報(TN100006146)からリンク先文書情報(TN100005389、TN100004412、TN100008455)にアクセスした回数が、所定の回数よりも多い場合に、文書情報とリンク先文書情報との関係が強いと判断し、可変関係強度を“2”増加させる。
Next, the processing when the variable relationship strength calculation unit 105 calculates the variable relationship strength whose value gradually changes due to occurrence of document information search processing or correction of the document search system by the administrator is the same as described above. The document information (TN100006146) and link destination document information (TN100005389, TN100004412, TN100008455) will be described.
First, the variable relationship strength calculation unit 105 extracts a log that accesses linked document information from the document information based on the log information accumulated by the document information search process. Note that the log information is stored in a log storage unit or the like by the log acquisition unit of the document information search apparatus, for example. Then, the variable relationship strength calculating unit 105 determines that the document information, the link destination document information, and the link destination document information (TN100006146), the link destination document information (TN100005389, TN100004412, TN100008455) are And the variable relationship strength is increased by “2”.

図8は文書情報間の可変関係強度を示す第1の表である。
この図は、上述のアクセス回数により、文書情報(TN100006146)とリンク先文書情報(TN100004412)との関係が強いと判断され、また、文書情報(TN100006146)とリンク先文書情報(TN100008455)との関係が強いと判断された場合に、可変関係強度が2増加したということを示している。
FIG. 8 is a first table showing the strength of variable relationship between document information.
In this figure, it is determined that the relationship between the document information (TN100006146) and the link destination document information (TN100004412) is strong due to the number of accesses described above, and the relationship between the document information (TN100006146) and the link destination document information (TN100008455). It is shown that the variable relationship strength has increased by 2 when it is determined that is strong.

また可変関係強度算出部105は、文書情報検索装置の管理者が強制的に検索結果の上位に出力したいと考えたリンク先文書情報についての可変関係強度を上げる処理を行なう。例えば、管理者が強制的に検索結果の上位に出力したいリンク先文書情報のリストの情報を入力すると、そのリストに基づいて、可変関係強度算出部105は、可変関係強度を上げる処理を行なう。   In addition, the variable relationship strength calculation unit 105 performs a process of increasing the variable relationship strength for the link destination document information that the administrator of the document information retrieval apparatus wishes to forcibly output to the higher rank of the retrieval result. For example, when the administrator forcibly inputs information on a list of linked document information to be output to the top of the search results, the variable relationship strength calculation unit 105 performs processing to increase the variable relationship strength based on the list.

図9は文書情報間の可変関係強度を示す第2の表である。
この図は、上述の管理者により受け付けたリストに基づいて、図8に示した可変関係強度が修正された場合を示しており、この例では、リンク先文書情報(TN100004412)がリストに記述されていたために、可変関係強度が“3”加えられたことを表している。
FIG. 9 is a second table showing the strength of variable relationship between document information.
This figure shows a case where the strength of the variable relationship shown in FIG. 8 is modified based on the list received by the administrator described above. In this example, linked document information (TN100004412) is described in the list. Therefore, the variable relation strength is “3” added.

そして可変関係強度算出部105は、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)との可変関係強度以外にも、文書情報データベース12で記憶している文書情報とリンク先文書情報の間の全ての可変関係強度を算出し、検索用インデックスデータベース14の関係強度テーブルに書き込む。   In addition to the variable relationship strength between the document information (TN100006146) and the link destination document information (TN100005389, TN100004412, TN100008455), the variable relationship strength calculation unit 105 stores the document information and the link destination document stored in the document information database 12. All variable relationship strengths between information are calculated and written into the relationship strength table of the search index database 14.

図10は関係強度テーブルのデータ構造を示す図である。
この図が示すように、関係強度テーブルでは、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)との組合せごとに、固定関係強度と、可変関係強度を対応付けて記憶している。
FIG. 10 shows the data structure of the relationship strength table.
As shown in this figure, in the relationship strength table, a fixed relationship strength and a variable relationship strength are stored in association with each combination of document information (TN100006146) and link destination document information (TN100005389, TN100004412, TN100008455). Yes.

次に、文書情報検索装置が入力された入力文章に基づいて検索を行なう処理について説明する。
まず、文書情報検索装置が入力文章を受け付ける。すると、検索エンジン11のベクトル計算部111が、入力文章に含まれる各単語(形態素解析により得られる)のTFIDF値を計算し、また、文書情報データベース12で記憶している文書情報に含まれる各単語(この単語も形態素解析により得られる)のTFIDF値を検索用インデックスデータベース14から読み取る。そしてベクトル計算部111は、入力文章に含まれる各単語のTFIDF値と、文書情報データベース12で記憶している文書情報に含まれる各単語のTFIDF値とに基づいて、入力文章と文書情報との類似度を、上述の類似度の計算と同様に行なう。そして、文書情報データベース12で記憶している全ての文書情報と入力文章の類似度を計算する。
Next, a process for performing a search based on an input sentence input by the document information search apparatus will be described.
First, the document information search apparatus accepts an input sentence. Then, the vector calculation unit 111 of the search engine 11 calculates the TFIDF value of each word (obtained by morphological analysis) included in the input sentence, and each of the words included in the document information stored in the document information database 12 The TFIDF value of a word (this word is also obtained by morphological analysis) is read from the search index database 14. Then, the vector calculation unit 111 determines whether the input sentence and the document information are based on the TFIDF value of each word included in the input sentence and the TFIDF value of each word included in the document information stored in the document information database 12. Similarity is performed in the same manner as the above-described calculation of similarity. Then, the similarity between all the document information stored in the document information database 12 and the input sentence is calculated.

図11は類似度順文書情報一覧を示す図である。
ベクトル計算部111は、入力文章との類似度が高い順に文書情報の文書IDを並べ、またそれら文書IDに類似度を対応付けて保持した、類似度順文書情報一覧(図11)を作成する。
次に、検索処理部112は、類似度順文書情報一覧の各文書情報に対応するリンク先文書情報をあるか否かを調べる。これは、関係強度テーブルを参照して、1つの文書IDに対応するリンク先文書IDを読み取れば容易である。そして、検索処理部112は、類似度順文書情報一覧の各文書情報に関係するリンク先文書情報の一覧をメモリ上などで一時記憶する。
FIG. 11 is a diagram showing a similarity order document information list.
The vector calculation unit 111 arranges document IDs of document information in descending order of similarity to the input sentence, and creates a similarity order document information list (FIG. 11) in which the similarity is associated with these document IDs. .
Next, the search processing unit 112 checks whether there is link destination document information corresponding to each document information in the similarity order document information list. This is easy by referring to the relationship strength table and reading the link destination document ID corresponding to one document ID. The search processing unit 112 temporarily stores a list of link destination document information related to each document information in the similarity order document information list on a memory or the like.

図12はリンク先文書情報一覧を示す図である。
この図が示すように、リンク先文書情報一覧は、類似度順文書情報一覧の各文書情報のIDとその文書情報に関係するリンク先文書情報のIDとを対応付けて記憶している。そして、検索処理部112は、リンク先文書情報一覧のリンク先文書情報について、以下の処理を行なう。
FIG. 12 shows a linked document information list.
As shown in this figure, the linked document information list stores an ID of each document information in the similarity order document information list and an ID of linked document information related to the document information in association with each other. Then, the search processing unit 112 performs the following processing for the link destination document information in the link destination document information list.

検索処理部112は、図12のリンク先文書情報一覧から1つリンク先文書IDを読み取る。そして、そのリンク先文書IDに対応付けられて関係強度テーブルに記録されている固定関係強度と可変関係強度とを読み取って全ての値を合計する。つまり、リンク先文書情報一覧から読み取ったリンク先文書IDのリンク先文書情報に対して、リンクを張っている全ての文書情報を検出し、その文書情報と前記読み取ったリンク先文書情報と間の関係の強さを示す固定関係強度と可変関係強度とを全て合計した関係強度合計値を算出する。そして、全てのリンク先文書情報一覧のリンク先文書情報について、同様の処理により関係強度合計値を算出する。   The search processing unit 112 reads one link destination document ID from the link destination document information list of FIG. Then, the fixed relationship strength and the variable relationship strength that are associated with the link destination document ID and recorded in the relationship strength table are read, and all values are summed. That is, all the linked document information is detected with respect to the linked document information of the linked document ID read from the linked document information list, and between the document information and the read linked document information is detected. A total relationship strength value is calculated by summing up all of the fixed relationship strength and the variable relationship strength indicating the strength of the relationship. Then, the relation strength total value is calculated for the linked document information in all linked document information lists by the same processing.

図13はリンク先文書情報ごとの関係強度合計値一覧の第1の図である。
図13が示すように、検索処理部112は、リンク先文書情報一覧の各リンク先文書情報の関係強度合計値を算出して、その一覧をメモリに一時記憶する。
FIG. 13 is a first diagram of a relation strength total value list for each linked document information.
As shown in FIG. 13, the search processing unit 112 calculates the relationship strength total value of each link destination document information in the link destination document information list, and temporarily stores the list in the memory.

次に検索処理部112は、図13のリンク先文書情報ごとの関係強度合計値一覧において、関係強度合計値が所定の値よりも低いリンク先文書情報についての情報を削除する。   Next, the search processing unit 112 deletes information about link destination document information whose relationship strength total value is lower than a predetermined value in the relationship strength total value list for each link destination document information of FIG.

図14はリンク先文書情報ごとの関係強度合計値一覧の第2の図である。この図は図13から、関係強度合計値が所定の値よりも低いリンク先文書情報のIDを削除した時の一覧を示している。   FIG. 14 is a second diagram of the relation strength total value list for each linked document information. This figure shows a list when the IDs of linked document information whose relation strength total value is lower than a predetermined value are deleted from FIG.

次に検索処理部112は、図14で示した各リンク先文書IDを、図11で示した類似度順文書情報一覧に挿入する。この時、検索処理部112は、類似度順文書情報一覧において類似度の高い文書情報を示す文書IDの次に、その文書情報からリンクが張られているリンク先文書情報のリンク先文書IDを挿入する。なお、類似度順文書情報一覧に挿入されたリンク先文書IDは、他の文書情報のリンク先となるリンク先文書情報のリンク先文書IDであったとしても、当該他の文書情報の次に挿入されない。   Next, the search processing unit 112 inserts each link destination document ID shown in FIG. 14 into the similarity order document information list shown in FIG. At this time, the search processing unit 112 sets the link destination document ID of the link destination document information linked from the document information next to the document ID indicating the document information having a high similarity in the similarity order document information list. insert. Even if the link destination document ID inserted in the similarity order document information list is the link destination document ID of the link destination document information that is the link destination of the other document information, it is next to the other document information. Not inserted.

図15は、類似度順文書情報一覧にリンク先文書情報が挿入された第1の例を示す図である。この図が示すように、類似度順文書情報一覧において類似度の高い文書情報のIDの次に、その文書情報のリンク先文書情報のIDが挿入される。ここで、図15においてTN100008889の文書IDは、図11の類似度順文書情報一覧にも図13のリンク先文書情報の一覧にも現れている文書情報のIDである。従って、元々類似度順文書情報一覧に存在しているので、リンク先文書情報としては類似度順文書情報一覧には挿入されない。   FIG. 15 is a diagram illustrating a first example in which link destination document information is inserted into the similarity order document information list. As shown in this figure, the ID of the linked document information of the document information is inserted next to the ID of the document information having a high similarity in the similarity order document information list. Here, the document ID of TN100008889 in FIG. 15 is the ID of document information appearing in the similarity order document information list of FIG. 11 and the linked document information list of FIG. Therefore, since it originally exists in the similarity order document information list, the link destination document information is not inserted into the similarity order document information list.

次に検索処理部112は、図15で示した一覧において、挿入したリンク先文書情報の関係強度合計値が所定の閾値よりも高いか否かを判断する。そして、検索処理部112は、関係強度合計値が所定の閾値よりも高い場合には、そのリンク先文書情報のIDを当該リンク先文書情報にリンクを張っている文書情報のIDの上に移動させる。つまり、関係強度合計値が高いリンク先文書情報については、そのリンク先文書情報の方が当該リンク際文書情報にリンクを張っている文書情報よりも入力文章に関係が深いと判断し、一覧の上に移動させる。   Next, the search processing unit 112 determines whether or not the total relationship strength value of the inserted link destination document information is higher than a predetermined threshold in the list shown in FIG. When the total relationship strength value is higher than the predetermined threshold, the search processing unit 112 moves the ID of the link destination document information above the ID of the document information linked to the link destination document information. Let In other words, for linked document information with a high relationship strength total value, it is determined that the linked document information is more closely related to the input text than the document information linked to the linked document information. Move up.

図16は類似度順文書情報一覧にリンク先文書情報が挿入された第2の例を示す図である。この図は、関係強度合計値が所定の閾値よりも高い場合に、そのリンク先文書情報のIDを当該リンク先文書情報にリンクを張っている文書情報のIDの上に移動させた上述の処理後の、リンク先文書情報が挿入された類似度順文書情報一覧を示している。   FIG. 16 is a diagram showing a second example in which link destination document information is inserted into the similarity order document information list. This figure shows the above-described processing in which the ID of the linked document information is moved over the ID of the document information linked to the linked document information when the total relationship strength value is higher than a predetermined threshold value. A list of document information in order of similarity into which link destination document information is inserted later is shown.

また、検索処理部112は、図11の類似度順文書情報一覧にも図13のリンク先文書情報の一覧にも現れている文書IDの文書情報については、入力文章との関係が大きいと考え、図16の一覧の上位に移動させる。本実施形態においては文書IDがTN100008889の文書情報が該当する。しかしながら、文書IDがTN100001983となるリンク先文書情報の関係強度合計値よりも、文書IDがTN100008889となるリンク先文書情報の関係強度合計値の方が、図11より低いので、TN100001983の文書IDの次に、TN100008889の文書IDを移動させる。そして検索処理部112は、以上の処理により得られた、リンク先文書情報が挿入の類似度順文書情報一覧を、検索結果の文書情報一覧とする。   Further, the search processing unit 112 considers that the document information of the document ID appearing in both the similarity order document information list in FIG. 11 and the linked document information list in FIG. 13 has a large relationship with the input sentence. , Move to the top of the list of FIG. In the present embodiment, the document information whose document ID is TN100008889 corresponds. However, since the relationship strength total value of the link destination document information with the document ID TN100008889 is lower than the relationship strength total value of the link destination document information with the document ID TN100001983, the document ID of the TN100001983 is Next, the document ID of TN100008889 is moved. Then, the search processing unit 112 sets the document information list of the search results as the similarity order document information list in which the link destination document information is inserted, obtained by the above processing.

図17は検索結果の文書情報一覧の示す図である。
そして、検索処理部112は、図17の検索結果の文書情報一覧(検索結果一覧)で示された文書IDの順番で、文書情報(またはリンク先文書情報)のタイトルを、例えば、文書情報検索装置が備えた表示部に表示する。これにより、文書情報検索装置に入力された入力文書に類似した文書情報の一覧を示す検索結果が出力される。
FIG. 17 is a diagram showing a list of document information of search results.
Then, the search processing unit 112 searches the titles of the document information (or linked document information) in the order of the document IDs shown in the document information list (search result list) of the search results in FIG. It displays on the display part with which the apparatus was equipped. As a result, a search result indicating a list of document information similar to the input document input to the document information search apparatus is output.

これにより、文書情報検索装置は、入力文章に類似する文書情報の他に、その文書情報からリンクを張られており、かつ当該文書情報よりも入力文章と関係が深いと判断されるリンク先文書情報を検索結果として出力することができる。   As a result, the document information retrieval apparatus is linked to the document information other than the document information similar to the input sentence, and is determined to be linked to the input sentence more deeply than the document information. Information can be output as search results.

なお、本実施形態においては、文書情報検索装置が文書情報データベース12を保持しており、その文書情報データベース12に記録されている文書情報の中から入力文書に類似または関係が大きい文書情報の検索処理をしているが、例えば、通信ネットワークで接続された他の文書情報記憶装置に記憶されている文書情報の中から入力文書に類似または関係が大きい文書情報の検索処理を行うようにしてもよい。   In the present embodiment, the document information search apparatus holds the document information database 12, and searches for document information that is similar to or has a large relationship with the input document from the document information recorded in the document information database 12. For example, a search process may be performed for document information that is similar or closely related to the input document from document information stored in other document information storage devices connected via a communication network. Good.

また、本実施形態の文書情報の検索処理は、固定関係強度と可変関係強度とを用いているが、所定の期間経過した場合には、可変関係強度の値を関係強度合計値とするようにして、検索処理を行なってもよい。つまり、検索結果で出力された文書情報からユーザがアクセスする文書情報をログで保持しており、このログに基づいて算出された可変関係強度として検索用インデックスの関係強度テーブルに記録されるので、可変関係強度のみで十分ユーザの要求する文書情報を検索できるようになるからである。   Further, the document information search processing of the present embodiment uses the fixed relationship strength and the variable relationship strength, but when a predetermined period has elapsed, the value of the variable relationship strength is set as the relationship strength total value. The search process may be performed. In other words, the document information accessed by the user from the document information output as the search result is held in the log, and is recorded in the relationship strength table of the search index as the variable relationship strength calculated based on this log. This is because the document information requested by the user can be retrieved sufficiently with only the variable relationship strength.

また、上述の文書情報装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。   The document information apparatus described above has a computer system inside. The process described above is stored in a computer-readable recording medium in the form of a program, and the above process is performed by the computer reading and executing this program. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

文書情報検索装置の構成を示す概略ブロック図である。It is a schematic block diagram which shows the structure of a document information search device. 検索用インデックスデータベースのデータ構造を示す図である。It is a figure which shows the data structure of the index database for search. 文書情報の分類を示す表である。It is a table | surface which shows the classification | category of document information. 文書情報間の固定関係強度を示す第1の表である。It is a 1st table | surface which shows the fixed relationship strength between document information. 類似時算出の処理の概略を示す図である。It is a figure which shows the outline of the process of calculation at the time of similarity. 文書情報間の固定関係強度を示す第2の表である。It is a 2nd table | surface which shows the fixed relationship strength between document information. 文書情報間の固定関係強度を示す第3の表である。It is a 3rd table | surface which shows the fixed relationship strength between document information. 文書情報間の可変関係強度を示す第1の表である。It is a 1st table | surface which shows the variable relationship strength between document information. 文書情報間の可変関係強度を示す第2の表である。It is a 2nd table | surface which shows the variable relationship strength between document information. 関係強度テーブルのデータ構造を示す図である。It is a figure which shows the data structure of a relationship strength table. 類似度順文書情報一覧を示す図である。It is a figure which shows a similarity order document information list. リンク先文書情報一覧を示す図である。It is a figure which shows a link destination document information list. リンク先文書情報ごとの関係強度合計値一覧の第1の図である。It is a 1st figure of the relation strength total value list for every link destination document information. リンク先文書情報ごとの関係強度合計値一覧の第2の図である。It is a 2nd figure of the relation strength total value list for every link destination document information. 類似度順文書情報一覧にリンク先文書情報が挿入された第1の例である。It is the 1st example by which the link destination document information was inserted in the similarity order document information list. 類似度順文書情報一覧にリンク先文書情報が挿入された第2の例である。It is a 2nd example by which the link destination document information was inserted in the similarity order document information list. 検索結果の文書情報一覧の示す図である。It is a figure which shows the document information list of a search result.

符号の説明Explanation of symbols

10・・・インデックス作成部、11・・・検索エンジン、12・・・文書情報データベース、13・・・抽出部、14・・・検索用インデックスデータベース、15・・・形態素解析辞書データベース、101・・・形態素解析部、102・・・重要度計算部、103・・・分類決定部、104・・・固定関係強度算出部、105・・・可変関係強度算出部、111・・・ベクトル計算部、112・・・検索処理部   DESCRIPTION OF SYMBOLS 10 ... Index creation part, 11 ... Search engine, 12 ... Document information database, 13 ... Extraction part, 14 ... Index database for search, 15 ... Morphological analysis dictionary database, 101. ..Morphological analyzer, 102 ... Importance calculator, 103 ... Classification determination unit, 104 ... Fixed relationship strength calculator, 105 ... Variable relationship strength calculator, 111 ... Vector calculator 112 ... Search processing unit

Claims (7)

文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置であって、
前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出手段と、
前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出手段と、
検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成手段と、
前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出手段と、
前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成手段と、
を備えることを特徴とする文書情報検索装置。
A document information search apparatus that holds document information and link destination document information of a link destination of the document information,
Fixed relationship strength calculating means for calculating a fixed relationship strength indicating the strength of a fixed relationship between the document information and the linked document information;
Variable relationship strength calculating means for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information;
A similarity order document information list generating means for calculating a similarity between the input sentence information received at the time of search and the document information, and generating a similarity order document information list holding the document information in descending order of similarity;
Relationship between the link destination document information of the document information in the similarity order document information list and all the document information in the similarity order document information list specifying the link destination document information as the link destination A relationship strength total value calculating means for calculating a relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength;
After inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, a predetermined threshold value of the relation strength total value and linked document information are A search result list including the document information and the linked document information is obtained by switching the order of the document information and the linked document information based on whether or not the document information is included in the similarity order document information list. A search result list generating means for generating;
A document information retrieval apparatus comprising:
前記類似度順文書情報一覧は、所定の類似度以上の文書情報を保持する
ことを特徴とする請求項1に記載の文書情報検索装置。
The document information search apparatus according to claim 1, wherein the similarity order document information list holds document information having a predetermined similarity or higher.
前記固定関係強度の算出は、
前記文書情報と前記リンク先文書情報の文書内容分類が一致するか否かの判断、
前記文書情報と前記リンク先文書情報の類似度、
前記リンク先文書情報が前記文書情報からリンクされている数、
のいずれかまたは全てに基づいて算出される
ことを特徴とする請求項1または請求項2に記載の文書情報検索装置。
The calculation of the fixed relationship strength is as follows:
Determining whether the document content classification of the document information and the linked document information matches;
Similarity between the document information and the linked document information;
The number of linked document information linked from the document information;
The document information search device according to claim 1, wherein the document information search device is calculated based on any or all of the following.
前記可変関係強度の算出は、検索処理における前記文書情報から前記リンク先文書情報へのアクセスの回数、前記リンク先文書情報の強制的な検索結果への出力の指示、
のいずれかまたは全てに基づいて算出される
ことを特徴とする請求項1から請求項3のいずれかに記載の文書情報検索装置。
The calculation of the variable relationship strength includes the number of accesses from the document information to the linked document information in the search process, an instruction to output the forced search result of the linked document information,
The document information search device according to claim 1, wherein the document information search device is calculated based on any or all of the following.
所定の期間を経過した場合には、
前記関係強度合計値を、前記可変関係強度の値とする
ことを特徴とする請求項1から請求項4のいずれかに記載の文書情報検索装置。
If the specified period has passed,
The document information search apparatus according to claim 1, wherein the relation strength total value is the value of the variable relation strength.
文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置における文書情報検索方法であって、
前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出過程と、
前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出過程と、
検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成過程と、
前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出過程と、
前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成過程と、
を有することを特徴とする文書情報検索方法。
A document information search method in a document information search apparatus that holds document information and link destination document information of a link destination of the document information,
A fixed relationship strength calculating step of calculating a fixed relationship strength indicating the strength of a fixed relationship between the document information and the linked document information;
A variable relationship strength calculating step for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information;
Calculating the similarity between the input sentence information received at the time of search and the document information, and generating a similarity order document information list generation process for generating a similarity order document information list holding the document information in descending order of similarity;
Relationship between the link destination document information of the document information in the similarity order document information list and all the document information in the similarity order document information list specifying the link destination document information as the link destination A relationship strength total value calculation process for calculating a relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength;
After inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, a predetermined threshold value of the relation strength total value and linked document information are A search result list including the document information and the linked document information is obtained by switching the order of the document information and the linked document information based on whether or not the document information is included in the similarity order document information list. The search result list generation process to be generated,
A document information search method characterized by comprising:
文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置のコンピュータに実行させるプログラムであって、
前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出処理と、
前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出処理と、
検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成処理と、
前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出処理と、
前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成処理と、
をコンピュータに実行させるプログラム。
A program to be executed by a computer of a document information retrieval apparatus that holds document information and link destination document information of a link destination of the document information,
A fixed relationship strength calculation process for calculating a fixed relationship strength indicating the strength of a fixed relationship between the document information and the linked document information;
A variable relationship strength calculation process for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information;
Similarity order document information list generation processing for calculating similarity between the input sentence information received at the time of search and the document information, and generating a similarity order document information list that holds the document information in descending order of similarity,
Relationship between the link destination document information of the document information in the similarity order document information list and all the document information in the similarity order document information list specifying the link destination document information as the link destination A relationship strength total value calculation process for calculating a relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength;
After inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, a predetermined threshold value of the relation strength total value and linked document information are A search result list including the document information and the linked document information is obtained by switching the order of the document information and the linked document information based on whether or not the document information is included in the similarity order document information list. Search result list generation processing to be generated,
A program that causes a computer to execute.
JP2004048023A 2004-02-24 2004-02-24 Document information retrieval apparatus, document information retrieval method and program thereof Withdrawn JP2005242454A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004048023A JP2005242454A (en) 2004-02-24 2004-02-24 Document information retrieval apparatus, document information retrieval method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004048023A JP2005242454A (en) 2004-02-24 2004-02-24 Document information retrieval apparatus, document information retrieval method and program thereof

Publications (1)

Publication Number Publication Date
JP2005242454A true JP2005242454A (en) 2005-09-08

Family

ID=35024166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004048023A Withdrawn JP2005242454A (en) 2004-02-24 2004-02-24 Document information retrieval apparatus, document information retrieval method and program thereof

Country Status (1)

Country Link
JP (1) JP2005242454A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102723A (en) * 2005-10-07 2007-04-19 Hitachi Ltd Document search apparatus, document search method, and document search program
JP2008234559A (en) * 2007-03-23 2008-10-02 Yahoo Japan Corp Document narrowing search apparatus, method and program
WO2010026900A1 (en) * 2008-09-03 2010-03-11 日本電気株式会社 Relationship detector, relationship detection method, and recording medium
JP2015075982A (en) * 2013-10-10 2015-04-20 富士ゼロックス株式会社 Difference extraction system and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102723A (en) * 2005-10-07 2007-04-19 Hitachi Ltd Document search apparatus, document search method, and document search program
JP2008234559A (en) * 2007-03-23 2008-10-02 Yahoo Japan Corp Document narrowing search apparatus, method and program
WO2010026900A1 (en) * 2008-09-03 2010-03-11 日本電気株式会社 Relationship detector, relationship detection method, and recording medium
US8676738B2 (en) 2008-09-03 2014-03-18 Nec Corporation Relationship detector, relationship detection method, and recording medium
JP5472110B2 (en) * 2008-09-03 2014-04-16 日本電気株式会社 Relationship discovery device, relationship discovery method, and relationship discovery program
JP2015075982A (en) * 2013-10-10 2015-04-20 富士ゼロックス株式会社 Difference extraction system and program

Similar Documents

Publication Publication Date Title
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20080168049A1 (en) Automatic acquisition of a parallel corpus from a network
KR100485321B1 (en) A method of managing web sites registered in search engine and a system thereof
JP5629976B2 (en) Patent specification evaluation / creation work support apparatus, method and program
JP2005174336A (en) Learning and use of generalized string pattern for information extraction
JP2008511075A5 (en)
WO2017000659A1 (en) Enriched uniform resource locator (url) identification method and apparatus
JP2005242454A (en) Document information retrieval apparatus, document information retrieval method and program thereof
JP2001265774A (en) Information retrieval method and apparatus, recording medium recording information retrieval program, and hypertext information retrieval system
JP3614765B2 (en) Concept dictionary expansion device
JP4934115B2 (en) Keyword extraction apparatus, method and program
JP5285491B2 (en) Information retrieval system, method and program, index creation system, method and program,
JP2009271796A (en) Noise removal system for document data
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JP4574186B2 (en) Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device
JP5389683B2 (en) Important keyword extraction apparatus, method and program
JPH1145255A (en) Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus
JP2009271797A (en) Noise removing system for document data
CN111339243A (en) Method and device for denoising and checking retrieval data based on competitive product information
JP4959621B2 (en) Keyword extraction system
JP4128209B2 (en) Keyword extraction system
JP2001155017A (en) Tagged document creation device and recording medium recording the program
JP3725373B2 (en) WORD IMPORTANCE CALCULATION DEVICE, DOCUMENT SEARCH DEVICE, COMPUTER-READABLE RECORDING MEDIUM CONTAINING WORD IMPORTANCE CALCULATION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING DOCUMENT SEARCH PROGRAM

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070501