JP2005242454A - Document information retrieval apparatus, document information retrieval method and program thereof - Google Patents
Document information retrieval apparatus, document information retrieval method and program thereof Download PDFInfo
- Publication number
- JP2005242454A JP2005242454A JP2004048023A JP2004048023A JP2005242454A JP 2005242454 A JP2005242454 A JP 2005242454A JP 2004048023 A JP2004048023 A JP 2004048023A JP 2004048023 A JP2004048023 A JP 2004048023A JP 2005242454 A JP2005242454 A JP 2005242454A
- Authority
- JP
- Japan
- Prior art keywords
- document information
- strength
- similarity
- linked
- link destination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000004364 calculation method Methods 0.000 claims description 43
- 230000000877 morphologic effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 受け付けた入力文章に基づいて、従来より検索結果の精度が高く文書情報を検索することのできる文書情報検索装置を提供する。
【解決手段】 固定関係強度を算出し、可変関係強度を算出する。また検索時に入力文章情報と文書情報との類似度を計算し、また類似度の高い順に文書情報を保持する類似度順文書情報一覧を生成し、類似度順文書情報一覧の文書情報に記述されたリンク先のリンク先文書情報とそのリンク先文書情報をリンク先に指定している類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を算出する。また、類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、類似度に基づいて重複しないように挿入した後、文書情報とリンク先文書情報の順序を入れ替え、文書情報とリンク先文書情報とを含む検索結果一覧を生成する。
【選択図】 図1PROBLEM TO BE SOLVED: To provide a document information retrieval device capable of retrieving document information based on an accepted input sentence and having a higher retrieval result accuracy than before.
A fixed relationship strength is calculated, and a variable relationship strength is calculated. In addition, the similarity between the input text information and the document information is calculated at the time of retrieval, and a similarity order document information list that holds the document information in descending order of similarity is generated and described in the document information of the similarity order document information list. The relationship strength total value indicating the strength of the relationship between the link destination document information of the selected link destination and all the document information in the similarity order document information list in which the link destination document information is designated as the link destination is calculated. . Further, after inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, the order of the document information and the linked document information is changed, and the document information and A search result list including link destination document information is generated.
[Selection] Figure 1
Description
本発明は、文書情報を検索する文書情報検索装置および文書情報検索方法ならびにそのプログラムに関する。 The present invention relates to a document information retrieval apparatus, a document information retrieval method, and a program for retrieving document information.
従来、文書情報を検索する文書情報検索装置は、例えばインターネットのYahoo(登録商標)やGoogle(登録商法)などの検索サイトやアプリケーションソフトウェアに組み込まれたFAQ(Frequently Asked Question)データベースの機能などで利用されている。この文書情報検索装置の技術としては、例えば、ベクトル検索と呼ばれる検索の精度を向上を図るための技術や、ページランクと呼ばれる検索の精度向上を図るための技術や、文書情報の文書内容の分類によって検索の精度向上を図る技術などが公開されている(例えば、特許文献1参照)。
ここで、文書情報検索装置は、例えばユーザから文章の入力を受け付け、その入力文章に類似する文書情報を検索し、その文書情報を出力結果として出力するが、このような検索の処理においては、検索結果として上位に出力された文書情報のリンク先の他の文書情報(リンク先文書情報)が、検索結果の下位に存在することとなったり、そのリンク先文書情報が検索結果に表れないようなったりする場合がある。しかしながらそのリンク先文書情報には、検索結果として出力されるべき重要なもの存在することが多くあるので、検索結果の精度がよくなかった。 Here, the document information search device accepts input of a sentence from a user, for example, searches for document information similar to the input sentence, and outputs the document information as an output result. In such a search process, The other document information (link destination document information) of the link destination of the document information output as the higher order as the search result is present in the lower order of the search result, or the link destination document information does not appear in the search result. It may become. However, since the linked document information often contains important information that should be output as a search result, the accuracy of the search result is not good.
そこでこの発明は、受け付けた入力文章に基づいて、従来より検索結果の精度が高く文書情報を検索することのできる文書情報検索装置および文書情報検索方法ならびにそのプログラムを提供することを目的としている。 Therefore, an object of the present invention is to provide a document information search device, a document information search method, and a program thereof that can search document information with higher accuracy of search results than the conventional one based on received input text.
本発明は、上述の課題を解決すべくなされたもので、文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置であって、前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出手段と、前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出手段と、検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成手段と、前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出手段と、前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成手段とを備えることを特徴とする文書情報検索装置である。
これにより、文書情報検索装置は、入力文章に類似する文書情報の他に、その文書情報からリンクを張られており、かつ当該文書情報よりも入力文章と関係が深いと判断されるリンク先文書情報を検索結果として出力することができる。
The present invention has been made to solve the above-described problem, and is a document information search apparatus that holds document information and link destination document information of a link destination of the document information, the document information and the link destination document. A fixed relationship strength calculating means for calculating a fixed relationship strength indicating the strength of a fixed relationship between information, and a variable relationship strength indicating a strength of a variable relationship between the document information and the linked document information A variable relation strength calculating means for calculating the similarity, calculating similarity between the input text information received at the time of search and the document information, and generating a similarity order document information list holding the document information in descending order of similarity A degree-by-degree document information list generating means, the link-destination document information at the link destination of the document information in the degree-of-similarity order document information list, Everything in A relationship strength total value calculating means for calculating a relationship strength total value indicating the strength of the relationship with the document information based on the fixed relationship strength and the variable relationship strength, and each document information in the similarity order document information list After the link destination document information is inserted so as not to overlap based on the similarity, the threshold value of the predetermined relationship strength total value and the link destination document information are included in the similarity order document information list as document information. Search result list generation means for generating a search result list including the document information and the linked document information by switching the order of the document information and the linked document information based on whether or not the document information is included. Is a document information retrieval apparatus characterized by
As a result, the document information retrieval apparatus is linked to the document information other than the document information similar to the input sentence, and is determined to be linked to the input sentence more deeply than the document information. Information can be output as search results.
また本発明は、前記類似度順文書情報一覧が、所定の類似度以上の文書情報を保持することを特徴とする。これにより入力文章と類似度の低い文書情報を検索結果から削除することができる。 Also, the invention is characterized in that the similarity order document information list holds document information having a predetermined similarity or higher. As a result, document information having a low similarity to the input sentence can be deleted from the search result.
また本発明は、前記固定関係強度の算出が、前記文書情報と前記リンク先文書情報の文書内容分類が一致するか否かの判断、前記文書情報と前記リンク先文書情報の類似度、前記リンク先文書情報が前記文書情報からリンクされている数のいずれかまたは全てに基づいて算出されることを特徴とする。これにより、文書情報の修正があるまで固定的な文書情報とリンク先文書情報との間の固定な関係の強さを示す固定関係強度を算出することができる。 According to the present invention, the calculation of the fixed relationship strength is performed to determine whether the document content classification of the document information and the linked document information matches, the similarity between the document information and the linked document information, the link The pre-document information is calculated based on any or all of the numbers linked from the document information. Thereby, it is possible to calculate the fixed relationship strength indicating the strength of the fixed relationship between the fixed document information and the linked document information until the document information is corrected.
また本発明は、前記可変関係強度の算出が、検索処理における前記文書情報から前記リンク先文書情報へのアクセスの回数、前記リンク先文書情報の強制的な検索結果への出力の指示のいずれかまたは全てに基づいて算出されることを特徴とする。これにより、文書情報とリンク先文書情報との可変な関係の強さを示す可変関係強度を算出することができる。 According to the present invention, the calculation of the variable relationship strength is any one of a number of accesses from the document information to the link destination document information in a search process and an instruction to output the link destination document information to a forced search result. Or it is calculated based on all. Thereby, it is possible to calculate the variable relationship strength indicating the strength of the variable relationship between the document information and the link destination document information.
また本発明は、所定の期間を経過した場合には、前記関係強度合計値を、前記可変関係強度の値とすることを特徴とする。検索結果で出力された文書情報をからユーザが最終的にアクセスする文書情報をログで保持しており、このログに基づいて可変関係強度が算出され、検索用インデックスの関係強度テーブルに記録されるので、所定の期間を経過した場合には、可変関係強度のみで十分ユーザの要求する文書情報を検索できるようになる。 Further, the present invention is characterized in that, when a predetermined period has elapsed, the relationship strength total value is set to the value of the variable relationship strength. Document information that is finally accessed by the user is stored in a log from the document information output as a search result. Based on this log, the variable relationship strength is calculated and recorded in the relationship strength table of the search index. Therefore, when a predetermined period elapses, the document information requested by the user can be retrieved sufficiently with only the variable relation strength.
また本発明は、文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置における文書情報検索方法であって、前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出過程と、前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出過程と、検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成過程と、前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出過程と、前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成過程とを有することを特徴とする文書情報検索方法である。 The present invention is also a document information search method in a document information search apparatus that holds document information and link destination document information of a link destination of the document information, and fixes between the document information and the link destination document information. A fixed relationship strength calculating process for calculating a fixed relationship strength indicating the strength of a relationship, and a variable relationship strength for calculating a variable relationship strength indicating a strength of a variable relationship between the document information and the linked document information Similarity order document information list generation that calculates the similarity between the input text information received at the time of search and the document information, and generates a similarity order document information list that holds the document information in descending order of similarity And all the document information in the similarity order document information list in which the link destination document information of the document information in the similarity order document information list and the link destination document information are designated as the link destination Between the relationship strength total value calculation process for calculating the relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength, and each document information in the similarity order document information list Whether the link destination document information is inserted based on the similarity so as not to overlap, and whether a predetermined threshold value of the relation strength total value and the link destination document information are included in the similarity order document information list as document information. A search result list generation step of generating a search result list including the document information and the link destination document information by switching the order of the document information and the link destination document information based on the information on whether or not This is a document information search method.
また本発明は、文書情報と当該文書情報のリンク先のリンク先文書情報とを保持した文書情報検索装置のコンピュータに実行させるプログラムであって、前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出処理と、前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出処理と、検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成処理と、前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出処理と、前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成処理とをコンピュータに実行させるプログラムである。 The present invention is also a program for causing a computer of a document information search apparatus that holds document information and link destination document information of a link destination of the document information to execute between the document information and the link destination document information. Fixed relationship strength calculation processing for calculating a fixed relationship strength indicating the strength of a fixed relationship, and a variable relationship for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information Similarity-order document information list that calculates the similarity between the input text information received at the time of retrieval and the document information, and generates a similarity-order document information list that holds the document information in descending order of similarity All the links in the similarity order document information list in which the link destination document information of the link destination of the document information in the similarity order document information list and the link destination document information is designated as the link destination A relationship strength total value calculation process for calculating a relationship strength total value indicating the strength of the relationship with the document information based on the fixed relationship strength and the variable relationship strength, and each document in the similarity order document information list After inserting linked document information between the information so as not to overlap based on the similarity, the threshold value of the predetermined relation strength total value and the linked document information are used as document information as the document information list in order of similarity And a search result list generation process for generating a search result list including the document information and the link destination document information by switching the order of the document information and the link destination document information based on whether or not the information is included in the computer. This is a program to be executed.
以下、本発明の一実施形態による文書情報検索装置を図面を参照して説明する。図1は同実施形態の文書情報検索装置の構成を示す概略ブロック図である。この図において、符号10は文書情報検索装置の検索用インデックスを作成するインデックス作成部である。また符号11は文書情報の検索処理をおこなう検索エンジンである。また12は文書情報を記憶した文書情報データベースである。ここで、文書情報とは、例えばマークアップ言語のHTMLなどで記述された文書のデータなどである。また13は文書情報データベース12から文書情報を抽出してインデックス作成部10に送信する抽出部である。また14は検索用インデックスを記憶する検索用インデックスデータベースである。また15は単語と品詞とを対応付けて記憶する形態素解析辞書データベースであり、この形態素解析辞書データベース15の記憶する情報を用いてインデックス作成部10が文書情報が保持する文章の形態素解析を行なう。
A document information retrieval apparatus according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of the document information search apparatus of the embodiment. In this figure,
またインデックス作成部10において、符号101は文書情報に含まれる文章を形態素解析する形態素解析部である。また符号102は文書情報に含まれる文章の各単語について重要度(以降、TFIDFと呼ぶ)を計算する、重要度計算部である。また符号103は各文書情報の内容からそれぞれの文書情報の分類を決定する分類決定部である。また符号104は文書情報とその文書情報のリンク先(以降、リンク先文書情報と呼ぶ)との間の固定の関係の強さを示す固定関係強度を算出する、固定関係強度算出部である。また符号105は文書情報とリンク先文書情報との間の可変の関係の強さを示す可変関係強度を算出する、可変関係強度算出部である。
In the
また検索エンジン11において、符号111は入力された入力文章と文書情報データベース12の記憶する文書情報との類似度をベクトル計算によって算出するベクトル計算部である。また符号112は入力された入力文章に類似する文章情報を検索結果として決定する検索処理を行ない、また検索結果を出力する検索処理部である。
In the
そして、この文書情報検索装置は、予め、文書情報データベース12で記憶の各文書情報のリンク先のリンク先文書情報を検出し、文書情報とリンク先文書情報との関係の強さを算出しておく。ここで文書情報とリンク先文書情報との関係の強さは、文書情報とリンク先文書情報の間で固定的な関係の強さを示す固定関係強度と、文書情報とリンク先文書情報の間で可変的な関係の強さを示す可変関係強度とで表される。固定関係強度は文書情報データベース12で記憶の文書情報が修正されるまで固定である。また可変関係強度は、文書情報の検索処理が行なわれるにつれて徐々に値が変化する。また可変関係強度は文書情報検索装置の管理者などによっても修正されて値が変化する。そして、検索時において、文書情報検索装置は、ユーザなどによって入力された入力文章に類似の文書情報の他に、その文書情報にリンクされているリンク先文書情報を検索結果として出力する。この時、文書情報検索装置は、リンク先文書情報で重要な情報については、検索結果の上位に現れるように出力する。そして、この時上述の固定関係強度や可変関係強度が利用されて検索処理が行なわれる。
なお、上記では、文書情報とリンク先文書情報とを区別して記載しているが、ある文書情報が他の文書情報のリンク先文書情報となることもある。従って、文書情報データベース12の記憶する文書情報は、他の文書情報からリンクが張られていればリンク先文書情報でもある。
Then, this document information retrieval apparatus detects in advance the link destination document information of each document information stored in the
In the above description, the document information and the linked document information are distinguished from each other. However, some document information may be linked document information of other document information. Therefore, the document information stored in the
図2は検索用インデックスデータベースのデータ構造を示す図である。
図2を用いて検索用インデックスのデータ構造について説明する。この図が示すように、検索用インデックスデータベース14は、文書テーブルと、文書内単語テーブルと、単語テーブルと、分類テーブルと、関係強度テーブルとからなる検索用インデックスを保持している。そして文書テーブルでは文書情報データベース12で記憶している文書情報ごとの文書IDと文書タイトルとその文書情報が他の文書情報からリンクされている数(以降、リンク数と呼ぶ)とを対応付けて保持している。また文書内単語テーブルは文書IDと、その文書IDの文書情報に含まれる単語それぞれの単語IDと、当該単語IDとなる単語がその文書IDの文書情報で出現する回数<TF(term frequency)値>と、当該単語の重要度<TFIDF(term frequency,inverse document frequency)値>とを対応付けて記憶している。また単語テーブルは、全ての文書情報から抽出した各単語ごとに作成されるものであり、単語IDと、その単語IDの単語が全ての文書情報のうちいくつの文書情報で出現したかを示す数<DF(document frequency)値>とを対応付けて記憶している。
なお、ある任意の単語をt、文書情報の数をdとすると、上記TFIDF値は以下の式によって計算できる。
FIG. 2 shows the data structure of the search index database.
The data structure of the search index will be described with reference to FIG. As shown in this figure, the
If the arbitrary word is t and the number of document information is d, the TFIDF value can be calculated by the following equation.
また分類テーブルは、文書IDとその文書IDの文書情報が分類された文書内容の分類を示す分類IDと、その分類IDの分類名とを対応付けて記憶している。また、関係強度テーブルは、文書IDとその文書IDの文書情報のリンク先の文書情報のIDであるリンク先文書情報IDと、それら文書IDとリンク先文書IDで示される文書情報とリンク先文書情報の間の固定関係強度と可変関係強度とを対応付けて記憶する関係強度テーブルである。 The classification table stores a document ID, a classification ID indicating the classification of the document content in which the document information of the document ID is classified, and a classification name of the classification ID in association with each other. In addition, the relationship strength table includes a document ID, a link destination document information ID that is an ID of a link destination document information of the document information of the document ID, document information indicated by the document ID and the link destination document ID, and a link destination document. It is the relationship strength table which memorize | stores the fixed relationship strength and variable relationship strength between information in correlation.
次に、インデックス作成部10における検索用インデックスの作成処理について説明する。
まず、インデックス作成部10は、文書情報データベース12から文書情報を1つ抽出するよう抽出部13に指示する。そして1つの文書情報を受け取ると、インデックス作成部10の形態素解析部101が、形態素解析辞書データベース15に記述されている単語と品詞との対応表に基づいて、文書情報に記述されている文章を形態素解析し、単語に分解する。そしてインデックス作成部10は1つの文書情報に文書IDを割当て、また形態素解析により得られた各単語に単語IDを割当てる。そして、インデックス作成部10は文書内単語テーブルに、文書IDに対応付けて、その文章IDの文書情報の形態素解析により分解された各単語ごとに、単語IDとその単語のTF値を記録する。またインデックス作成部10は単語テーブルに、形態素解析により得られた単語の単語IDとDF値とを対応付けて記録する。また重要度計算部102が各単語のTFIDF値を計算して、文書内単語テーブルに記録する。なお、この形態素解析部101と重要度計算部102の処理は、文書情報データベース12が記憶する全ての文書情報について行なわれ、文書内単語テーブルと単語テーブルとが作成される。
Next, search index creation processing in the
First, the
次にインデックス作成部10の分類決定部103が、各文書情報の内容から分類を決定する。例えば、文書情報データベース12に記録されている文章情報がコンピュータ関連の文書に関わるものである場合には、分類決定部103は、文書情報に含まれる単語によって、各文書情報をOS(Operating System)やコンピュータの機種などにより分類し、分類テーブルに文書IDとその文書IDの文書情報の分類IDと分類名とを対応付けて記録する。なお、予め文書情報に分類を決定するための識別番号などが記録されており、これに基づいて分類決定部103が分類テーブルを作成していくようにしてもよい。また1つの文書情報に複数の分類が設定されて分類IDが付けられるようにしてもよい。
Next, the
上述の文書テーブル、文書内単語テーブル、単語テーブル、分類テーブルが作成されると、次に、固定関係強度算出部104は以下の処理により文書情報とその文書情報のリンク先文書情報との間の固定関係強度を算出する。
まず、固定関係強度算出部104は抽出部13から転送された文書情報を読み込んで、その文書情報にリンクされているリンク先文書情報があるか否かを確認する。例えば、文書情報がHTML(Hyper Text Markup Language)などのマークアップ言語で記述された文書情報である場合には、href属性を保持するタグに記述されているURL(Uniform Resource Locator)などにリンク先文書情報が指定されている。ここで、ある文章情報の文書IDがTN100006146であり、その文章情報に記述されている3つのリンク先文章情報の文書IDがTN100005389、TN100004412、TN100008455であるとする。また、これらの文書情報はコンピュータ関連の内容を保持しており、OSの種類による分類と、コンピュータの機種名による分類と、コンピュータの部品名による分類が行なわれているものとする。
When the above-described document table, in-document word table, word table, and classification table are created, the fixed relationship
First, the fixed relationship
固定関係強度算出部104は、文書IDがTN100006146、TN100005389、TN100004412、TN100008455の各文書情報のOSの分類、コンピュータ機種名の分類、部品名の分類を、分類テーブルから読み取る。ここで、TN100006146は、OS分類が「NT」と「2000」、機種名分類が「Endever6100」、部品名分類が「HDD」であるとする。またTN100005389は、OS分類が「98」、機種名分類が「EDCUBE100」、部品名分類が「DVD」であるとする。またTN10000412のOS分類が「XP」、機種名分類が「Endever6100」、部品名分類が「CPU」であるとする。またTN100008455は、OS分類が「2000」、機種名分類が「Endever6100」、部品名分類が「メモリ」であるとする。
The fixed relationship
図3は文書情報の分類を示す表である。
固定関係強度算出部104は1つの文書情報の文書IDとその文書情報のリンク先文書情報の文書IDに対応付けて分類の情報を保持する図3の表を、分類テーブルに基づいて作成し、この表に基づいて、次に、文書情報(TN100006146)とそのリンク先文書情報(TN100005389、TN100004412、TN100008455)との間の分類による固定関係強度を算出する。
FIG. 3 is a table showing the classification of document information.
The fixed relationship
固定関係強度算出部104は、図3より、文書情報TN100006146と分類が同じリンク先文書情報を検出する。ここで、文書情報TN100006146とリンク先文書情報TN100008455とはOSの分類が同一である。また文書情報TN100006146とリンク先文書情報TN100004412、TN100008455とは機種名の分類が同一である。従って、固定関係強度算出部104は文書情報TN100006146とリンク先文書情報TN100004412との間の分類による関係の強さと、また文書情報TN100006146とリンク先文書情報TN100008455との間の分類による関係の強さとがあると判断する。なお、OSの分類が同一の場合、分類による2つの文書情報の固定関係強度は“1”増え、機種名の分類が同一の場合、分類による2つの文書情報の固定関係強度は“2”増えるとすると、文書情報TN100006146とリンク先文書情報TN100005389との間の固定関係強度は“0”、文書情報TN100006146とリンク先文書情報TN100004412との間の固定関係強度は“2”となる。また、文書情報TN100006146とリンク先文書情報TN100008455との間の固定関係強度は、OSの種類と機種名の2つの分類が同一のため“3”となる。
The fixed relationship
図4は文書情報間の固定関係強度を示す第1の表である。
固定関係強度算出部104は、文書情報とリンク先文書情報との間の分類による固定関係強度を示す図4のような表を作成して、メモリ上に保持する。
次に、固定関係強度算出部104は、文書情報とリンク先文書情報との間の類似度を算出する。
FIG. 4 is a first table showing the strength of the fixed relationship between document information.
The fixed relationship
Next, the fixed relationship
図5は類似時算出の処理の概略を示す図である。ここで、上述の類似度の算出の技術を、図5を用いて説明する。例えば、A文書とB文書に単語xと単語yの2つの単語が含まれる場合、A文書における2つの単語x、yのTFIDF値で表される2次元のベクトル(a)と、B文書における2つの単語x、yのTFIDF値で表される2次元のベクトル(b)とを算出する。そして、固定関係強度算出部104は、はベクトル(a)とベクトル(b)とが成す角度を算出する(c)。この角度のCosθの値が類似度である。そして、Cosθで表される類似度が、所定の値よりも小さい場合に、文書Aと文書Bとが類似していると判断する。なお実際には1つの文書には多くの単語が含まれるので、その単語の数の次元でのベクトルが算出され、そのベクトルを用いて2つの文書の類似度が算される。
FIG. 5 is a diagram showing an outline of the similar time calculation process. Here, the technique for calculating the above-described similarity will be described with reference to FIG. For example, when the A document and the B document include two words x and y, the two-dimensional vector (a) represented by the TFIDF values of the two words x and y in the A document and the B document A two-dimensional vector (b) represented by TFIDF values of two words x and y is calculated. Then, the fixed relationship
このような類似度の算出によって、固定関係強度算出部104は、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)とが類似しているか否かを判断する。そして、文書情報(TN100006146)と類似している場合には、図4の表の固定関係強度に“2”が加えられる。
By calculating the similarity, the fixed relationship
図6は、文書情報間の固定関係強度を示す第2の表である。この図が示すように、文書情報(TN100006146)とリンク先文書情報(TN100004412)とが類似しており、また文書情報(TN100006146)とリンク先文書情報(TN100008455)とが類似していると判断された場合、図4で示した文書情報(TN100006146)とリンク先文書情報(TN100004412)の組合せに対応する固定関係強度と、文書情報(TN100006146)とリンク先文書情報(TN100008455)の組合せに対応する固定関係強度が、固定関係強度算出部104によって“2”増加させられる。
FIG. 6 is a second table showing the strength of the fixed relationship between document information. As shown in this figure, it is determined that the document information (TN100006146) and the link destination document information (TN100004412) are similar, and the document information (TN100006146) and the link destination document information (TN100008455) are similar. In this case, the fixed relationship strength corresponding to the combination of the document information (TN100006146) and the link destination document information (TN100004412) shown in FIG. 4 and the fixed relationship corresponding to the combination of the document information (TN100006146) and the link destination document information (TN100008455) The relationship strength is increased by “2” by the fixed relationship
また固定関係強度算出部104は、各リンク先文書情報が、他の文書情報からリンクされている数(被リンク数)を検索インデックスの文書テーブルから読み取って、所定のリンク数以上であれば、文書情報(TN100006146)との関係が強いと判断し、図6の表に“2”を加える。これは、リンク数が多いほど重要な文書情報であると考えられるからである。
In addition, the fixed relationship
図7は、文書情報間の固定関係強度を示す第3の表である。
この図は、リンク先文書情報(TN100008455)が多くの他の文書情報からリンクされているので、文書情報(TN100006146)とリンク先文書情報(TN100008455)の関係の強さに“2”が加えられたことを示している。
FIG. 7 is a third table showing the strength of the fixed relationship between document information.
In this figure, since the linked document information (TN100008455) is linked from many other document information, “2” is added to the strength of the relationship between the document information (TN100006146) and the linked document information (TN100008455). It shows that.
以上の処理により、固定関係強度算出部104は、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)との間の固定の関係の強さを示す、固定関係強度を算出する。
なお、文書情報とリンク先文書情報との分類による関係の強さや、類似度による関係の強さや、被リンク数に基づく関係の強さは、文書情報(TN100006146)やリンク先文書情報(TN100005389、TN100004412、TN100008455)が変更されるまで固定である。従って、本実施形態においては、これらの関係の強さを固定関係強度と呼んでいる。
また固定関係強度算出部104は、関係強度テーブルの文書IDとリンク先文書IDの組合せ毎に、上述の固定関係強度を算出の処理を行なう。
Through the above processing, the fixed relationship
Note that the strength of the relationship based on the classification of the document information and the linked document information, the strength of the relationship based on the similarity, and the strength of the relationship based on the number of linked documents are document information (TN100006146) and linked document information (TN100005389, TN100004412 and TN100008455) are fixed. Therefore, in this embodiment, the strength of these relationships is called the fixed relationship strength.
The fixed relationship
次に、可変関係強度算出部105が、文書情報の検索処理の発生や、管理者による文書検索システムの修正によって、徐々に値が変化する可変関係強度を算出する際の処理について、上述と同様に文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)とを用いて説明する。
まず、可変関係強度算出部105は、文書情報の検索処理によって溜まっていくログ情報に基づいて、その文書情報からリンク先文書情報にアクセスしたログを抽出する。なお、ログ情報は例えば文書情報検索装置のログ取得部がログ記憶部などに保存しておく。そして、可変関係強度算出部105は、文書情報(TN100006146)からリンク先文書情報(TN100005389、TN100004412、TN100008455)にアクセスした回数が、所定の回数よりも多い場合に、文書情報とリンク先文書情報との関係が強いと判断し、可変関係強度を“2”増加させる。
Next, the processing when the variable relationship
First, the variable relationship
図8は文書情報間の可変関係強度を示す第1の表である。
この図は、上述のアクセス回数により、文書情報(TN100006146)とリンク先文書情報(TN100004412)との関係が強いと判断され、また、文書情報(TN100006146)とリンク先文書情報(TN100008455)との関係が強いと判断された場合に、可変関係強度が2増加したということを示している。
FIG. 8 is a first table showing the strength of variable relationship between document information.
In this figure, it is determined that the relationship between the document information (TN100006146) and the link destination document information (TN100004412) is strong due to the number of accesses described above, and the relationship between the document information (TN100006146) and the link destination document information (TN100008455). It is shown that the variable relationship strength has increased by 2 when it is determined that is strong.
また可変関係強度算出部105は、文書情報検索装置の管理者が強制的に検索結果の上位に出力したいと考えたリンク先文書情報についての可変関係強度を上げる処理を行なう。例えば、管理者が強制的に検索結果の上位に出力したいリンク先文書情報のリストの情報を入力すると、そのリストに基づいて、可変関係強度算出部105は、可変関係強度を上げる処理を行なう。
In addition, the variable relationship
図9は文書情報間の可変関係強度を示す第2の表である。
この図は、上述の管理者により受け付けたリストに基づいて、図8に示した可変関係強度が修正された場合を示しており、この例では、リンク先文書情報(TN100004412)がリストに記述されていたために、可変関係強度が“3”加えられたことを表している。
FIG. 9 is a second table showing the strength of variable relationship between document information.
This figure shows a case where the strength of the variable relationship shown in FIG. 8 is modified based on the list received by the administrator described above. In this example, linked document information (TN100004412) is described in the list. Therefore, the variable relation strength is “3” added.
そして可変関係強度算出部105は、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)との可変関係強度以外にも、文書情報データベース12で記憶している文書情報とリンク先文書情報の間の全ての可変関係強度を算出し、検索用インデックスデータベース14の関係強度テーブルに書き込む。
In addition to the variable relationship strength between the document information (TN100006146) and the link destination document information (TN100005389, TN100004412, TN100008455), the variable relationship
図10は関係強度テーブルのデータ構造を示す図である。
この図が示すように、関係強度テーブルでは、文書情報(TN100006146)とリンク先文書情報(TN100005389、TN100004412、TN100008455)との組合せごとに、固定関係強度と、可変関係強度を対応付けて記憶している。
FIG. 10 shows the data structure of the relationship strength table.
As shown in this figure, in the relationship strength table, a fixed relationship strength and a variable relationship strength are stored in association with each combination of document information (TN100006146) and link destination document information (TN100005389, TN100004412, TN100008455). Yes.
次に、文書情報検索装置が入力された入力文章に基づいて検索を行なう処理について説明する。
まず、文書情報検索装置が入力文章を受け付ける。すると、検索エンジン11のベクトル計算部111が、入力文章に含まれる各単語(形態素解析により得られる)のTFIDF値を計算し、また、文書情報データベース12で記憶している文書情報に含まれる各単語(この単語も形態素解析により得られる)のTFIDF値を検索用インデックスデータベース14から読み取る。そしてベクトル計算部111は、入力文章に含まれる各単語のTFIDF値と、文書情報データベース12で記憶している文書情報に含まれる各単語のTFIDF値とに基づいて、入力文章と文書情報との類似度を、上述の類似度の計算と同様に行なう。そして、文書情報データベース12で記憶している全ての文書情報と入力文章の類似度を計算する。
Next, a process for performing a search based on an input sentence input by the document information search apparatus will be described.
First, the document information search apparatus accepts an input sentence. Then, the
図11は類似度順文書情報一覧を示す図である。
ベクトル計算部111は、入力文章との類似度が高い順に文書情報の文書IDを並べ、またそれら文書IDに類似度を対応付けて保持した、類似度順文書情報一覧(図11)を作成する。
次に、検索処理部112は、類似度順文書情報一覧の各文書情報に対応するリンク先文書情報をあるか否かを調べる。これは、関係強度テーブルを参照して、1つの文書IDに対応するリンク先文書IDを読み取れば容易である。そして、検索処理部112は、類似度順文書情報一覧の各文書情報に関係するリンク先文書情報の一覧をメモリ上などで一時記憶する。
FIG. 11 is a diagram showing a similarity order document information list.
The
Next, the
図12はリンク先文書情報一覧を示す図である。
この図が示すように、リンク先文書情報一覧は、類似度順文書情報一覧の各文書情報のIDとその文書情報に関係するリンク先文書情報のIDとを対応付けて記憶している。そして、検索処理部112は、リンク先文書情報一覧のリンク先文書情報について、以下の処理を行なう。
FIG. 12 shows a linked document information list.
As shown in this figure, the linked document information list stores an ID of each document information in the similarity order document information list and an ID of linked document information related to the document information in association with each other. Then, the
検索処理部112は、図12のリンク先文書情報一覧から1つリンク先文書IDを読み取る。そして、そのリンク先文書IDに対応付けられて関係強度テーブルに記録されている固定関係強度と可変関係強度とを読み取って全ての値を合計する。つまり、リンク先文書情報一覧から読み取ったリンク先文書IDのリンク先文書情報に対して、リンクを張っている全ての文書情報を検出し、その文書情報と前記読み取ったリンク先文書情報と間の関係の強さを示す固定関係強度と可変関係強度とを全て合計した関係強度合計値を算出する。そして、全てのリンク先文書情報一覧のリンク先文書情報について、同様の処理により関係強度合計値を算出する。
The
図13はリンク先文書情報ごとの関係強度合計値一覧の第1の図である。
図13が示すように、検索処理部112は、リンク先文書情報一覧の各リンク先文書情報の関係強度合計値を算出して、その一覧をメモリに一時記憶する。
FIG. 13 is a first diagram of a relation strength total value list for each linked document information.
As shown in FIG. 13, the
次に検索処理部112は、図13のリンク先文書情報ごとの関係強度合計値一覧において、関係強度合計値が所定の値よりも低いリンク先文書情報についての情報を削除する。
Next, the
図14はリンク先文書情報ごとの関係強度合計値一覧の第2の図である。この図は図13から、関係強度合計値が所定の値よりも低いリンク先文書情報のIDを削除した時の一覧を示している。 FIG. 14 is a second diagram of the relation strength total value list for each linked document information. This figure shows a list when the IDs of linked document information whose relation strength total value is lower than a predetermined value are deleted from FIG.
次に検索処理部112は、図14で示した各リンク先文書IDを、図11で示した類似度順文書情報一覧に挿入する。この時、検索処理部112は、類似度順文書情報一覧において類似度の高い文書情報を示す文書IDの次に、その文書情報からリンクが張られているリンク先文書情報のリンク先文書IDを挿入する。なお、類似度順文書情報一覧に挿入されたリンク先文書IDは、他の文書情報のリンク先となるリンク先文書情報のリンク先文書IDであったとしても、当該他の文書情報の次に挿入されない。
Next, the
図15は、類似度順文書情報一覧にリンク先文書情報が挿入された第1の例を示す図である。この図が示すように、類似度順文書情報一覧において類似度の高い文書情報のIDの次に、その文書情報のリンク先文書情報のIDが挿入される。ここで、図15においてTN100008889の文書IDは、図11の類似度順文書情報一覧にも図13のリンク先文書情報の一覧にも現れている文書情報のIDである。従って、元々類似度順文書情報一覧に存在しているので、リンク先文書情報としては類似度順文書情報一覧には挿入されない。 FIG. 15 is a diagram illustrating a first example in which link destination document information is inserted into the similarity order document information list. As shown in this figure, the ID of the linked document information of the document information is inserted next to the ID of the document information having a high similarity in the similarity order document information list. Here, the document ID of TN100008889 in FIG. 15 is the ID of document information appearing in the similarity order document information list of FIG. 11 and the linked document information list of FIG. Therefore, since it originally exists in the similarity order document information list, the link destination document information is not inserted into the similarity order document information list.
次に検索処理部112は、図15で示した一覧において、挿入したリンク先文書情報の関係強度合計値が所定の閾値よりも高いか否かを判断する。そして、検索処理部112は、関係強度合計値が所定の閾値よりも高い場合には、そのリンク先文書情報のIDを当該リンク先文書情報にリンクを張っている文書情報のIDの上に移動させる。つまり、関係強度合計値が高いリンク先文書情報については、そのリンク先文書情報の方が当該リンク際文書情報にリンクを張っている文書情報よりも入力文章に関係が深いと判断し、一覧の上に移動させる。
Next, the
図16は類似度順文書情報一覧にリンク先文書情報が挿入された第2の例を示す図である。この図は、関係強度合計値が所定の閾値よりも高い場合に、そのリンク先文書情報のIDを当該リンク先文書情報にリンクを張っている文書情報のIDの上に移動させた上述の処理後の、リンク先文書情報が挿入された類似度順文書情報一覧を示している。 FIG. 16 is a diagram showing a second example in which link destination document information is inserted into the similarity order document information list. This figure shows the above-described processing in which the ID of the linked document information is moved over the ID of the document information linked to the linked document information when the total relationship strength value is higher than a predetermined threshold value. A list of document information in order of similarity into which link destination document information is inserted later is shown.
また、検索処理部112は、図11の類似度順文書情報一覧にも図13のリンク先文書情報の一覧にも現れている文書IDの文書情報については、入力文章との関係が大きいと考え、図16の一覧の上位に移動させる。本実施形態においては文書IDがTN100008889の文書情報が該当する。しかしながら、文書IDがTN100001983となるリンク先文書情報の関係強度合計値よりも、文書IDがTN100008889となるリンク先文書情報の関係強度合計値の方が、図11より低いので、TN100001983の文書IDの次に、TN100008889の文書IDを移動させる。そして検索処理部112は、以上の処理により得られた、リンク先文書情報が挿入の類似度順文書情報一覧を、検索結果の文書情報一覧とする。
Further, the
図17は検索結果の文書情報一覧の示す図である。
そして、検索処理部112は、図17の検索結果の文書情報一覧(検索結果一覧)で示された文書IDの順番で、文書情報(またはリンク先文書情報)のタイトルを、例えば、文書情報検索装置が備えた表示部に表示する。これにより、文書情報検索装置に入力された入力文書に類似した文書情報の一覧を示す検索結果が出力される。
FIG. 17 is a diagram showing a list of document information of search results.
Then, the
これにより、文書情報検索装置は、入力文章に類似する文書情報の他に、その文書情報からリンクを張られており、かつ当該文書情報よりも入力文章と関係が深いと判断されるリンク先文書情報を検索結果として出力することができる。 As a result, the document information retrieval apparatus is linked to the document information other than the document information similar to the input sentence, and is determined to be linked to the input sentence more deeply than the document information. Information can be output as search results.
なお、本実施形態においては、文書情報検索装置が文書情報データベース12を保持しており、その文書情報データベース12に記録されている文書情報の中から入力文書に類似または関係が大きい文書情報の検索処理をしているが、例えば、通信ネットワークで接続された他の文書情報記憶装置に記憶されている文書情報の中から入力文書に類似または関係が大きい文書情報の検索処理を行うようにしてもよい。
In the present embodiment, the document information search apparatus holds the
また、本実施形態の文書情報の検索処理は、固定関係強度と可変関係強度とを用いているが、所定の期間経過した場合には、可変関係強度の値を関係強度合計値とするようにして、検索処理を行なってもよい。つまり、検索結果で出力された文書情報からユーザがアクセスする文書情報をログで保持しており、このログに基づいて算出された可変関係強度として検索用インデックスの関係強度テーブルに記録されるので、可変関係強度のみで十分ユーザの要求する文書情報を検索できるようになるからである。 Further, the document information search processing of the present embodiment uses the fixed relationship strength and the variable relationship strength, but when a predetermined period has elapsed, the value of the variable relationship strength is set as the relationship strength total value. The search process may be performed. In other words, the document information accessed by the user from the document information output as the search result is held in the log, and is recorded in the relationship strength table of the search index as the variable relationship strength calculated based on this log. This is because the document information requested by the user can be retrieved sufficiently with only the variable relationship strength.
また、上述の文書情報装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。 The document information apparatus described above has a computer system inside. The process described above is stored in a computer-readable recording medium in the form of a program, and the above process is performed by the computer reading and executing this program. Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
10・・・インデックス作成部、11・・・検索エンジン、12・・・文書情報データベース、13・・・抽出部、14・・・検索用インデックスデータベース、15・・・形態素解析辞書データベース、101・・・形態素解析部、102・・・重要度計算部、103・・・分類決定部、104・・・固定関係強度算出部、105・・・可変関係強度算出部、111・・・ベクトル計算部、112・・・検索処理部
DESCRIPTION OF
Claims (7)
前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出手段と、
前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出手段と、
検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成手段と、
前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出手段と、
前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成手段と、
を備えることを特徴とする文書情報検索装置。 A document information search apparatus that holds document information and link destination document information of a link destination of the document information,
Fixed relationship strength calculating means for calculating a fixed relationship strength indicating the strength of a fixed relationship between the document information and the linked document information;
Variable relationship strength calculating means for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information;
A similarity order document information list generating means for calculating a similarity between the input sentence information received at the time of search and the document information, and generating a similarity order document information list holding the document information in descending order of similarity;
Relationship between the link destination document information of the document information in the similarity order document information list and all the document information in the similarity order document information list specifying the link destination document information as the link destination A relationship strength total value calculating means for calculating a relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength;
After inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, a predetermined threshold value of the relation strength total value and linked document information are A search result list including the document information and the linked document information is obtained by switching the order of the document information and the linked document information based on whether or not the document information is included in the similarity order document information list. A search result list generating means for generating;
A document information retrieval apparatus comprising:
ことを特徴とする請求項1に記載の文書情報検索装置。 The document information search apparatus according to claim 1, wherein the similarity order document information list holds document information having a predetermined similarity or higher.
前記文書情報と前記リンク先文書情報の文書内容分類が一致するか否かの判断、
前記文書情報と前記リンク先文書情報の類似度、
前記リンク先文書情報が前記文書情報からリンクされている数、
のいずれかまたは全てに基づいて算出される
ことを特徴とする請求項1または請求項2に記載の文書情報検索装置。 The calculation of the fixed relationship strength is as follows:
Determining whether the document content classification of the document information and the linked document information matches;
Similarity between the document information and the linked document information;
The number of linked document information linked from the document information;
The document information search device according to claim 1, wherein the document information search device is calculated based on any or all of the following.
のいずれかまたは全てに基づいて算出される
ことを特徴とする請求項1から請求項3のいずれかに記載の文書情報検索装置。 The calculation of the variable relationship strength includes the number of accesses from the document information to the linked document information in the search process, an instruction to output the forced search result of the linked document information,
The document information search device according to claim 1, wherein the document information search device is calculated based on any or all of the following.
前記関係強度合計値を、前記可変関係強度の値とする
ことを特徴とする請求項1から請求項4のいずれかに記載の文書情報検索装置。 If the specified period has passed,
The document information search apparatus according to claim 1, wherein the relation strength total value is the value of the variable relation strength.
前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出過程と、
前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出過程と、
検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成過程と、
前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出過程と、
前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成過程と、
を有することを特徴とする文書情報検索方法。 A document information search method in a document information search apparatus that holds document information and link destination document information of a link destination of the document information,
A fixed relationship strength calculating step of calculating a fixed relationship strength indicating the strength of a fixed relationship between the document information and the linked document information;
A variable relationship strength calculating step for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information;
Calculating the similarity between the input sentence information received at the time of search and the document information, and generating a similarity order document information list generation process for generating a similarity order document information list holding the document information in descending order of similarity;
Relationship between the link destination document information of the document information in the similarity order document information list and all the document information in the similarity order document information list specifying the link destination document information as the link destination A relationship strength total value calculation process for calculating a relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength;
After inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, a predetermined threshold value of the relation strength total value and linked document information are A search result list including the document information and the linked document information is obtained by switching the order of the document information and the linked document information based on whether or not the document information is included in the similarity order document information list. The search result list generation process to be generated,
A document information search method characterized by comprising:
前記文書情報と前記リンク先文書情報との間の固定の関係の強さを示す固定関係強度を算出する固定関係強度算出処理と、
前記文書情報と前記リンク先文書情報との間で可変の関係の強さを示す可変関係強度を算出する可変関係強度算出処理と、
検索時に受け付けた入力文章情報と前記文書情報との類似度を計算し、類似度の高い順に前記文書情報を保持する類似度順文書情報一覧を生成する類似度順文書情報一覧生成処理と、
前記類似度順文書情報一覧の文書情報のリンク先の前記リンク先文書情報とそのリンク先文書情報をリンク先に指定している前記類似度順文書情報一覧の中の全ての文書情報との関係の強さを示す関係強度合計値を、前記固定関係強度と前記可変関係強度とに基づいて算出する関係強度合計値算出処理と、
前記類似度順文書情報一覧の各文書情報の間に、リンク先文書情報を、前記類似度に基づいて重複しないように挿入した後、所定の前記関係強度合計値の閾値とリンク先文書情報が文書情報として前記類似度順文書情報一覧に含まれるか否かの情報とに基づいて文書情報とリンク先文書情報の順序を入れ替え、前記文書情報と前記リンク先文書情報とを含む検索結果一覧を生成する検索結果一覧生成処理と、
をコンピュータに実行させるプログラム。
A program to be executed by a computer of a document information retrieval apparatus that holds document information and link destination document information of a link destination of the document information,
A fixed relationship strength calculation process for calculating a fixed relationship strength indicating the strength of a fixed relationship between the document information and the linked document information;
A variable relationship strength calculation process for calculating a variable relationship strength indicating the strength of a variable relationship between the document information and the linked document information;
Similarity order document information list generation processing for calculating similarity between the input sentence information received at the time of search and the document information, and generating a similarity order document information list that holds the document information in descending order of similarity,
Relationship between the link destination document information of the document information in the similarity order document information list and all the document information in the similarity order document information list specifying the link destination document information as the link destination A relationship strength total value calculation process for calculating a relationship strength total value indicating the strength of the relationship based on the fixed relationship strength and the variable relationship strength;
After inserting linked document information between the document information in the similarity order document information list so as not to overlap based on the similarity, a predetermined threshold value of the relation strength total value and linked document information are A search result list including the document information and the linked document information is obtained by switching the order of the document information and the linked document information based on whether or not the document information is included in the similarity order document information list. Search result list generation processing to be generated,
A program that causes a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004048023A JP2005242454A (en) | 2004-02-24 | 2004-02-24 | Document information retrieval apparatus, document information retrieval method and program thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004048023A JP2005242454A (en) | 2004-02-24 | 2004-02-24 | Document information retrieval apparatus, document information retrieval method and program thereof |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005242454A true JP2005242454A (en) | 2005-09-08 |
Family
ID=35024166
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004048023A Withdrawn JP2005242454A (en) | 2004-02-24 | 2004-02-24 | Document information retrieval apparatus, document information retrieval method and program thereof |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2005242454A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007102723A (en) * | 2005-10-07 | 2007-04-19 | Hitachi Ltd | Document search apparatus, document search method, and document search program |
| JP2008234559A (en) * | 2007-03-23 | 2008-10-02 | Yahoo Japan Corp | Document narrowing search apparatus, method and program |
| WO2010026900A1 (en) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | Relationship detector, relationship detection method, and recording medium |
| JP2015075982A (en) * | 2013-10-10 | 2015-04-20 | 富士ゼロックス株式会社 | Difference extraction system and program |
-
2004
- 2004-02-24 JP JP2004048023A patent/JP2005242454A/en not_active Withdrawn
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007102723A (en) * | 2005-10-07 | 2007-04-19 | Hitachi Ltd | Document search apparatus, document search method, and document search program |
| JP2008234559A (en) * | 2007-03-23 | 2008-10-02 | Yahoo Japan Corp | Document narrowing search apparatus, method and program |
| WO2010026900A1 (en) * | 2008-09-03 | 2010-03-11 | 日本電気株式会社 | Relationship detector, relationship detection method, and recording medium |
| US8676738B2 (en) | 2008-09-03 | 2014-03-18 | Nec Corporation | Relationship detector, relationship detection method, and recording medium |
| JP5472110B2 (en) * | 2008-09-03 | 2014-04-16 | 日本電気株式会社 | Relationship discovery device, relationship discovery method, and relationship discovery program |
| JP2015075982A (en) * | 2013-10-10 | 2015-04-20 | 富士ゼロックス株式会社 | Difference extraction system and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7496581B2 (en) | Information search system, information search method, HTML document structure analyzing method, and program product | |
| US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
| US20080168049A1 (en) | Automatic acquisition of a parallel corpus from a network | |
| KR100485321B1 (en) | A method of managing web sites registered in search engine and a system thereof | |
| JP5629976B2 (en) | Patent specification evaluation / creation work support apparatus, method and program | |
| JP2005174336A (en) | Learning and use of generalized string pattern for information extraction | |
| JP2008511075A5 (en) | ||
| WO2017000659A1 (en) | Enriched uniform resource locator (url) identification method and apparatus | |
| JP2005242454A (en) | Document information retrieval apparatus, document information retrieval method and program thereof | |
| JP2001265774A (en) | Information retrieval method and apparatus, recording medium recording information retrieval program, and hypertext information retrieval system | |
| JP3614765B2 (en) | Concept dictionary expansion device | |
| JP4934115B2 (en) | Keyword extraction apparatus, method and program | |
| JP5285491B2 (en) | Information retrieval system, method and program, index creation system, method and program, | |
| JP2009271796A (en) | Noise removal system for document data | |
| JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
| JP3851712B2 (en) | Document management system and computer-readable recording medium storing a program for causing a computer to function as the system | |
| JP4574186B2 (en) | Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device | |
| JP5389683B2 (en) | Important keyword extraction apparatus, method and program | |
| JPH1145255A (en) | Document retrieval apparatus and computer-readable recording medium recording a program for causing a computer to function as the apparatus | |
| JP2009271797A (en) | Noise removing system for document data | |
| CN111339243A (en) | Method and device for denoising and checking retrieval data based on competitive product information | |
| JP4959621B2 (en) | Keyword extraction system | |
| JP4128209B2 (en) | Keyword extraction system | |
| JP2001155017A (en) | Tagged document creation device and recording medium recording the program | |
| JP3725373B2 (en) | WORD IMPORTANCE CALCULATION DEVICE, DOCUMENT SEARCH DEVICE, COMPUTER-READABLE RECORDING MEDIUM CONTAINING WORD IMPORTANCE CALCULATION PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING DOCUMENT SEARCH PROGRAM |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070501 |