JP2006031577A - Information retrieval overlooking method and device - Google Patents
Information retrieval overlooking method and device Download PDFInfo
- Publication number
- JP2006031577A JP2006031577A JP2004212475A JP2004212475A JP2006031577A JP 2006031577 A JP2006031577 A JP 2006031577A JP 2004212475 A JP2004212475 A JP 2004212475A JP 2004212475 A JP2004212475 A JP 2004212475A JP 2006031577 A JP2006031577 A JP 2006031577A
- Authority
- JP
- Japan
- Prior art keywords
- information
- search
- relevance
- question
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ある蓄積された情報に対して、ユーザにより指定するキーワードに関連する情報の検索と検索された情報の相互の関連性により整理を行い、その結果をユーザに提示する情報の検索俯瞰方式および装置に関する。 The present invention organizes the stored information by searching for information related to the keyword specified by the user and the relevance of the searched information, and provides a search overview of the information presented to the user. It relates to a method and a device.
ある情報を計算機により検索する場合、計算機上に蓄積された情報に対し、指定された質問文にマッチする情報を探しだし、質問文とのマッチングの度合い(スコア)をVSM(Vector Space Model)方式や、k―近傍等の統計確率を基にした方式により計算し、計算されたスコア順に並べてリスト化して表示するのが一般的であった。
また、例えば、検索サイトヤフーで提供されているような、カテゴリ検索におけるカテゴリ内の情報を利用し、検索された情報をその属するカテゴリ内の情報に基づき表示(リスト表示)あるいはグラフィカルに表示する検索方式は提案されているが、基本的には、あらかじめ決められた静的なカテゴリ内の情報を利用するため、ユーザの要求や視点に対して十分な対応ができないという問題があった。
In addition, for example, a search that uses information in a category in a category search such as that provided by a search site Yahoo, and displays (list display) or graphically displays the searched information based on information in the category to which it belongs. Although a method has been proposed, basically, since information in a predetermined static category is used, there is a problem that it is not possible to sufficiently respond to user requests and viewpoints.
近年のインターネットやIT技術の発展に伴い、文献やデータベース等のアクセス可能な知識資源の生成サイクルが短縮化されており、蓄積される情報の量も爆発的に増加しつつある。しかし、それら情報の膨大さと、新たな情報が日々追加されるリアルタイム性により、意図する情報を見つけだすことが非常に困難となっている状況において、有用な情報を容易に獲得するための技術の一つとして情報の自動分類技術が重要視されている。
例えば、ハイパーリンクによる情報の関連性の定義と、その関連に基づいた分類や、あらかじめ分類されたカテゴリ情報により情報を分類し、提示する方式がある。しかし、上述の情報のリアルタイム性や、ユーザの視点の違いにより、必ずしも静的な分類が情報の獲得に有効だと言えないのが現状である。
これに対し、新たな情報に対しても動的に適切な自動分類を行う方式、つまり情報を自動的に整理し、ユーザの要求に応じてJust―In―Timeに提示できる方式が望ましいと考えられる。
With the recent development of the Internet and IT technology, the generation cycle of accessible knowledge resources such as documents and databases has been shortened, and the amount of information to be accumulated is increasing explosively. However, in the situation where it is very difficult to find the intended information due to the enormous amount of information and the real-time nature that new information is added every day, it is one of the technologies to easily acquire useful information. In particular, automatic information classification technology is regarded as important.
For example, there is a method of classifying and presenting information based on definition of information relevance by hyperlinks, classification based on the relation, and category information classified in advance. However, the current situation is that static classification is not necessarily effective in acquiring information due to the above-described real-time nature of information and the difference in viewpoints of users.
On the other hand, it is desirable to adopt a method that dynamically and appropriately classifies new information, that is, a method that automatically organizes information and presents it to Just-In-Time according to user requests. It is done.
本発明は以上のような従来の欠点に鑑み、検索対象に対して、あるキーワードとの関連性のみならず、その検索された情報間の関連性を動的かつリアルタイムに計算し、情報を整理した上で新たなカテゴリを自動的に生成しユーザに提示する情報の検索俯瞰方法および装置を提供することを目的とする。
さらに、従来の検索システムでは、質問文とマッチングの度合いにより計算されたスコアを基に、一番スコアのよいものより内容を確認することが一般的であるため、例えば意図するものがリストの最後にあったような場合などはそこにたどり着くのは非常に労力を要するものであった。それに対し、本発明では、質問文とのマッチングの度合いに関係なく、検索された対象間の関連性により内容の確認を行うことが支援されるため、より効率的に意図する対象に到達する可能性が高まる情報の検索俯瞰方法および装置を提供することを目的とする。
In view of the above-described conventional drawbacks, the present invention dynamically and in real time calculates not only the relevance with a certain keyword but also the relevance between the retrieved information, and organizes the information. It is another object of the present invention to provide a method and apparatus for searching and searching for information to be automatically generated and presented to a user after a new category is automatically created.
Furthermore, in conventional search systems, it is common to check the content from the one with the best score based on the score calculated by the question sentence and the degree of matching. It was very labor intensive to get there. On the other hand, in the present invention, it is possible to reach the intended target more efficiently because confirmation of the content is supported by the relationship between the retrieved objects regardless of the degree of matching with the question sentence. It is an object of the present invention to provide an information search method and apparatus for enhancing information.
本発明の前記ならびにそのほかの目的と新規な特徴は次の説明を添付図面と照らし合わせて読むと、より完全に明らかになるであろう。
ただし、図面はもっぱら解説のためのものであって、本発明の技術的範囲を限定するものではない。
The above and other objects and novel features of the present invention will become more fully apparent when the following description is read in conjunction with the accompanying drawings.
However, the drawings are for explanation only and do not limit the technical scope of the present invention.
上記目的を達成するために、本発明は、検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとで情報の検索俯瞰方法を構成している。 In order to achieve the above object, the present invention is a search overhead method for information to be searched on a computer by organizing information to be searched, and extracts text information from the information to be searched and performs indexing. Search for information that matches the given search question in response to the input of the step and the search question from the user, calculate the degree of matching with the search question, and reflect the relevance between the information and the degree of matching The information search and bird's-eye view method is configured by the steps of arranging and visualizing and displaying the bird's-eye view at predetermined positions.
また、本発明は、検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類エンジンにより計算された情報間の関連性やマッチングの度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とで情報検索俯瞰装置を構成している。 In addition, the present invention is a program for organizing information to be searched on a computer and executing a process for searching for information to be overlooked, such as PDF, Word, HTML, XML, CSV, etc. Term extraction means that automatically extracts the terms contained in the information, term classification means that calculates and classifies the relevance of the extracted terms, and information on the classified information. Relevance extraction means for classifying by detecting the feature amount and calculating the relevance of information based on the feature amount, and for the search question given via the input device in response to the input of the search question from the user Information classification means for searching for matching information and organizing the degree of matching with the search question, the relationship between the output search information and the information calculated by the classification engine and match The degree visualized by reflecting the constitute information retrieval overhead apparatus and visualization means for the processing of the bird's eye view.
以下の説明から明らかなように、本発明にあっては次に列挙する効果が得られる。 As will be apparent from the following description, the present invention has the following effects.
(1)検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備えているので、情報検索の結果を、リストのみによらず、整理された形で俯瞰することができるので、膨大な検索対象や検索結果に対しても効率的に意図する情報を獲得することができる。 (1) A search overhead method for organizing information to be searched on a computer and overlooking the information, extracting text information from the information to be searched, performing indexing, and a search question from a user Searches for information that matches the search query given to the input, calculates the degree of matching with the search question, places it in a predetermined position and visualizes it, reflecting the relevance between the information and the degree of matching And a step for performing a bird's-eye view display process, so that the information search results can be viewed in an organized manner, not just in the list, so it is efficient even for a large number of search targets and search results You can get the information you intended.
(2)前記(1)によって、複数の種類の情報を検索対象とし、複数の種類の情報間の関連性を縦断的に抽出し、俯瞰化を行うことで、情報の時間軸上の繋がりや、情報の階層的繋がりをより明確に表現することができるので、情報の前後や上下の繋がりを知ることで、効率的に情報を理解することができる。 (2) By the above (1), a plurality of types of information are targeted for retrieval, the relevance between the plurality of types of information is extracted longitudinally, and a bird's-eye view is obtained, thereby connecting information on the time axis. Since the hierarchical connection of information can be expressed more clearly, it is possible to efficiently understand information by knowing the connection before and after the information and the upper and lower connections.
(3)請求項2〜7も前記(1)および(2)と同様の効果が得られる。 (3) In the second to seventh aspects, the same effects as in the above (1) and (2) can be obtained.
(4)請求項8も検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類手段により計算された情報間の関連性やマッチングの度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とからなるので、前記(1)および(2)と同様の効果が得られる。
(4)
(5)請求項9〜11も前記(1)および(2)と同様の効果が得られる。 (5) In the ninth to eleventh aspects, the same effect as the above (1) and (2) can be obtained.
以下、図面に示す実施するための最良の形態により、本発明を詳細に説明する。 Hereinafter, the present invention will be described in detail with reference to the best mode for carrying out the invention shown in the drawings.
図1ないし図18に示す本発明の第1の実施するための最良の第1の形態において、図1は、本発明の情報の検索俯瞰方法を実施するための情報端末機1の一構成例を示すブロック図で、この情報端末機1は、データを入力するための入力装置2と、入力されたデータを処理する中央処理装置(CPU)3と、入力されたデータがそのまま、あるいは中央処理装置3により処理された後に格納されるメモリ4と、前記中央処理装置3が処理したデータが出力される出力装置5とを備えている。前記情報端末機1は、従来と同様の構成のものを使用しているが、さらに効率のよい入力装置2、CPU3、メモリ4、出力装置5等を任意に使用することができる。
前記中央処理装置3は、前記入力装置2を介して入力された初期データをそのままメモリに記憶させる。
次に、前記メモリ4に記憶されたデータを検索するような指令が前記入力装置2を介して入力された場合、前記中央処理装置3は、その指令に従ってデータを検索した後、検索されたデータを処理し、出力装置5で出力する。
In the first preferred embodiment for carrying out the first embodiment of the present invention shown in FIGS. 1 to 18, FIG. 1 shows an example of the configuration of an information terminal 1 for carrying out the information search overhead method of the present invention. The information terminal 1 includes an
The central processing unit 3 stores the initial data input via the
Next, when a command for searching for data stored in the memory 4 is input via the
前記情報端末機1を用いて処理される、本発明の情報の検索俯瞰方法の一例を説明する。図1は本システムをアクティベートする、あるいは処理する情報端末機の基本構成を示す図で、図2は本システムの構成の概念図である。本実施例の情報の検索俯瞰方法では、一般的に使用されているPDF、Word、HTML、XML、CSV等の形式を含むテキスト情報を対象として、意図する知識の検索と、図3に示すような知識の構造化を行うことを目的とし、情報の検索、及び整理を行うための事前の情報抽出とインデクシング処理機能、および情報検索と情報の整理(情報の関連性計算と視覚化)処理機能の2系統の処理により構成される。図4および図5は、それぞれ情報抽出とインデクシング処理機能および情報の整理処理機能の概略的な流れを示すフロー図である。 An example of the information search method of the present invention processed using the information terminal 1 will be described. FIG. 1 is a diagram showing a basic configuration of an information terminal that activates or processes the system, and FIG. 2 is a conceptual diagram of the configuration of the system. In the information search overview method according to the present embodiment, search of intended knowledge is performed on text information including formats such as PDF, Word, HTML, XML, and CSV, which are generally used, and as shown in FIG. Information extraction and indexing function for information retrieval and organization, and information retrieval and information organization (information relevance calculation and visualization) processing function for the purpose of structuring knowledge It consists of two processes. FIG. 4 and FIG. 5 are flowcharts showing a schematic flow of the information extraction and indexing processing function and the information organization processing function, respectively.
ここで、本発明の情報の検索俯瞰方法の処理ステップを図6、図8および図10を参照して説明する。
図6に示すように、検索対象の情報を前記情報端末機1上において整理し、視覚化して俯瞰状態で表示する情報の検索俯瞰方法であって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を用語抽出エンジン6を介して自動抽出する用語抽出ステップ7と、この抽出ステップ7で抽出された用語の相互の関連性を用語分類エンジン8を介して計算し、分類する用語分類ステップ9と、この分類ステップ9で分類された用語の情報を用い対象とする情報の特徴量を検出し、その特徴量を基に関連性抽出エンジン10を介して情報の関連性を計算する分類する関連性抽出ステップ11と、ユーザ(情報の検索者)に検索質問の入力を促し、入力された検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを情報分類エンジン12を介して分類、整理する情報分類ステップ13と、このステップ13で整理された検索情報と、前記関連性抽出ステップ11により処理された情報間の関連性やマッチングの度合いを反映させて視覚化エンジン14を介して、前記情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマーク15、本実施例ではラインを設けて整理し、視覚化して俯瞰表示の処理をする視覚化ステップ16とを備えている。
なお、本実施例では、検索対象の情報は、一般的なデータベースに蓄積される情報を指し、特に限定はしていないが、本発明の情報の検索俯瞰方法を使用する場所や環境に応じて、例えば大学や教育現場等で利用する場合には、前記情報は、特許、論文等の内容とそれらの意味的類似性による関連性が認識される情報が含まれる。
Here, the processing steps of the information search overhead method of the present invention will be described with reference to FIG. 6, FIG. 8, and FIG.
As shown in FIG. 6, a search overhead method of information that organizes information to be searched on the information terminal 1, visualizes and displays the information in a bird's-eye view state, such as PDF, Word, HTML, XML, CSV, etc. A term extraction step 7 for automatically extracting the terms contained in the text information to be searched through the
In this embodiment, the information to be searched refers to information stored in a general database, and is not particularly limited. However, depending on the place or environment in which the information search method of the present invention is used. For example, when used in universities, educational sites, etc., the information includes information for recognizing the relevance of the contents of patents, papers, etc. and their semantic similarity.
前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11、情報分類ステップ13および視覚化ステップ16は、基本的に情報の管理上、二系統の処理に分割することができる。
まず、図7および図8に示す処理においては、まず情報ソースよりテキスト情報を抽出し、抽出されたテキストからオントロジー情報を抽出する処理と、テキスト情報に対してインデクシング(索引を付与する)を行う処理に分かれる。すなわち前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11である。そして、それぞれの処理結果を、それぞれオントロジー情報はオントロジーデータベース17へ、およびインデクシング情報は索引データベース18に格納する。
また、図9および図10に示す処理においては、ユーザ(情報の検索者)から情報端末機を介して入力されるキーワードや文章等の検索質問を、外部の検索エンジンを介する情報検索処理により、前記索引データベース18に格納された索引情報を利用し関連する情報を検索する。さらに、検索された情報に対し、前記オントロジーデータ17に格納されたベースオントロジー情報を参照することで、各情報に含まれるオントロジー情報と用語関連の関連度を示すオントロジー情報を利用し、情報間の関連性の計算を行い、その結果を基に画面上に視覚化を行う。すなわち、前記情報分類ステップ13および視覚化ステップ16である。
ここで、「オントロジー」(Ontology)とは、語彙と語彙の関係等の概念の体系を表し、例えば、「歯科医」と「歯医者」は同義語であるとか、「歯科医」は「医者」の下位概念である等の論理的関係、および「歯科医」は「歯」を治療する等の要素的関係等を定義する。
また、「俯瞰化」とは、情報及びその構造を上位の視点から観察し、理解を促進することを指す。
The term extraction step 7, term classification step 9,
7 and 8, first, text information is extracted from an information source, ontology information is extracted from the extracted text, and indexing (indexing) is performed on the text information. Divided into processing. That is, the term extraction step 7, the term classification step 9, and the
Further, in the processing shown in FIG. 9 and FIG. 10, search queries such as keywords and sentences input from a user (information searcher) via an information terminal are performed by information search processing via an external search engine. The index information stored in the
Here, “Ontology” represents a system of concepts such as the relationship between vocabulary and vocabulary. For example, “dentist” and “dentist” are synonyms, or “dentist” is “doctor”. A logical relationship such as a subordinate concept of “,” and “dentist” defines an elemental relationship such as treating “tooth”.
“Overview” refers to observing information and its structure from a higher-level viewpoint and promoting understanding.
以下、各処理エンジンでの処理作業の概要を説明する。
前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11で使用するエンジンは、図8に示すような前記用語抽出エンジン6、用語分類エンジン8、関連性抽出エンジン10より構成され、これらをオントロジー抽出エンジンと呼ぶことができる。
Hereinafter, an outline of processing work in each processing engine will be described.
The engine used in the term extraction step 7, the term classification step 9, and the
前記用語抽出エンジン6は、まずPDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から抽出されるテキストを、例えばC/NC−value手法により、テキストに含まれる用語を自動抽出する。
なお、前記用語抽出エンジン6は、現状の膨大な情報と、それらが日々更新されるリアルタイム性により、用語に関する命名規則を100%規制することが不可能であろう現状では、ターミノロジーの知見を利用し、自動処理を介した知識獲得の効率化を行うことは必然である。さらには、用語自体の定義があいまいな(用語と非用語の区別が難しい)状況では、一定の指標による自動用語認識を介在した処理を行うことは、尚更、重要な意味を持つ。
本発明を構成するシステムにおいても、用語抽出エンジン6として「C/NC−value」の用語認識技術を基にした用語の自動認識を利用する。「C−value」とは、用語構成に関する基本語彙の組み合わせパターンと用語の対象ドメインにおける出現頻度、さらには、用語のネスティングに関する性質に注目し、スコア付けを行うことで用語の高精度な自動認識を行う。また、NC−valueでは、候補となる用語の実際の文書上でのコンテキスト中にある語彙とのコロケーションの情報を用いて、用語としての確からしさ(termhood)の指標を求め、求まった指標を基に候補となる用語の再順序付けを行う。我々の行った実験では、本方法により、英語および日本語に関しても、ドメインによらず、上位の候補では90%以上の正解率を得られることが示されている。本エンジンのこのような対象ドメインや対象言語への非依存性は、本システムを複数の言語や複数の分野の情報を対象とした情報の整理、俯瞰を行うための、重要な特徴となる。
なお、用語候補として、形態素解析の結果に対し、その頻度の高いものから最良の数、もしくは最良の頻度以上の形態素を用いることで同様の情報の関連性の計算を行うことも可能である。
The
It should be noted that the
Also in the system constituting the present invention, automatic term recognition based on the term recognition technology of “C / NC-value” is used as the
Note that it is also possible to calculate the relevance of similar information by using the morpheme having the highest frequency or the highest frequency or higher morphemes as the vocabulary candidates for the morpheme analysis results.
前記用語分類エンジン8においては、用語抽出の結果と文脈抽出処理によりテキストから抽出した文脈の情報を利用し、平均相互情報量を含む用語間の類似性計算処理を用いることで用語の自動分類を行う。
図11に示すように、用語自体の命名規則が不明瞭である状況においては、語彙結合のためのハイフンの使用法や、”leukemia”と”leukaemia”のような綴り方(orthographic)のゆれ、”NF-kappa B”、”NF-kB”等の省略法(acronym)のゆれ、さらには”human clones”と”clones of humans”のような統語的(syntactic)なゆれ、等の用語のバリエーションに関する様々な問題が生じる。このような問題に対し、C−valueのような用語の対象ドメインにおける相対的頻度を基本的スコアとして利用した手法では、本質的な解決を行うことは難しい。さらには、知識統合のためには、”eye surgery”と”ophthalmological surgery”のように、意味的には同義である関係に対しても、同一クラスの用語として自動で認識できることが望ましい。つまり、用語の認識と統合には、図11に示すように、複数のプロセスによる用語クラスの自動認識技術が不可欠となる。
本発明では、orthographic、morphological、syntacticさらにacronymに関する用語バリエーションの認識手法を構築し、用語抽出処理に組み込む。さらに、意味的バリエーションに関しては、コンテキスト語彙との共起確率を基に得られる統計的類似度として、平均相互情報量を用いた用語分類手法を利用する。
なお、用語の分類手法として、分類対象である用語のテキストにおける文脈の情報のみではなく、用語と動詞との関係や、共起する用語との関係等を利用し、ベクタースペースモデル等を利用した他の類似性の計算手法や、サポートベクターマシンや、決定木等の機械学習による分類手法を利用することでも同様の用語分類を行うことは可能である。
The
As shown in FIG. 11, in situations where the naming convention of the term itself is unclear, the usage of hyphens for lexical conjugation and the orthographic fluctuations such as “leukemia” and “leukaemia” Variations in terms such as “NF-kappa B”, “NF-kB” acronym swings, and syntactical swings such as “human clones” and “clones of humans” Various problems arise. In order to solve such a problem, it is difficult to perform an essential solution by a method using the relative frequency of terms such as C-value in the target domain as a basic score. Furthermore, for knowledge integration, it is desirable that terms that are synonymous in meaning, such as “eye surgery” and “ophthalmological surgery”, can be automatically recognized as terms in the same class. That is, for recognition and integration of terms, automatic term class recognition technology based on a plurality of processes is indispensable as shown in FIG.
In the present invention, a technique for recognizing term variations relating to orthographic, morphological, syntactic and acronym is constructed and incorporated into the term extraction process. Further, for semantic variations, a term classification method using average mutual information is used as the statistical similarity obtained based on the co-occurrence probability with the context vocabulary.
In addition, as a method of classifying terms, not only the context information in the text of the term to be classified, but also the relationship between terms and verbs, the relationship with co-occurring terms, etc., and the vector space model etc. were used Similar term classification can be performed by using another similarity calculation method, a support vector machine, or a classification method based on machine learning such as a decision tree.
前記用語抽出エンジン6では、図9に示すように、テキスト情報を対象に、語彙辞書、およびオントロジー情報を利用することで形態素解析を行い、その結果に対して語構成ルールを基に用語候補を抽出する。さらに得られた用語候補に対して頻度分析を含む用語スコアの計算処理を行い。指定のスコア以上の用語候補を用語リストとして出力する。
As shown in FIG. 9, the
図12はー抽出処理により抽出されたオントロジー情報を基に、情報間の関連性を抽出する処理のフローを示したものである。情報の関連性抽出エンジン10は、前記用語抽出エンジン6と用語分類エンジン8により抽出された用語とその関連性の情報を用いて、用語間の意味的関連性を定量的に計算するためのエンジンで、情報を特徴付ける情報としの用語間の意味的関連性を計算することで、情報間の意味的関連性の計算を行う。
FIG. 12 shows a flow of processing for extracting the relationship between information based on ontology information extracted by the extraction processing. The information
前記視覚化エンジン14は、前記関連性抽出エンジン10による情報間の意味的関連性を、対象とする情報間の組み合わせのすべてに対して計算することで、情報間の意味的関連を計算する。さらに、画面へ情報の関連性を描画に際し、各情報をノードNに割り当て、意味的関連性が大きいほど、ノード間の物理的距離を短くし、またノード間のリンクの太さ、すなわち前記関連付けマーク15を太くし、すべての対象とする情報を画面上の任意個所に最適配置することで、情報間の関連性を視覚化することができる。
ここで、「ノード」とは、一般的には、パソコンなどの装置を接続するネットワーク(LAN)上の接合点や、インターネット上の中継点、また、そこに設置されるコンピュータのことであり、いくつもの構成要素が相互に接続されている状態を構成する個々の要素、すなわち意味的関連性を有する各情報をノードと呼ぶ。
The
Here, the “node” is generally a junction point on a network (LAN) connecting devices such as a personal computer, a relay point on the Internet, or a computer installed there. Individual elements constituting a state in which several components are connected to each other, that is, each piece of information having a semantic relationship is called a node.
以下、本実施例の具体例として、本実施例に係る装置を論文や特許等の情報の検索俯瞰システムに応用した例を説明する。本システムは本発明を用いて実現されるものである。図13は、本発明の情報の検索俯瞰システムの処理フローの概略図を示している。
上述の実施例に係る情報端末機1を構成する中央処理装置3の動作は、コンピュータが読み取り可能な言語で記述されたコンピュータプログラムによっても実行可能である。
コンピュータプログラムにより中央処理装置3を動作させる場合には、例えば、中央処理装置3にプログラム記憶用のメモリを設け、そのメモリにコンピュータプログラムを格納する。中央処理装置はメモリからそのコンピュータプログラムを読み出すことにより、そのコンピュータプログラムに従って、上述のような動作を実行する。
さらには、そのようなコンピュータプログラムを格納した記憶媒体を情報端末機にセットすることにより、中央処理装置がその記憶媒体からそのコンピュータプログラムを読み出し、そのコンピュータプログラムに従って、上述のような動作を実行するようにすることも可能である。
Hereinafter, as a specific example of the present embodiment, an example in which the apparatus according to the present embodiment is applied to a system for searching and searching for information such as papers and patents will be described. This system is realized by using the present invention. FIG. 13 shows a schematic diagram of the processing flow of the information search overhead system of the present invention.
The operation of the central processing unit 3 constituting the information terminal 1 according to the above-described embodiment can also be executed by a computer program described in a computer-readable language.
When the central processing unit 3 is operated by a computer program, for example, a memory for storing a program is provided in the central processing unit 3, and the computer program is stored in the memory. The central processing unit reads the computer program from the memory, and executes the operation as described above according to the computer program.
Further, by setting a storage medium storing such a computer program in the information terminal, the central processing unit reads the computer program from the storage medium, and executes the operation as described above according to the computer program. It is also possible to do so.
次に、前記情報分類ステップ13で整理された検索情報と、前記関連性抽出ステップ11により処理された情報間の関連性やマッチングの度合いを反映させて前記視覚化エンジン14を用いて前記情報を整理して視覚化し、俯瞰表示の処理をする視覚化ステップ16においては、図14に示すような、情報の関連性を視覚化されたマッピングを表示することができる。
例えば、検索情報として「カーボンナノチューブ」を検索すると、関連性のあるテキスト情報が、まるで地図のようにウインド内に表示され、情報間の関連性が強ければ強いほど、太く、濃く関連付けマーク15で結ばれる。
また、図15に示すような処理をすることにより、図16に示すような情報の関連性を、本実施例では「カテゴリA」、「カテゴリB」、「カテゴリC」のカテゴリ別に表示することもできる。
Next, the
For example, when searching for “carbon nanotube” as the search information, the related text information is displayed in the window like a map, and the stronger the relationship between the information, the thicker and darker the
In addition, by performing processing as shown in FIG. 15, the relevance of information as shown in FIG. 16 is displayed for each category of “Category A”, “Category B”, and “Category C” in this embodiment. You can also.
なお、本実施例では、論文や特許等の情報検索俯瞰システムに応用した例を説明したが、本発明はこれに限らず、例えば図17および図18に示すように、知識ソースとして既存のデータベースを取り込む形で支援システムを組織することにより、例えば小学校や中学校等のクローズドネットワーク内で活用することもできる。
{発明を実施するための異なる形態}
In the present embodiment, an example of application to an information retrieval overview system for papers and patents has been described. However, the present invention is not limited to this, and for example, as shown in FIGS. 17 and 18, an existing database is used as a knowledge source. By organizing the support system in such a way that it is incorporated, it can also be utilized in a closed network such as an elementary school or a junior high school.
{Different forms for carrying out the invention}
次に、図19ないし図23に示す本発明を実施するための異なる形態につき説明する。なお、これらの本発明を実施するための異なる形態の説明に当って、前記本発明を実施するための最良の第1の形態と同一構成部分には同一符号を付して重複する説明を省略する。 Next, different modes for carrying out the present invention shown in FIGS. 19 to 23 will be described. In the description of these different modes for carrying out the present invention, the same components as those in the best mode for carrying out the present invention are designated by the same reference numerals and redundant description is omitted. To do.
図19および図20に示す本発明を実施するための第2の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、整理された情報に対して、リアルタイムで関連性の再計算を行うとともに、計算結果を視覚化に反映することで、just-in-timeに情報を俯瞰することができる視覚化エンジン14Aを用いた点で、このように構成された視覚化ステップ16Aを用いることにより、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られる。
The second embodiment for carrying out the present invention shown in FIG. 19 and FIG. 20 is mainly different from the first embodiment for carrying out the present invention in that real-time information is arranged in real time. In this way, re-calculation of relevance is performed, and the
図21および図22に示す本発明を実施するための第3の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、前記用語抽出エンジン6を介して、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から抽出されるテキストに含まれる用語を自動抽出する用語抽出ステップ7と同時、あるいはその処理後に、抽出された用語を多言語翻訳エンジン19を介して、複数の言語に翻訳し、多言語データベース20に蓄積する多言語翻訳ステップ21を用いた点で、このように構成された情報の検索俯瞰方法にすることにより、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られるとともに、異なる複数の言語テキストの選択に躊躇することなく本発明の俯瞰方法を使用することができるとともに、情報間の関連性も、より緊密なものにすることができる。
The third mode for carrying out the present invention shown in FIGS. 21 and 22 is mainly different from the first mode for carrying out the present invention through the
図23に示す本発明を実施するための第4の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、検索対象の情報を情報端末機1上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、前記用語抽出エンジン6、用語分類エンジン8、関連性抽出エンジン10、情報分類エンジン12、視覚化エンジン14とを備えるプログラムを記憶したコンピュータ読み取り可能な記憶媒体22を用いた点で、このように構成しても、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られるとともに、前記情報端未機1において使用しても、各種のコマンドを含むプログラムとして実現することができる。
本実施例において、「記憶媒体」の語は、データを記録することができるあらゆる媒体を含み、例えば前記記憶媒体としては、CD−ROMやPDなどのディスク型の記憶媒体、磁気テープ、MO、DVD−ROM、DVD−RAM、フレキシブルディスク、RAMやROM等のメモリーチップ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、スマートメディア(登録商標)、フラッシュメモリー、コンパクトフラッシュ(登録商標)などの書き換え可能なカード型ROM、ハードディスクがあり、その他プログラムの格納に適していれば、いかなる手段も用いることができる。
前記記憶媒体22は、コンピュータが読み取り可能なプログラム用言語を用いて上述のマイクロコンピュータの各機能をプログラミングし、そのプログラムをプログラムの記録が可能な上記の記憶媒体に記録することにより、作成することができる。また、記憶媒体として、サーバに備え付けられたハードディスクを用いることも可能である。
また、本実施例の前記記憶媒体22は、ネットワークを介して、格納されるコンピュータプログラムを他のコンピュータにより読み取ることによっても、作成や使用することができる。
なお、情報端末機としてのコンピュータは、パーソナルコンピュータ、デスクトップ型コンピュータ、ノート式コンピュータ、モバイルコンピュータ、ラップトップ式コンピュータ、ポケットコンピュータ、サーバーコンピュータ、クライアントコンピュータ、ワークステーション、ホストコンピュータ等を用いることができる。
The fourth mode for carrying out the present invention shown in FIG. 23 is mainly different from the best mode for carrying out the present invention in that information to be searched is organized on the information terminal 1. And a program for executing a process for performing a bird's-eye view of information to be looked down, comprising the
In this embodiment, the term “storage medium” includes any medium that can record data. For example, the storage medium includes a disk-type storage medium such as a CD-ROM or PD, a magnetic tape, an MO, DVD-ROM, DVD-RAM, flexible disk, memory chips such as RAM and ROM, EPROM (Erasable Programmable Read Only Memory), EEPROM (Electrically Erasable Programmable Read Only Memory), smart memory (registered trademark), flash memory There are rewritable card-type ROMs such as (registered trademark) and hard disks, and any other means can be used as long as they are suitable for storing programs. Can.
The storage medium 22 is created by programming each function of the microcomputer described above using a computer-readable program language and recording the program in the storage medium capable of recording the program. Can do. Further, a hard disk provided in the server can be used as the storage medium.
The storage medium 22 of this embodiment can also be created and used by reading a stored computer program with another computer via a network.
As a computer as an information terminal, a personal computer, a desktop computer, a notebook computer, a mobile computer, a laptop computer, a pocket computer, a server computer, a client computer, a workstation, a host computer, or the like can be used.
なお、前記本発明の異なる実施の形態では主に第1の実施の形態を基にして説明したが、本発明はこれに限らず、各実施の形態に使用された構成を組み合わせて使用しても同様な作用効果が得られる。 Although the different embodiments of the present invention have been described mainly based on the first embodiment, the present invention is not limited to this, and the configurations used in the embodiments are used in combination. The same effect can be obtained.
本発明は、情報を検索俯瞰方法および装置を利用、開発、製造等する産業、業界等で利用される。 INDUSTRIAL APPLICABILITY The present invention is used in industries, industries, and the like that use, develop, and manufacture information retrieval methods and apparatuses.
1:情報端末機、 2:入力装置、
3:中央処理装置、 4:メモリ、
5:出力装置、 6:用語抽出エンジン、
7:用語抽出ステップ、 8:用語分類エンジン、
9:用語分類ステップ、 10:関連性抽出エンジン、
11:関連性抽出ステップ、 12:情報分類エンジン、
13:情報分類ステップ、 14、14A:視覚化エンジン、
15:関連付けマーク、 16、16A:視覚化ステップ、
17:オントロジーデータベース、 18:索引データベース、
19:多言語翻訳エンジン、 20:多言語データベース、
21:多言語翻訳ステップ、 22:記憶媒体、
N:ノード、 W:ウインド。
1: information terminal, 2: input device,
3: Central processing unit, 4: Memory,
5: Output device, 6: Term extraction engine,
7: Term extraction step, 8: Term classification engine,
9: Term classification step, 10: Relevance extraction engine,
11: Relevance extraction step, 12: Information classification engine,
13: Information classification step, 14, 14A: Visualization engine,
15:
17: Ontology database, 18: Index database,
19: Multilingual translation engine, 20: Multilingual database,
21: Multilingual translation step 22: Storage medium
N: node, W: window.
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004212475A JP2006031577A (en) | 2004-07-21 | 2004-07-21 | Information retrieval overlooking method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004212475A JP2006031577A (en) | 2004-07-21 | 2004-07-21 | Information retrieval overlooking method and device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006031577A true JP2006031577A (en) | 2006-02-02 |
Family
ID=35897815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004212475A Pending JP2006031577A (en) | 2004-07-21 | 2004-07-21 | Information retrieval overlooking method and device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006031577A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008234513A (en) * | 2007-03-23 | 2008-10-02 | Nippon Telegr & Teleph Corp <Ntt> | Ontology database update method and ontology database update system |
US8244773B2 (en) | 2007-05-08 | 2012-08-14 | Fujitsu Limited | Keyword output apparatus and method |
US8316026B2 (en) | 2007-01-18 | 2012-11-20 | Fujitsu Limited | Method and system for keyword management |
WO2014189056A1 (en) | 2013-05-21 | 2014-11-27 | 株式会社 東芝 | Data processing device and method |
JP2024006157A (en) * | 2022-07-01 | 2024-01-17 | トヨタ自動車株式会社 | Information display system |
CN119669545A (en) * | 2024-09-26 | 2025-03-21 | 合肥大智慧财汇数据科技有限公司 | Webpage information extraction method and system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09311866A (en) * | 1996-05-23 | 1997-12-02 | Fuji Xerox Co Ltd | Data base device |
JPH1074210A (en) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | Document search support method and apparatus and document search service using the same |
JP2001513242A (en) * | 1997-02-18 | 2001-08-28 | セミオ コーポレイション | Text processing and retrieval system and method |
JP2002215645A (en) * | 2001-01-23 | 2002-08-02 | Fuji Xerox Co Ltd | Document processing device |
JP2002297605A (en) * | 2001-03-30 | 2002-10-11 | Toshiba Corp | Method and device for structured document retrieval, and program |
JP2004013745A (en) * | 2002-06-10 | 2004-01-15 | Fuji Xerox Co Ltd | Device and method for extracting document dependence |
-
2004
- 2004-07-21 JP JP2004212475A patent/JP2006031577A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09311866A (en) * | 1996-05-23 | 1997-12-02 | Fuji Xerox Co Ltd | Data base device |
JPH1074210A (en) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | Document search support method and apparatus and document search service using the same |
JP2001513242A (en) * | 1997-02-18 | 2001-08-28 | セミオ コーポレイション | Text processing and retrieval system and method |
JP2002215645A (en) * | 2001-01-23 | 2002-08-02 | Fuji Xerox Co Ltd | Document processing device |
JP2002297605A (en) * | 2001-03-30 | 2002-10-11 | Toshiba Corp | Method and device for structured document retrieval, and program |
JP2004013745A (en) * | 2002-06-10 | 2004-01-15 | Fuji Xerox Co Ltd | Device and method for extracting document dependence |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8316026B2 (en) | 2007-01-18 | 2012-11-20 | Fujitsu Limited | Method and system for keyword management |
JP2008234513A (en) * | 2007-03-23 | 2008-10-02 | Nippon Telegr & Teleph Corp <Ntt> | Ontology database update method and ontology database update system |
US8244773B2 (en) | 2007-05-08 | 2012-08-14 | Fujitsu Limited | Keyword output apparatus and method |
WO2014189056A1 (en) | 2013-05-21 | 2014-11-27 | 株式会社 東芝 | Data processing device and method |
JP2024006157A (en) * | 2022-07-01 | 2024-01-17 | トヨタ自動車株式会社 | Information display system |
CN119669545A (en) * | 2024-09-26 | 2025-03-21 | 合肥大智慧财汇数据科技有限公司 | Webpage information extraction method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102158352B1 (en) | Providing method of key information in policy information document, Providing system of policy information, and computer program therefor | |
US12007939B1 (en) | Method and apparatus for determining search result demographics | |
US8214363B2 (en) | Recognizing domain specific entities in search queries | |
Eisa et al. | Existing plagiarism detection techniques: A systematic mapping of the scholarly literature | |
US20090070322A1 (en) | Browsing knowledge on the basis of semantic relations | |
CN102253930B (en) | A kind of method of text translation and device | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
JP2005526317A (en) | Method and system for automatically searching a concept hierarchy from a document corpus | |
Sardinha | An assessment of metaphor retrieval methods | |
US12271691B2 (en) | Linguistic analysis of seed documents and peer groups | |
Ren et al. | Automatic entity recognition and typing in massive text corpora | |
CN113656429A (en) | Keyword extraction method and device, computer equipment and storage medium | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
JP2006031577A (en) | Information retrieval overlooking method and device | |
Yasavur et al. | Sentiment Analysis Using Dependency Trees and Named-Entities. | |
WO2009035871A1 (en) | Browsing knowledge on the basis of semantic relations | |
Vintar et al. | Evaluating context features for medical relation mining | |
Rahimi et al. | Building a multi-domain comparable corpus using a learning to rank method | |
Garrido et al. | NEREA: Named entity recognition and disambiguation exploiting local document repositories | |
Mohemad et al. | Ontological-based information extraction of construction tender documents | |
EP4260203A1 (en) | Linguistic analysis of seed documents and peer groups | |
Kanavos et al. | Topic categorization of biomedical abstracts | |
Kahlawi | An ontology-driven DBpedia quality enhancement to support Entity Annotation for Arabic Text | |
Sati et al. | Arabic text question answering from an answer retrieval point of view: A survey | |
JP4148247B2 (en) | Vocabulary acquisition method and apparatus, program, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100521 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100622 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100922 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101001 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20101022 |