[go: up one dir, main page]

JP2006031577A - Information retrieval overlooking method and device - Google Patents

Information retrieval overlooking method and device Download PDF

Info

Publication number
JP2006031577A
JP2006031577A JP2004212475A JP2004212475A JP2006031577A JP 2006031577 A JP2006031577 A JP 2006031577A JP 2004212475 A JP2004212475 A JP 2004212475A JP 2004212475 A JP2004212475 A JP 2004212475A JP 2006031577 A JP2006031577 A JP 2006031577A
Authority
JP
Japan
Prior art keywords
information
search
relevance
question
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004212475A
Other languages
Japanese (ja)
Inventor
Hideki Mima
秀樹 美馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TREND KK
Seika Sangyo Co Ltd
Original Assignee
TREND KK
Seika Sangyo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TREND KK, Seika Sangyo Co Ltd filed Critical TREND KK
Priority to JP2004212475A priority Critical patent/JP2006031577A/en
Publication of JP2006031577A publication Critical patent/JP2006031577A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information retrieval overlooking method and a device for dynamically calculating not only relevance to a certain keyword but also relevance between pieces of retrieved information to a retrieval target in real time, and automatically generating a new category after organizing the information to exhibit it to a user, and allowing support that confirmation of contents is performed by the relevance between the retrieved targets regardless of a matching degree to a question sentence to strengthen possibility of more efficient arrival at the intended target. <P>SOLUTION: This retrieval overlooking method for the information organizing and overlooking the information about the retrieval target on a computer comprises: a step for extracting text information from the information that is the retrieval target, and indexing it; and a step for retrieving the information matching a retrieval question imparted to input of the retrieval question from the user, calculating the matching degree to the retrieval question, making the matching degree or the relevance between the pieces of information be reflected, arranging it to a prescribed position, performing visualization, and performing overlooking display processing. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、ある蓄積された情報に対して、ユーザにより指定するキーワードに関連する情報の検索と検索された情報の相互の関連性により整理を行い、その結果をユーザに提示する情報の検索俯瞰方式および装置に関する。   The present invention organizes the stored information by searching for information related to the keyword specified by the user and the relevance of the searched information, and provides a search overview of the information presented to the user. It relates to a method and a device.

ある情報を計算機により検索する場合、計算機上に蓄積された情報に対し、指定された質問文にマッチする情報を探しだし、質問文とのマッチングの度合い(スコア)をVSM(Vector Space Model)方式や、k―近傍等の統計確率を基にした方式により計算し、計算されたスコア順に並べてリスト化して表示するのが一般的であった。
また、例えば、検索サイトヤフーで提供されているような、カテゴリ検索におけるカテゴリ内の情報を利用し、検索された情報をその属するカテゴリ内の情報に基づき表示(リスト表示)あるいはグラフィカルに表示する検索方式は提案されているが、基本的には、あらかじめ決められた静的なカテゴリ内の情報を利用するため、ユーザの要求や視点に対して十分な対応ができないという問題があった。
特になし
When searching for certain information by a computer, the information stored on the computer is searched for information that matches the specified question text, and the degree of matching (score) with the question text is determined by the VSM (Vector Space Model) method. In general, the calculation is performed by a method based on statistical probabilities such as k-neighborhood, and the list is arranged and displayed in the order of the calculated score.
In addition, for example, a search that uses information in a category in a category search such as that provided by a search site Yahoo, and displays (list display) or graphically displays the searched information based on information in the category to which it belongs. Although a method has been proposed, basically, since information in a predetermined static category is used, there is a problem that it is not possible to sufficiently respond to user requests and viewpoints.
nothing special

近年のインターネットやIT技術の発展に伴い、文献やデータベース等のアクセス可能な知識資源の生成サイクルが短縮化されており、蓄積される情報の量も爆発的に増加しつつある。しかし、それら情報の膨大さと、新たな情報が日々追加されるリアルタイム性により、意図する情報を見つけだすことが非常に困難となっている状況において、有用な情報を容易に獲得するための技術の一つとして情報の自動分類技術が重要視されている。
例えば、ハイパーリンクによる情報の関連性の定義と、その関連に基づいた分類や、あらかじめ分類されたカテゴリ情報により情報を分類し、提示する方式がある。しかし、上述の情報のリアルタイム性や、ユーザの視点の違いにより、必ずしも静的な分類が情報の獲得に有効だと言えないのが現状である。
これに対し、新たな情報に対しても動的に適切な自動分類を行う方式、つまり情報を自動的に整理し、ユーザの要求に応じてJust―In―Timeに提示できる方式が望ましいと考えられる。
With the recent development of the Internet and IT technology, the generation cycle of accessible knowledge resources such as documents and databases has been shortened, and the amount of information to be accumulated is increasing explosively. However, in the situation where it is very difficult to find the intended information due to the enormous amount of information and the real-time nature that new information is added every day, it is one of the technologies to easily acquire useful information. In particular, automatic information classification technology is regarded as important.
For example, there is a method of classifying and presenting information based on definition of information relevance by hyperlinks, classification based on the relation, and category information classified in advance. However, the current situation is that static classification is not necessarily effective in acquiring information due to the above-described real-time nature of information and the difference in viewpoints of users.
On the other hand, it is desirable to adopt a method that dynamically and appropriately classifies new information, that is, a method that automatically organizes information and presents it to Just-In-Time according to user requests. It is done.

本発明は以上のような従来の欠点に鑑み、検索対象に対して、あるキーワードとの関連性のみならず、その検索された情報間の関連性を動的かつリアルタイムに計算し、情報を整理した上で新たなカテゴリを自動的に生成しユーザに提示する情報の検索俯瞰方法および装置を提供することを目的とする。
さらに、従来の検索システムでは、質問文とマッチングの度合いにより計算されたスコアを基に、一番スコアのよいものより内容を確認することが一般的であるため、例えば意図するものがリストの最後にあったような場合などはそこにたどり着くのは非常に労力を要するものであった。それに対し、本発明では、質問文とのマッチングの度合いに関係なく、検索された対象間の関連性により内容の確認を行うことが支援されるため、より効率的に意図する対象に到達する可能性が高まる情報の検索俯瞰方法および装置を提供することを目的とする。
In view of the above-described conventional drawbacks, the present invention dynamically and in real time calculates not only the relevance with a certain keyword but also the relevance between the retrieved information, and organizes the information. It is another object of the present invention to provide a method and apparatus for searching and searching for information to be automatically generated and presented to a user after a new category is automatically created.
Furthermore, in conventional search systems, it is common to check the content from the one with the best score based on the score calculated by the question sentence and the degree of matching. It was very labor intensive to get there. On the other hand, in the present invention, it is possible to reach the intended target more efficiently because confirmation of the content is supported by the relationship between the retrieved objects regardless of the degree of matching with the question sentence. It is an object of the present invention to provide an information search method and apparatus for enhancing information.

本発明の前記ならびにそのほかの目的と新規な特徴は次の説明を添付図面と照らし合わせて読むと、より完全に明らかになるであろう。
ただし、図面はもっぱら解説のためのものであって、本発明の技術的範囲を限定するものではない。
The above and other objects and novel features of the present invention will become more fully apparent when the following description is read in conjunction with the accompanying drawings.
However, the drawings are for explanation only and do not limit the technical scope of the present invention.

上記目的を達成するために、本発明は、検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとで情報の検索俯瞰方法を構成している。   In order to achieve the above object, the present invention is a search overhead method for information to be searched on a computer by organizing information to be searched, and extracts text information from the information to be searched and performs indexing. Search for information that matches the given search question in response to the input of the step and the search question from the user, calculate the degree of matching with the search question, and reflect the relevance between the information and the degree of matching The information search and bird's-eye view method is configured by the steps of arranging and visualizing and displaying the bird's-eye view at predetermined positions.

また、本発明は、検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類エンジンにより計算された情報間の関連性やマッチングの度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とで情報検索俯瞰装置を構成している。   In addition, the present invention is a program for organizing information to be searched on a computer and executing a process for searching for information to be overlooked, such as PDF, Word, HTML, XML, CSV, etc. Term extraction means that automatically extracts the terms contained in the information, term classification means that calculates and classifies the relevance of the extracted terms, and information on the classified information. Relevance extraction means for classifying by detecting the feature amount and calculating the relevance of information based on the feature amount, and for the search question given via the input device in response to the input of the search question from the user Information classification means for searching for matching information and organizing the degree of matching with the search question, the relationship between the output search information and the information calculated by the classification engine and match The degree visualized by reflecting the constitute information retrieval overhead apparatus and visualization means for the processing of the bird's eye view.

以下の説明から明らかなように、本発明にあっては次に列挙する効果が得られる。   As will be apparent from the following description, the present invention has the following effects.

(1)検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備えているので、情報検索の結果を、リストのみによらず、整理された形で俯瞰することができるので、膨大な検索対象や検索結果に対しても効率的に意図する情報を獲得することができる。 (1) A search overhead method for organizing information to be searched on a computer and overlooking the information, extracting text information from the information to be searched, performing indexing, and a search question from a user Searches for information that matches the search query given to the input, calculates the degree of matching with the search question, places it in a predetermined position and visualizes it, reflecting the relevance between the information and the degree of matching And a step for performing a bird's-eye view display process, so that the information search results can be viewed in an organized manner, not just in the list, so it is efficient even for a large number of search targets and search results You can get the information you intended.

(2)前記(1)によって、複数の種類の情報を検索対象とし、複数の種類の情報間の関連性を縦断的に抽出し、俯瞰化を行うことで、情報の時間軸上の繋がりや、情報の階層的繋がりをより明確に表現することができるので、情報の前後や上下の繋がりを知ることで、効率的に情報を理解することができる。 (2) By the above (1), a plurality of types of information are targeted for retrieval, the relevance between the plurality of types of information is extracted longitudinally, and a bird's-eye view is obtained, thereby connecting information on the time axis. Since the hierarchical connection of information can be expressed more clearly, it is possible to efficiently understand information by knowing the connection before and after the information and the upper and lower connections.

(3)請求項2〜7も前記(1)および(2)と同様の効果が得られる。 (3) In the second to seventh aspects, the same effects as in the above (1) and (2) can be obtained.

(4)請求項8も検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類手段により計算された情報間の関連性やマッチングの度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とからなるので、前記(1)および(2)と同様の効果が得られる。 (4) Claim 8 is also a program for organizing information to be searched on a computer and executing a process for searching for information to be overlooked, such as PDF, Word, HTML, XML, CSV, etc. Information that uses term extraction means that automatically extracts terms contained in text information, term classification means that calculates and classifies the relevance of the extracted terms, and information that uses the classified term information Relevance extraction means for classifying by detecting the feature amount of the object and calculating the relevance of the information based on the feature amount, and the search question given via the input device in response to the input of the search question from the user Information classification means that searches for information that matches the search query and organizes the degree of matching with the search question, and the relationship between the search information that is output and the information calculated by the classification means and the matching Fits visualized by reflecting, since a visual means for the processing of the overhead display, the same effects as (1) and (2) is obtained.

(5)請求項9〜11も前記(1)および(2)と同様の効果が得られる。 (5) In the ninth to eleventh aspects, the same effect as the above (1) and (2) can be obtained.

以下、図面に示す実施するための最良の形態により、本発明を詳細に説明する。   Hereinafter, the present invention will be described in detail with reference to the best mode for carrying out the invention shown in the drawings.

図1ないし図18に示す本発明の第1の実施するための最良の第1の形態において、図1は、本発明の情報の検索俯瞰方法を実施するための情報端末機1の一構成例を示すブロック図で、この情報端末機1は、データを入力するための入力装置2と、入力されたデータを処理する中央処理装置(CPU)3と、入力されたデータがそのまま、あるいは中央処理装置3により処理された後に格納されるメモリ4と、前記中央処理装置3が処理したデータが出力される出力装置5とを備えている。前記情報端末機1は、従来と同様の構成のものを使用しているが、さらに効率のよい入力装置2、CPU3、メモリ4、出力装置5等を任意に使用することができる。
前記中央処理装置3は、前記入力装置2を介して入力された初期データをそのままメモリに記憶させる。
次に、前記メモリ4に記憶されたデータを検索するような指令が前記入力装置2を介して入力された場合、前記中央処理装置3は、その指令に従ってデータを検索した後、検索されたデータを処理し、出力装置5で出力する。
In the first preferred embodiment for carrying out the first embodiment of the present invention shown in FIGS. 1 to 18, FIG. 1 shows an example of the configuration of an information terminal 1 for carrying out the information search overhead method of the present invention. The information terminal 1 includes an input device 2 for inputting data, a central processing unit (CPU) 3 for processing the input data, and the input data as it is or a central processing. A memory 4 is stored after being processed by the device 3 and an output device 5 for outputting data processed by the central processing unit 3. The information terminal 1 has the same configuration as that of the conventional one, but the input device 2, the CPU 3, the memory 4, the output device 5, and the like that are more efficient can be arbitrarily used.
The central processing unit 3 stores the initial data input via the input device 2 in a memory as it is.
Next, when a command for searching for data stored in the memory 4 is input via the input device 2, the central processing unit 3 searches for data after searching for data according to the command. Are processed and output by the output device 5.

前記情報端末機1を用いて処理される、本発明の情報の検索俯瞰方法の一例を説明する。図1は本システムをアクティベートする、あるいは処理する情報端末機の基本構成を示す図で、図2は本システムの構成の概念図である。本実施例の情報の検索俯瞰方法では、一般的に使用されているPDF、Word、HTML、XML、CSV等の形式を含むテキスト情報を対象として、意図する知識の検索と、図3に示すような知識の構造化を行うことを目的とし、情報の検索、及び整理を行うための事前の情報抽出とインデクシング処理機能、および情報検索と情報の整理(情報の関連性計算と視覚化)処理機能の2系統の処理により構成される。図4および図5は、それぞれ情報抽出とインデクシング処理機能および情報の整理処理機能の概略的な流れを示すフロー図である。   An example of the information search method of the present invention processed using the information terminal 1 will be described. FIG. 1 is a diagram showing a basic configuration of an information terminal that activates or processes the system, and FIG. 2 is a conceptual diagram of the configuration of the system. In the information search overview method according to the present embodiment, search of intended knowledge is performed on text information including formats such as PDF, Word, HTML, XML, and CSV, which are generally used, and as shown in FIG. Information extraction and indexing function for information retrieval and organization, and information retrieval and information organization (information relevance calculation and visualization) processing function for the purpose of structuring knowledge It consists of two processes. FIG. 4 and FIG. 5 are flowcharts showing a schematic flow of the information extraction and indexing processing function and the information organization processing function, respectively.

ここで、本発明の情報の検索俯瞰方法の処理ステップを図6、図8および図10を参照して説明する。
図6に示すように、検索対象の情報を前記情報端末機1上において整理し、視覚化して俯瞰状態で表示する情報の検索俯瞰方法であって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を用語抽出エンジン6を介して自動抽出する用語抽出ステップ7と、この抽出ステップ7で抽出された用語の相互の関連性を用語分類エンジン8を介して計算し、分類する用語分類ステップ9と、この分類ステップ9で分類された用語の情報を用い対象とする情報の特徴量を検出し、その特徴量を基に関連性抽出エンジン10を介して情報の関連性を計算する分類する関連性抽出ステップ11と、ユーザ(情報の検索者)に検索質問の入力を促し、入力された検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを情報分類エンジン12を介して分類、整理する情報分類ステップ13と、このステップ13で整理された検索情報と、前記関連性抽出ステップ11により処理された情報間の関連性やマッチングの度合いを反映させて視覚化エンジン14を介して、前記情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマーク15、本実施例ではラインを設けて整理し、視覚化して俯瞰表示の処理をする視覚化ステップ16とを備えている。
なお、本実施例では、検索対象の情報は、一般的なデータベースに蓄積される情報を指し、特に限定はしていないが、本発明の情報の検索俯瞰方法を使用する場所や環境に応じて、例えば大学や教育現場等で利用する場合には、前記情報は、特許、論文等の内容とそれらの意味的類似性による関連性が認識される情報が含まれる。
Here, the processing steps of the information search overhead method of the present invention will be described with reference to FIG. 6, FIG. 8, and FIG.
As shown in FIG. 6, a search overhead method of information that organizes information to be searched on the information terminal 1, visualizes and displays the information in a bird's-eye view state, such as PDF, Word, HTML, XML, CSV, etc. A term extraction step 7 for automatically extracting the terms contained in the text information to be searched through the term extraction engine 6, and the relevance of the terms extracted in the extraction step 7 through the term classification engine 8 Term classification step 9 to calculate and classify, and the feature quantity of the target information is detected using the information of the term classified in this classification step 9, and information is obtained via the relevance extraction engine 10 based on the feature quantity. Relevance extracting step 11 for calculating relevance of the user, and prompting the user (information searcher) to input a search question, searching for information matching the input search question, Information classification step 13 for classifying and organizing the degree of matching with the information classification engine 12, the search information organized in this step 13, and the relationship between the information processed in the relationship extraction step 11, Reflecting the degree of matching, each information is arranged at a position that reflects the relevance between the information and the degree of matching via the visualization engine 14. And a visualizing step 16 in which lines are arranged and organized in the present embodiment, and visualized to perform overhead view processing.
In this embodiment, the information to be searched refers to information stored in a general database, and is not particularly limited. However, depending on the place or environment in which the information search method of the present invention is used. For example, when used in universities, educational sites, etc., the information includes information for recognizing the relevance of the contents of patents, papers, etc. and their semantic similarity.

前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11、情報分類ステップ13および視覚化ステップ16は、基本的に情報の管理上、二系統の処理に分割することができる。
まず、図7および図8に示す処理においては、まず情報ソースよりテキスト情報を抽出し、抽出されたテキストからオントロジー情報を抽出する処理と、テキスト情報に対してインデクシング(索引を付与する)を行う処理に分かれる。すなわち前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11である。そして、それぞれの処理結果を、それぞれオントロジー情報はオントロジーデータベース17へ、およびインデクシング情報は索引データベース18に格納する。
また、図9および図10に示す処理においては、ユーザ(情報の検索者)から情報端末機を介して入力されるキーワードや文章等の検索質問を、外部の検索エンジンを介する情報検索処理により、前記索引データベース18に格納された索引情報を利用し関連する情報を検索する。さらに、検索された情報に対し、前記オントロジーデータ17に格納されたベースオントロジー情報を参照することで、各情報に含まれるオントロジー情報と用語関連の関連度を示すオントロジー情報を利用し、情報間の関連性の計算を行い、その結果を基に画面上に視覚化を行う。すなわち、前記情報分類ステップ13および視覚化ステップ16である。
ここで、「オントロジー」(Ontology)とは、語彙と語彙の関係等の概念の体系を表し、例えば、「歯科医」と「歯医者」は同義語であるとか、「歯科医」は「医者」の下位概念である等の論理的関係、および「歯科医」は「歯」を治療する等の要素的関係等を定義する。
また、「俯瞰化」とは、情報及びその構造を上位の視点から観察し、理解を促進することを指す。
The term extraction step 7, term classification step 9, relevance extraction step 11, information classification step 13 and visualization step 16 can be basically divided into two systems for information management.
7 and 8, first, text information is extracted from an information source, ontology information is extracted from the extracted text, and indexing (indexing) is performed on the text information. Divided into processing. That is, the term extraction step 7, the term classification step 9, and the relevance extraction step 11. Then, each processing result is stored in ontology database 17 for ontology information and in index database 18 for indexing information.
Further, in the processing shown in FIG. 9 and FIG. 10, search queries such as keywords and sentences input from a user (information searcher) via an information terminal are performed by information search processing via an external search engine. The index information stored in the index database 18 is used to retrieve related information. Further, by referring to the base ontology information stored in the ontology data 17 with respect to the retrieved information, the ontology information included in each information and ontology information indicating the degree of relevance of terms are used, and information between Relevance calculation is performed, and the result is visualized on the screen. That is, the information classification step 13 and the visualization step 16.
Here, “Ontology” represents a system of concepts such as the relationship between vocabulary and vocabulary. For example, “dentist” and “dentist” are synonyms, or “dentist” is “doctor”. A logical relationship such as a subordinate concept of “,” and “dentist” defines an elemental relationship such as treating “tooth”.
“Overview” refers to observing information and its structure from a higher-level viewpoint and promoting understanding.

以下、各処理エンジンでの処理作業の概要を説明する。
前記用語抽出ステップ7、用語分類ステップ9、関連性抽出ステップ11で使用するエンジンは、図8に示すような前記用語抽出エンジン6、用語分類エンジン8、関連性抽出エンジン10より構成され、これらをオントロジー抽出エンジンと呼ぶことができる。
Hereinafter, an outline of processing work in each processing engine will be described.
The engine used in the term extraction step 7, the term classification step 9, and the relevance extraction step 11 includes the term extraction engine 6, the term classification engine 8, and the relevance extraction engine 10 as shown in FIG. It can be called an ontology extraction engine.

前記用語抽出エンジン6は、まずPDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から抽出されるテキストを、例えばC/NC−value手法により、テキストに含まれる用語を自動抽出する。
なお、前記用語抽出エンジン6は、現状の膨大な情報と、それらが日々更新されるリアルタイム性により、用語に関する命名規則を100%規制することが不可能であろう現状では、ターミノロジーの知見を利用し、自動処理を介した知識獲得の効率化を行うことは必然である。さらには、用語自体の定義があいまいな(用語と非用語の区別が難しい)状況では、一定の指標による自動用語認識を介在した処理を行うことは、尚更、重要な意味を持つ。
本発明を構成するシステムにおいても、用語抽出エンジン6として「C/NC−value」の用語認識技術を基にした用語の自動認識を利用する。「C−value」とは、用語構成に関する基本語彙の組み合わせパターンと用語の対象ドメインにおける出現頻度、さらには、用語のネスティングに関する性質に注目し、スコア付けを行うことで用語の高精度な自動認識を行う。また、NC−valueでは、候補となる用語の実際の文書上でのコンテキスト中にある語彙とのコロケーションの情報を用いて、用語としての確からしさ(termhood)の指標を求め、求まった指標を基に候補となる用語の再順序付けを行う。我々の行った実験では、本方法により、英語および日本語に関しても、ドメインによらず、上位の候補では90%以上の正解率を得られることが示されている。本エンジンのこのような対象ドメインや対象言語への非依存性は、本システムを複数の言語や複数の分野の情報を対象とした情報の整理、俯瞰を行うための、重要な特徴となる。
なお、用語候補として、形態素解析の結果に対し、その頻度の高いものから最良の数、もしくは最良の頻度以上の形態素を用いることで同様の情報の関連性の計算を行うことも可能である。
The term extraction engine 6 first automatically extracts a term included in text from a text extracted from text information to be searched such as PDF, Word, HTML, XML, CSV, etc. by, for example, C / NC-value method.
It should be noted that the terminology extraction engine 6 uses the knowledge of terminology in the present situation where it would be impossible to regulate 100% of the naming conventions for terms due to the vast amount of current information and the real-time nature in which they are updated daily. It is inevitable to improve the efficiency of knowledge acquisition through automatic processing. Furthermore, in situations where the definition of the term itself is ambiguous (it is difficult to distinguish between a term and a non-term), it is even more important to perform processing that involves automatic term recognition using a certain index.
Also in the system constituting the present invention, automatic term recognition based on the term recognition technology of “C / NC-value” is used as the term extraction engine 6. “C-value” is a high-accuracy automatic recognition of terms by scoring and focusing on the combination patterns of basic vocabulary related to term structure and the frequency of occurrence of terms in the target domain, and also on the nesting properties of terms. I do. In NC-value, an index of termhood is obtained using information on collocation of a candidate term with a vocabulary in the context of an actual document, and the obtained index is used as a basis. Reorder candidate terms. Our experiments show that this method can achieve an accuracy rate of 90% or higher for the top candidates for English and Japanese, regardless of domain. Such independence of the engine on the target domain and target language is an important feature for organizing and overlooking the information of the system for information in multiple languages and multiple fields.
Note that it is also possible to calculate the relevance of similar information by using the morpheme having the highest frequency or the highest frequency or higher morphemes as the vocabulary candidates for the morpheme analysis results.

前記用語分類エンジン8においては、用語抽出の結果と文脈抽出処理によりテキストから抽出した文脈の情報を利用し、平均相互情報量を含む用語間の類似性計算処理を用いることで用語の自動分類を行う。
図11に示すように、用語自体の命名規則が不明瞭である状況においては、語彙結合のためのハイフンの使用法や、”leukemia”と”leukaemia”のような綴り方(orthographic)のゆれ、”NF-kappa B”、”NF-kB”等の省略法(acronym)のゆれ、さらには”human clones”と”clones of humans”のような統語的(syntactic)なゆれ、等の用語のバリエーションに関する様々な問題が生じる。このような問題に対し、C−valueのような用語の対象ドメインにおける相対的頻度を基本的スコアとして利用した手法では、本質的な解決を行うことは難しい。さらには、知識統合のためには、”eye surgery”と”ophthalmological surgery”のように、意味的には同義である関係に対しても、同一クラスの用語として自動で認識できることが望ましい。つまり、用語の認識と統合には、図11に示すように、複数のプロセスによる用語クラスの自動認識技術が不可欠となる。
本発明では、orthographic、morphological、syntacticさらにacronymに関する用語バリエーションの認識手法を構築し、用語抽出処理に組み込む。さらに、意味的バリエーションに関しては、コンテキスト語彙との共起確率を基に得られる統計的類似度として、平均相互情報量を用いた用語分類手法を利用する。
なお、用語の分類手法として、分類対象である用語のテキストにおける文脈の情報のみではなく、用語と動詞との関係や、共起する用語との関係等を利用し、ベクタースペースモデル等を利用した他の類似性の計算手法や、サポートベクターマシンや、決定木等の機械学習による分類手法を利用することでも同様の用語分類を行うことは可能である。
The term classification engine 8 uses the term extraction result and the context information extracted from the text by the context extraction processing, and uses the similarity calculation processing between terms including the average mutual information amount to automatically classify the terms. Do.
As shown in FIG. 11, in situations where the naming convention of the term itself is unclear, the usage of hyphens for lexical conjugation and the orthographic fluctuations such as “leukemia” and “leukaemia” Variations in terms such as “NF-kappa B”, “NF-kB” acronym swings, and syntactical swings such as “human clones” and “clones of humans” Various problems arise. In order to solve such a problem, it is difficult to perform an essential solution by a method using the relative frequency of terms such as C-value in the target domain as a basic score. Furthermore, for knowledge integration, it is desirable that terms that are synonymous in meaning, such as “eye surgery” and “ophthalmological surgery”, can be automatically recognized as terms in the same class. That is, for recognition and integration of terms, automatic term class recognition technology based on a plurality of processes is indispensable as shown in FIG.
In the present invention, a technique for recognizing term variations relating to orthographic, morphological, syntactic and acronym is constructed and incorporated into the term extraction process. Further, for semantic variations, a term classification method using average mutual information is used as the statistical similarity obtained based on the co-occurrence probability with the context vocabulary.
In addition, as a method of classifying terms, not only the context information in the text of the term to be classified, but also the relationship between terms and verbs, the relationship with co-occurring terms, etc., and the vector space model etc. were used Similar term classification can be performed by using another similarity calculation method, a support vector machine, or a classification method based on machine learning such as a decision tree.

前記用語抽出エンジン6では、図9に示すように、テキスト情報を対象に、語彙辞書、およびオントロジー情報を利用することで形態素解析を行い、その結果に対して語構成ルールを基に用語候補を抽出する。さらに得られた用語候補に対して頻度分析を含む用語スコアの計算処理を行い。指定のスコア以上の用語候補を用語リストとして出力する。   As shown in FIG. 9, the term extraction engine 6 performs morphological analysis on text information by using a vocabulary dictionary and ontology information. Extract. Furthermore, a term score calculation process including frequency analysis is performed on the obtained term candidates. Term candidates that exceed the specified score are output as a term list.

図12はー抽出処理により抽出されたオントロジー情報を基に、情報間の関連性を抽出する処理のフローを示したものである。情報の関連性抽出エンジン10は、前記用語抽出エンジン6と用語分類エンジン8により抽出された用語とその関連性の情報を用いて、用語間の意味的関連性を定量的に計算するためのエンジンで、情報を特徴付ける情報としの用語間の意味的関連性を計算することで、情報間の意味的関連性の計算を行う。   FIG. 12 shows a flow of processing for extracting the relationship between information based on ontology information extracted by the extraction processing. The information relevance extraction engine 10 is an engine for quantitatively calculating the semantic relevance between terms using the terms extracted by the term extraction engine 6 and the term classification engine 8 and their relevance information. Then, the semantic relevance between information is calculated by calculating the semantic relevance between terms as information characterizing the information.

前記視覚化エンジン14は、前記関連性抽出エンジン10による情報間の意味的関連性を、対象とする情報間の組み合わせのすべてに対して計算することで、情報間の意味的関連を計算する。さらに、画面へ情報の関連性を描画に際し、各情報をノードNに割り当て、意味的関連性が大きいほど、ノード間の物理的距離を短くし、またノード間のリンクの太さ、すなわち前記関連付けマーク15を太くし、すべての対象とする情報を画面上の任意個所に最適配置することで、情報間の関連性を視覚化することができる。
ここで、「ノード」とは、一般的には、パソコンなどの装置を接続するネットワーク(LAN)上の接合点や、インターネット上の中継点、また、そこに設置されるコンピュータのことであり、いくつもの構成要素が相互に接続されている状態を構成する個々の要素、すなわち意味的関連性を有する各情報をノードと呼ぶ。
The visualization engine 14 calculates the semantic relationship between information by calculating the semantic relationship between information by the relationship extraction engine 10 with respect to all the combinations between the target information. Further, when drawing the relevance of information on the screen, each information is assigned to the node N. The larger the semantic relevance, the shorter the physical distance between the nodes, and the link thickness between the nodes, that is, the association. By thickening the mark 15 and optimally arranging all target information at arbitrary locations on the screen, the relationship between the information can be visualized.
Here, the “node” is generally a junction point on a network (LAN) connecting devices such as a personal computer, a relay point on the Internet, or a computer installed there. Individual elements constituting a state in which several components are connected to each other, that is, each piece of information having a semantic relationship is called a node.

以下、本実施例の具体例として、本実施例に係る装置を論文や特許等の情報の検索俯瞰システムに応用した例を説明する。本システムは本発明を用いて実現されるものである。図13は、本発明の情報の検索俯瞰システムの処理フローの概略図を示している。
上述の実施例に係る情報端末機1を構成する中央処理装置3の動作は、コンピュータが読み取り可能な言語で記述されたコンピュータプログラムによっても実行可能である。
コンピュータプログラムにより中央処理装置3を動作させる場合には、例えば、中央処理装置3にプログラム記憶用のメモリを設け、そのメモリにコンピュータプログラムを格納する。中央処理装置はメモリからそのコンピュータプログラムを読み出すことにより、そのコンピュータプログラムに従って、上述のような動作を実行する。
さらには、そのようなコンピュータプログラムを格納した記憶媒体を情報端末機にセットすることにより、中央処理装置がその記憶媒体からそのコンピュータプログラムを読み出し、そのコンピュータプログラムに従って、上述のような動作を実行するようにすることも可能である。
Hereinafter, as a specific example of the present embodiment, an example in which the apparatus according to the present embodiment is applied to a system for searching and searching for information such as papers and patents will be described. This system is realized by using the present invention. FIG. 13 shows a schematic diagram of the processing flow of the information search overhead system of the present invention.
The operation of the central processing unit 3 constituting the information terminal 1 according to the above-described embodiment can also be executed by a computer program described in a computer-readable language.
When the central processing unit 3 is operated by a computer program, for example, a memory for storing a program is provided in the central processing unit 3, and the computer program is stored in the memory. The central processing unit reads the computer program from the memory, and executes the operation as described above according to the computer program.
Further, by setting a storage medium storing such a computer program in the information terminal, the central processing unit reads the computer program from the storage medium, and executes the operation as described above according to the computer program. It is also possible to do so.

次に、前記情報分類ステップ13で整理された検索情報と、前記関連性抽出ステップ11により処理された情報間の関連性やマッチングの度合いを反映させて前記視覚化エンジン14を用いて前記情報を整理して視覚化し、俯瞰表示の処理をする視覚化ステップ16においては、図14に示すような、情報の関連性を視覚化されたマッピングを表示することができる。
例えば、検索情報として「カーボンナノチューブ」を検索すると、関連性のあるテキスト情報が、まるで地図のようにウインド内に表示され、情報間の関連性が強ければ強いほど、太く、濃く関連付けマーク15で結ばれる。
また、図15に示すような処理をすることにより、図16に示すような情報の関連性を、本実施例では「カテゴリA」、「カテゴリB」、「カテゴリC」のカテゴリ別に表示することもできる。
Next, the visualization engine 14 is used to reflect the information by reflecting the relationship between the search information organized in the information classification step 13 and the information processed in the relationship extraction step 11 and the degree of matching. In the visualization step 16 which organizes and visualizes, and performs a bird's-eye view process, a mapping that visualizes the relevance of information as shown in FIG. 14 can be displayed.
For example, when searching for “carbon nanotube” as the search information, the related text information is displayed in the window like a map, and the stronger the relationship between the information, the thicker and darker the association mark 15 is. Tied.
In addition, by performing processing as shown in FIG. 15, the relevance of information as shown in FIG. 16 is displayed for each category of “Category A”, “Category B”, and “Category C” in this embodiment. You can also.

なお、本実施例では、論文や特許等の情報検索俯瞰システムに応用した例を説明したが、本発明はこれに限らず、例えば図17および図18に示すように、知識ソースとして既存のデータベースを取り込む形で支援システムを組織することにより、例えば小学校や中学校等のクローズドネットワーク内で活用することもできる。
{発明を実施するための異なる形態}
In the present embodiment, an example of application to an information retrieval overview system for papers and patents has been described. However, the present invention is not limited to this, and for example, as shown in FIGS. 17 and 18, an existing database is used as a knowledge source. By organizing the support system in such a way that it is incorporated, it can also be utilized in a closed network such as an elementary school or a junior high school.
{Different forms for carrying out the invention}

次に、図19ないし図23に示す本発明を実施するための異なる形態につき説明する。なお、これらの本発明を実施するための異なる形態の説明に当って、前記本発明を実施するための最良の第1の形態と同一構成部分には同一符号を付して重複する説明を省略する。   Next, different modes for carrying out the present invention shown in FIGS. 19 to 23 will be described. In the description of these different modes for carrying out the present invention, the same components as those in the best mode for carrying out the present invention are designated by the same reference numerals and redundant description is omitted. To do.

図19および図20に示す本発明を実施するための第2の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、整理された情報に対して、リアルタイムで関連性の再計算を行うとともに、計算結果を視覚化に反映することで、just-in-timeに情報を俯瞰することができる視覚化エンジン14Aを用いた点で、このように構成された視覚化ステップ16Aを用いることにより、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られる。   The second embodiment for carrying out the present invention shown in FIG. 19 and FIG. 20 is mainly different from the first embodiment for carrying out the present invention in that real-time information is arranged in real time. In this way, re-calculation of relevance is performed, and the visualization engine 14A is used that allows the information to be viewed in just-in-time by reflecting the calculation result in the visualization. By using the visualization step 16A, it is possible to obtain the same effects as the best first embodiment for carrying out the present invention.

図21および図22に示す本発明を実施するための第3の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、前記用語抽出エンジン6を介して、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から抽出されるテキストに含まれる用語を自動抽出する用語抽出ステップ7と同時、あるいはその処理後に、抽出された用語を多言語翻訳エンジン19を介して、複数の言語に翻訳し、多言語データベース20に蓄積する多言語翻訳ステップ21を用いた点で、このように構成された情報の検索俯瞰方法にすることにより、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られるとともに、異なる複数の言語テキストの選択に躊躇することなく本発明の俯瞰方法を使用することができるとともに、情報間の関連性も、より緊密なものにすることができる。   The third mode for carrying out the present invention shown in FIGS. 21 and 22 is mainly different from the first mode for carrying out the present invention through the term extraction engine 6. Multilingual translation engine for extracted terms simultaneously with or after term extraction step 7 for automatically extracting terms contained in text extracted from text information to be searched such as PDF, Word, HTML, XML, CSV, etc. By using the multilingual translation step 21 which translates into a plurality of languages via 19 and accumulates in the multilingual database 20, the above-described present invention is obtained by using the information search method constructed as described above. The same effects as those of the first preferred embodiment can be obtained, and the overhead view method of the present invention can be used without hesitation in selecting a plurality of different language texts. It is possible, associations between information may also be the ones closer.

図23に示す本発明を実施するための第4の形態において、前記本発明を実施するための最良の第1の形態と主に異なる点は、検索対象の情報を情報端末機1上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、前記用語抽出エンジン6、用語分類エンジン8、関連性抽出エンジン10、情報分類エンジン12、視覚化エンジン14とを備えるプログラムを記憶したコンピュータ読み取り可能な記憶媒体22を用いた点で、このように構成しても、前記本発明を実施するための最良の第1の形態と同様な作用効果が得られるとともに、前記情報端未機1において使用しても、各種のコマンドを含むプログラムとして実現することができる。
本実施例において、「記憶媒体」の語は、データを記録することができるあらゆる媒体を含み、例えば前記記憶媒体としては、CD−ROMやPDなどのディスク型の記憶媒体、磁気テープ、MO、DVD−ROM、DVD−RAM、フレキシブルディスク、RAMやROM等のメモリーチップ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、スマートメディア(登録商標)、フラッシュメモリー、コンパクトフラッシュ(登録商標)などの書き換え可能なカード型ROM、ハードディスクがあり、その他プログラムの格納に適していれば、いかなる手段も用いることができる。
前記記憶媒体22は、コンピュータが読み取り可能なプログラム用言語を用いて上述のマイクロコンピュータの各機能をプログラミングし、そのプログラムをプログラムの記録が可能な上記の記憶媒体に記録することにより、作成することができる。また、記憶媒体として、サーバに備え付けられたハードディスクを用いることも可能である。
また、本実施例の前記記憶媒体22は、ネットワークを介して、格納されるコンピュータプログラムを他のコンピュータにより読み取ることによっても、作成や使用することができる。
なお、情報端末機としてのコンピュータは、パーソナルコンピュータ、デスクトップ型コンピュータ、ノート式コンピュータ、モバイルコンピュータ、ラップトップ式コンピュータ、ポケットコンピュータ、サーバーコンピュータ、クライアントコンピュータ、ワークステーション、ホストコンピュータ等を用いることができる。
The fourth mode for carrying out the present invention shown in FIG. 23 is mainly different from the best mode for carrying out the present invention in that information to be searched is organized on the information terminal 1. And a program for executing a process for performing a bird's-eye view of information to be looked down, comprising the term extraction engine 6, the term classification engine 8, the relevance extraction engine 10, the information classification engine 12, and the visualization engine 14. Even when configured in this manner, the computer-readable storage medium 22 storing the information can obtain the same operational effects as those of the first embodiment for carrying out the present invention, and the information Even if it is used in the terminal device 1, it can be realized as a program including various commands.
In this embodiment, the term “storage medium” includes any medium that can record data. For example, the storage medium includes a disk-type storage medium such as a CD-ROM or PD, a magnetic tape, an MO, DVD-ROM, DVD-RAM, flexible disk, memory chips such as RAM and ROM, EPROM (Erasable Programmable Read Only Memory), EEPROM (Electrically Erasable Programmable Read Only Memory), smart memory (registered trademark), flash memory There are rewritable card-type ROMs such as (registered trademark) and hard disks, and any other means can be used as long as they are suitable for storing programs. Can.
The storage medium 22 is created by programming each function of the microcomputer described above using a computer-readable program language and recording the program in the storage medium capable of recording the program. Can do. Further, a hard disk provided in the server can be used as the storage medium.
The storage medium 22 of this embodiment can also be created and used by reading a stored computer program with another computer via a network.
As a computer as an information terminal, a personal computer, a desktop computer, a notebook computer, a mobile computer, a laptop computer, a pocket computer, a server computer, a client computer, a workstation, a host computer, or the like can be used.

なお、前記本発明の異なる実施の形態では主に第1の実施の形態を基にして説明したが、本発明はこれに限らず、各実施の形態に使用された構成を組み合わせて使用しても同様な作用効果が得られる。   Although the different embodiments of the present invention have been described mainly based on the first embodiment, the present invention is not limited to this, and the configurations used in the embodiments are used in combination. The same effect can be obtained.

本発明は、情報を検索俯瞰方法および装置を利用、開発、製造等する産業、業界等で利用される。   INDUSTRIAL APPLICABILITY The present invention is used in industries, industries, and the like that use, develop, and manufacture information retrieval methods and apparatuses.

本発明を実施するための最良の第1の形態の情報端末機の一例の説明図。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is an explanatory diagram of an example of an information terminal according to a first embodiment for implementing the present invention. 本発明を実施するための最良の第1の形態の処理フロー図。The processing flow figure of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の知識の構造化の概念図。The conceptual diagram of the structuring of the knowledge of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態のオントロジー抽出処理フロー図。The ontology extraction process flow chart of the best first embodiment for carrying out the present invention. 本発明を実施するための最良の第1の形態の検索俯瞰化処理フロー図。The search overhead view processing flowchart of the best first embodiment for carrying out the present invention. 本発明を実施するための最良の第1の形態の処理工程図。FIG. 2 is a process chart of the best first embodiment for carrying out the present invention. 本発明を実施するための最良の第1の形態のオントロジー抽出処理の概念図。The conceptual diagram of the ontology extraction process of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態のオントロジー抽出処理の概略図。BRIEF DESCRIPTION OF THE DRAWINGS The schematic of the ontology extraction process of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の用語抽出処理の概念図。The conceptual diagram of the term extraction process of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の検索俯瞰化処理の概略図。1 is a schematic diagram of a search overhead view process of the best first embodiment for carrying out the present invention. FIG. 本発明を実施するための最良の第1の形態の用語分類処理フロー図。The term classification process flow figure of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の情報の関連性の計算処理フロー図。FIG. 4 is a flowchart of a calculation process of information relevance according to the first embodiment for implementing the present invention. 本発明を実施するための最良の第1の形態の検索俯瞰システムの処理フローの概略図。The schematic of the processing flow of the search bird's-eye view system of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の情報の視覚化の参考図。The reference diagram of the visualization of the information of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態のカテゴリー分別処理の概念図。The conceptual diagram of the category classification process of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の情報の視覚化の他の参考図。The other reference figure of the visualization of the information of the best 1st form for implementing this invention. 本発明を実施するための最良の第1の形態の検索俯瞰システムの参考図。1 is a reference diagram of a search bird's-eye view system of the best first embodiment for carrying out the present invention. 本発明を実施するための最良の第1の形態の情報の視覚化の更なる参考図。The further reference figure of the visualization of the information of the best 1st form for implementing this invention. 本発明を実施するための第2の形態の処理工程図。The process figure of the 2nd form for implementing this invention. 本発明を実施するための第2の形態の概略説明図。Schematic explanatory drawing of the 2nd form for implementing this invention. 本発明を実施するための第3の形態の処理工程図。Process drawing of the 3rd form for carrying out the present invention. 本発明を実施するための第3の形態の概略説明図。Schematic explanatory drawing of the 3rd form for implementing this invention. 本発明を実施するための第4の形態の概略説明図。Schematic explanatory drawing of the 4th form for implementing this invention.

符号の説明Explanation of symbols

1:情報端末機、 2:入力装置、
3:中央処理装置、 4:メモリ、
5:出力装置、 6:用語抽出エンジン、
7:用語抽出ステップ、 8:用語分類エンジン、
9:用語分類ステップ、 10:関連性抽出エンジン、
11:関連性抽出ステップ、 12:情報分類エンジン、
13:情報分類ステップ、 14、14A:視覚化エンジン、
15:関連付けマーク、 16、16A:視覚化ステップ、
17:オントロジーデータベース、 18:索引データベース、
19:多言語翻訳エンジン、 20:多言語データベース、
21:多言語翻訳ステップ、 22:記憶媒体、
N:ノード、 W:ウインド。
1: information terminal, 2: input device,
3: Central processing unit, 4: Memory,
5: Output device, 6: Term extraction engine,
7: Term extraction step, 8: Term classification engine,
9: Term classification step, 10: Relevance extraction engine,
11: Relevance extraction step, 12: Information classification engine,
13: Information classification step, 14, 14A: Visualization engine,
15: Association mark 16, 16A: Visualization step,
17: Ontology database, 18: Index database,
19: Multilingual translation engine, 20: Multilingual database,
21: Multilingual translation step 22: Storage medium
N: node, W: window.

Claims (11)

検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備えることを特徴とする情報検索俯瞰方法。 A method for organizing information to be searched on a computer and searching for information to be overlooked, in which text information is extracted from information to be searched, indexed, and input of a search question from a user Search for information that matches a given search question, calculate the degree of matching with the search question, reflect the relationship between the information and the degree of matching, place it at a predetermined position, visualize it, and display an overhead view An information search overhead method comprising the steps of: 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰方法であって、検索対象である情報からテキスト情報を抽出し、索引付けを行うステップと、ユーザからの検索質問の入力に対し与えられた検索質問にマッチする情報を検索し、前記検索質問とのマッチングの度合いを計算し、情報間の関連性やマッチングの度合いを反映させて所定の位置に配置するとともに視覚化し、俯瞰表示処理するステップとを備え、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報から用語抽出エンジンを介してそこに含まれる用語を自動抽出するステップと、この抽出ステップから抽出された用語の相互の関連性を用語分類エンジンを介して計算して分類するステップと、この分類ステップで分類された用語の情報を用い、関連性抽出エンジンを介して対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類するステップと、ユーザからの検索質問の入力に対し、情報分類エンジンを介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理するステップと、このステップで出力された検索情報と、前記分類ステップにより計算された情報間の関連性やマッチングの度合いを反映させて、視覚化エンジンを介して視覚化し、俯瞰表示の処理をするステップとを備えることを特徴とする情報検索俯瞰方法。 A method for organizing information to be searched on a computer and searching for information to be overlooked, in which text information is extracted from information to be searched, indexed, and input of a search question from a user Search for information that matches a given search question, calculate the degree of matching with the search question, reflect the relationship between the information and the degree of matching, place it at a predetermined position, visualize it, and display an overhead view And a step of automatically extracting terms contained in the text information to be searched such as PDF, Word, HTML, XML, CSV, etc. via a term extraction engine, and terms extracted from the extraction step. The step of calculating and classifying the relevance of each other through the term classification engine and the information of the terms classified in this classification step Detecting the feature quantity of the target information through the relevance extraction engine, classifying by calculating the relevance of the information based on the feature quantity, and the input of the search question from the user, Searching for information matching the search question given through the information classification engine, organizing the degree of matching with the search question, search information output in this step, and information calculated by the classification step An information retrieval bird's-eye view method comprising: a step of visualizing via a visualization engine and performing a bird's-eye view display process reflecting the degree of relevance and matching. 用語や検索キーワード等の言葉の関連性の情報をその関連性の度合いを反映させる位置に視覚化し、その視覚化により表現された関連する言葉を直接ポインティングデバイスにより指定するか、自動的に計算された質問拡張候補をその一覧より選択することで、検索に指定する質問文を自動的に作成し、検索の絞り込みを支援するステップをさらに備えることを特徴とする請求項1あるいは2のいずれかに記載の情報検索俯瞰方法。 Visualize the relevance information of words, such as terms and search keywords, at a position that reflects the degree of relevance, and specify the related words expressed by the visualization directly with a pointing device, or automatically calculated 3. The method according to claim 1, further comprising a step of automatically creating a question sentence to be specified for a search by selecting a selected question expansion candidate from the list, and supporting a search refinement. Information retrieval overview method described. 前記視覚化ステップは、整理された情報に対して、リアルタイムで関連性の再計算を行うことと計算結果を視覚化に反映することで、just-in-timeに情報を俯瞰することができるステップであることを特徴とする請求項1、2、3のいずれかに記載の情報検索俯瞰方式。 The visualization step is a step in which information can be overlooked just-in-time by recalculating relevance in real time for the organized information and reflecting the calculation result in the visualization. The information search bird's-eye view method according to claim 1, wherein: 前記視覚化ステップでは、情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマークを設ける処理をすることを特徴とする請求項1、2、3、4のいずれかに記載の情報検索俯瞰方法。 In the visualization step, each piece of information is arranged at a position that reflects the degree of association and matching between information, and a process of providing an association mark between information according to the degree of association and matching between information is performed. The information search bird's-eye view method according to any one of claims 1, 2, 3, and 4. 用語分類エンジンを介して計算して分類するステップでは、テキスト情報に対してインデクシング(索引を付与する)を行うステップを含むことを特徴とする請求項1、2、3、4、5のいずれかに記載の情報の検索俯瞰方式。 6. The step of calculating and classifying through a term classification engine includes the step of indexing (indexing) text information. A search overview of the information described in. 検索対象の情報のテキスト情報を複数の言語に翻訳して分類する多言語翻訳ステップをさらに備えることを特徴とする請求項1、2、3、4、5、6のいずれかに記載の情報検索俯瞰方法。 The information search according to claim 1, further comprising a multilingual translation step of translating text information of information to be searched into a plurality of languages and classifying the information. Overhead method. 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出手段と、抽出された用語の相互の関連性を計算して分類する用語分類手段と、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出手段と、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類手段と、出力された検索情報と、前記分類手段により計算された情報間の関連性やマッチングの度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化手段とを備えることを特徴とする情報検索俯瞰装置。 A program for organizing information to be searched on a computer and executing a process for searching for information to be looked down on, and is included in text information to be searched such as PDF, Word, HTML, XML, CSV, etc. Using the term extraction means for automatically extracting terms, the term classification means for calculating and classifying the relationship between the extracted terms, and using the information of the classified terms, the feature amount of the target information is detected, Relevance extraction means that classifies by calculating the relevance of information based on the feature quantity, and searches for information that matches the search question given via the input device in response to the input of the search question from the user The information classification means for organizing the degree of matching with the search question, the relationship between the output search information and the information calculated by the classification means and the degree of matching are reflected. Visualized, information retrieval overhead apparatus, characterized in that it comprises a visualization unit for the processing of the bird's eye view. 用語や検索キーワード等の言葉の関連性の情報をその関連性の度合いを反映させる位置に視覚化し、その視覚化により表現された関連する言葉を直接ポインティングデバイスにより指定するか、自動的に計算された質問拡張候補をその一覧より選択することで、検索に指定する質問文を自動的に作成し、検索の絞り込みを支援する手段をさらに備えることを特徴とする請求項8に記載の情報検索俯瞰装置。 Visualize the relevance information of words, such as terms and search keywords, at a position that reflects the degree of relevance, and specify the related words expressed by the visualization directly with a pointing device, or automatically calculated 9. The information search overhead view according to claim 8, further comprising means for automatically generating a question sentence to be specified for search by selecting a selected question expansion candidate from the list and supporting narrowing of the search. apparatus. 前記視覚化手段では、情報間の関連性やマッチングの度合いを反映させる位置にそれぞれの情報が配置され、情報間の関連性やマッチングの度合いにより、情報間に関連付けマークを設けることを特徴とする請求項8あるいは9のいずれかに記載の情報検索俯瞰装置。 In the visualization means, each piece of information is arranged at a position that reflects the degree of association and matching between information, and an association mark is provided between the information depending on the degree of association and matching between information. The information search bird's-eye view device according to claim 8. 検索対象の情報を計算機上において整理し、俯瞰する情報の検索俯瞰させる処理を実行させるためのプログラムであって、PDF、Word、HTML、XML、CSV等の検索対象のテキスト情報からそこに含まれる用語を自動抽出する用語抽出エンジンと、抽出された用語の相互の関連性を計算して分類する用語分類エンジンと、分類された用語の情報を用い、対象とする情報の特徴量を検出し、その特徴量を基に情報の関連性を計算することで分類する関連性抽出エンジンと、ユーザからの検索質問の入力に対し、入力装置を介して与えられた検索質問にマッチする情報を検索し、検索質問とのマッチングの度合いを整理する情報分類エンジンと、出力された検索情報と、前記分類エンジンにより計算された情報間の関連性やマッチングの度合いを反映させて視覚化し、俯瞰表示の処理をする視覚化エンジンとを備えるプログラムを記憶したコンピュータ読み取り可能な記憶媒体。 A program for organizing information to be searched on a computer and executing a process for searching for information to be looked down on, and is included in text information to be searched such as PDF, Word, HTML, XML, CSV, etc. Using the term extraction engine that automatically extracts terms, the term classification engine that calculates and classifies the relevance of the extracted terms, and using the information of the classified terms, detects the features of the target information, Relevance extraction engine that classifies by calculating the relevance of information based on the feature amount, and searches for information that matches the search question given via the input device in response to the input of the search question from the user , An information classification engine for organizing the degree of matching with a search question, the relationship between search information output and information calculated by the classification engine, and matching The degree to reflect the visualized, computer-readable storage medium storing a program and a visualization engine for the processing of the bird's eye view.
JP2004212475A 2004-07-21 2004-07-21 Information retrieval overlooking method and device Pending JP2006031577A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004212475A JP2006031577A (en) 2004-07-21 2004-07-21 Information retrieval overlooking method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004212475A JP2006031577A (en) 2004-07-21 2004-07-21 Information retrieval overlooking method and device

Publications (1)

Publication Number Publication Date
JP2006031577A true JP2006031577A (en) 2006-02-02

Family

ID=35897815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004212475A Pending JP2006031577A (en) 2004-07-21 2004-07-21 Information retrieval overlooking method and device

Country Status (1)

Country Link
JP (1) JP2006031577A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234513A (en) * 2007-03-23 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> Ontology database update method and ontology database update system
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
US8316026B2 (en) 2007-01-18 2012-11-20 Fujitsu Limited Method and system for keyword management
WO2014189056A1 (en) 2013-05-21 2014-11-27 株式会社 東芝 Data processing device and method
JP2024006157A (en) * 2022-07-01 2024-01-17 トヨタ自動車株式会社 Information display system
CN119669545A (en) * 2024-09-26 2025-03-21 合肥大智慧财汇数据科技有限公司 Webpage information extraction method and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311866A (en) * 1996-05-23 1997-12-02 Fuji Xerox Co Ltd Data base device
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Document search support method and apparatus and document search service using the same
JP2001513242A (en) * 1997-02-18 2001-08-28 セミオ コーポレイション Text processing and retrieval system and method
JP2002215645A (en) * 2001-01-23 2002-08-02 Fuji Xerox Co Ltd Document processing device
JP2002297605A (en) * 2001-03-30 2002-10-11 Toshiba Corp Method and device for structured document retrieval, and program
JP2004013745A (en) * 2002-06-10 2004-01-15 Fuji Xerox Co Ltd Device and method for extracting document dependence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311866A (en) * 1996-05-23 1997-12-02 Fuji Xerox Co Ltd Data base device
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Document search support method and apparatus and document search service using the same
JP2001513242A (en) * 1997-02-18 2001-08-28 セミオ コーポレイション Text processing and retrieval system and method
JP2002215645A (en) * 2001-01-23 2002-08-02 Fuji Xerox Co Ltd Document processing device
JP2002297605A (en) * 2001-03-30 2002-10-11 Toshiba Corp Method and device for structured document retrieval, and program
JP2004013745A (en) * 2002-06-10 2004-01-15 Fuji Xerox Co Ltd Device and method for extracting document dependence

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8316026B2 (en) 2007-01-18 2012-11-20 Fujitsu Limited Method and system for keyword management
JP2008234513A (en) * 2007-03-23 2008-10-02 Nippon Telegr & Teleph Corp <Ntt> Ontology database update method and ontology database update system
US8244773B2 (en) 2007-05-08 2012-08-14 Fujitsu Limited Keyword output apparatus and method
WO2014189056A1 (en) 2013-05-21 2014-11-27 株式会社 東芝 Data processing device and method
JP2024006157A (en) * 2022-07-01 2024-01-17 トヨタ自動車株式会社 Information display system
CN119669545A (en) * 2024-09-26 2025-03-21 合肥大智慧财汇数据科技有限公司 Webpage information extraction method and system

Similar Documents

Publication Publication Date Title
KR102158352B1 (en) Providing method of key information in policy information document, Providing system of policy information, and computer program therefor
US12007939B1 (en) Method and apparatus for determining search result demographics
US8214363B2 (en) Recognizing domain specific entities in search queries
Eisa et al. Existing plagiarism detection techniques: A systematic mapping of the scholarly literature
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
CN102253930B (en) A kind of method of text translation and device
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
JP2005526317A (en) Method and system for automatically searching a concept hierarchy from a document corpus
Sardinha An assessment of metaphor retrieval methods
US12271691B2 (en) Linguistic analysis of seed documents and peer groups
Ren et al. Automatic entity recognition and typing in massive text corpora
CN113656429A (en) Keyword extraction method and device, computer equipment and storage medium
Das et al. The 5w structure for sentiment summarization-visualization-tracking
JP2006031577A (en) Information retrieval overlooking method and device
Yasavur et al. Sentiment Analysis Using Dependency Trees and Named-Entities.
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
Vintar et al. Evaluating context features for medical relation mining
Rahimi et al. Building a multi-domain comparable corpus using a learning to rank method
Garrido et al. NEREA: Named entity recognition and disambiguation exploiting local document repositories
Mohemad et al. Ontological-based information extraction of construction tender documents
EP4260203A1 (en) Linguistic analysis of seed documents and peer groups
Kanavos et al. Topic categorization of biomedical abstracts
Kahlawi An ontology-driven DBpedia quality enhancement to support Entity Annotation for Arabic Text
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20101001

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101022