[go: up one dir, main page]

JP2010061508A - History information retrieval apparatus - Google Patents

History information retrieval apparatus Download PDF

Info

Publication number
JP2010061508A
JP2010061508A JP2008228104A JP2008228104A JP2010061508A JP 2010061508 A JP2010061508 A JP 2010061508A JP 2008228104 A JP2008228104 A JP 2008228104A JP 2008228104 A JP2008228104 A JP 2008228104A JP 2010061508 A JP2010061508 A JP 2010061508A
Authority
JP
Japan
Prior art keywords
information
article
text data
concept
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008228104A
Other languages
Japanese (ja)
Inventor
Takahiro Miura
高広 三浦
Shinya Hisatose
新弥 久戸瀬
Kunihiro Kitamura
国博 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems and Services Ltd
Original Assignee
Hitachi Systems and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems and Services Ltd filed Critical Hitachi Systems and Services Ltd
Priority to JP2008228104A priority Critical patent/JP2010061508A/en
Publication of JP2010061508A publication Critical patent/JP2010061508A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To extract/store characteristic causality patterns from a plurality of text data groups having date information, such as news articles, to analyze text data specified by a user and to retrieve other deeply related articles based on the stored causality patterns. <P>SOLUTION: A history information retrieval apparatus includes: a term information storage means; an article concept information storage means; an article information storage means; a history information storage means; a conceptualization means for segmenting a keyword from the text data of article information or text data received from a user and conceptualizing the segmented keyword; an article concept information preparation means for conceptualizing the text data of all article information stored in the article information storage means; a history information retrieval means for conceptualizing the text data received from the user, collating the conceptualized text data with the patterns of a series of events generated in the past and retrieving other articles with historically deep relation; and an output means for presenting a retrieval result obtained by the history information retrieval means to the user. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、歴史情報検索装置に係り、特に、ニュース記事などの日時情報を持つ複数のテキストデータ群から、特徴的な因果関係のパターンを抽出・蓄積し、さらに、ユーザにより指定されたテキストデータを分析し、蓄積された因果関係のパターンに基づいて関連の深い他の記事を検索する技術に関する。   The present invention relates to a history information search apparatus, and more particularly, extracts and stores characteristic causal patterns from a plurality of text data groups having date and time information such as news articles, and further, text data designated by a user. And a technique for searching other articles that are closely related based on the accumulated causal pattern.

従来、下記特許文献1に記載されているように、複数のニュース記事の要約を生成する記事要約装置が提案されている。   2. Description of the Related Art Conventionally, as described in Patent Document 1 below, an article summarizing device that generates summaries of a plurality of news articles has been proposed.

なお、本願発明に関連する先行技術文献としては以下のものがある。
特開2005−250648号公報
As prior art documents related to the invention of the present application, there are the following.
JP-A-2005-250648

前述の特許文献1に記載された発明によれば、ユーザの検索条件に合致する記事と、当該記事に関連の深い複数の記事を抽出し、抽出された関連記事群の要約を生成して提示することができる。
しかしながら、前述の特許文献1に記載の発明における関連記事とは、ある新規記事に対する後続記事というつながりを記事編集者が予め関連付けておいたものであるので、それを提示するだけでは、ユーザは編集者の意図しない歴史的な因果関係による関連性を持つ記事を発見することはできないという課題があった。
本発明は、前記従来技術の問題点を解決するためになされたものであり、本発明の目的は、ニュース記事などの日時情報を持つ複数のテキストデータ群から、特徴的な因果関係のパターンを抽出・蓄積し、さらに、ユーザにより指定されたテキストデータを分析し、蓄積された因果関係のパターンに基づいて関連の深い他の記事を検索することが可能な歴史情報検索装置を提供することにある。
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
According to the invention described in Patent Document 1 described above, an article that matches a user search condition and a plurality of articles that are closely related to the article are extracted, and a summary of the extracted related articles is generated and presented. can do.
However, the related article in the invention described in the above-mentioned Patent Document 1 is an article editor that associates a connection of a subsequent article with a new article in advance. There was a problem that it was not possible to find articles that are related to historical causal relationships that were not intended.
The present invention has been made to solve the problems of the prior art, and an object of the present invention is to create a characteristic causal pattern from a plurality of text data groups having date and time information such as news articles. To provide a history information search device that can extract and store, analyze text data specified by a user, and search other articles that are closely related based on the stored causal pattern is there.
The above and other objects and novel features of the present invention will become apparent from the description of this specification and the accompanying drawings.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、下記の通りである。
前述の課題を解決するために、本発明は歴史情報検索装置であって、記事本文に出現する具体的な用語を、抽象的な概念を表す単語や短文で置き換えるための対応表である用語情報を蓄積する用語情報蓄積手段と、個々の記事情報の内容を抽象的な概念で表した記事概念情報を蓄積する記事概念情報蓄積手段と、日時情報と内容を表すテキスト情報を対とした記事情報を蓄積する記事情報蓄積手段と、過去に発生した一連の出来事を表す複数の記事情報と、その一連の出来事全体を現す名称から成る歴史情報を蓄積する歴史情報蓄積手段と、記事情報のテキストデータ、あるいは、ユーザから受け取ったテキストデータからキーワードを切り出し、概念化を行う概念化手段と、前記記事情報蓄積手段に蓄積されている全記事情報のテキストデータを概念化する記事概念情報作成手段と、ユーザから受け取ったテキストデータの概念化を行い、過去に発生した一連の出来事のパターンと照合を行い、歴史的に関係の深い他の記事を検索する歴史情報検索手段と、ユーザからの入力に応答して、テキストデータを受け付ける入力手段と、前記歴史情報検索手段により得られた検索結果をユーザに提示する出力手段とを備えることを特徴とする。
Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.
In order to solve the above-described problems, the present invention is a historical information search apparatus, and is term information that is a correspondence table for replacing specific terms appearing in article text with words or short sentences representing abstract concepts. Term information storage means for storing information, article concept information storage means for storing article concept information that expresses the content of individual article information in an abstract concept, and article information that combines date information and text information that represents the contents Article information storage means for storing information, history information storage means for storing history information consisting of a plurality of article information representing a series of events that occurred in the past, and names representing the entire series of events, and text data of article information Alternatively, a conceptualization unit that cuts out keywords from text data received from a user and conceptualizes the text data of all article information stored in the article information storage unit. Historical information that searches for other historically relevant articles by conceptualizing the text data received from the user and collating with a series of events that occurred in the past It is characterized by comprising search means, input means for receiving text data in response to an input from the user, and output means for presenting the search result obtained by the history information search means to the user.

本願において開示される発明のうち代表的なものによって得られる効果を簡単に説明すれば、下記の通りである。
本発明の歴史情報検索装置によれば、ユーザの入力したテキストデータの内容と関係の深い歴史情報を探し出すことができる。また、これから発生するであろう出来事についても予測することができる。
The effects obtained by the representative ones of the inventions disclosed in the present application will be briefly described as follows.
According to the history information search apparatus of the present invention, it is possible to search for history information closely related to the contents of text data input by the user. You can also predict what will happen in the future.

以下、図面を参照して本発明の実施例を詳細に説明する。
なお、実施例を説明するための全図において、同一機能を有するものは同一符号を付け、その繰り返しの説明は省略する。
[機能ブロック]
図1に、本発明の実施例の歴史情報検索装置の機能ブロック図を示す。
図1に示すように、本実施例の歴史情報検索装置は、用語情報蓄積手段101、記事概念情報蓄積手段102、記事情報蓄積手段103、歴史情報蓄積手段104、概念化手段105、記事概念情報作成手段106、歴史情報検索手段107、入力手段108、および出力手段109を備える。
用語情報蓄積手段101は、複数の用語情報を蓄積する。用語情報とは、記事本文に出現する具体的な用語を抽象的な概念を表す単語や短文で置き換えるための対応表で表現されるものである。
記事概念情報蓄積手段102は、複数の記事概念情報を蓄積する。記事概念情報とは、記事情報蓄積手段103に格納されている個々の記事情報の内容を抽象的な概念で表したものである。
記事情報蓄積手段103は、複数の記事情報を蓄積する。記事情報とは、ニュースや新聞などのように、日時情報と内容を表すテキスト情報を対としたものである。
歴史情報蓄積手段104は、複数の歴史情報を蓄積する。歴史情報とは、過去に発生した一連の出来事を表す複数の記事情報と、その一連の出来事全体を現す名称から成るものである。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In all the drawings for explaining the embodiments, parts having the same functions are given the same reference numerals, and repeated explanation thereof is omitted.
[Function block]
FIG. 1 is a functional block diagram of a history information retrieval apparatus according to an embodiment of the present invention.
As shown in FIG. 1, the history information search apparatus of this embodiment includes term information storage means 101, article concept information storage means 102, article information storage means 103, history information storage means 104, conceptualization means 105, and article concept information creation. Means 106, history information search means 107, input means 108, and output means 109 are provided.
The term information storage unit 101 stores a plurality of term information. The term information is expressed in a correspondence table for replacing specific terms appearing in the article text with words or short sentences representing abstract concepts.
The article concept information storage unit 102 stores a plurality of article concept information. The article concept information is an abstract concept representing the contents of individual article information stored in the article information storage means 103.
The article information storage unit 103 stores a plurality of article information. The article information is a pair of date information and text information representing the contents, such as news and newspapers.
The history information storage unit 104 stores a plurality of history information. The history information is composed of a plurality of pieces of article information representing a series of events that have occurred in the past and a name representing the entire series of events.

概念化手段105は、記事概念情報作成手段106が記事情報蓄積手段103から取り出した記事情報のテキストデータ、あるいは、歴史情報検索手段107が入力手段108から受け取ったテキストデータを受け取る。受け取ったテキストデータからキーワードを切り出し、用語情報蓄積手段101に蓄積されている用語情報と照合し、テキストデータの概念化を行う。
記事概念情報作成手段106は、記事情報蓄積手段103に蓄積されている全記事情報について、記事情報のテキストデータを概念化手段105によって概念化する。更に、その結果を記事概念情報蓄積手段102に格納する。
歴史情報検索手段107は、入力手段108から受け取ったテキストデータを概念化手段105によって概念化する。その結果に基づき、類似する歴史情報、および、それに含まれる記事情報を、記事概念情報蓄積手段102、記事情報蓄積手段103、および、歴史情報蓄積手段104の3つから検索し、出力手段109によりその結果を提示する。
入力手段108は、ユーザからの入力であるテキストデータを受け取り、歴史情報検索手段107に渡す。出力手段109は、歴史情報検索手段107で検索した結果を受け取り、ユーザに提示する。
The conceptualization means 105 receives the text data of the article information taken out from the article information storage means 103 by the article concept information creation means 106 or the text data received from the input means 108 by the history information search means 107. A keyword is cut out from the received text data and collated with the term information stored in the term information accumulating means 101 to conceptualize the text data.
The article concept information creating unit 106 conceptualizes the text data of the article information by the conceptualizing unit 105 for all article information stored in the article information storing unit 103. Further, the result is stored in the article concept information storage means 102.
The history information search means 107 conceptualizes the text data received from the input means 108 by the conceptualization means 105. Based on the result, similar history information and article information included in the history information are searched from the article concept information storage means 102, the article information storage means 103, and the history information storage means 104, and output by the output means 109. Present the result.
The input means 108 receives text data that is input from the user and passes it to the history information search means 107. The output unit 109 receives the result searched by the history information search unit 107 and presents it to the user.

本実施例の歴史情報検索装置をCPUを用いて実現したハードウェア構成の一例を図2に示す。
本実施例の歴史情報検索装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備える。
ハードディスク209には、本実施例の情報検索処理を行うための概念化プログラム2091、記事概念情報作成プログラム2092、歴史情報検索プログラム2093、並びに、本実施例の情報検索処理に必要なデータを蓄積するための用語情報データベース2094、記事情報データベース2095、記事概念情報データベース2096、歴史情報データベース2097、および、オペレーティングシステム2098が記録されている。これらはCD−ROMドライブ211を介してCD−ROM213に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット217等からダウンロードしたデータを使用して行うようにしてもよい。
FIG. 2 shows an example of a hardware configuration in which the history information retrieval apparatus of this embodiment is realized using a CPU.
The history information search apparatus according to the present embodiment includes a display 201, a CPU 203, a memory 205, a keyboard / mouse 207, a hard disk 209, a CD-ROM drive 211, and a communication circuit 215.
The hard disk 209 stores a conceptualization program 2091, an article concept information creation program 2092, a history information search program 2093, and data necessary for the information search process of the present embodiment for performing the information search process of the present embodiment. Term information database 2094, article information database 2095, article concept information database 2096, history information database 2097, and operating system 2098 are recorded. These are installed by reading data recorded on the CD-ROM 213 via the CD-ROM drive 211. The installation may be performed using data downloaded from the Internet 217 or the like using the communication circuit 215.

以下、本実施例の情報検索処理において使用する各種情報のデータ構造について説明する。
(3−1)用語情報
図3に、用語情報のデータ構造とその例を示す。用語情報は、用語(301)、概念名(302)の2つの列を有する。
用語(301)は、記事の本文中に出現する具体的な用語を記述する。
概念名(302)は、用語(301)に格納されている具体的な用語の概念を表す単語、あるいは短文を記述する。
例えば、図3では、4件の用語情報を示している。このうち、第1行目は、「株」という具体的な用語は、「金融資産の価値」という概念を表現していることを表している。
(3−2)記事情報
図4に、記事情報のデータ構造とその例を示す。記事情報は、記事ID(401)、日時(402)、本文(403)の3つの列を有する。
記事ID(401)は、本実施例の歴史情報検索装置内において、記事情報を一意に特定するための識別子を記述する。
日時(402)は、当該記事の出来事が発生した日時を記述する。図4の例では、ニュース記事を用いているので、年・月・日までの情報を記述しているが、より細かく時間・分・秒の精度まで記述してもよい。
本文(403)は、当該記事の内容を表すテキストデータを記述する。
例えば、図4では、3件の記事情報を例示している。このうち、記事IDが「K000001」の記事情報は、日時が「2007年10月15日」、本文が「OO社の株価が急落」であることを表している。
Hereinafter, the data structure of various information used in the information search process of the present embodiment will be described.
(3-1) Term Information FIG. 3 shows a data structure of term information and an example thereof. The term information has two columns of a term (301) and a concept name (302).
The term (301) describes a specific term that appears in the text of an article.
The concept name (302) describes a word representing a concept of a specific term stored in the term (301) or a short sentence.
For example, FIG. 3 shows four terms information. Of these, the first line shows that the specific term “stock” expresses the concept of “value of financial assets”.
(3-2) Article Information FIG. 4 shows the data structure of article information and an example thereof. The article information has three columns of article ID (401), date and time (402), and text (403).
The article ID (401) describes an identifier for uniquely identifying article information in the historical information search apparatus of the present embodiment.
Date and time (402) describes the date and time when the event of the article occurred. In the example of FIG. 4, since news articles are used, information up to the year, month, and day is described, but it may be described more precisely to the accuracy of hours, minutes, and seconds.
The body (403) describes text data representing the content of the article.
For example, FIG. 4 illustrates three pieces of article information. Of these, the article information with the article ID “K000001” indicates that the date and time is “October 15, 2007”, and the body text is “the stock price of OO company suddenly drops”.

(3−3)歴史情報
図5に、歴史情報のデータ構造とその例を示す。歴史情報は、歴史ID(501)、歴史名(502)、記事順序(503)、記事ID(504)の4つの列を有する。
歴史ID(501)は、本実施例の歴史情報検索装置内において、歴史情報を一意に特定するための識別子を記述する。
歴史名(502)は、当該歴史情報の名称を記述する。
記事順序(503)は、当該歴史情報に含まれる複数の記事情報の時系列における順序を表す。記事順序は1から始まる正の整数で表現される。
記事ID(504)は、当該歴史情報に含まれる複数の記事情報のIDを記述する。
例えば、図5では、1件の「平成の恐慌」という名称を持つ歴史情報と、もう1件の「ブラックマンデー」という名称を持つ歴史情報の一部を例示している。すなわち、先頭から3行において、歴史IDが「R000001」であり、歴史名が「平成の恐慌」であり、その歴史情報には記事ID「K000001」の記事、記事ID「K000002」の記事、記事ID「K000003」の記事が、この順番で含まれていることを表している。(3−4)記事概念情報
図6に、記事概念情報のデータ構造とその例を示す。記事概念情報は、記事ID(601)、主体(602)、現象(603)の3つの列を有する。
記事ID(601)は、前述の(3−2)に記述した記事情報の記事ID(401)である。
主体(602)は、記事ID(601)が指し示す記事情報の内容において、主体を示す概念を記述する。
現象(603)は、記事ID(601)が指し示す記事情報の内容において、現象を示す概念を記述する。
例えば、図6では、3件の記事概念情報を例示している。このうち、先頭の行が表す記事概念情報においては、記事IDが「K000001」である記事情報の内容は、「金融資産の価値」(主体)が「減少」(現象)した、ということを表している。
(3-3) History Information FIG. 5 shows a data structure of history information and an example thereof. The history information has four columns of history ID (501), history name (502), article order (503), and article ID (504).
The history ID (501) describes an identifier for uniquely identifying history information in the history information search apparatus of the present embodiment.
The history name (502) describes the name of the history information.
The article order (503) represents a time series order of a plurality of article information included in the history information. The article order is expressed as a positive integer starting from 1.
Article ID (504) describes the IDs of a plurality of article information included in the history information.
For example, FIG. 5 illustrates one piece of historical information having the name “Heisei Depression” and another piece of historical information having the name “Black Monday”. That is, in the first three lines, the history ID is “R000001”, the history name is “Heisei Depression”, and the history information includes the article ID “K000001”, the article ID “K000002” This indicates that an article with ID “K000003” is included in this order. (3-4) Article Concept Information FIG. 6 shows the data structure of article concept information and an example thereof. The article concept information has three columns of article ID (601), subject (602), and phenomenon (603).
The article ID (601) is the article ID (401) of the article information described in the above (3-2).
The subject (602) describes the concept indicating the subject in the content of the article information indicated by the article ID (601).
The phenomenon (603) describes the concept indicating the phenomenon in the content of the article information indicated by the article ID (601).
For example, FIG. 6 illustrates three pieces of article concept information. Among these, in the article concept information represented by the first row, the content of the article information whose article ID is “K000001” represents that “the value of the financial asset” (subject) has been “decreased” (phenomenon). ing.

以下、図2に示す各プログラムの処理について、図7〜図9のフローチャートを用いて説明する。
(4−1)概念化プログラム
図7は、図2に示す概念化プログラム2091の処理手順を示すフローチャートである。以下、図2に示す概念化プログラム2091の処理手順について、図7のフローチャートを用いて説明する。
ステップ701:入力のテキストを分析して、文章の主格句と述部にあたる部分を取得する。この分析手法については、例えば、特開2005−149359号公報に記述されている形態素解析、あるいは、構文解析処理を用いる方法が挙げられる。また、奈良先端科学技術大学で開発された係り受け解析プログラム「Cabocha」等を用いる方法が挙げられる。
ステップ702:ステップ701で取得した主格句に含まれるキーワードを含む用語情報を、用語情報データベース2094から検索する。
ステップ703:ステップ701で取得した述部に含まれるキーワードを含む用語情報を、用語情報データベース2094から検索する。以上、ステップ702で得られた用語情報の概念名を主体とし、ステップ703で得られた用語情報の概念名を現象として、上位のプログラムに出力として返す。
The processing of each program shown in FIG. 2 will be described below using the flowcharts of FIGS.
(4-1) Conceptualization Program FIG. 7 is a flowchart showing the processing procedure of the conceptualization program 2091 shown in FIG. The processing procedure of the conceptualization program 2091 shown in FIG. 2 will be described below using the flowchart of FIG.
Step 701: The input text is analyzed to obtain a portion corresponding to a main phrase and a predicate of a sentence. Examples of this analysis method include a method using morphological analysis or syntax analysis processing described in JP-A-2005-149359. Another example is a method using a dependency analysis program “Cabocha” developed at Nara Institute of Science and Technology.
Step 702: Search the term information database 2094 for term information including a keyword included in the main phrase acquired in step 701.
Step 703: Search the term information database 2094 for term information including the keyword included in the predicate acquired in step 701. As described above, the concept name of the term information obtained in step 702 is mainly used, and the concept name of the term information obtained in step 703 is returned as an output to the upper program as a phenomenon.

(4−2)記事概念情報作成プログラム
図8は、図2に示す記事概念情報作成プログラム2092の処理手順を示すフローチャートである。以下、図2に示す記事概念情報作成プログラム2092の処理手順について、図8のフローチャートを用いて説明する。
ステップ801:記事情報データベース2095に格納されている記事情報の全レコード数を取得する。
ステップ802:ステップ803〜ステップ805までの処理を、ステップ801で取得した全レコード数だけ繰り返す。以下、繰り返しカウンタをnとして、初期値を1とする。
ステップ803:記事情報データベース2095に格納されている記事情報のうち、第n行のデータを取得する。
ステップ804:ステップ803で取得した記事情報の本文テキストを入力として、(4−1)で説明した概念化プログラム2091を呼び出す。概念化プログラム2091からは、出力として概念情報(主体・現象)を得る。
ステップ805:ステップ803で取得した記事情報の記事ID、および、ステップ804で取得した概念情報(主体・現象)により、記事概念情報を1レコード作成して、記事概念情報データベース2096に格納する。
ステップ806:ステップ802に対応する繰り返しの終端である。繰り返しカウンタnを増加する。
(4-2) Article Concept Information Creation Program FIG. 8 is a flowchart showing a processing procedure of the article concept information creation program 2092 shown in FIG. The processing procedure of the article concept information creation program 2092 shown in FIG. 2 will be described below using the flowchart of FIG.
Step 801: The total number of records of article information stored in the article information database 2095 is acquired.
Step 802: The processing from Step 803 to Step 805 is repeated for the total number of records acquired in Step 801. Hereinafter, the repetition counter is n and the initial value is 1.
Step 803: The data on the nth row is acquired from the article information stored in the article information database 2095.
Step 804: The body text of the article information acquired in Step 803 is input, and the conceptualization program 2091 described in (4-1) is called. From the conceptualization program 2091, conceptual information (subject / phenomenon) is obtained as an output.
Step 805: One record of article concept information is created based on the article ID of the article information acquired in step 803 and the concept information (subject / phenomenon) acquired in step 804, and stored in the article concept information database 2096.
Step 806: It is an end of repetition corresponding to Step 802. The repeat counter n is incremented.

(4−3)歴史情報検索プログラム
図9は、図2に示す歴史情報検索プログラム2093の処理手順を示すフローチャートである。以下、図2に示す歴史情報検索プログラム2093の処理手順について、図9のフローチャートを用いて説明する。
ステップ901:入力手段108より得られたユーザからのテキストデータを入力として、(4−1)で説明した概念化プログラム2091を呼び出す。概念化プログラム2091からは、出力として概念情報(主体・現象)を得る。
ステップ902:記事概念情報データベース2096から、ステップ901で取得した概念情報(主体・現象)と一致する概念情報をもつ記事概念情報を検索する。
ステップ903:ステップ904〜ステップ911までの処理を、ステップ902の検索結果の数だけ繰り返す。以下、繰り返しカウンタをn1として、初期値を1とする。
ステップ904:ステップ902の検索結果のうち、第n1行に対応する記事概念情報を、記事概念情報データベース2096から取得する。
ステップ905:歴史情報データベース2097から、ステップ904で取得した記事概念情報の記事IDを含む歴史情報を検索する。
ステップ906:ステップ907の処理を、ステップ905の検索結果の数だけ繰り返す。以下、繰り返しカウンタをn2として、初期値を1とする。
(4-3) History Information Search Program FIG. 9 is a flowchart showing the processing procedure of the history information search program 2093 shown in FIG. The processing procedure of the history information search program 2093 shown in FIG. 2 will be described below using the flowchart of FIG.
Step 901: The text data from the user obtained from the input means 108 is input, and the conceptualization program 2091 described in (4-1) is called. From the conceptualization program 2091, conceptual information (subject / phenomenon) is obtained as an output.
Step 902: Article concept information having concept information matching the concept information (subject / phenomenon) acquired in step 901 is searched from the article concept information database 2096.
Step 903: The processing from step 904 to step 911 is repeated by the number of search results in step 902. Hereinafter, the repetition counter is n1, and the initial value is 1.
Step 904: The article concept information corresponding to the n1th line is acquired from the article concept information database 2096 among the search results of Step 902.
Step 905: The history information including the article ID of the article concept information acquired in Step 904 is searched from the history information database 2097.
Step 906: The process of step 907 is repeated by the number of search results of step 905. Hereinafter, the repetition counter is n2, and the initial value is 1.

ステップ907:ステップ905の検索結果のうち、第n2行に対応する歴史情報を、歴史情報データベース2097から取得する。更に、当該歴史情報に含まれる全ての記事情報を、記事情報データベース2095から取得する。
ステップ908:ステップ907で取得した全記事に対応する記事概念情報を、記事概念情報データベース2096から取得する。
ステップ909:ステップ908で取得した全記事概念情報の並びにマッチする、他の一連の記事情報を、記事概念情報データベース2096と記事情報データベース2095から取得する。
ステップ910:ステップ906に対応する繰り返しの終端である。繰り返しカウンタn2を1増加する。
ステップ911:ステップ903に対応する繰り返しの終端である。繰り返しカウンタn1を1増加する。
ステップ912:ステップ907、ステップ908、ステップ909で取得した歴史情報と、当該歴史情報に含まれる全ての記事情報と、当該歴史情報に対応する記事概念情報の並びにマッチする他の一連の記事情報を、出力手段109により、結果としてユーザに提示する。
Step 907: History information corresponding to the n2th line is acquired from the history information database 2097 among the search results of Step 905. Further, all the article information included in the history information is acquired from the article information database 2095.
Step 908: Article concept information corresponding to all articles acquired in step 907 is acquired from the article concept information database 2096.
Step 909: A series of other pieces of article information matching the sequence of all article concept information acquired in step 908 is acquired from the article concept information database 2096 and the article information database 2095.
Step 910: It is the end of the iteration corresponding to step 906. The repeat counter n2 is incremented by one.
Step 911: It is a repetition end corresponding to Step 903. The repeat counter n1 is incremented by one.
Step 912: History information acquired in Step 907, Step 908, and Step 909, all the article information included in the history information, and other series of article information that matches the article concept information corresponding to the history information. The result is presented to the user by the output means 109.

図10に、本実施例の歴史情報検索装置の検索結果の一例を示す。
ユーザによって「○○社の破産」というテキストが入力されると、概念化手段105によって「企業・破産」という概念情報(主体・現象)に変換される。
これと一致する概念情報を、記事概念情報データベース2096から取得し、歴史情報データベース2097から、当該取得した記事概念情報を含む歴史情報として、「平成の恐慌」という歴史情報と、当該歴史情報に含まれる一連の記事情報を検索し、ユーザに提示する。(図10の1001)
更に、記事概念情報データベース2096と記事情報データベース2095とを検索し、この歴史情報の前の時期に対応する記事概念情報の並び(「経営資産の価値・減少」→「企業・破産」→「経営指標・増加」)とマッチするような、他の一連の記事情報をあわせて検索する。これにより、過去に起こった同パターンの歴史を発見することができる。(図10の1002)
また、これから起こる同パターンの歴史を発見することができる。この場合、記事概念情報「経営指標・増加」とマッチするような記事はまだ存在しないが、当該記事概念情報にマッチするような出来事がこれから発生する可能性があることを予測することができる。(図10の1003)
なお、前述の実施例においては、図1に示す機能を実現するために、CPU203を用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路などのハードウェアによって実現してもよい。なお、プログラムの一部の処理を、オペレーティングシステム(OS)にさせるようにしてもよい。
以上、本発明者によってなされた発明を、前記実施例に基づき具体的に説明したが、本
発明は、前記実施例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
In FIG. 10, an example of the search result of the historical information search device of a present Example is shown.
When the text “XX bankruptcy” is input by the user, the conceptualizing means 105 converts it into conceptual information (subject / phenomena) “company / bankruptcy”.
Concept information that matches this is acquired from the article concept information database 2096, and from the history information database 2097, the history information including the acquired article concept information is included in the history information “Heisei Depression” and the history information. A series of article information is retrieved and presented to the user. (1001 in FIG. 10)
Further, the article concept information database 2096 and the article information database 2095 are searched, and the article concept information corresponding to the previous period of the history information is arranged (“value / decrease in management assets” → “company / bankruptcy” → “management”). Search for other series of article information that matches "index / increase"). This makes it possible to discover the history of the same pattern that occurred in the past. (1002 in FIG. 10)
You can also discover the history of the same pattern that will occur in the future. In this case, there is no article that matches the article concept information “management index / increase” yet, but it can be predicted that an event that matches the article concept information may occur in the future. (1003 in FIG. 10)
In the above-described embodiment, the CPU 203 is used to realize the function shown in FIG. 1, and this is realized by software. However, some or all of them may be realized by hardware such as a logic circuit. In addition, you may make it make an operating system (OS) process a part of program.
As mentioned above, the invention made by the present inventor has been specifically described based on the above embodiments. However, the present invention is not limited to the above embodiments, and various modifications can be made without departing from the scope of the invention. Of course.

本発明の実施例の歴史情報検索装置の機能ブロック図を示す図である。It is a figure which shows the functional block diagram of the historical information search device of the Example of this invention. 本発明の実施例の歴史情報検索装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the historical information search device of the Example of this invention. 本発明の実施例の用語情報のデータ構造および用語情報を示す図である。It is a figure which shows the data structure and term information of term information of the Example of this invention. 本発明の実施例の記事情報のデータ構造および記事情報を示す図である。It is a figure which shows the data structure and article information of the article information of the Example of this invention. 本発明の実施例の歴史情報のデータ構造および歴史情報を示す図である。It is a figure which shows the data structure and historical information of the historical information of the Example of this invention. 本発明の実施例の記事概念情報のデータ構造および記事概念情報を示す図である。It is a figure which shows the data structure and article concept information of the article concept information of the Example of this invention. 図2に示す概念化プログラムの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the conceptualization program shown in FIG. 図2に示す記事概念情報作成プログラムの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the article concept information creation program shown in FIG. 図2に示す歴史情報検索プログラムのフローチャートの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the flowchart of the historical information search program shown in FIG. 本発明の実施例の歴史情報検索装置の検索結果の一例を示す図である。It is a figure which shows an example of the search result of the historical information search device of the Example of this invention.

符号の説明Explanation of symbols

101 用語情報蓄積手段
102 記事概念情報蓄積手段
103 記事情報蓄積手段
104 歴史情報蓄積手段
105 概念化手段
106 記事概念情報作成手段
107 歴史情報検索手段
108 入力手段
109 出力手段
201 ディスプレイ
203 CPU
205 メモリ
207 キーボード/マウス
209 ハードディスク
211 CD−ROMドライブ
213 CD−ROM
215 通信回路
301 用語
302 概念名
401,504,601 記事ID
402 日時
403 本文
501 歴史ID
502 歴史名
503 記事順序
602 主体
603 現象
101 Term information storage means 102 Article concept information storage means 103 Article information storage means 104 History information storage means 105 Conceptualization means 106 Article concept information creation means 107 History information search means 108 Input means 109 Output means 201 Display 203 CPU
205 Memory 207 Keyboard / Mouse 209 Hard Disk 211 CD-ROM Drive 213 CD-ROM
215 Communication circuit 301 Term 302 Concept name 401, 504, 601 Article ID
402 Date 403 Full Text 501 History ID
502 History name 503 Article order 602 Subject 603 Phenomenon

Claims (1)

記事本文に出現する具体的な用語を、抽象的な概念を表す単語や短文で置き換えるための対応表である用語情報を蓄積する用語情報蓄積手段と、
個々の記事情報の内容を抽象的な概念で表した記事概念情報を蓄積する記事概念情報蓄積手段と、
日時情報と内容を表すテキスト情報を対とした記事情報を蓄積する記事情報蓄積手段と、
過去に発生した一連の出来事を表す複数の記事情報と、その一連の出来事全体を現す名称から成る歴史情報を蓄積する歴史情報蓄積手段と、
記事情報のテキストデータ、あるいは、ユーザから受け取ったテキストデータからキーワードを切り出し、概念化を行う概念化手段と、
前記記事情報蓄積手段に蓄積されている全記事情報のテキストデータを概念化する記事概念情報作成手段と、
ユーザから受け取ったテキストデータの概念化を行い、過去に発生した一連の出来事のパターンと照合を行い、歴史的に関係の深い他の記事を検索する歴史情報検索手段と、
ユーザからの入力に応答して、テキストデータを受け付ける入力手段と、
前記歴史情報検索手段により得られた検索結果をユーザに提示する出力手段とを備えることを特徴とする歴史情報検索装置。
Term information storage means for storing term information, which is a correspondence table for replacing specific terms appearing in the article body with words or short sentences representing abstract concepts,
Article concept information storage means for storing article concept information expressing the content of individual article information in an abstract concept,
Article information storage means for storing article information in which date / time information and text information representing contents are paired;
Historical information storage means for storing a plurality of article information representing a series of events that have occurred in the past, and historical information consisting of names representing the entire series of events,
A conceptualization means for extracting and conceptualizing keywords from text data of article information or text data received from a user;
Article concept information creating means for conceptualizing text data of all article information stored in the article information storage means;
Historical information retrieval means that conceptualizes text data received from users, matches a series of events that occurred in the past, and searches other historically related articles,
An input means for receiving text data in response to an input from the user;
A history information search apparatus comprising: output means for presenting a search result obtained by the history information search means to a user.
JP2008228104A 2008-09-05 2008-09-05 History information retrieval apparatus Pending JP2010061508A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008228104A JP2010061508A (en) 2008-09-05 2008-09-05 History information retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008228104A JP2010061508A (en) 2008-09-05 2008-09-05 History information retrieval apparatus

Publications (1)

Publication Number Publication Date
JP2010061508A true JP2010061508A (en) 2010-03-18

Family

ID=42188217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008228104A Pending JP2010061508A (en) 2008-09-05 2008-09-05 History information retrieval apparatus

Country Status (1)

Country Link
JP (1) JP2010061508A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024165541A (en) * 2023-05-17 2024-11-28 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024165541A (en) * 2023-05-17 2024-11-28 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Similar Documents

Publication Publication Date Title
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
KR101681109B1 (en) An automatic method for classifying documents by using presentative words and similarity
US7809551B2 (en) Concept matching system
CN104537116B (en) A kind of books searching method based on label
US20110004465A1 (en) Computation and Analysis of Significant Themes
US8122022B1 (en) Abbreviation detection for common synonym generation
JP5796494B2 (en) Information processing apparatus, information processing method, and program
JP5391632B2 (en) Determining word and document depth
JP2004139553A (en) Document search system and question answering system
JP6056610B2 (en) Text information processing apparatus, text information processing method, and text information processing program
US8626737B1 (en) Method and apparatus for processing electronically stored information for electronic discovery
US9183297B1 (en) Method and apparatus for generating lexical synonyms for query terms
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
KR101753768B1 (en) A knowledge management system of searching documents on categories by using weights
JP6260678B2 (en) Information processing apparatus, information processing method, and information processing program
JP5345987B2 (en) Document search apparatus, document search method, and document search program
JP2008117351A (en) Search system
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
Lehmberg et al. Profiling the semantics of n-ary web table data
JP2010272006A (en) Relation extraction apparatus, relation extraction method and program
JP2010061508A (en) History information retrieval apparatus
Arun et al. Near-duplicate web page detection by enhanced TDW and simHash technique
Ung et al. Combination of features for vietnamese news multi-document summarization
CN115328945A (en) Data asset retrieval method, electronic device and computer-readable storage medium