[go: up one dir, main page]

JP2012128509A - Conception processing apparatus and program - Google Patents

Conception processing apparatus and program Download PDF

Info

Publication number
JP2012128509A
JP2012128509A JP2010277233A JP2010277233A JP2012128509A JP 2012128509 A JP2012128509 A JP 2012128509A JP 2010277233 A JP2010277233 A JP 2010277233A JP 2010277233 A JP2010277233 A JP 2010277233A JP 2012128509 A JP2012128509 A JP 2012128509A
Authority
JP
Japan
Prior art keywords
data
item name
news
heading
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010277233A
Other languages
Japanese (ja)
Other versions
JP5577228B2 (en
Inventor
Masaru Miyazaki
勝 宮崎
Atsushi Goto
淳 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2010277233A priority Critical patent/JP5577228B2/en
Publication of JP2012128509A publication Critical patent/JP2012128509A/en
Application granted granted Critical
Publication of JP5577228B2 publication Critical patent/JP5577228B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】出来事に関する内容を説明する際に、その説明をどのように構成したらよいかの適切な構成要素を得る。
【解決手段】概念処理装置1の抽出部3は、ある種類の出来事を説明している記事データから目次などを示す項目名データを抽出し、抽出した各項目名データが記事データに出現する数をカウントする。一般化処理部4は、抽出された項目名データを比較し、項目名の一部が重複、あるいは、上位概念が共通する場合、項目名データを統合してニュース要素候補データを得る。また、各ニュース要素候補データの出現数を、そのニュース要素候補データに統合された項目名データそれぞれの出現数の合計により算出する。オントロジー生成部5は、出現数が所定より多いニュース要素候補データをニュース要素データとして選択し、出来事の種類のデータを上位階層とし、ニュース要素データを下位階層としたオントロジーを生成してオントロジー記憶部8に書き込む。
【選択図】図1
An object of the present invention is to obtain an appropriate component of how an explanation should be configured when explaining contents related to an event.
An extraction unit 3 of a conceptual processing device 1 extracts item name data indicating a table of contents from article data explaining a certain type of event, and the number of items that each extracted item name data appears in article data. Count. The generalization processing unit 4 compares the extracted item name data, and if part of the item name is duplicated or has a higher concept, the item name data is integrated to obtain news element candidate data. Further, the number of appearances of each news element candidate data is calculated by the total number of appearances of the item name data integrated with the news element candidate data. The ontology generation unit 5 selects news element candidate data having a greater number of appearances than a predetermined number as news element data, generates an ontology with the event type data as the upper hierarchy, and the news element data as the lower hierarchy, and the ontology storage unit Write to 8.
[Selection] Figure 1

Description

本発明は、概念処理装置及びプログラムに関する。   The present invention relates to a conceptual processing device and a program.

インターネット上のニュースサイトなどの登場により、ユーザは事件や事故などの様々な出来事(以下、「ニュースイベント」と記載する。)に関するニュース記事を検索し、閲覧することが可能となった。しかし、ユーザがあるニュースイベントに関してその全体像をつかみたい際には、適切なキーワードによってそのニュースイベントに関するニュース記事群を検索し、検索の結果得られたニュース記事群を1つ1つ閲覧した上で、自分の中で記事の内容を再構成して概要を知る、といった作業が必要であった。   With the appearance of news sites on the Internet, users can search and browse news articles about various events such as incidents and accidents (hereinafter referred to as “news events”). However, when a user wants to get an overview of a news event, the user searches for news articles related to the news event using an appropriate keyword, and browses the news articles obtained as a result of the search one by one. So, I needed to reorganize the contents of the article and get an overview.

一方で、近年その規模を拡大し続けているWikipedia(登録商標)(http://www.wikipedia.org/、ウィキメディア財団)のような「集合知」を蓄積するサイトには、言葉の解説だけでなく、ニュースイベントに関する解説記事なども含まれている。ユーザは、そのようなサイトに含まれている解説記事を読むことにより、ニュースイベントに関する概要を知ることができるようになってきた。例えば、「新潟県中越沖地震」について集合知蓄積サイトが提供している記事を読めば、ユーザはその地震に関する全体像をつかむことができる。   On the other hand, there are no commentary on words on sites that accumulate “collective intelligence” such as Wikipedia (registered trademark) (http://www.wikipedia.org/, Wikimedia Foundation), which has been expanding in recent years. Not only that, it also includes commentary on news events. Users have been able to get an overview of news events by reading the commentary contained on such sites. For example, if an article provided by the collective intelligence storage site regarding the “Niigata Chuetsu-oki Earthquake” is read, the user can obtain an overall picture of the earthquake.

しかし、このようなサイトでも、すべてのニュースイベントを網羅的に記述してはおらず、多くのユーザの興味を引くと考えられる重要なニュースイベントのみが記事として含まれる。従って、そのサイトに含まれないニュースイベントに関しては、ユーザ自身が従来のように自力でニュース記事などを検索し、その概要を知るしかない。そこで、膨大な量のニュース記事などから、あるニュースイベントに関する「まとめ記事」を自動で生成できるようになれば、ユーザの負担は大きく減ることが予想される。非特許文献1では、このような技術を実現するために、ニュースオントロジーという概念が提案されている。   However, even such sites do not exhaustively describe all news events, and only important news events that are likely to attract many users are included as articles. Therefore, regarding news events not included in the site, the user can search for news articles and the like by himself / herself and know the outline as before. Therefore, if a “summary article” regarding a certain news event can be automatically generated from a huge amount of news articles, the burden on the user is expected to be greatly reduced. Non-Patent Document 1 proposes the concept of news ontology in order to realize such a technique.

図10は、ニュースオントロジーについて示す図である。この技術では、あるニュースイベントに関連した情報を伝えるニュース記事群が、それぞれ特定の役割を持っていると仮定する。例えば、ある記事F1、F2は「地震災害」という種類のニュースイベント(以下、ニュースイベントの種類を「ニュースイベントクラス」と記載する。)に属するテキスト情報であり、このニュースイベントクラス「地震災害」に関して「被害」の内容を示す役割を持っていると仮定する。このような役割を「ニュース要素」とし、様々な種類のニュースイベントの特徴をそのニュース要素の集合で表している。   FIG. 10 is a diagram showing the news ontology. In this technology, it is assumed that a group of news articles that convey information related to a certain news event has a specific role. For example, articles F1 and F2 are text information belonging to a news event of the type “earthquake disaster” (hereinafter, the type of news event is described as “news event class”), and this news event class “earthquake disaster”. Suppose that it has a role to show the contents of “damage”. Such a role is referred to as a “news element”, and features of various types of news events are represented by a set of the news elements.

各ニュース要素は、そのニュース要素に含まれる単語(あるいはその単語の上位概念)の集合で表現する。つまり、ニュースイベントクラスごとに、そのニュースイベントクラスを構成するニュース要素群を記述し、さらにそれらのニュース要素に対応した特徴的な単語(概念)群をオントロジーとして記述する。例えば、図10に示すように、ニュースイベントクラスには、「汚職事件」、「地震災害」、「航空機事故」などがあり、ニュースイベントクラス「地震災害」は、ニュース要素「発生概要」、「被害」、「対応」、「原因」、「その後」から構成される。そして、ニュース要素「発生概要」には単語「震度」が含まれ、ニュース要素「被害」には単語「倒壊」が含まれ、ニュース要素「原因」には単語「プレート」が含まれるという情報を構造化していく。各ニュース要素に含まれる単語は、そのニュース要素に対応付けられた記事に出現する頻度が高い単語である。特許文献1には、文書内の重要キーワードを抽出する技術について記載されている。   Each news element is expressed by a set of words (or superordinate concepts of the words) included in the news element. That is, for each news event class, a news element group constituting the news event class is described, and a characteristic word (concept) group corresponding to the news element is described as an ontology. For example, as shown in FIG. 10, the news event class includes “corruption case”, “earthquake disaster”, “aircraft accident”, and the like, and the news event class “earthquake disaster” includes the news elements “occurrence overview”, “ It consists of “damage”, “response”, “cause”, and “after”. The news element “Outbreak Summary” includes the word “seismic intensity”, the news element “damage” includes the word “collapse”, and the news element “cause” includes the word “plate”. It will be structured. A word included in each news element is a word that frequently appears in an article associated with the news element. Patent Document 1 describes a technique for extracting an important keyword in a document.

このようなニュースオントロジーを作成しておくことにより、特定のニュース要素に対応する記事のみを取り出してくる、また複数の記事をそのニュース要素ごとに組み合わせてまとめ記事を作る、といったサービスに利用が可能である。   By creating such a news ontology, it can be used for services such as extracting only articles that correspond to a specific news element, or combining multiple articles for each news element to create a collective article. It is.

特開2010−204866号公報JP 2010-204866 A

宮崎 勝他,「外部知識を用いたニュースオントロジー構築手法の検討」,2009年映像情報メディア学会冬季大会講演予稿集,発表番号1−4,2009年Masaru Miyazaki et al., “Examination of News Ontology Construction Method Using External Knowledge”, 2009 Video Information Media Society Winter Conference Proceedings, Presentation Nos. 1-4, 2009

事件や事故などのニュースイベントについて人に説明するとき、例えば、「地震災害」について説明するときには、ニュース要素として示される「発生概要」、「被害」、「対応」、「原因」、「その後」のようなカテゴリーに分けて内容を説明するとわかりやすい。しかし、このニュースイベントクラス「地震災害」のニュース要素群は、「汚職事件」、「航空機事故」などのニュースイベントクラスを説明するニュース要素とは一致しない。このように、個々のニュースイベントクラスによってニュース要素は異なる。上述した非特許文献1の技術では、膨大な数のニュースイベントクラスごとにニュース要素群を手作業で決めなければならなかった。そのため、非常に膨大な時間と労力を必要とする。   When explaining news events such as incidents and accidents to people, for example, when explaining “earthquake disasters”, “Outline of occurrence”, “damage”, “response”, “cause”, “after” shown as news elements It is easier to understand if the contents are divided into categories such as However, the news element group of the news event class “earthquake disaster” does not match the news elements explaining the news event class such as “corruption case” and “aircraft accident”. In this way, the news elements differ depending on the individual news event class. In the technique of Non-Patent Document 1 described above, a news element group has to be manually determined for each of a huge number of news event classes. Therefore, it requires a tremendous amount of time and labor.

ニュースイベントクラスを構成するニュース要素は、そのニュースイベントクラスについて記述された文書に含まれる重要なキーワードである、とも考えることができる。特定文書中の重要キーワードを獲得する手法は数多く検討されており、例えばTF−IDFのような単語の頻度情報を指標として用いた重要キーワード抽出手法により、重要と思われる文書中の単語群を抽出することは容易に実現可能である。しかし、これによって得られた単語の重要度は必ずしも説明における文書作成者の意図を正確に反映しているとは限らない。つまり、単語の重要度は、あるニュースイベントを伝える際に、「どのような種類の情報」を「どのように構成」して提示すべきか、ということを記述した構造化知識を表しているものではない。   The news elements constituting the news event class can be considered as important keywords included in the document described about the news event class. Many methods for acquiring important keywords in a specific document have been examined. For example, a group of words in a document considered to be important is extracted by an important keyword extraction method using word frequency information such as TF-IDF as an index. It is easy to do. However, the importance of the word obtained by this does not necessarily accurately reflect the intention of the document creator in the explanation. In other words, the importance of a word represents structured knowledge that describes what kind of information should be presented and how it should be presented when communicating a news event. is not.

本発明は、このような事情を考慮してなされたもので、出来事に関する内容を説明する際に、その説明をどのように構成したらよいかの適切な構成要素を得ることができる概念処理装置及びコンピュータプログラムを提供する。   The present invention has been made in consideration of such circumstances, and a concept processing apparatus capable of obtaining appropriate components of how to explain the contents related to an event, Provide a computer program.

[1] 本発明の一態様は、見出しデータを含む記事データを記憶する記事データ記憶部と、前記記事データ記憶部から前記記事データを読み出し、前記見出しデータを抽出する抽出部と、前記抽出部が抽出した複数の前記見出しデータに出現する文字が共通出現パターンを有する場合に前記共通出現パターンに基づき統合後の見出しデータを生成し、前記抽出部が抽出した複数の前記見出しデータが共通の上位概念を有する場合に前記共通の上位概念に基づき統合後の見出しデータを生成する一般化処理を行なった結果の見出しデータを構成要素データとして出力する一般化処理部と、を備えることを特徴とする概念処理装置である。
この態様によれば、概念処理装置は、ある同一の種類の出来事に関する内容が記述された複数の記事データから説明の目次とし記載されている項目名、あるいは、ニュースのタイトルやリード文などの見出しデータを取得し、取得した見出しデータが示す見出しが表層的に一致する場合や、同一の上位概念を有する場合に統合を行なう。概念処理装置は、統合を行なった結果の見出しデータを、出来事を説明する際の構成要素を示すデータとして出力する。
これにより、集合知蓄積サイトなどにより提供されるある出来事に関する記事データや、ニュース記事の記事データを利用して、人間がある出来事を伝える際に、どのような構成を利用するのかの知識に基づいた構成要素を取得することができる。また、取得した構成要素を記事等の分類に利用することにより、その出来事についてのまとめ記事の生成に活用することが可能となる。
[1] One aspect of the present invention is an article data storage unit that stores article data including heading data, an extraction unit that reads out the article data from the article data storage unit, and extracts the heading data, and the extraction unit When the characters appearing in the plurality of heading data extracted by have a common appearance pattern, the combined heading data is generated based on the common appearance pattern, and the plurality of heading data extracted by the extraction unit are common A generalization processing unit that outputs, as component data, heading data as a result of performing generalization processing for generating heading data after integration based on the common superordinate concept when having a concept It is a conceptual processing device.
According to this aspect, the conceptual processing device can be used as a table of contents or a headline such as a news title or a lead sentence from a plurality of article data in which contents related to an event of the same type are described. Data is acquired, and integration is performed when the headlines indicated by the acquired headline data are superficially matched or have the same superordinate concept. The conceptual processing device outputs the heading data as a result of the integration as data indicating the constituent elements for explaining the event.
Based on knowledge of what kind of structure is used to convey an event using article data on an event provided by a collective intelligence storage site or news article data. You can get the component. Further, by using the acquired component elements for classification of articles and the like, it is possible to use them for generating a summary article about the event.

[2] 本発明の一態様は、上述する概念処理装置であって、前記一般化処理部により得られた前記構成要素データの下層に、前記構成要素データに統合された前記見出しデータを付加したオントロジー、または、前記一般化処理部により得られた前記構成要素データの下層に、前記記事データが示す階層化された見出しデータに含まれる前記構成要素データの下層の見出しデータを付加したオントロジーデータを生成するオントロジー生成部をさらに備える、ことを特徴とする。
この態様によれば、概念処理装置は、構成要素の下層に、その構成要素データに統合されたために削除された見出しデータを付加したり、記事データに含まれる階層構造の目次から得られたその構成要素の下層の見出しデータを付加したりすることによって、階層化されたオントロジーデータを生成する。
これにより、詳細な構成要素を得ることができるとともに、それらの構成要素間の関係をわかりやすく分類することができる。
[2] One aspect of the present invention is the conceptual processing device described above, wherein the heading data integrated with the component data is added to a lower layer of the component data obtained by the generalization processing unit. Ontology or ontology data obtained by adding lower-layer heading data of the constituent element data included in the hierarchical heading data indicated by the article data to the lower-layer of the constituent element data obtained by the generalization processing unit It further comprises an ontology generation unit for generating.
According to this aspect, the conceptual processing device adds, to the lower layer of the component, the heading data that is deleted because it is integrated with the component data, or the content obtained from the table of contents of the hierarchical structure included in the article data. Layered ontology data is generated by adding heading data in the lower layer of the component.
Thereby, while being able to obtain a detailed component, the relationship between those components can be classified easily.

[3] 本発明の一態様は、上述する概念処理装置であって、前記一般化処理部により得られた前記構成要素データの順序を前記記事データが示す前記見出しデータの出現順に基づいて決定し、決定した出現順を示す情報を前記構成要素データに付加したオントロジーデータを生成するオントロジー生成部をさらに備える、ことを特徴とする。
この態様によれば、概念処理装置は、記事データから得られる出現順に基づいて構成要素データを順番に並べたオントロジーデータを生成する。
これにより、ある出来事を説明する際に、どのような順序で説明を構成すればよいかを知ることができる。
[3] One aspect of the present invention is the conceptual processing device described above, wherein the order of the component data obtained by the generalization processing unit is determined based on the appearance order of the heading data indicated by the article data. The apparatus further includes an ontology generation unit that generates ontology data in which information indicating the determined appearance order is added to the component element data.
According to this aspect, the conceptual processing device generates ontology data in which the component data is arranged in order based on the appearance order obtained from the article data.
Thereby, when explaining a certain event, it is possible to know in what order the explanation should be structured.

[4] 本発明の一態様は、上述する概念処理装置であって、前記一般化処理部は、前記一般化処理において、複数の前記見出しデータが示す見出しが後方一致、前方一致、または、部分一致する場合、あるいは、複数の前記見出しデータが示す見出しに同一の順序で共通して現われる文字数が所定以上である場合に、前記複数の見出しデータを、前記複数の見出しデータのうち最も短い見出しの見出しデータに統合し、共通の上位概念を有する前記見出データを、前記上位概念を示す見出しデータに統合し、前記見出しデータから構成要素として不適切であると判断するための所定の条件に合致する見出しデータを削除する、ことを特徴とする。
この態様によれば、概念処理装置は、ある見出しデータの見出しが、他の見出しデータの見出しの一部として含まれる場合や、見出しデータの見出しに共通して出現する文字数が多い場合は、文字数が短い見出しの見出しデータに統合し、上位概念が共通する見出しの見出しデータは、その上位概念を見出しとした見出しデータに統合する。また、概念処理装置は、例えば、数値が含まれる見出しや、文字数が多い見出しなど、記事データの内容に特化している可能性が高い見出しの見出しデータを削除する。
これにより、記事を検索したり、分類したりする際のキーワードとして利用しやすい、一般的な言葉で表した構成要素を得ることが可能となる。
[4] One aspect of the present invention is the conceptual processing device described above, wherein the generalization processing unit is configured such that, in the generalization processing, the headings indicated by the plurality of heading data match backward, match forward, or partially If there is a match, or if the number of characters commonly appearing in the same order in the headings indicated by the plurality of heading data is greater than or equal to a predetermined number, the plurality of heading data is the shortest heading of the plurality of heading data. The heading data is integrated into the heading data, and the heading data having a common superordinate concept is integrated with the heading data indicating the superordinate concept, and meets a predetermined condition for determining that the heading data is inappropriate as a component. The heading data to be deleted is deleted.
According to this aspect, the conceptual processing device, when a heading of a certain heading data is included as a part of the heading of other heading data, or when the number of characters that appear in common in the heading of the heading data is large, Are integrated into the heading data of a short heading, and the heading data of the heading having a common superordinate concept is integrated into the heading data having the superordinate concept as a heading. In addition, the conceptual processing device deletes heading data of a headline that is highly likely to be specialized in the content of article data, such as a heading including a numerical value or a heading with a large number of characters.
As a result, it is possible to obtain a component expressed in general words that can be easily used as a keyword when searching for or classifying articles.

[5] 本発明の一態様は、概念処理装置として用いられるコンピュータを、見出しデータを含む記事データを記憶する記事データ記憶部、前記記事データ記憶部から前記記事データを読み出し、前記見出しデータを抽出する抽出部、前記抽出部が抽出した複数の前記見出しデータに出現する文字が共通出現パターンを有する場合に前記共通出現パターンに基づき統合後の見出しデータを生成し、前記抽出部が抽出した複数の前記見出しデータが共通の上位概念を有する場合に前記共通の上位概念に基づき統合後の見出しデータを生成する一般化処理を行なった結果の見出しデータを構成要素データとして出力する一般化処理部、として機能させることを特徴とするプログラムである。 [5] In one embodiment of the present invention, an article data storage unit that stores article data including heading data is read out from the computer used as the conceptual processing device, and the article data is read from the article data storage unit, and the heading data is extracted. When the characters appearing in the plurality of heading data extracted by the extraction unit have a common appearance pattern, the integrated heading data is generated based on the common appearance pattern, and the extraction unit extracts When the heading data has a common superordinate concept, a generalization processing unit that outputs the heading data as a result of performing generalization processing for generating the heading data after integration based on the common superordinate concept, It is a program characterized by functioning.

本発明によれば、ある出来事を説明するために出来事に関する内容を説明する際に、その説明をどのように構成したらよいかの適切な構成要素を得ることが可能となる。   According to the present invention, when explaining contents related to an event in order to explain an event, it is possible to obtain an appropriate component as to how the explanation should be configured.

本発明の第1の実施形態による概念処理装置の機能ブロック図である。It is a functional block diagram of the conceptual processing apparatus by the 1st Embodiment of this invention. 同実施形態に用いられる記事データの例を示す図である。It is a figure which shows the example of the article data used for the embodiment. 同実施形態による概念処理装置の処理フローを示す図である。It is a figure which shows the processing flow of the conceptual processing apparatus by the embodiment. 同実施形態による表層的な情報を用いた統合処理を示す図である。It is a figure which shows the integration process using the surface information by the same embodiment. 同実施形態による意味的な情報を用いた統合処理を示す図である。It is a figure which shows the integration process using the semantic information by the embodiment. 同実施形態による削除処理を示す図である。It is a figure which shows the deletion process by the embodiment. 本発明の第2の実施形態による多層化オントロジーデータの例を示す図である。It is a figure which shows the example of multilayered ontology data by the 2nd Embodiment of this invention. 本発明の第4の実施形態によるニュース要素間の前後関係が含まれるオントロジーの例を示す図である。It is a figure which shows the example of ontology in which the context between the news elements by the 4th Embodiment of this invention is included. 本発明の第5の実施形態に用いられる記事データの例を示す図である。It is a figure which shows the example of the article data used for the 5th Embodiment of this invention. 従来技術におけるニュースオントロジーデータの例を示す図である。It is a figure which shows the example of news ontology data in a prior art.

以下、図面を参照しながら本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

[1.第1の実施形態]
図1は、本発明の第1の実施形態による概念処理装置1の構成を示す機能ブロック部である。概念処理装置1は、例えば、1台または複数台のサーバ等のコンピュータ装置により実現することができる。概念処理装置1は、記事データ取得部2、抽出部3、一般化処理部4、オントロジー生成部5、記事データ記憶部6、シソーラス記憶部7、及び、オントロジー記憶部8を備えて構成される。
[1. First Embodiment]
FIG. 1 is a functional block diagram showing the configuration of the conceptual processing device 1 according to the first embodiment of the present invention. The conceptual processing device 1 can be realized by a computer device such as one or a plurality of servers. The conceptual processing device 1 includes an article data acquisition unit 2, an extraction unit 3, a generalization processing unit 4, an ontology generation unit 5, an article data storage unit 6, a thesaurus storage unit 7, and an ontology storage unit 8. .

記事データ取得部2は、オントロジー生成対象のニュースイベントクラスについてのニュース記事をデータ化した記事データを取得し、記事データ記憶部6に書き込む。ニュースイベントとは、事件や事故などの出来事であり、ある特定の種類のニュースイベントをニュースイベントクラスという。オントロジーとは、ニュースイベントクラスと、そのニュースイベントクラスのニュース要素との対応付けである。ニュース要素とは、ニュースイベントクラスについての説明の構成要素であり、説明内容をカテゴリー分けしたものである。記事データ取得部2は、インターネットなどの公衆網やイントラネットなどの私設網であるネットワークを介して接続される他のサーバ等から記事データを読み出してもよく、コンピュータ読み取り可能な記録媒体から記事データを読み出してもよい。   The article data acquisition unit 2 acquires article data obtained by converting a news article about an ontology generation target news event class into data, and writes the article data in the article data storage unit 6. A news event is an event such as an incident or accident, and a specific type of news event is called a news event class. An ontology is a correspondence between a news event class and a news element of the news event class. The news element is a constituent element of the explanation about the news event class, and the contents of explanation are classified into categories. The article data acquisition unit 2 may read article data from other servers connected via a public network such as the Internet or a private network such as an intranet, and may read article data from a computer-readable recording medium. You may read.

記事データは、半構造化テキスト情報であり、構造化テキスト情報及び非構造化テキスト情報を含む。構造化テキスト情報は、章や節などの項目を記述したテキストデータと、そのテキストデータの文字の大きさ、フォント、表示位置などを示すスタイルデータとを含む。項目は、出来事に関する説明を内容のまとまりごとに分類したものであり、項目には、内容がすぐわかるようにつけられた見出しである項目名が含まれている。非構造化テキスト情報は、構造化テキスト情報で示される章や節などの項目についての説明などを記述したテキストデータと、そのテキストデータのスタイルデータとを含む。記事データがHTML(Hypertext Markup Language)データである場合、スタイルデータはタグに相当する。なお、記事データは、構造化テキスト情報のみを含んでもよく、画像データなどの他の情報が含まれてもよい。   The article data is semi-structured text information, and includes structured text information and unstructured text information. The structured text information includes text data describing items such as chapters and sections, and style data indicating the character size, font, display position, and the like of the text data. The item is a group of explanations about the events classified by contents, and the item includes an item name which is a heading attached so that the contents can be easily understood. The unstructured text information includes text data describing an explanation of items such as chapters and sections indicated by the structured text information, and style data of the text data. When the article data is HTML (Hypertext Markup Language) data, the style data corresponds to a tag. Note that the article data may include only structured text information, or may include other information such as image data.

抽出部3は、記事データ記憶部6に記憶されている記事データ内の構造化テキスト情報から見出しデータとして、項目名を示す項目名データを抽出し、取得した記事データのうち、抽出した各項目名データが構造化テキスト情報に出現する記事データの数をカウントする。抽出部3は、抽出した項目名データを、当該項目名データについてカウントした出現数と対応付けて一般化処理部4に出力する。   The extraction unit 3 extracts item name data indicating an item name as heading data from the structured text information in the article data stored in the article data storage unit 6, and extracts each item from the acquired article data The number of article data in which name data appears in structured text information is counted. The extraction unit 3 outputs the extracted item name data to the generalization processing unit 4 in association with the number of appearances counted for the item name data.

一般化処理部4は、抽出部3から入力された項目名データを比較し、重複する項目名や、同様の意味の項目名を示す項目名データを統合したり、ニュース要素として用いることが好ましくない項目名の項目名データを削除したりする一般化処理を行なう。項目名データを統合する際、一般化処理部4は、統合の対象となる項目名データの出現数を合算し、統合後の項目名データの出現数とする。また、一般化処理部4は、同様の意味を示す項目名データを統合する際、シソーラス記憶部7に記憶されている概念辞書データを参照する。一般化処理部4は、統合処理、削除処理を行なった結果残った項目名データをニュース要素データの候補として、出現数とともにオントロジー生成部5へ出力する。   It is preferable that the generalization processing unit 4 compares the item name data input from the extraction unit 3 and integrates item name data indicating duplicate item names or item names having similar meanings or uses them as news elements. Perform generalization processing such as deleting item name data for non-existing item names. When integrating the item name data, the generalization processing unit 4 adds up the number of appearances of the item name data to be integrated to obtain the number of appearances of the item name data after integration. The generalization processing unit 4 refers to the concept dictionary data stored in the thesaurus storage unit 7 when integrating item name data having the same meaning. The generalization processing unit 4 outputs the item name data remaining as a result of the integration processing and the deletion processing to the ontology generation unit 5 together with the number of appearances as news element data candidates.

オントロジー生成部5は、一般化処理部4から入力されたニュース要素データの候補の中から、オントロジーを構成するニュース要素データを出現数に基づいて抽出する。オントロジー生成部5は、オントロジー生成対象のニュースイベントクラスを階層構造の上位階層とし、抽出したニュース要素データが示すニュース要素を下位階層とした木構造のオントロジーを示すオントロジーデータを生成し、オントロジー記憶部8に書き込む。   The ontology generation unit 5 extracts the news element data constituting the ontology from the news element data candidates input from the generalization processing unit 4 based on the number of appearances. The ontology generation unit 5 generates ontology data indicating the ontology of a tree structure with the news event class to be generated as an ontology being the upper hierarchy of the hierarchical structure and the news element indicated by the extracted news element data being the lower hierarchy, and the ontology storage unit Write to 8.

記事データ記憶部6、シソーラス記憶部7及びオントロジー記憶部8は、ハードディスク装置や半導体メモリなどで実現される。記事データ記憶部6は、記事データ取得部2が取得した記事データを記憶する。シソーラス記憶部7は、上位の概念の言葉と、下位の概念の言葉の対応付けを木構造などで示す概念辞書データを記憶する。概念辞書データは、ネットワーク構造になっているものでもよい。オントロジー記憶部8は、オントロジー生成部5により生成されたオントロジーデータを記憶する。   The article data storage unit 6, the thesaurus storage unit 7, and the ontology storage unit 8 are realized by a hard disk device, a semiconductor memory, or the like. The article data storage unit 6 stores the article data acquired by the article data acquisition unit 2. The thesaurus storage unit 7 stores concept dictionary data indicating a correspondence between a higher concept word and a lower concept word in a tree structure or the like. The conceptual dictionary data may have a network structure. The ontology storage unit 8 stores ontology data generated by the ontology generation unit 5.

続いて、本実施形態の概念処理装置1の動作について説明する。本実施形態では、人手により編集された構造化テキスト情報を含んだ記事データを用いてニュース要素群を抽出する。つまり、概念処理装置1が利用する目次等の項目は、人手により編集されたものであり、従って、ニュースイベントクラスの出来事を説明する際に人間がどのように説明を構成するかの知識を利用してニュース要素群を抽出することができる。
記事データとして、集合知蓄積サイト、例えば、Wikipedia(登録商標)により提供されるHTML(Hypertext Markup Language)文書データを用いる。
Subsequently, the operation of the conceptual processing device 1 of the present embodiment will be described. In the present embodiment, a news element group is extracted using article data including structured text information edited manually. In other words, items such as a table of contents used by the conceptual processing device 1 are manually edited, and therefore use knowledge of how humans compose explanations when explaining events in a news event class. And a news element group can be extracted.
As article data, HTML (Hypertext Markup Language) document data provided by a collective intelligence storage site, for example, Wikipedia (registered trademark) is used.

図2は、概念処理装置1が利用する記事データが示す記事の例を示す図であり、「新潟県中越沖地震」に関してWikipedia(登録商標)が提供する記事の抜粋を示している。図2(a)は、記事データに含まれる構造化テキスト情報が示す項目の表示であり、図2(b)は、構造化テキスト情報が示す項目に含まれる項目名と非構造化テキスト情報が示す本文の表示(抜粋)である。   FIG. 2 is a diagram showing an example of an article indicated by article data used by the concept processing device 1, and shows an excerpt of an article provided by Wikipedia (registered trademark) regarding the “Niigata Chuetsu-oki Earthquake”. FIG. 2A shows the display of items indicated by the structured text information included in the article data, and FIG. 2B shows the item names and unstructured text information included in the items indicated by the structured text information. This is a display (excerpt) of the text shown.

図2(a)に示すように、構造化テキスト情報に含まれるテキストデータには、章や節などの複数の項目に分けてその内容が記述されている。項目は、図2(b)に示すような出来事に関する説明を内容のまとまりごとに分類したものであり、項目名(タイトル)が含まれている。これらの項目名は、記事データが属するニュースイベントクラスを説明するために必要なニュース要素をそのまま示していると考えることができる。つまり、図2(a)では、ニュースイベントクラス「地震」は、「概要」、「発生要因」、「被害」、「政府・自治体対応」、…などの項目名の項目によりその内容を伝えることができることを表しており、これらの項目名を、ニュース要素の候補とみなすことができる。   As shown in FIG. 2A, the text data included in the structured text information is divided into a plurality of items such as chapters and sections and the contents thereof are described. The item is a description of the event as shown in FIG. 2B, which is classified for each group of contents, and includes an item name (title). These item names can be considered as indicating the news elements necessary for explaining the news event class to which the article data belongs. In other words, in Fig. 2 (a), the news event class "Earthquake" conveys its contents by item name items such as "Summary", "Cause", "Damage", "Government / Local Government Response", etc. These item names can be regarded as news element candidates.

しかし、すべての地震関連の記事データの内容がこのような項目で構成されているわけではない。さらには、このような内容の記事データが存在しない地震もある。そのため、本実施形態では、ニュース要素を複数の記事に共通して出現する項目名から抽出する。このように、人手により編集されたテキスト情報の構造からニュース要素に該当する候補を抽出し、それらを一般化することによりニュース要素を抽出する。   However, the content of all earthquake-related article data is not composed of such items. Furthermore, there are earthquakes that do not have article data with such content. Therefore, in the present embodiment, news elements are extracted from item names that appear in common in a plurality of articles. In this way, candidates corresponding to news elements are extracted from the structure of text information manually edited, and news elements are extracted by generalizing them.

なお、上記の記事データは、例えば、上位クラス「地震」、下位クラス「日本の地震」のように、階層化されたカテゴリーと予め対応付けられている。そこで、特定のニュースイベントクラスに属する記事データを収集するためには、キーワード検索を行なったり、その記事データと対応付けられているカテゴリーの情報を利用したりすることが可能である。   The article data is associated with a hierarchical category in advance, for example, the upper class “earthquake” and the lower class “Japan earthquake”. Therefore, in order to collect article data belonging to a specific news event class, it is possible to perform a keyword search or use category information associated with the article data.

図3は、本実施形態の概念処理装置1の処理フローを示す図である。
まず、概念処理装置1の記事データ取得部2は、特定のニュースイベントクラスに属する記事データを取得する(ステップS10)。例えば、記事データ取得部2は、インターネットなどのネットワークを介して接続される集合知蓄積サイトのサーバから、ニュースイベントクラスC1「地震」に対応付けられた記事データA1、A2、…を読み出す。取得する記事データの数の制限はない。記事データ取得部2は、取得した記事データを抽出部3に出力する。
FIG. 3 is a diagram illustrating a processing flow of the conceptual processing device 1 of the present embodiment.
First, the article data acquisition unit 2 of the conceptual processing device 1 acquires article data belonging to a specific news event class (step S10). For example, the article data acquisition unit 2 reads the article data A1, A2,... Associated with the news event class C1 “earthquake” from the server of the collective intelligence storage site connected via a network such as the Internet. There is no limit on the number of article data to be acquired. The article data acquisition unit 2 outputs the acquired article data to the extraction unit 3.

抽出部3は、記事データ取得部2から入力された各記事データ内の構造化テキスト情報が示す章や節、目次のデータなどから項目名のテキストデータである項目名データを抽出する(ステップS15)。具体的には、以下の処理を行なう。   The extraction unit 3 extracts item name data that is text data of an item name from the chapter, section, table of contents data, etc. indicated by the structured text information in each article data input from the article data acquisition unit 2 (step S15). ). Specifically, the following processing is performed.

記事データ内の構造化テキスト情報にはスタイルデータが含まれており、このスタイルデータが示す文字の大きさなどから、そのスタイルデータに対応したテキストデータが章や節、目次などの項目に含まれる項目名の項目名データであることを容易に判定することができる。記事データがHTML文書データである場合、この文字の大きさなどのスタイルデータはタグに記述されている。抽出部3は、各記事データA1、A2、…に含まれる構造化テキスト情報から、項目名データであることが示されるタグを特定し、特定したタグに対応したテキストデータを項目名データとして抽出する。抽出部3は、1章の下位の階層に1.1節があるなど、項目が階層化されているときは第1階層の項目の項目名データのみを抽出するが、全ての階層の項目の項目名データを抽出してもよい。   The structured text information in the article data includes style data, and text data corresponding to the style data is included in items such as chapters, sections, and table of contents based on the size of the characters indicated by the style data. It can be easily determined that the item name is item name data. When the article data is HTML document data, style data such as the character size is described in the tag. The extraction unit 3 identifies a tag indicated as item name data from the structured text information included in each article data A1, A2,... And extracts text data corresponding to the identified tag as item name data. To do. The extraction unit 3 extracts only item name data of items in the first layer when items are layered, such as section 1.1 in the lower layer of Chapter 1, but items of all layers are extracted. Item name data may be extracted.

上記処理により、複数の記事データから同じ項目名データが抽出される場合がある。そこで、抽出部3は、全ての記事データから項目名データを抽出すると、完全一致する同一の項目名データについては統合して1つのみを残し、重複をなくす。抽出部3は、重複をなくした結果得られた項目名データBi(iは1以上の整数)それぞれについて、その項目名データを構造化テキスト情報に含む記事データの数である出現記事数Niを得る。具体的には、重複がなかった項目名データの出現記事数は1であり、重複があった項目名データの出現記事数は統合前の当該項目名データの数である。抽出部3は、項目名データとその項目名データの出現記事数の組(B1、N1)、(B2、N2)、…を一般化処理部4へ出力する。   By the above process, the same item name data may be extracted from a plurality of article data. Therefore, when the extraction unit 3 extracts the item name data from all the article data, the same item name data that is completely matched is integrated to leave only one and eliminates duplication. For each item name data Bi (i is an integer equal to or greater than 1) obtained as a result of eliminating duplication, the extraction unit 3 calculates the number of appearing articles Ni, which is the number of article data including the item name data in the structured text information. obtain. Specifically, the number of appearing articles in the item name data without duplication is 1, and the number of appearing articles in the item name data with duplication is the number of the item name data before integration. The extraction unit 3 outputs a combination (B1, N1), (B2, N2),... Of the item name data and the number of appearance articles of the item name data to the generalization processing unit 4.

一般化処理部4は、抽出部3から入力された項目名データについて一般化処理を行なう(ステップS20)。一般化処理には、統合処理と削除処理がある。統合処理において、一般化処理部4は、複数の項目名データが統合の対象となるかを検証し、対象となる場合には1つの項目名データに統合する。さらに、統合処理において、一般化処理部4は、統合の結果残った項目名データそれぞれについて、統合の対象となった各項目名データの出現記事数を合計した出現記事数を算出する。また、削除処理において、一般化処理部4は、各項目名データが削除の対象となるかを検証し、対象となる場合には削除を行なう。一般化処理部4は、一般化処理後に残った項目名データのリストであるニュース要素候補データ群を得る(ステップS20)。ニュース要素候補データとは、ニュース要素データの候補となるデータである。なお、統合処理及び削除処理の詳細については後述する。一般化処理部4は、ニュース要素候補データDj(jは1以上の整数)と、その出現記事数Ljの組(D1、L1)、(D2、L2)、…をオントロジー生成部5に出力する。   The generalization processing unit 4 performs generalization processing on the item name data input from the extraction unit 3 (step S20). Generalization processing includes integration processing and deletion processing. In the integration process, the generalization processing unit 4 verifies whether or not a plurality of item name data is to be integrated, and if it is to be integrated, integrates it into one item name data. Further, in the integration process, the generalization processing unit 4 calculates the number of appearing articles obtained by summing up the number of appearing articles of each item name data to be integrated for each item name data remaining as a result of the integration. Further, in the deletion process, the generalization processing unit 4 verifies whether each item name data is a deletion target, and deletes the item name data if it is a target. The generalization processing unit 4 obtains a news element candidate data group that is a list of item name data remaining after the generalization processing (step S20). News element candidate data is data that is a candidate for news element data. Details of the integration process and the deletion process will be described later. The generalization processing unit 4 outputs the news element candidate data Dj (j is an integer of 1 or more) and the number of appearance articles Lj (D1, L1), (D2, L2),... To the ontology generation unit 5. .

オントロジー生成部5は、一般化処理部4から入力されたニュース要素候補データD1、D2、…の中から出現記事数が所定の条件を満たすニュース要素候補データをニュース要素データE1、E2、…として選択する。例えば、所定の条件は、出現記事数が所定数以上のニュース要素候補データ、出現記事数が多い順に所定数または所定割合のニュース要素候補データなどとすることができる。オントロジー生成部5は、ニュースイベントクラスC1「地震」を示すニュースイベントクラスデータを第1階層とし、選択したニュース要素データE1「発生原因」、ニュース要素データE2「対応」、…を第2階層としたオントロジーの構造を作成する(ステップS25)。オントロジー生成部5は、作成されたオントロジーをオントロジー記述言語などにより記述したオントロジーデータを生成し、オントロジー記憶部8に書き込む(ステップS30)。生成されたオントロジーは、図3に示す2階層である。   The ontology generation unit 5 sets the news element candidate data satisfying a predetermined condition from the news element candidate data D1, D2,... Input from the generalization processing unit 4 as news element data E1, E2,. select. For example, the predetermined condition may be news element candidate data with the number of appearing articles equal to or greater than a predetermined number, news element candidate data with a predetermined number or a predetermined ratio in descending order of the number of appearing articles, and the like. The ontology generation unit 5 sets the news event class data indicating the news event class C1 “earthquake” as the first hierarchy, and sets the selected news element data E1 “cause of occurrence”, news element data E2 “correspondence”,. The ontology structure thus created is created (step S25). The ontology generation unit 5 generates ontology data in which the created ontology is described using an ontology description language or the like, and writes the ontology data into the ontology storage unit 8 (step S30). The generated ontology has two layers as shown in FIG.

次に、図4〜図6を用いて、図3のステップS20において一般化処理部4が実行する一般化処理の詳細を説明する。   Next, details of the generalization process executed by the generalization processing unit 4 in step S20 of FIG. 3 will be described with reference to FIGS.

図4は、項目名の表層的な特徴に注目した統合処理を示す。表層的な特徴に注目した統合処理では、複数の項目名データに出現する文字が共通の出現パターンを有する場合にそれらの項目名データの統合を行なう。なお、各項目名データの後ろの括弧内に記載されている数値は、出現記事数を示す。以下、項目名「X」を示す項目名データを項目名データ「X」と記載する。
図4(a)は、後方一致による統合処理を示す。一般化処理部4は、一方の項目名データが示す項目名が他方の項目名データが示す項目名の末尾に一致していると判断した場合にこれらの項目名データを統合し、項目名の長さが短い方を統合後の項目名データとする。同図に示すように、項目名データ「対応」と項目名データ「政府の対応」は後方一致しており、これら2つの項目名データは、長さが短い項目名の項目名データ「対応」に統合される。一般化処理部4は、統合後の項目名データ「対応」の出現記事数を、統合前の項目名データ「対応」の出現記事数「6」と、項目名データ「政府の対応」の出現記事数「2」を合算した「8」とする。
FIG. 4 shows an integration process focusing on the surface features of the item names. In the integration process focusing on the surface features, when the characters appearing in a plurality of item name data have a common appearance pattern, the item name data are integrated. In addition, the numerical value described in parentheses after each item name data indicates the number of appearing articles. Hereinafter, item name data indicating the item name “X” is referred to as item name data “X”.
FIG. 4A shows an integration process based on backward matching. When it is determined that the item name indicated by one item name data matches the end of the item name indicated by the other item name data, the generalization processing unit 4 integrates these item name data, The shorter length is used as the item name data after integration. As shown in the figure, the item name data “correspondence” and the item name data “government correspondence” are in a backward match, and these two item name data are the item name data “correspondence” of the item name having a short length. Integrated into. The generalization processing unit 4 sets the number of appearance articles of the item name data “correspondence” after the integration, the number of appearance articles “6” of the item name data “correspondence” before the integration, and the appearance of the item name data “correspondence of the government” The total number of articles “2” is “8”.

図4(b)は、前方一致による統合処理を示す。一般化処理部4は、一方の項目名データが示す項目名が他方の項目名データが示す項目名の先頭に一致していると判断した場合にこれらの項目名データを統合し、項目名の長さが短い方を統合後の項目名データとする。同図に示すように、項目名データ「被害」と項目名データ「被害状況」は、前方一致しており、これら2つの項目名データは、長さが短い項目名の項目名データ「被害」に統合される。一般化処理部4は、統合後の項目名データ「被害」の出現記事数を、統合前の項目名データ「被害」の出現記事数「12」と、項目名データ「被害状況」の出現記事数「4」を合算した「16」とする。   FIG. 4B shows an integration process based on front matching. When the generalization processing unit 4 determines that the item name indicated by one item name data matches the head of the item name indicated by the other item name data, the generalization processing unit 4 integrates these item name data, The shorter length is used as the item name data after integration. As shown in the figure, the item name data “damage” and the item name data “damage status” are in front of each other, and these two item name data are the item name data “damage” of the item name having a short length. Integrated into. The generalization processing unit 4 sets the number of appearing articles of the item name data “damage” after the integration, the number of appearing articles “12” of the item name data “damage” before the unification, and the appearing articles of the item name data “damage status”. The sum of the number “4” is “16”.

図4(c)は、部分一致による統合処理を示す。一般化処理部4は、一方の項目名データの項目名が他方の項目名データの項目名の先頭あるいは末尾以外に含まれていると判断した場合にこれらの項目名データを統合し、他方の項目名に含まれている項目名の項目名データを統合後の項目名データとする。同図に示すように、項目名データ「各地の被害状況」と項目名データ「被害」は部分一致しており、これら2つの項目名データは、項目名「各地の被害状況」に含まれている項目名「被害」の項目名データに統合される。一般化処理部4は、統合後の項目名データ「被害」の出現記事数を、統合前の項目名データ「各地の被害状況」の出現記事数「3」と、項目名データ「被害」の出現記事数「12」を合算した「15」とする。   FIG. 4C shows an integration process by partial matching. When the generalization processing unit 4 determines that the item name of one item name data is included other than the head or the end of the item name of the other item name data, these item name data are integrated, The item name data of the item name included in the item name is used as the integrated item name data. As shown in the figure, the item name data “Damage status in each location” and the item name data “Damage” are partially matched, and these two item name data are included in the item name “Damage status in each location”. It is integrated into the item name data of the item name “damage”. The generalization processing unit 4 sets the number of appearing articles of the item name data “damage” after integration, the number of appearing articles “3” of the item name data “damage status of each place” before the integration, and the item name data “damage”. The total number of appearance articles “12” is “15”.

図4(d)は、LCS(最長共通部分列)による統合処理を示す。一般化処理部4は、一方の項目名データが示す項目名と、他方の項目名データが示す項目名とに共通して同じ順番に出現する文字数を抽出し、抽出された文字数が所定数以上であると判断した場合にこれらの項目名データを統合し、項目名の長さが短い方を統合後の項目名データとする。同図に示すように、項目名データ「発生原因」と項目名データ「発生の要因」の場合、「発」、「生」、「因」が共通して同じ順番に出現する。一般化処理部4は、抽出された文字数「3」が、統合すべきと判断する閾値「3」以上であると判断し、これら2つの項目名データを、長さが短いほうの項目名データ「発生原因」に統合する。一般化処理部4は、統合後の項目名データ「発生原因」の出現記事数を、統合前の項目名データ「発生原因」の出現記事数「3」と、項目名データ「発生の要因」の出現記事数「6」を合算した「9」とする。   FIG. 4D shows integration processing by LCS (longest common subsequence). The generalization processing unit 4 extracts the number of characters that appear in the same order in common with the item name indicated by one item name data and the item name indicated by the other item name data, and the number of extracted characters is equal to or greater than a predetermined number If it is determined that the item name data is integrated, these item name data are integrated, and the item name with the shorter item name length is used as the integrated item name data. As shown in the figure, in the case of item name data “Cause of occurrence” and item name data “Cause of occurrence”, “Occurrence”, “Raw”, and “Cause” appear in the same order in common. The generalization processing unit 4 determines that the extracted number of characters “3” is equal to or greater than the threshold “3” for determining that they should be integrated, and uses these two item name data as item name data having a shorter length. Integrate into “Cause”. The generalization processing unit 4 sets the number of appearance articles of the item name data “occurrence cause” after the integration, the number of appearance articles “3” of the item name data “occurrence cause” before the integration, and the item name data “cause of occurrence”. The total number of appearing articles “6” is “9”.

上記のように、一般化処理部4は、項目名の表層的な一致によって項目名データを統合するか否かを判断し、統合対象となった場合は、統合対象の項目名データのうち文字数の少ない項目名の項目名データを統合後の項目名データとしている。   As described above, the generalization processing unit 4 determines whether or not the item name data is to be integrated based on the surface layer matching of the item names. When the item name data is to be integrated, the number of characters in the item name data to be integrated Item name data with less item names is used as item name data after integration.

図5は、項目名の意味的な特徴に基づいた統合処理を示す。意味的な特徴に基づいた統合処理では、複数の項目名に関連付けられる意味が共通概念を有する場合にそれら項目名の項目名データの統合を行なう。一般化処理部4は、シソーラスなどの概念辞書を用いて統合処理を行う。
シソーラス記憶部7に記憶されている概念辞書データには、共通の上位概念を持つ複数の下位概念が示されている。そこで、一般化処理部4は、上位概念が共通である下位概念の項目名を示す複数の項目名データを、これら項目名に共通の上位概念を項目名とした項目名データに統合する。
同図に示すように、概念辞書データに、「バス」、「電車」が共通の上位概念「交通機関」を持つ下位概念であることが示されている。一般化処理部4は、項目名データ「バス」、「電車」を、新たな項目名データ「交通機関」に統合する。一般化処理部4は、統合後の項目名データ「交通機関」の出現記事数を、統合前の項目名データ「電車」の出現記事数「4」と、項目名データ「バス」の出現記事数「1」を合算した「5」とする。
FIG. 5 shows an integration process based on the semantic characteristics of the item names. In the integration process based on semantic features, when the meanings associated with a plurality of item names have a common concept, the item name data of those item names are integrated. The generalization processing unit 4 performs integration processing using a concept dictionary such as a thesaurus.
The concept dictionary data stored in the thesaurus storage unit 7 shows a plurality of subordinate concepts having a common superordinate concept. Therefore, the generalization processing unit 4 integrates a plurality of item name data indicating item names of lower concepts having a common upper concept into item name data having item names of the upper concepts common to these item names.
As shown in the figure, the concept dictionary data indicates that “bus” and “train” are subordinate concepts having a common superordinate concept “transportation”. The generalization processing unit 4 integrates the item name data “bus” and “train” into the new item name data “transportation”. The generalization processing unit 4 sets the number of appearance articles of the item name data “transportation” after the integration, the number of appearance articles “4” of the item name data “train” before the integration, and the appearance article of the item name data “bus”. The number “1” is added to “5”.

図6は、ニュース要素として不適な項目名データを削除する削除処理を示す。
図6(a)は、文字数判定による削除処理を示す。一般化処理部4は、文字数が所定以上である項目名を示す項目名データを削除する。これは、長すぎる項目名は、その項目名が含まれている記事データが取り扱っている内容に特有の項目名であると考えられ、ニュースイベントクラス全体に共通した項目である可能性が低いためである。
FIG. 6 shows a deletion process for deleting item name data inappropriate as a news element.
FIG. 6A shows a deletion process by character number determination. The generalization processing unit 4 deletes item name data indicating an item name having a predetermined number of characters. This is because an item name that is too long is considered to be an item name specific to the content handled by the article data that contains the item name, and is unlikely to be an item common to the entire news event class. It is.

図6(b)は、数字が含まれる場合の削除処理を示す。一般化処理部4は、数字が含まれている項目名を示す項目名データを削除する。各記事データは、ある特定の出来事について記述されていることが多い。例えば、ニュースイベントクラス「地震」に対応付けられた記事データであっても、その内容は、関東大震災について説明した記事、最近起こった地震の被害からの復旧状況について説明した記事などが含まれる。数字は、特定の出来事のみに関連する年や数値などの事例を表すことが多く、数値が含まれる項目名はニュースイベントクラス全体に共通している可能性が低いため、削除の対象とする。   FIG. 6B shows a deletion process when a number is included. The generalization processing unit 4 deletes item name data indicating an item name including a number. Each article data often describes a specific event. For example, even the article data associated with the news event class “earthquake” includes an article explaining the Great Kanto Earthquake and an article explaining the recovery status from the recent earthquake damage. Numbers often represent cases such as years and numbers related only to specific events, and item names containing numbers are unlikely to be common to all news event classes, so they are subject to deletion.

図6(c)は、ニュースイベントクラスと同じ項目名を示す項目名データの削除処理を示す。一般化処理部4は、ニュースイベントクラスと同じ項目名を示す項目名データを削除する。   FIG. 6C shows a process for deleting item name data indicating the same item name as the news event class. The generalization processing unit 4 deletes item name data indicating the same item name as the news event class.

一般化処理部4は、上記の統合処理、削除処理などの一般化処理を行い、最終的に残った項目名データがニュース要素候補データとなる。
なお、上述した各統合処理、各削除処理の全てを実行してもよく、一部のみを実行してもよい。また、各統合処理、各削除処理の実行順序は任意である。実行する統合処理、削除処理と、その実行順によってニュース要素候補データとして得られる結果は異なるため、システム設計者は目的によってそれらを柔軟に組み合わせて決定することが可能である。
The generalization processing unit 4 performs generalization processing such as integration processing and deletion processing described above, and finally the remaining item name data becomes news element candidate data.
Note that all of the integration processes and deletion processes described above may be executed, or only a part thereof may be executed. Further, the execution order of each integration process and each deletion process is arbitrary. Since the results obtained as news element candidate data differ depending on the integration processing and deletion processing to be executed and the order of execution, the system designer can determine a combination of them flexibly according to the purpose.

日本語の特性として、重要な内容は後ろに置かれることが多い。また、概念辞書には、一般的な単語を概念として用いていることが多い。そのため、例えば、最初に後方一致による統合処理を行い、その後、前方一致、部分一致、LCSによる統合処理、削除処理を行い、短く文字数の一般的な項目名データとなった後に、意味的な特徴に基づいた統合処理を行なうことが考えられる。   As a characteristic of Japanese, important content is often placed behind. Moreover, general words are often used as concepts in concept dictionaries. Therefore, for example, after performing integration processing by backward matching first, and then performing forward matching, partial matching, integration processing by LCS, and deletion processing, after becoming short general item name data of the number of characters, semantic features It is conceivable to perform integration processing based on the above.

各統合処理の詳細な処理例について説明する。
まず、後方一致による統合処理の詳細な処理例について説明する。一般化処理部4は、処理対象の項目名データ群の中の一つの項目名データに着目し、着目している項目名データが示す項目名と、処理対象の項目名データ群に含まれる他の項目名データが示す項目名それぞれとを比較して後方一致するか否かを判断する。後方一致する項目名データがあった場合、一般化処理部4は、着目している項目名データと、後方一致すると判断した各項目名データとを合わせた項目名データの中で、最も文字数が少ない項目名の項目名データを統合後の項目名データとする。一般化処理部4は、着目している項目名データの出現記事数と、後方一致すると判断した各項目名データの出現記事数との合算により、統合後の項目名データの出現記事数を算出する。一般化処理部4は、処理対象の項目名データ群から、統合の結果残らなかった項目名データを除外する。
続いて、一般化処理部4は、処理対象の項目名データ群の中から、統合の結果残った項目名データ以外でまだ着目していない項目名データの一つに着目し、同様の処理を繰り返す。一般化処理部4は、処理対象の項目名データ群に、まだ着目していない項目名データがなくなった場合、後方一致による統合処理を終了する。統合後の項目名データ、及び、他の項目と後方一致しなかった項目名データが、後方一致による統合処理の結果残った項目名データである。
A detailed processing example of each integration processing will be described.
First, a detailed processing example of integration processing by backward matching will be described. The generalization processing unit 4 pays attention to one item name data in the processing target item name data group, the item name indicated by the focused item name data, and other items included in the processing target item name data group Each of the item names indicated by the item name data is compared to determine whether or not there is a backward match. When there is item name data that matches backward, the generalization processing unit 4 has the largest number of characters in the item name data that combines the item name data of interest and the item name data determined to match backward. The item name data with fewer item names is used as the integrated item name data. The generalization processing unit 4 calculates the number of appearing articles of the item name data after the integration by adding the number of appearing articles of the item name data of interest and the number of appearing articles of each item name data determined to match backward. To do. The generalization processing unit 4 excludes item name data that did not remain as a result of integration from the item name data group to be processed.
Subsequently, the generalization processing unit 4 pays attention to one of the item name data not yet focused on other than the item name data remaining as a result of the integration from the processing target item name data group, and performs the same processing. repeat. The generalization processing unit 4 ends the integration process by backward matching when there is no item name data that has not yet been focused on in the item name data group to be processed. The item name data after integration and the item name data that did not match backward with other items are the item name data remaining as a result of the integration processing by backward matching.

前方一致による統合処理の処理手順も、後方一致による統合処理と同様である。
部分一致による統合処理の場合、後方一致による統合処理と以下の点が異なる。一般化処理部4は、着目している項目名データの示す項目名が、他の項目名データの示す項目名の部分として含まれているか否かを判断する。一般化処理部4は、着目している項目名データを統合後の項目名データとし、他の項目名データに統合済みを示す情報を対応づけるのみで処理対象の項目名データ群からは除外しない。一般化処理部4は、処理対象の項目名データ群の中から、統合済みを示す情報が付加されていない項目名データの一つに着目して同様の処理を繰り返す。処理終了時に、統合済みを示す情報が付加されていない項目名データは、統合後の項目名データ、または、他の項目と部分一致しなかった項目名データであり、部分一致による統合処理の結果残った項目名データである。
The processing procedure of the integration process based on front matching is the same as that of the integration processing based on backward matching.
The integration process based on partial matching differs from the integration process based on backward matching in the following points. The generalization processing unit 4 determines whether or not the item name indicated by the item name data of interest is included as a part of the item name indicated by the other item name data. The generalization processing unit 4 uses the item name data of interest as item name data after integration, and only associates information indicating that the item name data has been integrated with other item name data, and does not exclude it from the item name data group to be processed. . The generalization processing unit 4 repeats the same processing by paying attention to one item name data to which information indicating integration is not added from the item name data group to be processed. At the end of processing, the item name data to which information indicating integration is not added is item name data after integration, or item name data that did not partially match other items, and results of integration processing by partial matching It is the remaining item name data.

意味的な特徴に基づいた統合処理の場合、後方一致による統合処理と以下の点が異なる。一般化処理部4は、着目している項目名データが示す項目名と、他の項目名データが示す項目名それぞれについて、上位概念が同じであるか否かを判断し、上位概念が同じ項目名の項目名データがあった場合、処理対象の項目名データ群からそれらの項目名データを除外し、上位概念の項目名を示す項目名データを生成する。上位概念を示す項目名の項目名データ、及び、他の項目名データと上位概念が一致しなかった項目名データが、意味的な特徴に基づいた統合処理の結果残った項目名データである。   In the case of integration processing based on semantic features, the following points are different from integration processing based on backward matching. The generalization processing unit 4 determines whether or not the superordinate concept is the same for the item name indicated by the item name data of interest and the item name indicated by the other item name data. If there is item name data of a name, those item name data are excluded from the item name data group to be processed, and item name data indicating the item name of the superordinate concept is generated. The item name data of the item name indicating the superordinate concept and the item name data whose superordinate concept does not match the other item name data are the item name data remaining as a result of the integration processing based on the semantic features.

以上第1の実施形態について説明したが、図3のステップS10で記事データ取得部2が読み込む記事データに、非構造化テキスト情報の記事データが含まれてもよい。非構造化テキスト情報内のテキストデータは、説明のみを記述しており、項目は記述されていない。抽出部3は、ステップS15において、非構造化テキスト情報内のテキストデータから、任意の既存のキーワード抽出処理によってキーワードを抽出し、この抽出したキーワードを示すデータを項目名データとして同様に処理を行なう。   Although the first embodiment has been described above, the article data of the unstructured text information may be included in the article data read by the article data acquisition unit 2 in step S10 of FIG. The text data in the unstructured text information describes only the explanation and does not describe items. In step S15, the extraction unit 3 extracts a keyword from the text data in the unstructured text information by an arbitrary existing keyword extraction process, and similarly performs the process using the data indicating the extracted keyword as item name data. .

また、図3のステップS20において、一般化処理部4は、異なる記事データから抽出された項目名データの組み合わせについてのみ統合処理を行なってもよい。この場合、抽出部3は、各項目名データに抽出元の記事データを特定する抽出元情報を付加して一般化処理部4に出力する。一般化処理部4は、同じ記事データから読み出されたことを示す抽出元情報が付加された項目名データの組み合わせについては、統合処理を行なわない。   Further, in step S20 of FIG. 3, the generalization processing unit 4 may perform the integration process only for the combination of item name data extracted from different article data. In this case, the extraction unit 3 adds the extraction source information that identifies the article data of the extraction source to each item name data and outputs it to the generalization processing unit 4. The generalization processing unit 4 does not perform the integration process for the combination of item name data to which extraction source information indicating that reading is performed from the same article data.

[2.第2の実施形態]
上述した第1の実施形態では、2階層からなるオントロジーを生成しているが、本実施形態では、3階層以上のオントロジーを生成する。以下、第1の実施形態との差分を説明する。
[2. Second Embodiment]
In the first embodiment described above, an ontology having two layers is generated, but in the present embodiment, an ontology having three or more layers is generated. Hereinafter, differences from the first embodiment will be described.

図4、図5に示す各統合処理において、一般化処理部4は、統合の結果残らなかった項目名データを示す削除項目名情報と、どの項目名データに統合されたかを示す上位階層情報とを対応付けた統合情報を生成する。例えば、図4(a)に示す後方一致の場合、項目名データ「政府の対応」を設定した削除項目名情報と、項目名データ「対応」を設定した上位階層情報とを対応付けた統合情報が生成される。また、図5に示す意味的な特徴に基づいた統合処理の場合、項目名データ「電車」及び項目名データ「バス」を設定した削除項目名情報と、項目名データ「交通機関」を設定した上位階層情報とを対応付けた統合情報が生成される。   In each integration process shown in FIG. 4 and FIG. 5, the generalization processing unit 4 includes deleted item name information indicating item name data that did not remain as a result of integration, and upper layer information indicating which item name data was integrated. To generate integrated information associated with. For example, in the case of backward matching shown in FIG. 4A, integrated information in which the deleted item name information in which the item name data “government correspondence” is set and the upper hierarchy information in which the item name data “correspondence” is set are associated Is generated. Further, in the case of the integration process based on the semantic features shown in FIG. 5, the item name data “train” and the item name data “bus” and the item name data “transportation” are set. Integrated information in which upper layer information is associated is generated.

図3のステップS25において、一般化処理部4は、ニュース要素候補データと、その出現記事数の組に併せて、統合情報をオントロジー生成部5に出力する。ステップS30において、オントロジー生成部5は、まず、ニュースイベントクラスを第1階層とし、出現記事数に基づいて選択したニュース要素データを第2階層とした木構造のニュースオントロジーを作成する。続いて、オントロジー生成部5は、第2階層のニュース要素それぞれについて、上位階層情報が第2階層のニュース要素データと一致する統合情報を特定し、特定した統合情報の削除項目名情報から項目名データを読み出す。オントロジー生成部5は、第2階層の各ニュース要素データに対応した統合情報の削除項目名から読み出した項目名データを、当該ニュース要素データの下位のニュース要素データとして付加し、第3階層まで階層化された木構造のニュースオントロジーをオントロジー記述言語などにより記述したオントロジーデータを作成する。   In step S <b> 25 of FIG. 3, the generalization processing unit 4 outputs integrated information to the ontology generation unit 5 together with the set of news element candidate data and the number of appearing articles. In step S30, the ontology generation unit 5 first creates a tree-structured news ontology having the news event class as the first hierarchy and the news element data selected based on the number of appearing articles as the second hierarchy. Subsequently, the ontology generation unit 5 identifies, for each news element in the second hierarchy, integrated information in which the upper hierarchy information matches the news element data in the second hierarchy, and the item name from the deleted item name information of the identified integrated information Read data. The ontology generation unit 5 adds item name data read from the deleted item name of the integrated information corresponding to each news element data in the second hierarchy as news element data subordinate to the news element data, and hierarchy up to the third hierarchy Ontology data is created in which the structured ontology news ontology is described using an ontology description language.

オントロジー生成部5は、第3階層以下についても同様の処理を行なって、4階層以上の木構造のニュースオントロジーを作成してもよい。オントロジー生成部5は、作成されたオントロジーをオントロジー記述言語などにより記述したオントロジーデータを生成し、オントロジー記憶部8に書き込む。   The ontology generation unit 5 may perform the same processing for the third and lower layers to create a tree-structured news ontology having four or more layers. The ontology generation unit 5 generates ontology data in which the created ontology is described using an ontology description language or the like, and writes the ontology data into the ontology storage unit 8.

図7は、本実施形態により生成されたニュースオントロジーデータを示す図である。同図では、ニュースイベントクラスであるカテゴリーC1を最上位階層とした4階層の木構造のニュースオントロジーを示している。   FIG. 7 is a diagram illustrating news ontology data generated according to the present embodiment. This figure shows a tree-structured news ontology having a category C1 that is a news event class as the highest hierarchy.

[3.第3の実施形態]
上述した第2の実施形態では、項目が統合されたときの情報を用いて木構造のオントロジーを生成しているが、本実施形態では、記事データに含まれる目次が階層化されている場合、その階層構造を用いて木構造のオントロジーを生成する。以下、第1の実施形態との差分を説明する。
[3. Third Embodiment]
In the second embodiment described above, an ontology having a tree structure is generated using information when items are integrated. In this embodiment, when the table of contents included in the article data is hierarchized, A tree-structured ontology is generated using the hierarchical structure. Hereinafter, differences from the first embodiment will be described.

図3のステップS15において、抽出部3は、各記事データに含まれる構造化テキスト情報から、項目名データと、項目名データ間の階層関係を読み出しておく。例えば、図2(a)に示す構造化テキスト情報の場合、項目名データ「概要」の下位階層の項目名データは、項目名「本震」、「本震(震度4以上を観測した市町村」、…の項目名データであり、項目名データ「被害」の下位階層の項目名データは項目名「交通機関」、…の項目名データであり、項目名データ「交通機関」の下位階層の項目名データは項目名「高速道路」、「一般道路」、…の項目名データであることが読み出される。   In step S15 of FIG. 3, the extraction unit 3 reads item name data and the hierarchical relationship between the item name data from the structured text information included in each article data. For example, in the case of the structured text information shown in FIG. 2A, the item name data in the lower hierarchy of the item name data “Summary” are the item name “main shock”, “main shock (city where the seismic intensity is 4 or higher), ... The item name data in the lower hierarchy of the item name data “damage” is the item name data of the item name “transportation”,... And the item name data in the lower hierarchy of the item name data “transportation” Is read out as item name data of item names “highway”, “general road”,.

図3のステップS30において、オントロジー生成部5は、まず、ニュースイベントクラスデータを第1階層とし、出現記事数に基づいて選択したニュース要素データを第2階層とした木構造のニュースオントロジーを作成する。オントロジー生成部5は、第2階層のニュース要素データを抽出部3に出力し、抽出部3は、第2階層のニュース要素データと一致する項目名データの下位階層の項目名データを返送する。オントロジー生成部5は、第2階層のニュース要素それぞれに、当該第2階層のニュース要素データの下位階層の項目名データを付加し、第3階層まで階層化された木構造のニュースオントロジーの構造を生成する。オントロジー生成部5は、生成された構造のオントロジーをオントロジー記述言語などにより記述したオントロジーデータを作成する。
オントロジー生成部5は、第3階層以下についても同様の処理を行ない、4階層以上の木構造のニュースオントロジーの構造を生成し、生成された構造のオントロジーを示すオントロジーデータを作成してもよい。
In step S30 in FIG. 3, the ontology generation unit 5 first creates a tree-structured news ontology having the news event class data as the first hierarchy and the news element data selected based on the number of appearing articles as the second hierarchy. . The ontology generation unit 5 outputs the second level news element data to the extraction unit 3, and the extraction unit 3 returns the item name data in the lower hierarchy of the item name data that matches the second level news element data. The ontology generation unit 5 adds item name data in a lower hierarchy of the news element data in the second hierarchy to each news element in the second hierarchy, and creates a tree-structured news ontology structure hierarchized up to the third hierarchy. Generate. The ontology generation unit 5 creates ontology data in which the ontology of the generated structure is described using an ontology description language or the like.
The ontology generation unit 5 may perform the same processing for the third and lower layers, generate a tree-structured news ontology structure of four or more layers, and generate ontology data indicating the ontology of the generated structure.

なお、ニュース要素データが意味的な特徴に基づいた統合処理によって得られた項目名データである場合、オントロジー生成部5は、その統合前の項目名データに対応した下位階層の項目名データを抽出部3からさらに取得して、ニュース要素データの下位階層に付加してもよい。例えば、第2の実施形態と同様に、一般化処理部4は、統合情報を生成してオントロジー生成部5に出力する。オントロジー生成部5は、第2階層のニュース要素データそれぞれについて、上位階層情報が第2階層のニュース要素データと一致する統合情報を特定し、特定した統合情報の削除項目名情報から項目名データを読み出して抽出部3に出力する。抽出部3は、オントロジー生成部5から入力された項目名データの下位階層の項目名データを返送し、オントロジー生成部5は、返送された下位階層の項目名データをニュース要素データの下位階層に付加する。   When the news element data is item name data obtained by integration processing based on semantic features, the ontology generation unit 5 extracts lower-level item name data corresponding to the item name data before integration. It may be further acquired from the section 3 and added to the lower hierarchy of the news element data. For example, as in the second embodiment, the generalization processing unit 4 generates integrated information and outputs it to the ontology generation unit 5. The ontology generation unit 5 identifies, for each of the news element data in the second layer, integrated information whose upper layer information matches the news element data in the second layer, and extracts item name data from the deleted item name information of the specified integrated information Read out and output to the extraction unit 3. The extraction unit 3 returns the item name data in the lower hierarchy of the item name data input from the ontology generation unit 5, and the ontology generation unit 5 converts the returned item name data in the lower hierarchy to the lower hierarchy of the news element data. Append.

[4.第4の実施形態]
上述した第1の実施形態では、各ニュース要素データ間の前後関係については考慮していない。しかし、ある出来事を説明する際には、通常、ニュース要素をわかりやすい順番に並べる。例えば、ニュースイベントクラス「地震」について、ニュース要素「被害」、「その後」、…が抽出されたとしても、ニュース要素「被害」に関する内容より先にニュース要素「その後」に関する内容を説明することはない。そこで、本実施形態では、ニュース要素データ間の前後関係についても抽出する。これよって、複数の記事や情報をニュース要素データ別にまとめたまとめ記事を生成する際などに、適切な順番で並べることが可能となる。以下、第1の実施形態との差分を説明する。
[4. Fourth Embodiment]
In the first embodiment described above, the context between news element data is not considered. However, when describing an event, the news elements are usually arranged in an easy-to-understand order. For example, for the news event class “earthquake”, even if the news elements “damage”, “after”, etc. are extracted, it is not possible to explain the contents about the news element “after” before the contents about the news element “damage” Absent. Therefore, in this embodiment, the context between news element data is also extracted. Accordingly, when generating a summary article in which a plurality of articles and information are grouped by news element data, it can be arranged in an appropriate order. Hereinafter, differences from the first embodiment will be described.

図3のステップS15において、抽出部3は、各記事データに含まれる構造化テキスト情報から、項目名データ間の前後関係を読み出しておく。例えば、図2(a)に示す構造化テキスト情報の場合、項目名データは「概要」、「発生要因」、「被害」、「政府・自治体対応」、…の順であることが読み出される。抽出部3は、項目名データ間の前後関係を示す順序情報をオントロジー生成部5に出力する。   In step S15 of FIG. 3, the extraction unit 3 reads out the context between the item name data from the structured text information included in each article data. For example, in the case of the structured text information shown in FIG. 2A, it is read that the item name data is in the order of “summary”, “occurrence factor”, “damage”, “government / local government response”,. The extraction unit 3 outputs order information indicating the context between the item name data to the ontology generation unit 5.

図3のステップS30において、オントロジー生成部5は、出現記事数に基づいてニュース要素データを選択する。オントロジー生成部5は、これらのニュース要素データのうち2以上が項目名データとして含まれる記事データから得られた前後関係を順序情報から読み出す。これにより、オントロジー生成部5は、ニュース要素データ間の前後関係の統計情報を得ると、この統計情報に基づいて最も多く現われるニュース要素データの並び順を判断する。オントロジー生成部5は、ニュースイベントクラスデータを第1階層とし、判断した並び順に従って並べたニュース要素データを第2階層としたオントロジーの構造を作成する。オントロジー生成部5は、作成されたオントロジーをオントロジー記述言語などにより記述したオントロジーデータを生成し、オントロジー記憶部8に書き込む。   In step S30 in FIG. 3, the ontology generation unit 5 selects news element data based on the number of appearing articles. The ontology generation unit 5 reads out the context obtained from the article data including two or more of these news element data as item name data from the order information. Thus, when the ontology generation unit 5 obtains statistical information about the context between news element data, the ontology generation unit 5 determines the arrangement order of news element data that appears most frequently based on the statistical information. The ontology generation unit 5 creates an ontology structure with the news event class data as the first hierarchy and the news element data arranged according to the determined arrangement order as the second hierarchy. The ontology generation unit 5 generates ontology data in which the created ontology is described using an ontology description language or the like, and writes the ontology data into the ontology storage unit 8.

なお、ニュース要素データが意味的な特徴に基づいた統合処理によって得られた項目名データである場合、オントロジー生成部5は、ニュース要素データに統合される前の項目名データを用い、順序情報からニュース要素データの前後関係の統計情報を得てもよい。   When the news element data is item name data obtained by integration processing based on semantic features, the ontology generation unit 5 uses the item name data before being integrated into the news element data, and uses the order name information. Statistical information about the context of news element data may be obtained.

図8は、本実施形態により生成されたニュースオントロジーを示す図である。同図では、ニュースイベントクラス「地震」の下位階層に、ニュース要素が「発生概要」、「被害」、「対応」、「発生要因」、「その後」の順に並べられたニュースオントロジーを示している。   FIG. 8 is a diagram illustrating a news ontology generated according to the present embodiment. The figure shows a news ontology in which the news elements are arranged in the order of “Outbreak Occurrence”, “Damage”, “Response”, “Cause”, and “Subsequently” below the news event class “Earthquake”. .

[5.第5の実施形態]
上述した実施形態では、半構造化テキスト情報を含む記事データを利用して、ニュースイベントクラスを構成するニュース要素データ群を抽出している。本実施形態では、同様の処理によって、ニュース記事からニュースオントロジーを構築する。
日常、放送などで利用されている一般的なニュース記事は、ニュースのタイトル、及び、その内容を表す本文よって構成されている。そこで、見出しとして、項目名ではなく、ニュースのタイトルを用いて第1の実施形態と同様の処理を行うことにより、オントロジーを構築することができる。以下、第1の実施形態との差分を説明する。
[5. Fifth Embodiment]
In the embodiment described above, a news element data group constituting a news event class is extracted using article data including semi-structured text information. In the present embodiment, a news ontology is constructed from news articles by the same processing.
A general news article used in daily life or broadcasting is composed of a news title and a text representing the content. Therefore, an ontology can be constructed by performing the same processing as in the first embodiment using the news title instead of the item name as the headline. Hereinafter, differences from the first embodiment will be described.

図9は、本実施形態において用いられる記事データについて示す図である。同図に示すように、記事データA’1、A’2、…は、ニュースのタイトルと、ニュースの内容を示すテキストデータである。   FIG. 9 is a diagram showing article data used in the present embodiment. As shown in the figure, article data A'1, A'2,... Are text data indicating the title of the news and the content of the news.

図2のステップS10において、概念処理装置1の記事データ取得部2は、図9に示す特定のニュースイベントクラスに属する記事データA’1、A’2、…を取得する。ステップS15において、抽出部3は、記事データ取得部2が取得した記事データA’1、A’2、…から記事のタイトルを読み出す。概念処理装置1は、抽出部3が読み出したタイトルを見出しデータとし、読み出した見出しデータを第1の実施形態における項目データの代わりに用いて同様の処理を行なう。これにより、一般化処理が施された見出しデータからニュース要素データ群を得て、ニュースオントロジーを構築することができる。   2, the article data acquisition unit 2 of the conceptual processing device 1 acquires article data A′1, A′2,... Belonging to the specific news event class shown in FIG. In step S15, the extraction unit 3 reads the title of the article from the article data A′1, A′2,... Acquired by the article data acquisition unit 2. The conceptual processing device 1 uses the title read by the extraction unit 3 as heading data, and performs the same processing using the read heading data instead of the item data in the first embodiment. Thus, a news ontology can be constructed by obtaining a news element data group from headline data subjected to generalization processing.

また、記事データにニュースの日付の情報が含まれている場合、ステップS15において、抽出部3は、タイトルと日付の情報を対応付けて読み出しておく。そして、図3のステップS30において、オントロジー生成部5は、選択したニュース要素データに対応した日付を抽出部3から取得する。ニュースイベントクラスデータを第1階層とし、日付順に並べたニュース要素データを第2階層としたオントロジーの構造を作成する。同じニュース要素データについて複数の日付が読み出された場合は、その中で最も早い日付としてもよく、最も多く出現する日付としてもよい。これにより、例えば、ニュースイベントクラス「汚職事件」に関しては「逮捕」、「否認」、「送検」、「判決」、「上告」などのニュース要素データがこの順番で表れる、といった知識を記述したオントロジーを構築することができる。
このオントロジーを利用することによって、高度なニュース検索・提示サービスを提供することも可能となる。
If the article data includes news date information, the extraction unit 3 reads the title and date information in association with each other in step S15. In step S30 in FIG. 3, the ontology generation unit 5 acquires a date corresponding to the selected news element data from the extraction unit 3. An ontology structure is created with news event class data as the first hierarchy and news element data arranged in date order as the second hierarchy. When a plurality of dates are read for the same news element data, the date may be the earliest date or the date that appears most frequently. Thus, for example, for the news event class “corruption case”, an ontology that describes the knowledge that news element data such as “arrest”, “denial”, “transmission”, “judgment”, “appeal” appears in this order. Can be built.
By using this ontology, it is also possible to provide an advanced news search / presentation service.

なお、ニュースの内容部分の最初の1文はリード文と呼ばれ、そのニュースの概要を示す重要な内容を含んでいる。そこで、ステップS15において、抽出部3は、記事データ取得部2が取得した記事データからニュース本文の最初の1文を見出しデータとして読み出し、読み出した見出しデータを第1の実施形態における項目名データの代わりに用いることもできる。   Note that the first sentence of the news content portion is called a lead sentence, and includes important contents indicating an outline of the news. Therefore, in step S15, the extraction unit 3 reads out the first sentence of the news body from the article data acquired by the article data acquisition unit 2 as heading data, and uses the read heading data as the item name data in the first embodiment. It can be used instead.

[6.効果]
以上説明した本発明の実施形態によれば、あるニュースイベントに関する情報を伝えるために必要なニュース要素群を得ることができる。このようなニュース要素群を得るために、本実施形態では、人間がニュースイベントに関する情報を伝える際に、どのような構成を利用するのかの知識を利用する。この知識として、人手によって編集された構造情報、例えば、Wikipedia(登録商標)が提供する記事データを利用することができる。また、Wikipedia(登録商標)が適用する記事データには、カテゴリーの情報が付与されているため、この情報を利用してニュースイベントクラスに属する記事データを容易に読み出すことができる。そして、地震災害、汚職事件、航空機事故、など、特定の種類のニュースイベントクラスを構成する項目を構造情報から抽出した後、一般化処理を行なうことによってニュース要素群を自動抽出する。これにより、様々な種類のニュースイベントクラスの構造を自動で獲得することが可能となり、ニュースオントロジーの構築を効率化することが可能となる。
また、この抽出されたオントロジーにより示される構造を、ユーザの要求に合わせてニュース項目を再構成するために利用すれば、複数の記事コンテンツを統合してある出来事に関するまとめ記事を作成したり、出来事の特定要素(例えば、その出来事の「原因」など)に対応した記事のみを探し出したりする処理に用いることができる。
また、ニュース原稿などを記事データとし、ニュースのタイトルや、リード文などを見出しとして利用することもできる。
[6. effect]
According to the embodiment of the present invention described above, it is possible to obtain a news element group necessary for conveying information related to a certain news event. In order to obtain such a news element group, in the present embodiment, knowledge of what configuration is used when a person conveys information about a news event is used. As this knowledge, structural information edited manually, for example, article data provided by Wikipedia (registered trademark) can be used. Since the article data applied by Wikipedia (registered trademark) is provided with category information, the article data belonging to the news event class can be easily read using this information. Then, after extracting items constituting a particular type of news event class such as an earthquake disaster, a corruption incident, an aircraft accident, etc. from the structure information, a news element group is automatically extracted by performing a generalization process. As a result, it is possible to automatically acquire the structure of various types of news event classes, and it is possible to improve the construction of the news ontology.
In addition, if the structure indicated by the extracted ontology is used to reconstruct the news items according to the user's request, a summary article about an event in which multiple article contents are integrated can be created. It can be used for processing to search only articles corresponding to specific elements (for example, “cause” of the event).
In addition, a news manuscript or the like can be used as article data, and a news title or a lead sentence can be used as a headline.

[7.その他]
上述した概念処理装置1は、内部にコンピュータシステムを有している。そして、概念処理装置1の各部の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
[7. Others]
The above-described conceptual processing apparatus 1 has a computer system inside. The operation process of each unit of the conceptual processing device 1 is stored in a computer-readable recording medium in the form of a program, and the above-described processing is performed by the computer system reading and executing this program. The computer system here includes a CPU, various memories, an OS, and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage unit such as a hard disk built in the computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

1…概念処理装置
2…記事データ取得部
3…抽出部
4…一般化処理部
5…オントロジー生成部
6…記事データ記憶部
7…シソーラス記憶部
8…オントロジー記憶部
DESCRIPTION OF SYMBOLS 1 ... Conceptual processing apparatus 2 ... Article data acquisition part 3 ... Extraction part 4 ... Generalization processing part 5 ... Ontology generation part 6 ... Article data storage part 7 ... Thesaurus storage part 8 ... Ontology storage part

Claims (5)

見出しデータを含む記事データを記憶する記事データ記憶部と、
前記記事データ記憶部から前記記事データを読み出し、前記見出しデータを抽出する抽出部と、
前記抽出部が抽出した複数の前記見出しデータに出現する文字が共通出現パターンを有する場合に前記共通出現パターンに基づき統合後の見出しデータを生成し、前記抽出部が抽出した複数の前記見出しデータが共通の上位概念を有する場合に前記共通の上位概念に基づき統合後の見出しデータを生成する一般化処理を行なった結果の見出しデータを構成要素データとして出力する一般化処理部と、
を備えることを特徴とする概念処理装置。
An article data storage unit for storing article data including heading data;
An extraction unit that reads out the article data from the article data storage unit and extracts the heading data;
When characters appearing in the plurality of heading data extracted by the extraction unit have a common appearance pattern, integrated heading data is generated based on the common appearance pattern, and the plurality of heading data extracted by the extraction unit is A generalization processing unit that outputs, as component data, heading data as a result of performing generalization processing for generating heading data after integration based on the common superordinate concept when having a common superordinate concept;
A conceptual processing apparatus comprising:
前記一般化処理部により得られた前記構成要素データの下層に、前記構成要素データに統合された前記見出しデータを付加したオントロジー、または、前記一般化処理部により得られた前記構成要素データの下層に、前記記事データが示す階層化された見出しデータに含まれる前記構成要素データの下層の見出しデータを付加したオントロジーデータを生成するオントロジー生成部をさらに備える、
ことを特徴とする請求項1に記載の概念処理装置。
Ontology in which the heading data integrated with the component data is added to the lower layer of the component data obtained by the generalization processing unit, or the lower layer of the component data obtained by the generalization processing unit And further comprising an ontology generation unit that generates ontology data to which heading data below the component data included in the hierarchical heading data indicated by the article data is added.
The conceptual processing device according to claim 1, wherein:
前記一般化処理部により得られた前記構成要素データの順序を前記記事データが示す前記見出しデータの出現順に基づいて決定し、決定した出現順を示す情報を前記構成要素データに付加したオントロジーデータを生成するオントロジー生成部をさらに備える、
ことを特徴とする請求項1に記載の概念処理装置。
Ontology data obtained by determining the order of the component data obtained by the generalization processing unit based on the appearance order of the heading data indicated by the article data, and adding information indicating the determined appearance order to the component data Further comprising an ontology generation unit for generating,
The conceptual processing device according to claim 1, wherein:
前記一般化処理部は、前記一般化処理において、複数の前記見出しデータが示す見出しが後方一致、前方一致、または、部分一致する場合、あるいは、複数の前記見出しデータが示す見出しに同一の順序で共通して現われる文字数が所定以上である場合に、前記複数の見出しデータを、前記複数の見出しデータのうち最も短い見出しの見出しデータに統合し、共通の上位概念を有する前記見出データを、前記上位概念を示す見出しデータに統合し、前記見出しデータから構成要素として不適切であると判断するための所定の条件に合致する見出しデータを削除する、
ことを特徴とする請求項1に記載の概念処理装置。
In the generalization process, the generalization processing unit is configured such that, in the generalization process, the headings indicated by the plurality of heading data match backward, forward, or partially match, or in the same order as the headings indicated by the plurality of heading data. When the number of characters that appear in common is greater than or equal to a predetermined number, the plurality of heading data is integrated into the heading data of the shortest heading data among the plurality of heading data, the heading data having a common superordinate concept, Integrating headline data indicating a superordinate concept, and deleting headline data that matches a predetermined condition for determining that the headline data is inappropriate as a component,
The conceptual processing device according to claim 1, wherein:
概念処理装置として用いられるコンピュータを、
見出しデータを含む記事データを記憶する記事データ記憶部、
前記記事データ記憶部から前記記事データを読み出し、前記見出しデータを抽出する抽出部、
前記抽出部が抽出した複数の前記見出しデータに出現する文字が共通出現パターンを有する場合に前記共通出現パターンに基づき統合後の見出しデータを生成し、前記抽出部が抽出した複数の前記見出しデータが共通の上位概念を有する場合に前記共通の上位概念に基づき統合後の見出しデータを生成する一般化処理を行なった結果の見出しデータを構成要素データとして出力する一般化処理部と、
として機能させることを特徴とするプログラム。
A computer used as a conceptual processing device,
An article data storage unit for storing article data including heading data;
An extraction unit that reads out the article data from the article data storage unit and extracts the heading data;
When characters appearing in the plurality of heading data extracted by the extraction unit have a common appearance pattern, integrated heading data is generated based on the common appearance pattern, and the plurality of heading data extracted by the extraction unit is A generalization processing unit that outputs, as component data, heading data as a result of performing generalization processing for generating heading data after integration based on the common superordinate concept when having a common superordinate concept;
A program characterized by functioning as
JP2010277233A 2010-12-13 2010-12-13 Concept processing apparatus and program Active JP5577228B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010277233A JP5577228B2 (en) 2010-12-13 2010-12-13 Concept processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010277233A JP5577228B2 (en) 2010-12-13 2010-12-13 Concept processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2012128509A true JP2012128509A (en) 2012-07-05
JP5577228B2 JP5577228B2 (en) 2014-08-20

Family

ID=46645489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010277233A Active JP5577228B2 (en) 2010-12-13 2010-12-13 Concept processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5577228B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014112340A (en) * 2012-12-05 2014-06-19 Fuji Xerox Co Ltd Information processing apparatus and information processing program
WO2014136173A1 (en) * 2013-03-04 2014-09-12 三菱電機株式会社 Search device
JP2017527016A (en) * 2014-07-18 2017-09-14 コンヴィーダ ワイヤレス, エルエルシー M2M ontology management and semantic interoperability
CN107506970A (en) * 2017-07-07 2017-12-22 中国建设银行股份有限公司 A kind of method and system of project data processing
WO2022113202A1 (en) * 2020-11-25 2022-06-02 日本電気株式会社 Information processing device, information processing method, and recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232470A (en) * 1988-07-22 1990-02-02 Nippon Telegr & Teleph Corp <Ntt> Thesaurus editing device
JP2006163941A (en) * 2004-12-08 2006-06-22 Nec Corp Duplicate record detection system and, duplicate record detection program
WO2008146807A1 (en) * 2007-05-31 2008-12-04 Nec Corporation Ontology processing device, ontology processing method, and ontology processing program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232470A (en) * 1988-07-22 1990-02-02 Nippon Telegr & Teleph Corp <Ntt> Thesaurus editing device
JP2006163941A (en) * 2004-12-08 2006-06-22 Nec Corp Duplicate record detection system and, duplicate record detection program
WO2008146807A1 (en) * 2007-05-31 2008-12-04 Nec Corporation Ontology processing device, ontology processing method, and ontology processing program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Wikipediaの記事構造からの上位開関係抽出", 自然言語処理 第16巻 第3号, JPN6013063245, 10 July 2009 (2009-07-10), ISSN: 0002711354 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014112340A (en) * 2012-12-05 2014-06-19 Fuji Xerox Co Ltd Information processing apparatus and information processing program
WO2014136173A1 (en) * 2013-03-04 2014-09-12 三菱電機株式会社 Search device
JP5951105B2 (en) * 2013-03-04 2016-07-13 三菱電機株式会社 Search device
JP2017527016A (en) * 2014-07-18 2017-09-14 コンヴィーダ ワイヤレス, エルエルシー M2M ontology management and semantic interoperability
CN107506970A (en) * 2017-07-07 2017-12-22 中国建设银行股份有限公司 A kind of method and system of project data processing
WO2022113202A1 (en) * 2020-11-25 2022-06-02 日本電気株式会社 Information processing device, information processing method, and recording medium
JPWO2022113202A1 (en) * 2020-11-25 2022-06-02
US12216987B2 (en) 2020-11-25 2025-02-04 Nec Corporation Generating heading based on extracted feature words
JP7715163B2 (en) 2020-11-25 2025-07-30 日本電気株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP5577228B2 (en) 2014-08-20

Similar Documents

Publication Publication Date Title
US8903837B2 (en) Incorporating geographical locations in a search process
CN106156365A (en) A kind of generation method and device of knowledge mapping
JP7095114B2 (en) Generating a domain-specific model in a networked system
JP5229226B2 (en) Information sharing system, information sharing method, and information sharing program
US20170177180A1 (en) Dynamic Highlighting of Text in Electronic Documents
Sundaramoorthy et al. Newsone—an aggregation system for news using web scraping method
JP5577228B2 (en) Concept processing apparatus and program
Khatoon et al. Development of social media analytics system for emergency event detection and crisis management
Serna et al. Towards a better understanding of the cognitive destination image of Euskadi-Basque Country based on the analysis of UGC
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
Sherchan et al. Harnessing Twitter and Instagram for disaster management
Bourgonje et al. Processing document collections to automatically extract linked data: semantic storytelling technologies for smart curation workflows
Troudi et al. A new mashup based method for event detection from social media
WO2012127968A1 (en) Event analysis device, event analysis method, and computer-readable recording medium
Valle-Cruz et al. Impression analysis of trending topics in Twitter with classification algorithms
Faber et al. From specialized knowledge frames to linguistically based ontologies
KR101651963B1 (en) Method of generating time and space associated data, time and space associated data generation server performing the same and storage medium storing the same
JP6868576B2 (en) Event presentation system and event presentation device
KR101105798B1 (en) Keyword refiner and method, content retrieval system and method therefor
Algiriyage et al. DEES: a real-time system for event extraction from disaster-related web text
Coats Commenting on local politics: An analysis of YouTube video comments for local government videos
Yesilbas et al. An analysis of global news coverage of refugees using a big data Approach
KR20160129548A (en) System and method for providing customized research and development
Thelwall et al. The BBC, Daily Telegraph and Wikinews timelines of the terrorist attacks of 7th July 2006 in London: a comparison with contemporary discussions
JP5903171B2 (en) Data processing system and data processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140707

R150 Certificate of patent or registration of utility model

Ref document number: 5577228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250