[go: up one dir, main page]

JP4298550B2 - Word extraction method, apparatus, and program - Google Patents

Word extraction method, apparatus, and program Download PDF

Info

Publication number
JP4298550B2
JP4298550B2 JP2004067681A JP2004067681A JP4298550B2 JP 4298550 B2 JP4298550 B2 JP 4298550B2 JP 2004067681 A JP2004067681 A JP 2004067681A JP 2004067681 A JP2004067681 A JP 2004067681A JP 4298550 B2 JP4298550 B2 JP 4298550B2
Authority
JP
Japan
Prior art keywords
word
character string
partial character
document set
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004067681A
Other languages
Japanese (ja)
Other versions
JP2005258678A (en
Inventor
貴行 足立
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004067681A priority Critical patent/JP4298550B2/en
Publication of JP2005258678A publication Critical patent/JP2005258678A/en
Application granted granted Critical
Publication of JP4298550B2 publication Critical patent/JP4298550B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象となる文書集合から単語を抽出する方法および装置に関するものである。   The present invention relates to a method and apparatus for extracting words from a target document set.

現在、インターネット上には様々な分野・種類の電子的な文書が大量に生まれ続けている。しかしながら、利用者は、最近作成された文書の全てを見ることは量的に不可能であり、分野や情報元などで限定したとしても困難なことが多い。そこで、例えば、最近作成された文書の集合から過去よりも話題性の高い語を順にリストアップし、さらにその話題語からその語を含む文書への簡便なアクセス方法があるならば、利用者は、その時々で有用な情報を含んでいる文書を効率よく見ることができる。また、最近の話題語とその意味を知りたい場面においても、上記のような仕組みがあれば、話題語とその利用例を探す手間が削減される。   Currently, a large number of electronic documents in various fields and types continue to be born on the Internet. However, it is impossible for a user to see all recently created documents quantitatively, and it is often difficult even if limited by the field or information source. Therefore, for example, if there is a simple access method to a document including the word from the topic word by sequentially listing words having higher topicality than the past from a set of recently created documents, the user can You can efficiently view documents that contain useful information from time to time. In addition, even in a scene where it is desired to know recent topic words and their meanings, if there is a mechanism as described above, the time and effort of searching for topic words and examples of their use are reduced.

文書集合から単語を抽出する従来技術としては、対象文書集合中の任意の文字列から単語候補を求め、対象文書集合とそれとは別の文書集合から単語候補の文字列統計量を計算し、その値が閾値以上となった単語候補を単語として抽出するものがある(非特許文献1参照)。
足立貴行、山田節夫、永田昌明、「小規模な文書集合からの語彙獲得法」、言語処理学会第9回年次大会発表論文集、pp.274−277、2003年3月.
As a conventional technique for extracting words from a document set, a word candidate is obtained from an arbitrary character string in the target document set, a character string statistic of the word candidate is calculated from the target document set and another document set, and Some candidates extract word candidates whose values are equal to or greater than a threshold (see Non-Patent Document 1).
Takayuki Adachi, Seto Yamada, Masaaki Nagata, “Lexical Acquisition Method from a Small Document Collection”, Proc. 274-277, March 2003.

この技術は、対象文書集合中の任意の部分文字列から、あらかじめ単語候補に絞り込み、それぞれ独立に単語らしさを調べている。しかし、粗い絞り込みのため単語候補の中には、正しい単語が除去されるかわりに、その単語を部分的に含む誤った文字列が残っている場合がある。   In this technique, word candidates are narrowed down in advance from an arbitrary partial character string in a target document set, and the likelihood of a word is independently examined. However, due to rough narrowing, there are cases in which an incorrect character string partially including the word remains in the word candidates instead of removing the correct word.

そこで、単語候補を形態素解析することが考えられるが、形態素解析用の辞書にない単語が単語候補に含まれる場合、形態素解析結果が誤るために正しい単語が抽出できない。   Therefore, it is conceivable to perform morphological analysis on the word candidate. However, if the word candidate includes a word not included in the dictionary for morphological analysis, the correct word cannot be extracted because the result of the morphological analysis is incorrect.

また、この技術では、単語の話題度を最近の文書集合の出現確率と過去の文書集合の出現確率との差としており、最新度の高い単語ほど高い話題度となる。しかし、最新度が高くても重要でない単語が抽出される可能性がある。   Also, with this technique, the topic level of a word is the difference between the appearance probability of a recent document set and the appearance probability of a past document set, and a higher topic level indicates a higher topic level. However, there is a possibility that unimportant words are extracted even if the latest degree is high.

また、最新の話題語といっても、ある文書に偏って出現する特徴的なものが欲しい場合もあれば、偏りにかかわらず最新の話題語が欲しい場合もある。しかし、利用者の目的に合わせて、適宜、話題度計算方法を変更することができない。   Moreover, even if it is the latest topic word, there may be a case where a characteristic word which appears biased in a certain document is desired, and there is a case where the latest topic word is desired regardless of the bias. However, the topic level calculation method cannot be changed as appropriate according to the purpose of the user.

また、得られるものは話題度順に並べた単語リストであり、利用者がその語の意味の理解に役立つ情報を提示する手段や、その語を含む文書への簡便なアクセスする手段は有していない。   Moreover, what is obtained is a word list arranged in order of topic level, and has means for presenting information useful for the user to understand the meaning of the word and means for easily accessing a document containing the word. Absent.

本発明の目的は、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができ、また、利用者にとって有用な話題語を得ることができる単語抽出方法、装置、およびプログラムを提供することにある。   An object of the present invention is to provide a word extraction method, apparatus, and program capable of extracting a word that can handle even the latest word with higher accuracy than before and that can obtain a topic word useful for a user. Is to provide.

本発明の単語抽出方法は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
有する。
The word extraction method of the present invention is a word extraction method performed in a word extraction device that extracts topic words in a specified period from a sequentially updated document set,
A document collection step in which the document collection means collects documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation step in which a target document set creation unit creates a document set that is a target of word extraction by collecting documents updated from a collected document within a period specified independently of the period;
A word candidate extraction step in which the word candidate extraction means extracts word candidates except for a character string that appears multiple times in the target document set and that is nested by a character type;
The word dividing unit is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extracting unit. Calculate a word score,
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word division step for outputting as a word division result ;
Word word selection means, among the word segmentation result of said word candidates outputted by the word segmentation step, the word segmentation result the word score matches a threshold value or character types and string length condition word scores predetermined A word selection step to extract as
Having.

また、本発明の単語抽出装置は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
有する。
The word extraction device of the present invention is a word extraction device that extracts topic words in a specified period from a sequentially updated document set,
Document collection means for collecting documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation means for creating a document set as a word extraction target by collecting documents updated within a period specified independently of the cycle from the collected documents;
Word candidate extraction means for extracting word candidates except for a character string that appears multiple times in the target document set and a character string that is nested or divided by a certain character type;
Calculate a word score that is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extraction unit. And
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word dividing means for outputting as a word division result ;
Of word segmentation result of the word candidates the word dividing means is outputted, the word selection for extracting the word segmentation result the word score matches a threshold value or character types and string length condition word score predetermined as a word Means,
Having.

1)文書集合から文字列統計量と文字列長と文字種に基づく単語分割を行うことで、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができる。
2)ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。
1) By performing word segmentation based on a character string statistic, a character string length, and a character type from a document set, it is possible to extract a word that can deal with the latest word with higher accuracy than before.
2) Useful for users by calculating the topic level based on the importance of words in documents in a certain period and previous periods and the latest degree of words calculated from the appearance status of certain periods and earlier periods. You can get a topic word.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は本発明の一実施の形態である単語抽出装置の構成を表すブロック図である。図1において1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。   FIG. 1 is a block diagram showing a configuration of a word extraction device according to an embodiment of the present invention. In FIG. 1, a single line arrow indicates a data flow, and a double line arrow indicates a process flow.

単語抽出装置1はクローラー11と対象文書集合データ作成部12と単語抽出部13と話題度計算部14と表示部15と文書DB16と対象文書集合DB17と話題語DB18とを有している。   The word extraction device 1 includes a crawler 11, a target document set data creation unit 12, a word extraction unit 13, a topic level calculation unit 14, a display unit 15, a document DB 16, a target document set DB 17, and a topic word DB 18.

クローラー11は、インターネット2から前回収集以降に更新された文書を指定された周期で収集し、HTML(Hyper Text Markup Language)といったタグ付きの収集文書をプレインテキストへ加工して文書DB16へ出力する。対象文書集合データ作成部12は文書DB16から上記の指定された周期とは独立に指定された期間内に更新された加工済み文書を文書DB16から入力し、複数の加工済み文書をまとめて話題語抽出の対象文書集合を作成し、対象文書集合から統計量を計算して、対象文書集合と統計量データを対象文書集合DB17へ出力する。なお、対象文書集合に対応付けてURL(Uniform Resource Locator)やタイトルも格納される。単語抽出部13は対象文書集合DB17の対象文書集合を入力し、単語分割し、対象文書集合DB17へ単語を出力する。話題度計算部14は単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列の統計量を基に指定した方法で最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する。表示部15は話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対して、対象文書集合中の文脈や、その話題語を含む元のURL(Uniform Resource Locator)や、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。   The crawler 11 collects documents that have been updated since the last collection from the Internet 2 at a designated cycle, processes a collected document with a tag such as HTML (Hyper Text Markup Language) into a plain text, and outputs it to the document DB 16. The target document set data creation unit 12 inputs processed documents updated from the document DB 16 within a specified period independently from the specified period from the document DB 16, and collects a plurality of processed documents as a topic word. An extraction target document set is created, a statistic is calculated from the target document set, and the target document set and statistic data are output to the target document set DB 17. A URL (Uniform Resource Locator) and a title are also stored in association with the target document set. The word extraction unit 13 inputs the target document set of the target document set DB 17, divides the word, and outputs the word to the target document set DB 17. The topic level calculation unit 14 inputs the word output from the word extraction unit 13 from the target document set DB 17, and the previous target document set and the current target document set in the target document set DB 17 (the time and period are the previous time and the current time). The recent topic level is calculated by a method specified based on the statistic of each character string, and the topic word list arranged in the topic level order is output to the topic word DB 18. The display unit 15 receives the topic word list output from the topic level calculation unit 14, and further inputs the target document set and statistics data of the target document set DB 17, and the context in the target document set for the topic word. Or the original URL (Uniform Resource Locator) containing the topic word, the title of the document in which the topic word appears, the appearance frequency of the topic word in the document set, the number of documents appearing, the topic level, and a certain period The transition of statistics related to the topic word is shaped into a display format and output as a topic word list and related information.

図2は、単語抽出部13の構成を表すブロック図である。図2において、1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。   FIG. 2 is a block diagram illustrating the configuration of the word extraction unit 13. In FIG. 2, single-line arrows indicate data flows, and double-line arrows indicate process flows.

単語抽出部13は単語候補抽出部13Aと単語分割部13Bと単語選択部13Cを有する。単語候補抽出部13Aは対象文書集合DB17から対象文書集合を読み込み、対象文書集合に複数回出現する文字列で、入れ子となるものや、ある文字種で分断されるものを除いて(非特許文献1の単語候補抽出と同様な方法)単語候補を抽出し、対象文書集合DB17へ格納する。単語分割部13Bは対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。単語選別部13Cは対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題語DB18へ出力する。   The word extraction unit 13 includes a word candidate extraction unit 13A, a word division unit 13B, and a word selection unit 13C. The word candidate extraction unit 13A reads the target document set from the target document set DB 17, and excludes a character string that appears multiple times in the target document set and that is nested or divided by a certain character type (Non-Patent Document 1). (Similar method to word candidate extraction)) Word candidates are extracted and stored in the target document set DB 17. The word dividing unit 13B inputs word candidates from the target document set DB 17, performs word division on the word candidates based on the character string statistics, the character string length, and the character type, and then outputs the word division result to the target document set DB 17. The word selection unit 13C inputs word division results of a plurality of word candidates from the target document set DB 17, performs narrowing by a predetermined word score threshold, character type, and character string length, and outputs the remaining words to the topic word DB 18. .

次に、本実施形態の動作を図3のフローチャートにより説明する。   Next, the operation of this embodiment will be described with reference to the flowchart of FIG.

まず、クローラー11によって、指定された周期で、インターネット2からその周期の差分(前回収集以降)に更新された文書を収集する(ステップ101)。クローラーとはインターネット2上のページを巡回し、文書を収集する手段である。例えば、毎日(指定周期)、前日に更新された文書(前回収集以降に更新された文書)を収集する場合、今日が2004年1月1日であったならば、クローラー11によって、更新日時が昨日2003年12月31日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。また、今日が2004年1月2日となったならば、同様にクローラー11によって更新日時が昨日2004年1月1日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。収集周期の指定は、あらかじめ初期設定しておく。例えば、「毎日」と設定すれば毎日収集し、「2日」とすれば2日に1回収集する。さらに、収集されたページには、文書の内容とは関係ないタグや不要な文字列が含まれているので、それらを除去し、整形した文書を作成し、収集文書と関連付けて文書DB16へ格納、管理される。   First, the crawler 11 collects documents updated to the difference of the cycle (after the previous collection) from the Internet 2 at a designated cycle (step 101). The crawler is a means for visiting a page on the Internet 2 and collecting documents. For example, when collecting documents updated every day (designated cycle) on the previous day (documents updated since the previous collection), if today is January 1, 2004, the update date and time is updated by the crawler 11. Only the page of December 31, 2003 yesterday is collected and stored in the document DB 16 that manages the collected data at the update date and time. If today is January 2, 2004, the crawler 11 similarly collects only the pages with the update date yesterday January 1, 2004, and stores them in the document DB 16 that manages the collected data at the update date. To do. The collection period is specified in advance. For example, if “every day” is set, it is collected every day, and if “every day” is set, it is collected once every two days. Furthermore, since the collected pages contain tags and unnecessary character strings that are not related to the contents of the document, they are removed, a formatted document is created, and the document is stored in the document DB 16 in association with the collected document. Managed.

次に、対象文書集合データ作成部12は、文書DB16から上記の指定された周期とは独立に指定した期間内に更新された整形済み文書を読み出し、まとめたものを話題語抽出の対象文書集合として作成し、指定日時と期間で対象文書集合を管理して対象文書集合DB17へ格納する(ステップ102)。例えば、日時を「昨日」、期間を「1日分」と指定すると、更新日時がその日時と一致する整形済み文書を読み出し、各文書をまとめたファイル(例えば、各文書を1行とし、それらを連結したもの)を対象文書集合として作成し、指定日時と期間で管理して対象文書集合DB17へ格納する。日時と期間は、あらかじめ初期設定しておく。例えば、日時を「昨日」、期間を「1日分」と設定し、今日が2004年1月1日であれば、更新日時が2003年12月31日の整形済み文書が該当することになる。   Next, the target document set data creation unit 12 reads out the pre-formatted documents updated within the specified period independently from the specified period from the document DB 16, and collects the collected documents as a target word set for topic word extraction. The target document set is managed with the specified date and time and stored in the target document set DB 17 (step 102). For example, if you specify “Yesterday” for the date and time and “1 day” for the period, you can read out the formatted documents whose update date and time match the date and time, and put the documents together (for example, each document as one line Are concatenated as a target document set, managed by a specified date and time, and stored in the target document set DB 17. The date / time and period are initially set in advance. For example, if the date is set to “Yesterday”, the period is set to “1 day”, and if today is January 1, 2004, the formatted document with the update date of December 31, 2003 is applicable. .

なお、日時や期間だけでなくサイト名や分野を指定し、より限定した対象文書集合を作成することもできる。サイト名は完全なURLでなく、URLの一部で定めてもよい(例えば、「http://www.sample.com/sports」のような場合のドメイン名+部分文字列)。また、分野はURL中に含まれる文字列(例えば、「sports」)や、文書内に現れる文字列や、予め学習しておいた分野推定手段によって文書の分野を推定した結果で定める。さらに、対象文書集合から文字列統計量を計算し、用いた対象文字集合と関連付けて対象文書集合DB17へ格納・管理される。文字列統計量を計算する際には、例えば、非特許文献1でも利用されている接尾辞配列(suffix array(参考文献1参照))を作成することで、文書中の任意の文字列の出現頻度やその文字列が出現する文書数を計算することができる。suffix arrayは、文章中の任意の文字から文章末までの全ての文字列(文書へのポインタ)の配列を文字列でソートしたものである。同じ文字列が複数箇所で出現した場合、ソートした配列では隣接しているので、その数をカウントすれば出現頻度が求まる。また、事前に文書の先頭位置を求めておくことで、部分文字列のポインタからどの文書に出現したかが分かるので各文字列が出現する文書数を計算できる。suffix arrayの作成の際に用いたデータは統計量データとして対象文書集合DB17へ格納する。なお、suffix arrayを作成する方法でなくても同様の計算が可能であれば、それを用いても構わない。
参考文献1: Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
It is also possible to create a more limited set of target documents by specifying not only the date / time and period but also the site name and field. The site name may not be a complete URL but may be defined as a part of the URL (for example, domain name in the case of “http://www.sample.com/sports”+partial character string). Further, the field is determined by a character string (for example, “sports”) included in the URL, a character string appearing in the document, or a result of estimating the field of the document by the field estimation unit learned in advance. Further, a character string statistic is calculated from the target document set, and is stored and managed in the target document set DB 17 in association with the used target character set. When calculating a string statistic, for example, by creating a suffix array (suffix array (see Reference 1)) that is also used in Non-Patent Document 1, the appearance of an arbitrary character string in a document The frequency and the number of documents in which the character string appears can be calculated. The suffix array is an array of all character strings (pointers to documents) from an arbitrary character in a sentence to the end of the sentence, sorted by character string. When the same character string appears in a plurality of places, the sorted arrays are adjacent to each other, so the appearance frequency can be obtained by counting the number. In addition, by obtaining the leading position of the document in advance, it is possible to know in which document the partial character string has appeared, so the number of documents in which each character string appears can be calculated. The data used in creating the suffix array is stored in the target document set DB 17 as statistical data. Note that if the same calculation is possible without using the method of creating a suffix array, it may be used.
Reference 1: Mikio Yamamoto, Kenneth W. Church, “Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus”, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.

次に、単語抽出部13は、対象文書集合DB17の対象文書集合を読み出し、対象文書集合を単語分割して、単語を抽出する(ステップ103)。単語抽出方法は、形態素解析を行い、品詞パターンが合致したものを抽出する方法が考えられるが、最新の話題語の中には未知語を含む可能性がある。一般的な形態素解析では辞書を用いるため、未知語への対処ができない。   Next, the word extraction unit 13 reads the target document set of the target document set DB 17, divides the target document set into words, and extracts words (step 103). As a word extraction method, a method of performing morphological analysis and extracting a part-of-speech pattern that matches can be considered, but the latest topic word may include an unknown word. Since general morphological analysis uses a dictionary, it is impossible to deal with unknown words.

そこで、以下では文字列統計量による単語分割の説明を図2に基づいて行う。まず、単語候補抽出部13Aは、対象文書集合DB17から対象文書集合を読み込み、非特許文献1の単語候補抽出と同様な方法で単語候補を抽出し、対象文書集合DB17へ格納される。この例では、対象文書集合を1文ごとに分けて、1文を単語分割することも可能であるが、処理を早く行うために非特許文献1の方法で単語候補を抽出する。例えば、対象文書集合に複数回「…タテガミオオカミの…」と出ており、単語候補抽出の結果、「タテガミオオカミの」が単語候補の1つであるとする。なお、「タテガミオ」のような文字列は、「タテガミオオカミ」の入れ子であったり、「タテガミオ」の末尾文字と直後の文字が同種の文字種(カタカナ)で分断されるものは単語候補とはならない。次に、単語分割部13Bは、対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。例えば、単語候補のうちの1つである「タテガミオオカミの」が入力されると、“タ”、“タテ”、…“タテガミオオカミの”、といったように、先頭から順に入力された文字列に含まれる全ての部分文字列について単語スコアが計算される。   Therefore, in the following, the word division based on the character string statistics will be described with reference to FIG. First, the word candidate extraction unit 13A reads the target document set from the target document set DB 17, extracts word candidates by the same method as the word candidate extraction of Non-Patent Document 1, and stores the word candidates in the target document set DB 17. In this example, it is possible to divide the target document set for each sentence and divide one sentence into words, but in order to perform the processing quickly, word candidates are extracted by the method of Non-Patent Document 1. For example, it is assumed that “... Tategami wolf ...” appears in the target document set a plurality of times, and as a result of word candidate extraction, “Vertical wolf” is one of the word candidates. Note that a character string such as “Tategamio” is not a word candidate if it is nested in “Tategamio wolf” or if the last character of “Tategamio” is divided by the same type of character (katakana). . Next, the word division unit 13B inputs word candidates from the target document set DB 17, performs word division on the word candidates based on the character string statistics, the character string length, and the character type, and then obtains the word division results as the target document set DB 17 Output to. For example, when one of the word candidates “vertical wolf's” is input, the character string input in order from the top, such as “vertical”, “vertical”,. Word scores are calculated for all substrings included.

単語スコアは、入力文字列をうまく単語に分割することが可能であればどの統計量を用いてもかまわない。また、あらかじめ複数の方法を準備し、初期設定で使用する方法を用いてもかまわない。例えば、統計量として出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり特徴的なキーワードを抽出するのによく利用されるtf*idfが考えられるが、ここでは、文字列sの単語スコアS(s)=ridf(s)×(length(s)−1)によって計算する。ridf(s)は文字列sの残差IDF(ridf)と呼ばれるもので、内容に関する単語は大きな値をとりやすい統計量である(参考文献2)。また、length(s)は文字列sの長さである。なお、出現頻度が少ないときは統計量が正確な値を取らないので、例えば、出現頻度(tf)が10以下の場合、ridf(s)=0としている。
参考文献2: 北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、2002年1月1日初版第1刷発行、pp.43−45.
For the word score, any statistic may be used as long as the input character string can be divided into words well. In addition, a plurality of methods may be prepared in advance, and a method used in the initial setting may be used. For example, tf * idf, which is often used to extract a characteristic keyword, which is obtained by multiplying the appearance frequency (tf) and the reciprocal of the document frequency (idf) as a statistic, can be considered here. The word score S (s) of the column s is calculated according to ridf (s) × (length (s) −1). Ridf (s) is called a residual IDF (ridf) of the character string s, and the word related to the contents is a statistic that tends to take a large value (reference document 2). Also, length (s) is the length of the character string s. When the appearance frequency is low, the statistic does not take an accurate value. For example, when the appearance frequency (tf) is 10 or less, ridf (s) = 0.
Reference 2: Kenji Kita, Kazuhiko Tsuda, Masato Sasabori, “Information Exploration Algorithm”, Kyoritsu Shuppan, published the first edition, January 1, 2002, pp. 43-45.

文字列sの残差IDFを計算するには、ある文書集合に対し、文字列sの出現頻度や文字列sを含む文書数(文書頻度)や文書集合における総文書数をあらかじめ計算しておくか、実行時に読み込んで計算して求める。例えば、参考文献1を用いて、ある文書集合中の文字列の出現頻度と文書頻度を求めることができる。ただし、参考文献1では、出現頻度2以上の任意の文字列に限定されている。そこで、文字列が参考文献1の方法では見つからず、かつ、文書集合に出現している場合、出現頻度1(=文書頻度1)となることがわかる。また、文書集合中の総文書数は事前に1度調べればよい。以上から、対象文書集合の文字列統計量と事前準備した別文書集合の文字列統計量を用いて、ある文字列に対する各文書集合の文字列統計量(出現頻度や文書頻度)を足し合わせて求めることができる。対象文書集合のみでなく、別文書集合の統計量も用いるのは、対象文書集合で出現頻度が少ない場合の統計量を補うことで誤りが減らせるためである。また、別文書は事前に統計量を計算しておくことで、実行時には対象文書集合のみ計算すればよく、対象文書集合と別文書集合をまとめた全体に対して実行時に統計量を計算するよりも処理時間が短縮できる。   In order to calculate the residual IDF of the character string s, the appearance frequency of the character string s, the number of documents including the character string s (document frequency), and the total number of documents in the document set are calculated in advance. Or read and calculate at runtime. For example, it is possible to obtain the appearance frequency and document frequency of a character string in a document set using Reference Document 1. However, in Reference Document 1, it is limited to an arbitrary character string having an appearance frequency of 2 or more. Therefore, it can be seen that when the character string is not found by the method of Reference 1 and appears in the document set, the appearance frequency is 1 (= document frequency 1). The total number of documents in the document set may be checked once in advance. From the above, using the string statistic of the target document set and the string statistic of another document set prepared in advance, add the string statistic (appearance frequency and document frequency) of each document set for a certain character string. Can be sought. The reason why not only the target document set but also the statistics of another document set is used is that errors can be reduced by supplementing the statistics when the appearance frequency of the target document set is low. Also, by calculating the statistics for other documents in advance, only the target document set needs to be calculated at the time of execution, rather than calculating the statistics at the time of execution for the entire target document set and another document set. Can reduce processing time.

図4の左側は、対象文書集合と別文書集合の統計量を既に足し合わせた結果の一部であり、足し合わせた総文書数D=100000の文書から各文字列の出現頻度と文書頻度を求めたものとする。例えば、単語候補「タテガミオオカミの」における「タ」の場合は、出現頻度tf=80000、文書頻度df=30000が求まるので、ridf(タ)=0.74となる。これらから、単語スコアS(タ)=ridf(タ)×(length(タ)−1)=0となる。同様に、入力文字列の全ての部分文字列の単語スコアS(s)が求まる(図4の右側)。   The left side of FIG. 4 is a part of the result of adding the statistics of the target document set and the separate document set, and the appearance frequency and document frequency of each character string from the total number of documents D = 100000 are added. Assume that you have asked for it. For example, in the case of “ta” in the word candidate “vertical wolf's”, the appearance frequency tf = 80000 and the document frequency df = 30000 are obtained, so that rdf (ta) = 0.74. From these, the word score S (ta) = ridf (ta) × (length (ta) −1) = 0. Similarly, word scores S (s) of all partial character strings of the input character string are obtained (right side in FIG. 4).

次に、単語スコアの補正について説明する。ある文字種を持つ文字列では単語スコアが適切でなく、誤った分割が行われやすくなるので、計算された単語スコアを補正する。補正は単語とはなりにくい文字列の単語スコアを0にし、単語となりやすい文字列で単語スコアが低いものに、より高い値を与えるようにする。例えば、カタカナ、英字、アラビア数字、漢数字が同じ文字種で連続する場合、最長となるもの以外は単語スコアを0にし、仮に最長のもので単語スコアが0の場合は0より大きいかものすごく小さな値を与える。また、記号類は2文字以上のものは単語スコアを0にする。また、ひらがなを含む文字列の場合で長さが1文字で文書頻度が閾値以上である場合は、単語スコアをw(s)とする(w(s)はsの関数)。また、ひらがなを含む文字列の場合で長さが2文字以上でridf(s)が閾値以下の場合は単語スコアを0にする。例えば、図3のように、“タテ”の場合は、単語スコアがS(タテ)=0.48であるが、単語候補「タテガミオオカミの」においては、「タテガミオオカミ」のカタカナの部分文字列であるので、S(タテ)=0となる(図4の右側)。また、「タテガミオオカミ」の単語スコアは0であるが、補正によりものすごく小さな値(例えば、0.0001)となる。次に、動的計画法(DP(非特許文献3参照))によって、各文字列の単語スコアから単語スコアの総和の最大とする単語並びを求める。例えば、単語候補「タテガミオオカミの」は、「タテガミオオカミ(0.0001)/の(0.05)」のような並びとなる(単語の後の数字は単語スコアである。)。なお、単語スコアの補正が行われなかったとすれば、「タテ(0.48)/ガミ(0.53)/オオカミ(3.99)/の(0.05)」となり、正しい単語分割は得られない。
参考文献3 石畑清、「アルゴリズムとデータ構造」、岩波書店、1989年3月30日第1刷発行、pp.399−401.
Next, word score correction will be described. A word string having a certain character type does not have an appropriate word score, and erroneous division is likely to occur. Therefore, the calculated word score is corrected. In the correction, the word score of a character string that is unlikely to be a word is set to 0, and a higher value is given to a character string that is likely to be a word and has a low word score. For example, if katakana, English letters, Arabic numerals, and Chinese numerals are consecutive in the same character type, the word score is 0 except for the longest one, and if it is the longest and the word score is 0, it may be greater than 0. give. In addition, the symbol score is set to 0 for two or more symbols. In the case of a character string including hiragana, if the length is one character and the document frequency is greater than or equal to the threshold, the word score is set to w (s) (w (s) is a function of s). In the case of a character string including hiragana, the word score is set to 0 when the length is 2 characters or more and ridf (s) is less than or equal to the threshold value. For example, as shown in FIG. 3, in the case of “vertical”, the word score is S (vertical) = 0.48, but in the word candidate “vertical wolf”, the Katakana partial character string of “vertical wolf” Therefore, S (vertical) = 0 (right side in FIG. 4). Further, the word score of “vertical wolf” is 0, but it becomes a very small value (for example, 0.0001) by the correction. Next, by dynamic programming (DP (see Non-Patent Document 3)), a word arrangement that maximizes the sum of the word scores is obtained from the word scores of the character strings. For example, the word candidates “Late wolf wolf” are arranged as “Late wolf (0.0001) / of (0.05)” (the number after the word is the word score). If correction of the word score is not performed, “vertical (0.48) / gummy (0.53) / wolf (3.99) / (0.05)” is obtained, and correct word division is obtained. I can't.
Reference 3 Kiyoshi Ishihata, “Algorithms and Data Structures”, Iwanami Shoten, first printed on March 30, 1989, pp. 399-401.

次に、図2の単語選別部13Cは、対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題後DB18へ出力する。例えば、単語スコアがある閾値以上もしくはカタカナで文字列長が2以上のものに限定したならば、「タテガミオオカミ」はカタカナであるので出力され、対象文書集合DB17へ格納される。   Next, the word selection unit 13C in FIG. 2 inputs word division results of a plurality of word candidates from the target document set DB 17, narrows down by a predetermined word score threshold, character type, and character string length, and the remaining words Is output to the DB 18 after the topic. For example, if the word score is limited to a certain threshold value or Katakana and the character string length is 2 or more, “Tategami wolf” is output because it is Katakana and is stored in the target document set DB 17.

次に、話題度計算部14は、単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列統計量を基に最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する(ステップ104)。   Next, the topic level calculation unit 14 inputs the word output by the word extraction unit 13 from the target document set DB 17 and the previous target document set and the current target document set (time, period, etc.) in the target document set DB 17. The recent topic level is calculated based on each character string statistic (which differs between the previous time and the current time), and a topic word list arranged in the order of the topic level is output to the topic word DB 18 (step 104).

最近の話題度とは、前回と今回の対象文書集合において単語の重要度を表す統計量を求め、今回の方が前回に比べて重要度が急激に上昇したものであると考えられ、例えば、前回と今回の重要度の割合で求めることができる。なお、割合でなく差であったり、割合と差の両方を考慮したものなど、最近の話題度が求められるものであれば、ここで述べる以外の方法で話題度を求めても構わない。   The recent topic level is a statistic indicating the importance level of the words in the previous and current target document sets, and this time it is considered that the importance level has increased sharply compared to the previous time. It can be obtained by the ratio of the importance of the previous time and this time. It should be noted that the topic level may be obtained by a method other than that described here as long as the recent topic level is required, such as a difference instead of a rate, or a case where both the rate and the difference are considered.

統計量を複数準備しておくことで利用者に合った話題度を選択できる。統計量としては、出現頻度(tf)やtf*idfなどが考えられる。tfは多く出現するほど重要であるという意味になる。また、tf*idfは出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり、出現頻度に比べてtf*idfの方が文書に偏って出現する単語が高い値となる。これは、単に出現頻度が多いとまんべんなく出現する語が高くなりやすいので、偏りも考慮することでより内容に特化した単語を高い値となることを意味する。対象文書集合中の文書数をDとするとtf*idfは、tf*idf=tf*(log(D/df)+1)で計算される。なお、統計量はこれらに限定されず他の方法で計算しても構わない。例えば、tf*idfによる単語「タテガミオオカミ」の話題度を、今回をある1日、前回をその前日1日として計算する場合、前日に対象文書集合に100個の文書があり、そのうち2つの文書に「タテガミオオカミ」が2回出ていて、当日には対象文書集合中に120個の文書があり、そのうち3つの文書に「タテガミオオカミ」が6回出ていたならば、話題度は(当日のtf*idf)/(前日のtf*idf)=6*(log(120/3)+1)/2*(log(100/2)+1)=15.6/5.4=2.89となる。そして、話題度の高い順に話題語リストを作成し、話題語DB18へ格納する。   By preparing multiple statistics, you can select the topic level that suits the user. As statistics, appearance frequency (tf), tf * idf, and the like are conceivable. The more tf appears, the more important it is. Also, tf * idf is a product of the appearance frequency (tf) and the reciprocal of the document frequency (idf), and tf * idf has a higher value for words that appear biased in the document than the appearance frequency. . This means that if the frequency of appearance is high, the number of words that appear evenly tends to increase, and therefore, the word specialized to the content becomes a high value by considering the bias. If the number of documents in the target document set is D, tf * idf is calculated by tf * idf = tf * (log (D / df) +1). The statistics are not limited to these, and may be calculated by other methods. For example, when calculating the topic level of the word “vertical wolf” by tf * idf, assuming that the current day is one day and the previous day is the previous day, there are 100 documents in the target document set on the previous day, of which two documents If there were 120 “Tategami wolf” on the same day, and there were 120 documents in the target document set on that day, and 3 of those documents had “Tategami wolf” appeared 6 times, Tf * idf) / (tf * idf of the previous day) = 6 * (log (120/3) +1) / 2 * (log (100/2) +1) = 15.6 / 5.4 = 2.89 Become. Then, a topic word list is created in descending order of topic level and stored in the topic word DB 18.

最後に、表示部15は、話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対し、対象文書集合中の文脈や、その話題語を含む元のURLや、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。   Finally, the display unit 15 inputs the topic word list output from the topic level calculation unit 14, and further inputs the target document set and statistics data of the target document set DB 17, and the target document set for the topic word. Context, the original URL containing the topic word, the title of the document in which the topic word appears, the frequency of appearance of the topic word in the document set, the number of documents that appear, the topic level, and the topic for a certain period The transition of statistics about words is formatted into a display format and output as a topic word list and related information.

例えば、図5の(a)にあるように、利用者が年月日、件数、分野、サイト、話題度の計算手法を選択すると、選択した条件での最新の話題語リストが出力される。なお、「赤ちゃん」という話題語が話題語リストにあり、「赤ちゃん」と同じ文書に現れる話題語で最上位のものが「タテガミオオカミ」である場合は、同じ情報を含む文書に包含されていると考えて、「赤ちゃん」を話題語リストから除外することで、リストの上位から複数回同じ情報を見る手間を省くことができる。   For example, as shown in FIG. 5A, when the user selects the date, date, number, field, site, topic level calculation method, the latest topic word list under the selected condition is output. If the topic word "baby" is in the topic word list and the highest word that appears in the same document as "baby" is "vertical wolf", it is included in the document containing the same information. Therefore, by excluding "baby" from the topic word list, it is possible to save the trouble of viewing the same information multiple times from the top of the list.

また、例えば、4位の「タテガミオオカミ」をクリックすると、図5の(b)にあるように、指定した日時である2004年1月1日の「タテガミオオカミ」の対象文書集合中の出現数(tf)やその語を含む文書数(df)、話題度、同じ文書に包含されている話題語や、ある期間の話題語に関する統計量(この例では話題度)の推移グラフや、その話題語を含む元のURL、話題語が出現する文書のタイトル、対象文書集合中の話題語の前後の文脈が表示される。原文書が見たい場合は、URLをクリックすると実際の文書を表示する。これにより、ある日時の話題語リストを見るだけでは話題語かどうか判断がつきにくい場合に、統計量の推移グラフや出現頻度などによって、判断の参考になる情報を見ることができる。この例では、推移グラフが話題度だけだが、複数の統計量を表示させたり、複数の統計量から選択手段により見たいグラフを選択してもよい。また、見たい期間の幅や時期も選択手段により変更させてもよい。   Further, for example, when the fourth “vertical wolf” is clicked, as shown in FIG. 5B, the number of occurrences in the target document set of “vertical wolf” on January 1, 2004, which is the designated date and time. (Tf), the number of documents including the word (df), topic level, topic words included in the same document, statistics of topic words for a certain period (in this example, topic level), a transition graph, and topics The original URL including the word, the title of the document in which the topic word appears, and the context before and after the topic word in the target document set are displayed. If you want to see the original document, click the URL to display the actual document. As a result, when it is difficult to determine whether or not it is a topic word simply by looking at a topic word list at a certain date and time, it is possible to see information that can be used as a reference for the determination based on the transition graph of the statistic and the appearance frequency. In this example, the transition graph is only the topic level, but a plurality of statistics may be displayed, or a graph desired to be viewed may be selected from a plurality of statistics by the selection means. Moreover, you may change the width | variety and time of a period to look at by a selection means.

また、話題語の意味が分からない新語の場合に、話題語の文脈や元文書を見ることにより、理解を助けることができる。なお、図5は表示の一例であって、情報の表示させるデータや順序や構成などは、適宜変更したものでも構わない。   In addition, in the case of a new word whose meaning is not understood, it is possible to help understanding by looking at the context of the topic word and the original document. Note that FIG. 5 is an example of display, and the data, order, and configuration of information to be displayed may be changed as appropriate.

なお、本発明の単語抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。   The word extracting method of the present invention is not only realized by dedicated hardware, but also a program for realizing the function is recorded on a computer-readable recording medium, and the program recorded on the recording medium is recorded. May be read by a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short time, such as when transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.

本発明の一実施形態である単語抽出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the word extraction apparatus which is one Embodiment of this invention. 図1中の単語抽出部の構成を示すブロック図である。It is a block diagram which shows the structure of the word extraction part in FIG. 図1の単語抽出装置の処理の概要を表すフローチャートである。It is a flowchart showing the outline | summary of a process of the word extraction device of FIG. 文書集合から計算された任意の文字列の単語スコアと、入力された文字列に基づいて補正された単語スコアの一例を示す図である。It is a figure which shows an example of the word score of the arbitrary character strings calculated from the document set, and the word score corrected based on the input character string. 話題語リストと関連情報の表示例である。It is a display example of a topic word list and related information.

符号の説明Explanation of symbols

1 単語抽出装置
2 インターネット
11 クローラー
12 対象文書集合データ作成部
13 単語抽出部
13A 単語候補抽出部
13B 単語分割部
13C 単語選別部
14 話題度計算部
15 表示部
16 文書DB
17 対象文書集合DB
18 話題語DB
101〜105 ステップ
DESCRIPTION OF SYMBOLS 1 Word extraction apparatus 2 Internet 11 Crawler 12 Target document set data preparation part 13 Word extraction part 13A Word candidate extraction part 13B Word division part 13C Word selection part 14 Topic degree calculation part 15 Display part 16 Document DB
17 Target document collection DB
18 Topic DB
101-105 steps

Claims (7)

逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する単語抽出方法。
A word extraction method performed in a word extraction device that extracts topic words in a specified period from a sequentially updated document set,
A document collection step in which the document collection means collects documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation step in which a target document set creation unit creates a document set that is a target of word extraction by collecting documents updated from a collected document within a period specified independently of the period;
A word candidate extraction step in which the word candidate extraction means extracts word candidates except for a character string that appears multiple times in the target document set and that is nested by a character type;
The word dividing unit is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extracting unit. Calculate a word score,
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word division step for outputting as a word division result ;
Word word selection means, among the word segmentation result of said word candidates outputted by the word segmentation step, the word segmentation result the word score matches a threshold value or character types and string length condition word scores predetermined A word selection step to extract as
A word extraction method comprising:
前記単語分割ステップにおける前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理では、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項記載の単語抽出方法。 Processing for calculating a word score that is a value obtained by multiplying the residual IDF of the partial character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate in the word division step in word extraction method according to claim 1, wherein the frequency of occurrence of the partial character string, characterized in that a zero residual IDF substring to be 10 or less. 話題度計算手段が、抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
話題度リスト作成手段が、話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップと、
を有する請求項1または2記載の単語抽出方法。
The topic level calculation means calculates the importance in the target document set for the extracted word and the importance in the document set for a certain period before the target document set. A topic level calculation step for calculating the topic level of a word;
A topic word list creating means for creating a topic word list in which words are arranged in descending order of topic degree;
The word extraction method according to claim 1 or 2, wherein:
逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する単語抽出装置。
A word extraction device that extracts topic words in a specified period from a sequentially updated document set,
Document collection means for collecting documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation means for creating a document set as a word extraction target by collecting documents updated within a period specified independently of the cycle from the collected documents;
Word candidate extraction means for extracting word candidates except for a character string that appears multiple times in the target document set and a character string that is nested or divided by a certain character type;
Calculate a word score that is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extraction unit. And
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word dividing means for outputting as a word division result ;
Of word segmentation result of the word candidates the word dividing means is outputted, the word selection for extracting the word segmentation result the word score matches a threshold value or character types and string length condition word score predetermined as a word Means,
A word extraction device.
前記単語分割手段は、
前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理にて、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項記載の単語抽出装置。
The word dividing means includes
In the process of calculating a word score that is a value obtained by multiplying the residual IDF of the partial character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate, 5. The word extraction device according to claim 4, wherein a residual IDF of a partial character string having a character string appearance frequency of 10 or less is set to zero .
抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
話題度の高い順に単語を並べた話題語リストを作成する話題度リスト作成手段と、
を有する請求項4または5記載の単語抽出装置。
For the extracted word, calculate the importance in the target document set and the importance in the document set for a certain period before the target document set, and calculate the degree of increase in importance compared to before as the topic level of the word Topic level calculation means to
A topic level list creation means for creating a topic word list in which words are arranged in descending order of topic level;
6. The word extraction device according to claim 4 or 5, wherein:
コンピュータを請求項乃至のいずれか1項記載の単語抽出装置の各手段として機能させるためのプログラム。 The program for functioning a computer as each means of the word extraction apparatus of any one of Claims 4 thru | or 6 .
JP2004067681A 2004-03-10 2004-03-10 Word extraction method, apparatus, and program Expired - Lifetime JP4298550B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004067681A JP4298550B2 (en) 2004-03-10 2004-03-10 Word extraction method, apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004067681A JP4298550B2 (en) 2004-03-10 2004-03-10 Word extraction method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2005258678A JP2005258678A (en) 2005-09-22
JP4298550B2 true JP4298550B2 (en) 2009-07-22

Family

ID=35084346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067681A Expired - Lifetime JP4298550B2 (en) 2004-03-10 2004-03-10 Word extraction method, apparatus, and program

Country Status (1)

Country Link
JP (1) JP4298550B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3785108B2 (en) 2002-03-28 2006-06-14 株式会社東芝 COMMUNICATION METHOD, COMMUNICATION DEVICE, BASE STATION DEVICE, AND TERMINAL DEVICE
JP5115239B2 (en) * 2008-03-03 2013-01-09 富士ゼロックス株式会社 Character processing device
JP5444346B2 (en) 2009-06-29 2014-03-19 真旭 徳山 Workflow processing program, information processing apparatus, and workflow processing method
JP5232260B2 (en) * 2011-03-11 2013-07-10 株式会社東芝 Topic extraction device and program
JP5768492B2 (en) * 2011-05-18 2015-08-26 ソニー株式会社 Information processing apparatus, information processing method, and program
JP5491446B2 (en) * 2011-05-20 2014-05-14 日本電信電話株式会社 Topic word acquisition apparatus, method, and program

Also Published As

Publication number Publication date
JP2005258678A (en) 2005-09-22

Similar Documents

Publication Publication Date Title
Schäfer et al. Web corpus construction
US8204891B2 (en) Method and subsystem for searching media content within a content-search-service system
US20110029513A1 (en) Method for Determining Document Relevance
US7469251B2 (en) Extraction of information from documents
US20110119262A1 (en) Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
US7555428B1 (en) System and method for identifying compounds through iterative analysis
US9529847B2 (en) Information processing apparatus, information processing method, and program for extracting co-occurrence character strings
JP5010885B2 (en) Document search apparatus, document search method, and document search program
JP5427694B2 (en) Related content presentation apparatus and program
JP4298550B2 (en) Word extraction method, apparatus, and program
JP2009217689A (en) Information processor, information processing method, and program
US20120330986A1 (en) Information processing apparatus, information processing method, and program
US8612202B2 (en) Correlation of linguistic expressions in electronic documents with time information
US20080168036A1 (en) System and Method for Locating and Extracting Tabular Data
US20070061322A1 (en) Apparatus, method, and program product for searching expressions
JP3937741B2 (en) Document standardization
Aslam et al. Web-AM: An efficient boilerplate removal algorithm for Web articles
CN113157857A (en) Hot topic detection method, device and equipment for news
CN119474581A (en) Web page content extraction method based on combination of rules and statistical features
EP4160441A1 (en) Chunking execution system, chunking execution method, and program
JP2004013726A (en) Keyword extraction device and information retrieval device
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
JP2009265770A (en) Significant sentence presentation system
Martins et al. The WebCAT framework automatic generation of meta-data for Web resources

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050628

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050628

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Ref document number: 4298550

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term