JP4298550B2 - Word extraction method, apparatus, and program - Google Patents
Word extraction method, apparatus, and program Download PDFInfo
- Publication number
- JP4298550B2 JP4298550B2 JP2004067681A JP2004067681A JP4298550B2 JP 4298550 B2 JP4298550 B2 JP 4298550B2 JP 2004067681 A JP2004067681 A JP 2004067681A JP 2004067681 A JP2004067681 A JP 2004067681A JP 4298550 B2 JP4298550 B2 JP 4298550B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- partial character
- document set
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、対象となる文書集合から単語を抽出する方法および装置に関するものである。 The present invention relates to a method and apparatus for extracting words from a target document set.
現在、インターネット上には様々な分野・種類の電子的な文書が大量に生まれ続けている。しかしながら、利用者は、最近作成された文書の全てを見ることは量的に不可能であり、分野や情報元などで限定したとしても困難なことが多い。そこで、例えば、最近作成された文書の集合から過去よりも話題性の高い語を順にリストアップし、さらにその話題語からその語を含む文書への簡便なアクセス方法があるならば、利用者は、その時々で有用な情報を含んでいる文書を効率よく見ることができる。また、最近の話題語とその意味を知りたい場面においても、上記のような仕組みがあれば、話題語とその利用例を探す手間が削減される。 Currently, a large number of electronic documents in various fields and types continue to be born on the Internet. However, it is impossible for a user to see all recently created documents quantitatively, and it is often difficult even if limited by the field or information source. Therefore, for example, if there is a simple access method to a document including the word from the topic word by sequentially listing words having higher topicality than the past from a set of recently created documents, the user can You can efficiently view documents that contain useful information from time to time. In addition, even in a scene where it is desired to know recent topic words and their meanings, if there is a mechanism as described above, the time and effort of searching for topic words and examples of their use are reduced.
文書集合から単語を抽出する従来技術としては、対象文書集合中の任意の文字列から単語候補を求め、対象文書集合とそれとは別の文書集合から単語候補の文字列統計量を計算し、その値が閾値以上となった単語候補を単語として抽出するものがある(非特許文献1参照)。
この技術は、対象文書集合中の任意の部分文字列から、あらかじめ単語候補に絞り込み、それぞれ独立に単語らしさを調べている。しかし、粗い絞り込みのため単語候補の中には、正しい単語が除去されるかわりに、その単語を部分的に含む誤った文字列が残っている場合がある。 In this technique, word candidates are narrowed down in advance from an arbitrary partial character string in a target document set, and the likelihood of a word is independently examined. However, due to rough narrowing, there are cases in which an incorrect character string partially including the word remains in the word candidates instead of removing the correct word.
そこで、単語候補を形態素解析することが考えられるが、形態素解析用の辞書にない単語が単語候補に含まれる場合、形態素解析結果が誤るために正しい単語が抽出できない。 Therefore, it is conceivable to perform morphological analysis on the word candidate. However, if the word candidate includes a word not included in the dictionary for morphological analysis, the correct word cannot be extracted because the result of the morphological analysis is incorrect.
また、この技術では、単語の話題度を最近の文書集合の出現確率と過去の文書集合の出現確率との差としており、最新度の高い単語ほど高い話題度となる。しかし、最新度が高くても重要でない単語が抽出される可能性がある。 Also, with this technique, the topic level of a word is the difference between the appearance probability of a recent document set and the appearance probability of a past document set, and a higher topic level indicates a higher topic level. However, there is a possibility that unimportant words are extracted even if the latest degree is high.
また、最新の話題語といっても、ある文書に偏って出現する特徴的なものが欲しい場合もあれば、偏りにかかわらず最新の話題語が欲しい場合もある。しかし、利用者の目的に合わせて、適宜、話題度計算方法を変更することができない。 Moreover, even if it is the latest topic word, there may be a case where a characteristic word which appears biased in a certain document is desired, and there is a case where the latest topic word is desired regardless of the bias. However, the topic level calculation method cannot be changed as appropriate according to the purpose of the user.
また、得られるものは話題度順に並べた単語リストであり、利用者がその語の意味の理解に役立つ情報を提示する手段や、その語を含む文書への簡便なアクセスする手段は有していない。 Moreover, what is obtained is a word list arranged in order of topic level, and has means for presenting information useful for the user to understand the meaning of the word and means for easily accessing a document containing the word. Absent.
本発明の目的は、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができ、また、利用者にとって有用な話題語を得ることができる単語抽出方法、装置、およびプログラムを提供することにある。 An object of the present invention is to provide a word extraction method, apparatus, and program capable of extracting a word that can handle even the latest word with higher accuracy than before and that can obtain a topic word useful for a user. Is to provide.
本発明の単語抽出方法は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する。
The word extraction method of the present invention is a word extraction method performed in a word extraction device that extracts topic words in a specified period from a sequentially updated document set,
A document collection step in which the document collection means collects documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation step in which a target document set creation unit creates a document set that is a target of word extraction by collecting documents updated from a collected document within a period specified independently of the period;
A word candidate extraction step in which the word candidate extraction means extracts word candidates except for a character string that appears multiple times in the target document set and that is nested by a character type;
The word dividing unit is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extracting unit. Calculate a word score,
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word division step for outputting as a word division result ;
Word word selection means, among the word segmentation result of said word candidates outputted by the word segmentation step, the word segmentation result the word score matches a threshold value or character types and string length condition word scores predetermined A word selection step to extract as
Having.
また、本発明の単語抽出装置は、逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する。
The word extraction device of the present invention is a word extraction device that extracts topic words in a specified period from a sequentially updated document set,
Document collection means for collecting documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation means for creating a document set as a word extraction target by collecting documents updated within a period specified independently of the cycle from the collected documents;
Word candidate extraction means for extracting word candidates except for a character string that appears multiple times in the target document set and a character string that is nested or divided by a certain character type;
Calculate a word score that is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extraction unit. And
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word dividing means for outputting as a word division result ;
Of word segmentation result of the word candidates the word dividing means is outputted, the word selection for extracting the word segmentation result the word score matches a threshold value or character types and string length condition word score predetermined as a word Means,
Having.
1)文書集合から文字列統計量と文字列長と文字種に基づく単語分割を行うことで、従来よりも高精度で最新の語にも対処可能な単語抽出を行うことができる。
2)ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。
1) By performing word segmentation based on a character string statistic, a character string length, and a character type from a document set, it is possible to extract a word that can deal with the latest word with higher accuracy than before.
2) Useful for users by calculating the topic level based on the importance of words in documents in a certain period and previous periods and the latest degree of words calculated from the appearance status of certain periods and earlier periods. You can get a topic word.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は本発明の一実施の形態である単語抽出装置の構成を表すブロック図である。図1において1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。 FIG. 1 is a block diagram showing a configuration of a word extraction device according to an embodiment of the present invention. In FIG. 1, a single line arrow indicates a data flow, and a double line arrow indicates a process flow.
単語抽出装置1はクローラー11と対象文書集合データ作成部12と単語抽出部13と話題度計算部14と表示部15と文書DB16と対象文書集合DB17と話題語DB18とを有している。
The
クローラー11は、インターネット2から前回収集以降に更新された文書を指定された周期で収集し、HTML(Hyper Text Markup Language)といったタグ付きの収集文書をプレインテキストへ加工して文書DB16へ出力する。対象文書集合データ作成部12は文書DB16から上記の指定された周期とは独立に指定された期間内に更新された加工済み文書を文書DB16から入力し、複数の加工済み文書をまとめて話題語抽出の対象文書集合を作成し、対象文書集合から統計量を計算して、対象文書集合と統計量データを対象文書集合DB17へ出力する。なお、対象文書集合に対応付けてURL(Uniform Resource Locator)やタイトルも格納される。単語抽出部13は対象文書集合DB17の対象文書集合を入力し、単語分割し、対象文書集合DB17へ単語を出力する。話題度計算部14は単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列の統計量を基に指定した方法で最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する。表示部15は話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対して、対象文書集合中の文脈や、その話題語を含む元のURL(Uniform Resource Locator)や、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。
The crawler 11 collects documents that have been updated since the last collection from the Internet 2 at a designated cycle, processes a collected document with a tag such as HTML (Hyper Text Markup Language) into a plain text, and outputs it to the
図2は、単語抽出部13の構成を表すブロック図である。図2において、1重線の矢印はデータの流れを、2重線の矢印は処理の流れを示している。
FIG. 2 is a block diagram illustrating the configuration of the
単語抽出部13は単語候補抽出部13Aと単語分割部13Bと単語選択部13Cを有する。単語候補抽出部13Aは対象文書集合DB17から対象文書集合を読み込み、対象文書集合に複数回出現する文字列で、入れ子となるものや、ある文字種で分断されるものを除いて(非特許文献1の単語候補抽出と同様な方法)単語候補を抽出し、対象文書集合DB17へ格納する。単語分割部13Bは対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。単語選別部13Cは対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題語DB18へ出力する。
The
次に、本実施形態の動作を図3のフローチャートにより説明する。 Next, the operation of this embodiment will be described with reference to the flowchart of FIG.
まず、クローラー11によって、指定された周期で、インターネット2からその周期の差分(前回収集以降)に更新された文書を収集する(ステップ101)。クローラーとはインターネット2上のページを巡回し、文書を収集する手段である。例えば、毎日(指定周期)、前日に更新された文書(前回収集以降に更新された文書)を収集する場合、今日が2004年1月1日であったならば、クローラー11によって、更新日時が昨日2003年12月31日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。また、今日が2004年1月2日となったならば、同様にクローラー11によって更新日時が昨日2004年1月1日のページのみを収集し、更新日時で収集データを管理する文書DB16へ格納する。収集周期の指定は、あらかじめ初期設定しておく。例えば、「毎日」と設定すれば毎日収集し、「2日」とすれば2日に1回収集する。さらに、収集されたページには、文書の内容とは関係ないタグや不要な文字列が含まれているので、それらを除去し、整形した文書を作成し、収集文書と関連付けて文書DB16へ格納、管理される。
First, the crawler 11 collects documents updated to the difference of the cycle (after the previous collection) from the
次に、対象文書集合データ作成部12は、文書DB16から上記の指定された周期とは独立に指定した期間内に更新された整形済み文書を読み出し、まとめたものを話題語抽出の対象文書集合として作成し、指定日時と期間で対象文書集合を管理して対象文書集合DB17へ格納する(ステップ102)。例えば、日時を「昨日」、期間を「1日分」と指定すると、更新日時がその日時と一致する整形済み文書を読み出し、各文書をまとめたファイル(例えば、各文書を1行とし、それらを連結したもの)を対象文書集合として作成し、指定日時と期間で管理して対象文書集合DB17へ格納する。日時と期間は、あらかじめ初期設定しておく。例えば、日時を「昨日」、期間を「1日分」と設定し、今日が2004年1月1日であれば、更新日時が2003年12月31日の整形済み文書が該当することになる。
Next, the target document set
なお、日時や期間だけでなくサイト名や分野を指定し、より限定した対象文書集合を作成することもできる。サイト名は完全なURLでなく、URLの一部で定めてもよい(例えば、「http://www.sample.com/sports」のような場合のドメイン名+部分文字列)。また、分野はURL中に含まれる文字列(例えば、「sports」)や、文書内に現れる文字列や、予め学習しておいた分野推定手段によって文書の分野を推定した結果で定める。さらに、対象文書集合から文字列統計量を計算し、用いた対象文字集合と関連付けて対象文書集合DB17へ格納・管理される。文字列統計量を計算する際には、例えば、非特許文献1でも利用されている接尾辞配列(suffix array(参考文献1参照))を作成することで、文書中の任意の文字列の出現頻度やその文字列が出現する文書数を計算することができる。suffix arrayは、文章中の任意の文字から文章末までの全ての文字列(文書へのポインタ)の配列を文字列でソートしたものである。同じ文字列が複数箇所で出現した場合、ソートした配列では隣接しているので、その数をカウントすれば出現頻度が求まる。また、事前に文書の先頭位置を求めておくことで、部分文字列のポインタからどの文書に出現したかが分かるので各文字列が出現する文書数を計算できる。suffix arrayの作成の際に用いたデータは統計量データとして対象文書集合DB17へ格納する。なお、suffix arrayを作成する方法でなくても同様の計算が可能であれば、それを用いても構わない。
参考文献1: Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
It is also possible to create a more limited set of target documents by specifying not only the date / time and period but also the site name and field. The site name may not be a complete URL but may be defined as a part of the URL (for example, domain name in the case of “http://www.sample.com/sports”+partial character string). Further, the field is determined by a character string (for example, “sports”) included in the URL, a character string appearing in the document, or a result of estimating the field of the document by the field estimation unit learned in advance. Further, a character string statistic is calculated from the target document set, and is stored and managed in the target document set
Reference 1: Mikio Yamamoto, Kenneth W. Church, “Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus”, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
次に、単語抽出部13は、対象文書集合DB17の対象文書集合を読み出し、対象文書集合を単語分割して、単語を抽出する(ステップ103)。単語抽出方法は、形態素解析を行い、品詞パターンが合致したものを抽出する方法が考えられるが、最新の話題語の中には未知語を含む可能性がある。一般的な形態素解析では辞書を用いるため、未知語への対処ができない。
Next, the
そこで、以下では文字列統計量による単語分割の説明を図2に基づいて行う。まず、単語候補抽出部13Aは、対象文書集合DB17から対象文書集合を読み込み、非特許文献1の単語候補抽出と同様な方法で単語候補を抽出し、対象文書集合DB17へ格納される。この例では、対象文書集合を1文ごとに分けて、1文を単語分割することも可能であるが、処理を早く行うために非特許文献1の方法で単語候補を抽出する。例えば、対象文書集合に複数回「…タテガミオオカミの…」と出ており、単語候補抽出の結果、「タテガミオオカミの」が単語候補の1つであるとする。なお、「タテガミオ」のような文字列は、「タテガミオオカミ」の入れ子であったり、「タテガミオ」の末尾文字と直後の文字が同種の文字種(カタカナ)で分断されるものは単語候補とはならない。次に、単語分割部13Bは、対象文書集合DB17から単語候補を入力し、単語候補を文字列統計量と文字列長と文字種に基づく単語分割を行った後、単語分割結果を対象文書集合DB17へ出力する。例えば、単語候補のうちの1つである「タテガミオオカミの」が入力されると、“タ”、“タテ”、…“タテガミオオカミの”、といったように、先頭から順に入力された文字列に含まれる全ての部分文字列について単語スコアが計算される。
Therefore, in the following, the word division based on the character string statistics will be described with reference to FIG. First, the word
単語スコアは、入力文字列をうまく単語に分割することが可能であればどの統計量を用いてもかまわない。また、あらかじめ複数の方法を準備し、初期設定で使用する方法を用いてもかまわない。例えば、統計量として出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり特徴的なキーワードを抽出するのによく利用されるtf*idfが考えられるが、ここでは、文字列sの単語スコアS(s)=ridf(s)×(length(s)−1)によって計算する。ridf(s)は文字列sの残差IDF(ridf)と呼ばれるもので、内容に関する単語は大きな値をとりやすい統計量である(参考文献2)。また、length(s)は文字列sの長さである。なお、出現頻度が少ないときは統計量が正確な値を取らないので、例えば、出現頻度(tf)が10以下の場合、ridf(s)=0としている。
参考文献2: 北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、2002年1月1日初版第1刷発行、pp.43−45.
For the word score, any statistic may be used as long as the input character string can be divided into words well. In addition, a plurality of methods may be prepared in advance, and a method used in the initial setting may be used. For example, tf * idf, which is often used to extract a characteristic keyword, which is obtained by multiplying the appearance frequency (tf) and the reciprocal of the document frequency (idf) as a statistic, can be considered here. The word score S (s) of the column s is calculated according to ridf (s) × (length (s) −1). Ridf (s) is called a residual IDF (ridf) of the character string s, and the word related to the contents is a statistic that tends to take a large value (reference document 2). Also, length (s) is the length of the character string s. When the appearance frequency is low, the statistic does not take an accurate value. For example, when the appearance frequency (tf) is 10 or less, ridf (s) = 0.
Reference 2: Kenji Kita, Kazuhiko Tsuda, Masato Sasabori, “Information Exploration Algorithm”, Kyoritsu Shuppan, published the first edition, January 1, 2002, pp. 43-45.
文字列sの残差IDFを計算するには、ある文書集合に対し、文字列sの出現頻度や文字列sを含む文書数(文書頻度)や文書集合における総文書数をあらかじめ計算しておくか、実行時に読み込んで計算して求める。例えば、参考文献1を用いて、ある文書集合中の文字列の出現頻度と文書頻度を求めることができる。ただし、参考文献1では、出現頻度2以上の任意の文字列に限定されている。そこで、文字列が参考文献1の方法では見つからず、かつ、文書集合に出現している場合、出現頻度1(=文書頻度1)となることがわかる。また、文書集合中の総文書数は事前に1度調べればよい。以上から、対象文書集合の文字列統計量と事前準備した別文書集合の文字列統計量を用いて、ある文字列に対する各文書集合の文字列統計量(出現頻度や文書頻度)を足し合わせて求めることができる。対象文書集合のみでなく、別文書集合の統計量も用いるのは、対象文書集合で出現頻度が少ない場合の統計量を補うことで誤りが減らせるためである。また、別文書は事前に統計量を計算しておくことで、実行時には対象文書集合のみ計算すればよく、対象文書集合と別文書集合をまとめた全体に対して実行時に統計量を計算するよりも処理時間が短縮できる。
In order to calculate the residual IDF of the character string s, the appearance frequency of the character string s, the number of documents including the character string s (document frequency), and the total number of documents in the document set are calculated in advance. Or read and calculate at runtime. For example, it is possible to obtain the appearance frequency and document frequency of a character string in a document set using
図4の左側は、対象文書集合と別文書集合の統計量を既に足し合わせた結果の一部であり、足し合わせた総文書数D=100000の文書から各文字列の出現頻度と文書頻度を求めたものとする。例えば、単語候補「タテガミオオカミの」における「タ」の場合は、出現頻度tf=80000、文書頻度df=30000が求まるので、ridf(タ)=0.74となる。これらから、単語スコアS(タ)=ridf(タ)×(length(タ)−1)=0となる。同様に、入力文字列の全ての部分文字列の単語スコアS(s)が求まる(図4の右側)。 The left side of FIG. 4 is a part of the result of adding the statistics of the target document set and the separate document set, and the appearance frequency and document frequency of each character string from the total number of documents D = 100000 are added. Assume that you have asked for it. For example, in the case of “ta” in the word candidate “vertical wolf's”, the appearance frequency tf = 80000 and the document frequency df = 30000 are obtained, so that rdf (ta) = 0.74. From these, the word score S (ta) = ridf (ta) × (length (ta) −1) = 0. Similarly, word scores S (s) of all partial character strings of the input character string are obtained (right side in FIG. 4).
次に、単語スコアの補正について説明する。ある文字種を持つ文字列では単語スコアが適切でなく、誤った分割が行われやすくなるので、計算された単語スコアを補正する。補正は単語とはなりにくい文字列の単語スコアを0にし、単語となりやすい文字列で単語スコアが低いものに、より高い値を与えるようにする。例えば、カタカナ、英字、アラビア数字、漢数字が同じ文字種で連続する場合、最長となるもの以外は単語スコアを0にし、仮に最長のもので単語スコアが0の場合は0より大きいかものすごく小さな値を与える。また、記号類は2文字以上のものは単語スコアを0にする。また、ひらがなを含む文字列の場合で長さが1文字で文書頻度が閾値以上である場合は、単語スコアをw(s)とする(w(s)はsの関数)。また、ひらがなを含む文字列の場合で長さが2文字以上でridf(s)が閾値以下の場合は単語スコアを0にする。例えば、図3のように、“タテ”の場合は、単語スコアがS(タテ)=0.48であるが、単語候補「タテガミオオカミの」においては、「タテガミオオカミ」のカタカナの部分文字列であるので、S(タテ)=0となる(図4の右側)。また、「タテガミオオカミ」の単語スコアは0であるが、補正によりものすごく小さな値(例えば、0.0001)となる。次に、動的計画法(DP(非特許文献3参照))によって、各文字列の単語スコアから単語スコアの総和の最大とする単語並びを求める。例えば、単語候補「タテガミオオカミの」は、「タテガミオオカミ(0.0001)/の(0.05)」のような並びとなる(単語の後の数字は単語スコアである。)。なお、単語スコアの補正が行われなかったとすれば、「タテ(0.48)/ガミ(0.53)/オオカミ(3.99)/の(0.05)」となり、正しい単語分割は得られない。
参考文献3 石畑清、「アルゴリズムとデータ構造」、岩波書店、1989年3月30日第1刷発行、pp.399−401.
Next, word score correction will be described. A word string having a certain character type does not have an appropriate word score, and erroneous division is likely to occur. Therefore, the calculated word score is corrected. In the correction, the word score of a character string that is unlikely to be a word is set to 0, and a higher value is given to a character string that is likely to be a word and has a low word score. For example, if katakana, English letters, Arabic numerals, and Chinese numerals are consecutive in the same character type, the word score is 0 except for the longest one, and if it is the longest and the word score is 0, it may be greater than 0. give. In addition, the symbol score is set to 0 for two or more symbols. In the case of a character string including hiragana, if the length is one character and the document frequency is greater than or equal to the threshold, the word score is set to w (s) (w (s) is a function of s). In the case of a character string including hiragana, the word score is set to 0 when the length is 2 characters or more and ridf (s) is less than or equal to the threshold value. For example, as shown in FIG. 3, in the case of “vertical”, the word score is S (vertical) = 0.48, but in the word candidate “vertical wolf”, the Katakana partial character string of “vertical wolf” Therefore, S (vertical) = 0 (right side in FIG. 4). Further, the word score of “vertical wolf” is 0, but it becomes a very small value (for example, 0.0001) by the correction. Next, by dynamic programming (DP (see Non-Patent Document 3)), a word arrangement that maximizes the sum of the word scores is obtained from the word scores of the character strings. For example, the word candidates “Late wolf wolf” are arranged as “Late wolf (0.0001) / of (0.05)” (the number after the word is the word score). If correction of the word score is not performed, “vertical (0.48) / gummy (0.53) / wolf (3.99) / (0.05)” is obtained, and correct word division is obtained. I can't.
次に、図2の単語選別部13Cは、対象文書集合DB17から複数の単語候補の単語分割結果を入力し、あらかじめ定めた単語スコアの閾値や文字種や文字列長により絞り込みを行い、残った単語を話題後DB18へ出力する。例えば、単語スコアがある閾値以上もしくはカタカナで文字列長が2以上のものに限定したならば、「タテガミオオカミ」はカタカナであるので出力され、対象文書集合DB17へ格納される。
Next, the
次に、話題度計算部14は、単語抽出部13で出力された単語を対象文書集合DB17から入力し、対象文書集合DB17にある前回の対象文書集合と今回の対象文書集合(時期や期間などが前回と今回とで異なる)の各文字列統計量を基に最近の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する(ステップ104)。
Next, the topic
最近の話題度とは、前回と今回の対象文書集合において単語の重要度を表す統計量を求め、今回の方が前回に比べて重要度が急激に上昇したものであると考えられ、例えば、前回と今回の重要度の割合で求めることができる。なお、割合でなく差であったり、割合と差の両方を考慮したものなど、最近の話題度が求められるものであれば、ここで述べる以外の方法で話題度を求めても構わない。 The recent topic level is a statistic indicating the importance level of the words in the previous and current target document sets, and this time it is considered that the importance level has increased sharply compared to the previous time. It can be obtained by the ratio of the importance of the previous time and this time. It should be noted that the topic level may be obtained by a method other than that described here as long as the recent topic level is required, such as a difference instead of a rate, or a case where both the rate and the difference are considered.
統計量を複数準備しておくことで利用者に合った話題度を選択できる。統計量としては、出現頻度(tf)やtf*idfなどが考えられる。tfは多く出現するほど重要であるという意味になる。また、tf*idfは出現頻度(tf)と文書頻度の逆数(idf)を掛け合わせたものであり、出現頻度に比べてtf*idfの方が文書に偏って出現する単語が高い値となる。これは、単に出現頻度が多いとまんべんなく出現する語が高くなりやすいので、偏りも考慮することでより内容に特化した単語を高い値となることを意味する。対象文書集合中の文書数をDとするとtf*idfは、tf*idf=tf*(log(D/df)+1)で計算される。なお、統計量はこれらに限定されず他の方法で計算しても構わない。例えば、tf*idfによる単語「タテガミオオカミ」の話題度を、今回をある1日、前回をその前日1日として計算する場合、前日に対象文書集合に100個の文書があり、そのうち2つの文書に「タテガミオオカミ」が2回出ていて、当日には対象文書集合中に120個の文書があり、そのうち3つの文書に「タテガミオオカミ」が6回出ていたならば、話題度は(当日のtf*idf)/(前日のtf*idf)=6*(log(120/3)+1)/2*(log(100/2)+1)=15.6/5.4=2.89となる。そして、話題度の高い順に話題語リストを作成し、話題語DB18へ格納する。
By preparing multiple statistics, you can select the topic level that suits the user. As statistics, appearance frequency (tf), tf * idf, and the like are conceivable. The more tf appears, the more important it is. Also, tf * idf is a product of the appearance frequency (tf) and the reciprocal of the document frequency (idf), and tf * idf has a higher value for words that appear biased in the document than the appearance frequency. . This means that if the frequency of appearance is high, the number of words that appear evenly tends to increase, and therefore, the word specialized to the content becomes a high value by considering the bias. If the number of documents in the target document set is D, tf * idf is calculated by tf * idf = tf * (log (D / df) +1). The statistics are not limited to these, and may be calculated by other methods. For example, when calculating the topic level of the word “vertical wolf” by tf * idf, assuming that the current day is one day and the previous day is the previous day, there are 100 documents in the target document set on the previous day, of which two documents If there were 120 “Tategami wolf” on the same day, and there were 120 documents in the target document set on that day, and 3 of those documents had “Tategami wolf” appeared 6 times, Tf * idf) / (tf * idf of the previous day) = 6 * (log (120/3) +1) / 2 * (log (100/2) +1) = 15.6 / 5.4 = 2.89 Become. Then, a topic word list is created in descending order of topic level and stored in the
最後に、表示部15は、話題度計算部14から出力された話題語リストを入力し、さらに、対象文書集合DB17の対象文書集合や統計量データを入力し、話題語に対し、対象文書集合中の文脈や、その話題語を含む元のURLや、話題語が出現する文書のタイトルや、話題語の文書集合中の出現頻度や、出現する文書数や、話題度や、ある期間の話題語に関する統計量の推移を表示用の書式に整形して、話題語リストと関連情報として出力する。
Finally, the
例えば、図5の(a)にあるように、利用者が年月日、件数、分野、サイト、話題度の計算手法を選択すると、選択した条件での最新の話題語リストが出力される。なお、「赤ちゃん」という話題語が話題語リストにあり、「赤ちゃん」と同じ文書に現れる話題語で最上位のものが「タテガミオオカミ」である場合は、同じ情報を含む文書に包含されていると考えて、「赤ちゃん」を話題語リストから除外することで、リストの上位から複数回同じ情報を見る手間を省くことができる。 For example, as shown in FIG. 5A, when the user selects the date, date, number, field, site, topic level calculation method, the latest topic word list under the selected condition is output. If the topic word "baby" is in the topic word list and the highest word that appears in the same document as "baby" is "vertical wolf", it is included in the document containing the same information. Therefore, by excluding "baby" from the topic word list, it is possible to save the trouble of viewing the same information multiple times from the top of the list.
また、例えば、4位の「タテガミオオカミ」をクリックすると、図5の(b)にあるように、指定した日時である2004年1月1日の「タテガミオオカミ」の対象文書集合中の出現数(tf)やその語を含む文書数(df)、話題度、同じ文書に包含されている話題語や、ある期間の話題語に関する統計量(この例では話題度)の推移グラフや、その話題語を含む元のURL、話題語が出現する文書のタイトル、対象文書集合中の話題語の前後の文脈が表示される。原文書が見たい場合は、URLをクリックすると実際の文書を表示する。これにより、ある日時の話題語リストを見るだけでは話題語かどうか判断がつきにくい場合に、統計量の推移グラフや出現頻度などによって、判断の参考になる情報を見ることができる。この例では、推移グラフが話題度だけだが、複数の統計量を表示させたり、複数の統計量から選択手段により見たいグラフを選択してもよい。また、見たい期間の幅や時期も選択手段により変更させてもよい。 Further, for example, when the fourth “vertical wolf” is clicked, as shown in FIG. 5B, the number of occurrences in the target document set of “vertical wolf” on January 1, 2004, which is the designated date and time. (Tf), the number of documents including the word (df), topic level, topic words included in the same document, statistics of topic words for a certain period (in this example, topic level), a transition graph, and topics The original URL including the word, the title of the document in which the topic word appears, and the context before and after the topic word in the target document set are displayed. If you want to see the original document, click the URL to display the actual document. As a result, when it is difficult to determine whether or not it is a topic word simply by looking at a topic word list at a certain date and time, it is possible to see information that can be used as a reference for the determination based on the transition graph of the statistic and the appearance frequency. In this example, the transition graph is only the topic level, but a plurality of statistics may be displayed, or a graph desired to be viewed may be selected from a plurality of statistics by the selection means. Moreover, you may change the width | variety and time of a period to look at by a selection means.
また、話題語の意味が分からない新語の場合に、話題語の文脈や元文書を見ることにより、理解を助けることができる。なお、図5は表示の一例であって、情報の表示させるデータや順序や構成などは、適宜変更したものでも構わない。 In addition, in the case of a new word whose meaning is not understood, it is possible to help understanding by looking at the context of the topic word and the original document. Note that FIG. 5 is an example of display, and the data, order, and configuration of information to be displayed may be changed as appropriate.
なお、本発明の単語抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。 The word extracting method of the present invention is not only realized by dedicated hardware, but also a program for realizing the function is recorded on a computer-readable recording medium, and the program recorded on the recording medium is recorded. May be read by a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in the computer system. Furthermore, a computer-readable recording medium is a server that dynamically holds a program (transmission medium or transmission wave) for a short time, such as when transmitting a program via the Internet, and a server in that case. Some of them hold programs for a certain period of time, such as volatile memory inside computer systems.
1 単語抽出装置
2 インターネット
11 クローラー
12 対象文書集合データ作成部
13 単語抽出部
13A 単語候補抽出部
13B 単語分割部
13C 単語選別部
14 話題度計算部
15 表示部
16 文書DB
17 対象文書集合DB
18 話題語DB
101〜105 ステップ
DESCRIPTION OF
17 Target document collection DB
18 Topic DB
101-105 steps
Claims (7)
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語候補抽出手段が、対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出ステップと、
単語分割手段が、前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割ステップと、
単語選別手段が、前記単語分割ステップで出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別ステップと、
を有する単語抽出方法。 A word extraction method performed in a word extraction device that extracts topic words in a specified period from a sequentially updated document set,
A document collection step in which the document collection means collects documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation step in which a target document set creation unit creates a document set that is a target of word extraction by collecting documents updated from a collected document within a period specified independently of the period;
A word candidate extraction step in which the word candidate extraction means extracts word candidates except for a character string that appears multiple times in the target document set and that is nested by a character type;
The word dividing unit is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extracting unit. Calculate a word score,
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word division step for outputting as a word division result ;
Word word selection means, among the word segmentation result of said word candidates outputted by the word segmentation step, the word segmentation result the word score matches a threshold value or character types and string length condition word scores predetermined A word selection step to extract as
A word extraction method comprising:
話題度リスト作成手段が、話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップと、
を有する請求項1または2記載の単語抽出方法。 The topic level calculation means calculates the importance in the target document set for the extracted word and the importance in the document set for a certain period before the target document set. A topic level calculation step for calculating the topic level of a word;
A topic word list creating means for creating a topic word list in which words are arranged in descending order of topic degree;
The word extraction method according to claim 1 or 2, wherein:
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合に複数回出現する文字列のうち入れ子となるものやある文字種で分断されるものを除いて単語候補を抽出する単語候補抽出手段と、
前記単語候補抽出手段が出力した前記単語候補に含まれる連続した1文字以上の部分文字列について当該文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算し、
前記部分文字列のうちカタカナまたは英字またはアラビア数字または漢数字のいずれか1種類の文字種が連続する部分文字列について、前記いずれか1種類の文字種が連続する長さが最長となる部分文字列の単語スコアが、前記いずれか1種類の文字種が連続する長さが前記最長の長さよりも短い部分文字列の単語スコアよりも高くなるように前記部分文字列の各々の単語スコアを補正し、
前記部分文字列を並べると前記単語候補となるような前記部分文字列の並びのうち、当該並びを構成する各部分文字列の単語スコアを足し合わせた値が最大となる前記部分文字列の並びを単語分割結果として出力する単語分割手段と、
前記単語分割手段が出力した前記単語候補の単語分割結果のうち、前記単語スコアがあらかじめ定めた単語スコアの閾値や文字種や文字列長の条件に合致する前記単語分割結果を単語として抽出する単語選別手段と、
を有する単語抽出装置。 A word extraction device that extracts topic words in a specified period from a sequentially updated document set,
Document collection means for collecting documents updated since the last collection from the document storage source at a specified cycle;
A target document set creation means for creating a document set as a word extraction target by collecting documents updated within a period specified independently of the cycle from the collected documents;
Word candidate extraction means for extracting word candidates except for a character string that appears multiple times in the target document set and a character string that is nested or divided by a certain character type;
Calculate a word score that is a value obtained by multiplying the residual IDF of the character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate output by the word candidate extraction unit. And
Among the partial character strings, a partial character string in which any one character type of katakana, English letters, Arabic numerals, or Chinese numerals continues is the longest length of the partial character string in which any one kind of character type continues. Correcting the word score of each of the partial character strings so that the word score is higher than the word score of the partial character string in which the continuous length of any one type of character is shorter than the longest length ,
Among the partial character string sequences that become the word candidates when the partial character strings are arranged, the partial character string sequence that maximizes the sum of the word scores of the partial character strings constituting the sequence. A word dividing means for outputting as a word division result ;
Of word segmentation result of the word candidates the word dividing means is outputted, the word selection for extracting the word segmentation result the word score matches a threshold value or character types and string length condition word score predetermined as a word Means,
A word extraction device.
前記単語候補に含まれる連続した1文字以上の部分文字列について当該部分文字列の残差IDFに当該部分文字列の文字列長を掛けた値である単語スコアを計算する処理にて、前記部分文字列の出現頻度が10以下となる部分文字列の残差IDFを0とすることを特徴とする請求項4記載の単語抽出装置。 The word dividing means includes
In the process of calculating a word score that is a value obtained by multiplying the residual IDF of the partial character string by the character string length of the partial character string for one or more consecutive partial character strings included in the word candidate, 5. The word extraction device according to claim 4, wherein a residual IDF of a partial character string having a character string appearance frequency of 10 or less is set to zero .
話題度の高い順に単語を並べた話題語リストを作成する話題度リスト作成手段と、
を有する請求項4または5記載の単語抽出装置。 For the extracted word, calculate the importance in the target document set and the importance in the document set for a certain period before the target document set, and calculate the degree of increase in importance compared to before as the topic level of the word Topic level calculation means to
A topic level list creation means for creating a topic word list in which words are arranged in descending order of topic level;
6. The word extraction device according to claim 4 or 5, wherein:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004067681A JP4298550B2 (en) | 2004-03-10 | 2004-03-10 | Word extraction method, apparatus, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004067681A JP4298550B2 (en) | 2004-03-10 | 2004-03-10 | Word extraction method, apparatus, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005258678A JP2005258678A (en) | 2005-09-22 |
| JP4298550B2 true JP4298550B2 (en) | 2009-07-22 |
Family
ID=35084346
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004067681A Expired - Lifetime JP4298550B2 (en) | 2004-03-10 | 2004-03-10 | Word extraction method, apparatus, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4298550B2 (en) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3785108B2 (en) | 2002-03-28 | 2006-06-14 | 株式会社東芝 | COMMUNICATION METHOD, COMMUNICATION DEVICE, BASE STATION DEVICE, AND TERMINAL DEVICE |
| JP5115239B2 (en) * | 2008-03-03 | 2013-01-09 | 富士ゼロックス株式会社 | Character processing device |
| JP5444346B2 (en) | 2009-06-29 | 2014-03-19 | 真旭 徳山 | Workflow processing program, information processing apparatus, and workflow processing method |
| JP5232260B2 (en) * | 2011-03-11 | 2013-07-10 | 株式会社東芝 | Topic extraction device and program |
| JP5768492B2 (en) * | 2011-05-18 | 2015-08-26 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
| JP5491446B2 (en) * | 2011-05-20 | 2014-05-14 | 日本電信電話株式会社 | Topic word acquisition apparatus, method, and program |
-
2004
- 2004-03-10 JP JP2004067681A patent/JP4298550B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2005258678A (en) | 2005-09-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Schäfer et al. | Web corpus construction | |
| US8204891B2 (en) | Method and subsystem for searching media content within a content-search-service system | |
| US20110029513A1 (en) | Method for Determining Document Relevance | |
| US7469251B2 (en) | Extraction of information from documents | |
| US20110119262A1 (en) | Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document | |
| EP2019361A1 (en) | A method and apparatus for extraction of textual content from hypertext web documents | |
| US7555428B1 (en) | System and method for identifying compounds through iterative analysis | |
| US9529847B2 (en) | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings | |
| JP5010885B2 (en) | Document search apparatus, document search method, and document search program | |
| JP5427694B2 (en) | Related content presentation apparatus and program | |
| JP4298550B2 (en) | Word extraction method, apparatus, and program | |
| JP2009217689A (en) | Information processor, information processing method, and program | |
| US20120330986A1 (en) | Information processing apparatus, information processing method, and program | |
| US8612202B2 (en) | Correlation of linguistic expressions in electronic documents with time information | |
| US20080168036A1 (en) | System and Method for Locating and Extracting Tabular Data | |
| US20070061322A1 (en) | Apparatus, method, and program product for searching expressions | |
| JP3937741B2 (en) | Document standardization | |
| Aslam et al. | Web-AM: An efficient boilerplate removal algorithm for Web articles | |
| CN113157857A (en) | Hot topic detection method, device and equipment for news | |
| CN119474581A (en) | Web page content extraction method based on combination of rules and statistical features | |
| EP4160441A1 (en) | Chunking execution system, chunking execution method, and program | |
| JP2004013726A (en) | Keyword extraction device and information retrieval device | |
| JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
| JP2009265770A (en) | Significant sentence presentation system | |
| Martins et al. | The WebCAT framework automatic generation of meta-data for Web resources |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050623 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050628 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050628 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070201 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080926 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081008 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081202 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090114 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090313 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090408 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090415 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4298550 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130424 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140424 Year of fee payment: 5 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |