[go: up one dir, main page]

JP2008039983A - テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム - Google Patents

テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム Download PDF

Info

Publication number
JP2008039983A
JP2008039983A JP2006212083A JP2006212083A JP2008039983A JP 2008039983 A JP2008039983 A JP 2008039983A JP 2006212083 A JP2006212083 A JP 2006212083A JP 2006212083 A JP2006212083 A JP 2006212083A JP 2008039983 A JP2008039983 A JP 2008039983A
Authority
JP
Japan
Prior art keywords
text
feature
input text
input
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006212083A
Other languages
English (en)
Other versions
JP4453687B2 (ja
Inventor
Satoshi Nakazawa
聡 中澤
Satoshi Morinaga
聡 森永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006212083A priority Critical patent/JP4453687B2/ja
Priority to PCT/JP2007/064145 priority patent/WO2008015907A1/ja
Priority to US12/375,638 priority patent/US8140337B2/en
Publication of JP2008039983A publication Critical patent/JP2008039983A/ja
Application granted granted Critical
Publication of JP4453687B2 publication Critical patent/JP4453687B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】テキストマイニングにおいて、特徴語とその特徴度とをより精度よく出力する装置、方法、プログラムの提供。
【解決手段】マイニング対象のテキストデータを入力する信頼度つきテキスト入力装置10と、入力された信頼度つきテキストデータの言語解析を行う言語処理部20と、入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度や統計情報を利用して、得られた計数結果を補正する信頼度利用特徴語計数部30と、補正後の計数結果から、各特徴語の特徴度を計算する特徴度計算部40と、得られた各特徴語の特徴度を出力するマイニング結果出力装置50と、設定などを、ユーザが入力するためのユーザ操作入力装置70と、ユーザ操作入力装置から入力されたユーザの指示を、各部に伝えるマイニング処理管理部60と、想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベース80を含む。
【選択図】 図1

Description

本発明は、テキストマイニング装置、方法および、その処理用プログラムに関し、特に入力テキストが音声認識テキストのように誤りが含まれているときに、認識結果に付与される信頼度を用いて、精度良く特徴情報の特徴度を計算可能とするテキストマイニング装置、方法およびプログラムに関する。
<用語の定義>
はじめに、本願明細書・請求の範囲で用いられる用語を説明しておく。
「特徴語」: テキストマイニング技術で抽出される単語や熟語など、1語以上からなる単語の組を、まとめて「特徴語」という。
「特徴度」: 各特徴語がそのカテゴリーにおいて、どの程度特徴的であるかを示す度合いを「特徴度」という。テキストマイニングの分野では、「スコア」とも呼ばれる。
「補正する」: 信頼度や統計情報を用いて、誤り含みの結果から、正しい値を推定することを「補正する」という。
<テキストマイニング技術>
アンケートや業務報告などの大量のテキストから、テキストの傾向など、有用な情報を分析するために、テキスト中に頻出する、あるいは、統計的基準で意味のある単語や熟語などを抽出するテキストマイニング技術が存在する。
この種のテキストマイニング技術の1例が非特許文献1で開示されている。非特許文献1のテキストマイニング技術では、あらかじめ2つ以上のカテゴリーに分類されたテキストを入力とする。
入力テキストが与えられると、各カテゴリーのテキスト中に現れる特徴語(用語の定義参照)の出現回数を計数して、その計数結果から、各特徴語の着目するカテゴリーに対する特徴度(用語の定義参照)を計算する。
特徴度は、
・特徴語の出現回数を、そのまま特徴度とする手法や、
・各特徴語のカテゴリー毎の出現回数から、相互情報量のような統計的指標を用いる手法、
などがある。
非特許文献1では、非特許文献2に開示されている、「ESC」 という統計量を特徴度として用いている。
テキストマイニング技術では、ある着目するカテゴリーで、どのような特徴語の特徴度が高いかを調べ、マーケティングや業務分析などに利用する。例えば、自動車のアンケートを、自動車メーカーごとにカテゴリー分けして、各メーカーに対する感想テキストをテキストマイニングした結果、A社のカテゴリーでは「庶民的」という特徴語の特徴度が一番大きかったとする。この場合、A社のイメージとして、「庶民的」という感想が、広くそのアンケート記入者の間で持たれていることがわかる。一方、B社のカテゴリーでは、「庶民的」という特徴語の特徴度が小さく、「高級車」という特徴語の特徴度が高い場合には、B社のイメージとして、庶民よりも、「高級車」ユーザ向けのメーカーであると考えられていることが分かる。
なお、特許文献1には、テキストマイニング手法により顧客などの主観的な情報を捕らえて的確なデータ分析を行う装置として、名詞句のサブドキュメント中の出現頻度、アンケート全体における分布等の統計情報を求める構成が開示されている。また特許文献2には、誤りを含む可能性のある電子化文書について重要単語抽出精度を高める文書処理装置として、単語の出現頻度を評価情報とし、評価情報を重要度として使用すること、類似度および比較単語の重要度について重要度補正部によって重要度補正値を算出する構成が開示されている。しかしながら、特許文献1、2に記載された発明は、処理形態、構成、作用効果のいずれについても、後述する本発明と相違している。
K. Yamanishi and H. Li, "Mining open answers in questionnaire data", IEEE Intelligent Systems, Sept/Oct, pp.58-63, 2002. K. Yamanishi, "A Decision-Theoretic Extension of Stochastic Complexity and Its Applications to Learning", IEEE Trans. Information Theory, vol.44, No.4, July 1998, pp.1424-1439. Frank Wessel 他, "Confidence Measures for Large Vocabulary Continuous Speech Recognition", IEEE Trans. Speech and Audio Processing, vol.9,No.3, March 2001, pp.288-298. 特開2004−164079号公報 特開2005−173950号公報
従来のテキストマイニング技術では、入力テキスト中の特徴語の出現回数を計数し、その計数結果を用いて特徴度を計算している。
しかし、音声認識テキストなどのように、入力されるテキストデータに誤りが含まれている場合、その誤りによって、特徴語の計数が正しくなされないため、特徴度の計算も大きな誤差を生じる、という問題がある。
本発明は、テキストマイニングにおいて、特徴語とその特徴度とをより精度よく出力する、テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラムを提供することを目的とする。
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。なお、括弧内の図番と参照番号は、あくまで、本発明の理解を容易とするために図面の例示と対応させたものであり、本発明を限定するために解釈すべきものでないことは勿論である。
本発明は、入力されたテキストデータ中の単語や熟語に、その箇所の正しさらしさの目安を示す信頼度が付与されていたとき、あるいは、入力テキストに含まれる誤りの傾向が統計情報として与えられたとき、その信頼度や統計情報を用いて、各特徴語の計数結果や特徴度の正しい値を推定し、入力テキストをそのままテキストマイニングする手法に比べて、精度よく特徴語とその特徴度とを出力する。
本発明の1つのアスペクト(側面)のテキストマイニング装置は、
入力された信頼度つきテキストの言語解析結果に対して、特徴語を計数する際に、テキストに付与されている信頼度を用いて各特徴語の計数結果を補正する信頼度利用特徴語計数部(図1の30)と、
計数された結果を基に各特徴語の特徴度を計算する特徴度計算部(図1の40)と、
計算された各特徴語の特徴度をテキストマイニング結果として出力するマイニング結果出力装置(図1の50)と、を有する。
このような構成を備え、入力されたテキストに含まれている誤りが、各特徴語の計数へ及ぼす影響を、テキストに付与されている信頼度を用いて補正する(用語の定義参照)ことで、上記課題を解決することができる。
また、本発明の他のアスペクト(側面)のテキストマイニング装置は、
入力された信頼度つきテキストの言語解析結果に対して、特徴語を計数する際に、テキストに付与されている信頼度を利用して、各特徴語の計数結果の分布を計算する信頼度利用特徴語計数分布計算部(図4の90)と、
得られた計数の分布を基に各特徴語の特徴度を計算する計数分布利用特徴度計算部(図4の100)と、
計算された各特徴語の特徴度をテキストマイニング結果として出力するマイニング結果出力装置(図4の50)と、を有する。
このような構成を備え、入力されたテキストに含まれている誤りが、各特徴語の特徴度へ及ぼす影響を、テキストに付与されている信頼度を用いて補正する(用語の定義(3)参照)ことで、上記課題を解決している。
本発明の装置(方法、プログラム)は、以下の構成とされる。
本発明の第1の装置(方法、プログラム)は、入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する特徴語計数部(工程、処理)を備える。
本発明の第2の装置(方法、プログラム)は、入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する信頼度利用特徴語計数部(工程、処理)を備える。
本発明の第3の装置(方法、プログラム)は、入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いて計数結果を補正する信頼度利用特徴語計数部(工程、処理)を備える。
本発明の第4の装置(方法、プログラム)は、入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付けるテキスト入力装置(工程、処理)をさらに備える。
本発明の第5の装置(方法、プログラム)は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する特徴語計数分布計算部(工程、処理)と、
前記特徴語計数分布計算部が計算した計数の確率分布を用いて各特徴語の特徴度を計算し、テキストマイニング結果とする計数分布利用特徴度計算部(工程、処理)と、
を備える。
本発明の第6の装置(方法、プログラム)においては、第6の装置(方法、プログラム)の前記特徴語計数分布計算部(工程、処理)は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストの性質を示す統計情報を用いる。
本発明の第7の装置(方法、プログラム)においては、第6の装置(方法、プログラム)の前記特徴語計数分布計算部(工程、処理)は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いる。
本発明の第8の装置(方法、プログラム)においては、第6の装置(方法、プログラム)の前記特徴語計数分布計算部(工程、処理)は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いる。
本発明の第9の装置(方法、プログラム)は、入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付けるテキスト入力装置(工程、処理)をさらに備えている。
本発明の第10の装置(方法、プログラム)は、音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付ける。
本発明によれば、入力されたテキストデータに誤りが含まれていても、信頼度を利用せず、そのまま各特徴語の特徴度を計算した場合に比べて、精度良く特徴度を求めることができる。
これにより、ある特徴語が別の語に置換してしまった置換誤りや、本来あるはずのない特徴語が挿入されてしまった挿入誤りなどが、入力テキスト中に含まれていても、その誤り箇所に付与されている信頼度が適切な値になっていれば、そうした誤り箇所の影響を抑え、結果としてユーザは精度の良いマイニング結果を得ることができる。
かかる効果が得られる理由は以下の通りである。
本発明においては、特徴語の計数時、または、各特徴語の特徴度の計算時に、入力テキストに付与されている信頼度や、別途用意した統計情報を利用して、誤りの影響が少なくなるよう特徴語の計数、または、特徴度を補正するからである。
また本発明によれば、入力されたテキストデータに曖昧性が含まれ、複数の候補からなる場合であっても、テキスト中の曖昧性がある箇所の各候補に信頼度が付与されていれば、曖昧性がない場合と同様に、曖昧性のある入力テキストを受理し、精度良く特徴度を求めることができる。
この効果が得られる理由は、特徴語の計数時、または、各特徴語の特徴度の計算時に、曖昧性がある箇所の各候補の信頼度を用いて、特徴語の計数、または、特徴度を補正するため、曖昧性がある箇所の各候補を多重に計数してしまい、特徴度の計算に誤差が生じるという問題がないためである。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
<第1の実施の形態>
図1を参照すると、本発明の第1の実施の形態は、
マイニング対象のテキストデータを入力する信頼度つきテキスト入力装置(図1の10)と、
入力された信頼度つきテキストデータの言語解析を行う言語処理部(図1の20)と、
入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度や統計情報を利用して、得られた計数結果を補正する信頼度利用特徴語計数部(図1の30)と、
補正後の計数結果から、各特徴語の特徴度を計算する特徴度計算部(図1の40)と、
得られた各特徴語の特徴度を出力するマイニング結果出力装置(図1の50)と、
入力テキストを言語処理する際の設定や、求める特徴度の計算手法の設定などを、ユーザが入力するためのユーザ操作入力装置(図1の70)と、
ユーザ操作入力装置から入力されたユーザの指示を、各部に伝えるマイニング処理管理部(図1の60)と、
想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベース(図1の80)と、
を含む。以下、各部を順に説明する。
<信頼度つきテキスト入力装置10>
信頼度つきテキスト入力装置10は、本発明を実施する際に、処理対象とするテキストデータを入力する装置である。テキストデータは、ファイルとしてハードディスク等の記録装置から読み込まれるものであっても、ネットワークなどの通信手段を用いて他の機器から入力されるのであっても良い。具体的にどのような形態の入力機器を用いるかは、本発明の実施の形態を使用する目的・状況によって異なってくる。
ここで、入力テキストには、テキスト中の各文字列の正しさの度合いを示す信頼度が付与されているものとする。
この信頼度をどのように求めるかは、入力テキストの種類や、本発明の実施の形態を使用する際の用途・目的などに応じて異なってくる。
信頼度を計算するための手法としては、様々な技術が公開されており、例えば、非特許文献3は、音声認識テキストに対する信頼度(非特許文献3中では「Confidence Measures」と記載)を求める技術の例である。信頼度の具体的な計算方法については、本発明の取り扱う範囲ではないので、これ以上の説明を行わない。
なお、信頼度は、必ずしも、入力テキストの全ての箇所に付与されている必要はない。信頼度が付与されていない箇所に関しては、あらかじめ設定されたデフォルト信頼度が付与されているものとして扱えばよい。
また、入力テキストは、ワードグラフやn-bestのような、テキストの一部または全部が、曖昧な複数の候補文字列から構成されるものであってもよい。この場合、複数の候補文字列それぞれに信頼度が付与されているものとする。
<信頼度の計算例(信頼度が付与されていないものが含まれる場合)>
もし、複数の候補文字列の一部の候補または全候補に、信頼度が付与されていないものが含まれている場合には、次に記述する計算法に従って信頼度を付与する。
この計算法だが、信頼度が正規化されていない場合には、信頼度が付与されていない候補文字列に、そのままデフォルト信頼度を付与する。
信頼度が正規化されている場合には、デフォルト信頼度から、その箇所で信頼度が付与されている候補の信頼度の合計を差し引いた結果を、信頼度が付与されていない候補の数で割った値を、信頼度が付与されていない候補それぞれに、信頼度として、付与する。
例えば、入力テキストのある箇所に4つの曖昧な候補文字列が存在しており、1つの候補には0.4 の信頼度が付与されており、残りの3つの候補には信頼度が付与されていなかったとする。さらに、信頼度は、0以上1以下の確率値に正規化されていて、デフォルト信頼度が1であるとすると、
(1 - 0.4) / 3 = 0.2
となるので、信頼度が付与されていない3つの候補それぞれに、信頼度 0.2 が付与される。
<信頼度つきテキストの一例>
図2は、信頼度つきテキストの例を示す図である。テキスト中の斜線"/"が、単語の区切りを表しており、[0.92]のように、大括弧で囲まれた数字が、直前の単語の信頼度を表している。
図2の例では、信頼度は、0以上1以下の値をとる確率変数に正規化されているものとする。0 はその単語が正解である確率が0であることを示し、逆に、1の場合は、その単語が正解であることを示す。
また図2のテキスト1では、テキストは、全て一意の文字列からなるが、テキスト2では、「追えた」の箇所で曖昧性があり、「追えた」、「燃えた」、「得た」の3つの候補からなることを示している。
「追えた」、「燃えた」、「得た」の後に続く大括弧で囲まれた数字が、各候補の信頼度を示している。
例えば「得た」の信頼度は、[0.10]で、この3つの候補の中で一番信頼度が低い。
なお、図2の例では、信頼度は、単語の単位に付与されているが、必ずしも単語単位である必要はない。任意の文字列単位や文単位に付与されていてもよい。
図2の例では、入力テキストに付与された信頼度が、付与された箇所の正解確率を示す、0以上1以下の値に正規化されているが、そうでない場合には、この信頼度つきテキスト入力装置10で、信頼度の正規化を行い、0以上1以下の正解確率に変換する。
具体的な正規化の手順は、本発明の実施の形態を実行する際に、どのような信頼度を用いるかにより異なってくる。用いる信頼度の性質・計算方法に応じて、正規化計算を行えばよい。
また、別途入力テキストの評価用コーパスを用意して、信頼度と実際の正解率の関係式を求め、得られた関係式をこの正規化に用いても良い。
<言語処理部20>
言語処理部20では、信頼度つきテキスト入力装置10に入力されたテキストに対して、形態素解析、係り受け解析、同義語処理、不要語処理等の言語処理を実行し、本発明のテキストマイニング装置で取り扱う特徴語の単位に変換・整形を行う。
具体的にどのような特徴語の単位に変換・整形するかは、本発明の実施の形態を使用する際の用途や目的、さらにはユーザ操作入力装置70で入力されたユーザ操作に応じて異なってくる。
・形態素解析によって分割された単語単位であっても良いし、
・複数の隣接する単語がまとめ上げられた文節単位であっても良いし、
・意味的に関係のある複数の単語の組をセットにした、単語組単位であっても良い。
言語処理部20のこの動作に関しては、通常のテキストマイニング技術における言語処理の動作と同様であり、ここでは、これ以上の説明を行わない。ただし、入力テキストで付与された信頼度の割り振り単位と、言語処理部20で変換・整形された特徴語との単位が異なる場合には、各特徴語の単位に1つの信頼度があるように、割り振りを変更する必要がある。
信頼度の割り振りを変更する手法だが、入力テキストの時点で割り振られていた単位より、特徴語の単位が短くなる場合には、もとの信頼度をそのまま用いればよい。
例えば、入力の時点で、「言語処理 [0.75]」のように割り振られていた箇所を、2つの特徴語「言語」と「処理」に分ける場合には、この2つの特徴語ともに、元の信頼度[0.75]を用いる。
入力テキストの時点で割り振られていた単位より、特徴語の単位が長くなる、あるいは区切りが異なる場合は、以下に例示するように、いくつかの割り振り方法が考えられる。
(a1)特徴語の単位と重なりのある元の割り振り単位の全ての信頼度の平均を取る手法である。
(a2)特徴語の単位と重なりのある元の割り振り単位の最大の信頼度をとる手法である。
(a3)特徴語の単位と重なりのある元の割り振り単位の最小の信頼度をとる手法である。
(a4)特徴語の単位と重なりのある元の割り振り単位のうち、特徴語の主要な要素をなしている元の割り振り単位を1つ選んで、その信頼度を特徴語全体の信頼度とする手法である。ここで、主要な要素とは、
・最初の名詞を用いる場合や、
・最長の文字列を主要な要素とする場合
などがある。
他にも信頼度を新たに割り振る手法が考えられるが、これは複数の値から1つの代表値を定めるという統計的問題であり、実際にどのような手法を用いるかは、本発明の実施の形態を使用する際の用途や目的などに応じて予め定めておく。
例えば図2のテキスト1で、「新」と「機種」を、1つの特徴語「新機種」として扱いたい場合、一致する文字列の長い「機種」の方の信頼度[0.81]を、「新機種」の信頼度とする、などの割り振り法を定めておく。
<信頼度利用特徴語計数部30>
信頼度利用特徴語計数部30は、入力テキスト中のある特定の部分集合に対して、各特徴語がその部分集合のテキストに何回出現しているか計数して、特徴度計算部40に渡すコンポーネントである。
ここで、「入力テキスト中のある特定の部分集合」とは、
・本発明の実施の形態が用いるテキストマイニング手法や、
・ユーザ操作入力装置70とマイニング処理管理部60を通して入力されるユーザの設定等
によって異なってくる。
例えば、自動車のアンケートを入力として、A社の特徴を調べるためには、
・まずA社のカテゴリーに属するテキストだけを対象にして、各特徴語の出現回数を計数し、
・ついでA社のカテゴリーに属さないテキストを対象にして、同じく各特徴語の出現回数を計数し、
・各特徴語に対するこの2つの計数結果から、特徴度を求める、
などの例が考えられる。
この例では、
・「A社のカテゴリーに属するテキスト」、及び、
・「A社のカテゴリーに属さないテキスト」
という2つの入力テキストの部分集合に対して、計数が行われる。
このように、入力テキスト中のどの部分集合に対して、どのように計数を行うのかは、一般のテキストマイニング技術に関する問題であり、本明細書では、これ以上詳しく説明しない。
ただし、この信頼度利用特徴語計数部30では、単純に、入力テキスト中の各特徴語の出現回数を計数するのではなく、
・入力テキストに付与されている信頼度や、
・統計情報データベース80に記録された入力テキストの誤り傾向の統計情報
を用いて、出現回数の推定値を求め、実際の計数結果の代わりに、その推定値を特徴度計算部40に渡す点が、従来のテキストマイニング技術と異なる点である。
推定値を計数結果とする理由は、入力テキストに誤りが含まれているため、単純に各特徴語の計数を行っても、その計数結果には正解の計数結果からずれが生じるからである。
ここで、以下の式(1)〜(6)のように記号の意味を定義する。
C(w) : 誤りのない本来の入力テキスト中の特徴語wの計数結果 …(1)
CR(w) : 誤りのある入力テキスト中の特徴語wの計数結果 …(2)
CRc(w) : CR(w) のうち、正解の数 …(3)
CRe(w) : CR(w) のうち、実は誤りの数 …(4)
CD(w) : 正解テキスト中の w が誤りによって脱落・置換した数 …(5)
CG(w) : C(w) の推定値 …(6)
なお、この式(1)、(2)の説明で「入力テキスト」とあるのは、厳密には、入力テキスト中、計数対象とする特定の部分集合のテキストを意味する。
誤りを含んだ入力テキストを調べて計測できるのは、CR(w) である。
CRe(w)は、本来、特徴語w とは異なる別の表現から誤りによって、 w に変化したものの数と、何もないところから誤りによってわき出した w の総数である。
CD(w)は、本来入力テキストに含まれていたが、誤りによって脱落したか、別の語に置換してしまい、誤り含み入力テキストでは観測できなくなった特徴語 w の数を表している。
その定義から、必ず式(7)、(8)が成立する。
CR(w) = CRc(w) + CRe(w) …(7)
C(w) = CR(w) - CRe(w) + CD(w)
= CRc(w) + CD(w) …(8)
これらの記号を用いると、信頼度利用特徴語計数部30は、誤り含み入力テキストから観測されるCR(w) から、正解計数結果 C(w) の推定値 CG(w) を算出するためのコンポーネントであるといえる。
なお、本明細書では便宜上、式(1)〜(5)の値の推定値を、各記号の最後に G をつけた表記で表すものとする。例えばC(w) の推定値が CG(w)、CR(w) の推定値が CRG(w) という具合である。
推定値CG(w)の算出手法としては、いくつかの手法が考えられる。以下説明する。
<推定値CG(w)の第1の算出手法>
第1は、信頼度による足きりを行う手法である。
例えば、あるカテゴリーに属する入力テキスト中の、ある特徴語Aを計数するものとする。
通常の計数の結果、特徴語Aは、対象テキストに3回出現して、3回の信頼度はそれぞれ、1、0.8、0.4であったとする。
また予め、ユーザ操作入力装置70と、マイニング処理管理部60と、を通して、信頼度の足きり閾値 0.5 (信頼度 0.5 未満は無視)が与えられていたとする。
このとき、
CR(A) = 3 …(9)
ただし、信頼度 0.5 未満の足きり設定のため、信頼度 0.4 の1回が捨てられる。
よって、CRc(A) の推定値 CRcG(A) は、次式(10)のようになる。
CRcG(A) = 2 …(10)
この値を計数結果の推定値 CG(A)として出力する。
厳密には、式(8) から
CG(w) = CRcG(w) + CDG(w) …(11)
この式(11)のように書くことができるので、CRcG(A) を、 CG(A) として利用するのは、CDG(A) を非常に小さく無視できる、と仮定して、簡略化している手法であるといえる。
統計情報データベース80に、このCDG(A) の推定に利用できる統計情報が保管されている場合には、それを用いて、CDG(A) を求め、式(11)に代入する。
例えば、1回正解テキスト中に出現した特徴語Aが脱落または他の語に変化する確率が、
・統計情報データベース80に直接保管されているか、または、
・保管されている他の統計情報から導出できる場合、
には、保管された値又は導出された値を用い、さらに、
特徴語Aに関する統計情報ではないが、より一般的な統計情報を、特徴語Aに適用可能な場合にも、その値を用いる。
いま仮に、正解テキスト中の任意の特徴語に関して、
・誤りによって脱落して消えてしまう平均確率p1 と、
・他の語に置換してしまう平均確率 p2 と
が、統計情報データベース80に保管されていたとする。
すると
CDG(w) = CG(w) * (p1 + p2) …(12)
この式(12)と(11) とから、次式(13)が成り立つ。
CG(w) = CRcG(w) / (1 - p1 - p2) …(13)
よって、CRcG(w) に推定した CRcG(A)を代入すれば、正解テキスト中の特徴語Aが脱落・置換した割合も考慮した、特徴語Aの計数推定値CG(A)が得られる。
いま、
p1 = 0.15, p2 = 0.1 であったとすると、特徴語Aの計数推定値CG(A)として、脱落・置換した割合も考慮した
CG(A) = 2 / (1 - 0.15 - 0.1)
= 約2.7
となる。
特徴度計算部40が計数結果として、実数を受理できる場合には、このまま出力する。
計数結果として、整数のみ受理する場合には、計数結果の小数点以下を切り捨て、切り上げ、四捨五入など予め定められた方法で丸めて出力する。
この信頼度による足きりを行うという第1の手法では、各特徴語の計数結果に、誤りから起因する本来ない特徴語まで数えてしまうのを防ぐことができる。
第2の推定値CG(w)の算出方法としては、各特徴語の出現箇所に付与されている信頼度を、その箇所の正解確率と見なし、出現回数の期待値を計数結果とする手法がある。
このためには、信頼度つきテキスト入力装置10の説明で前述したように、入力テキストに付与されている信頼度が、0以上1以下の正解確率を示す確率変数に正規化されている必要がある。
例えば、信頼度による足きりを行う第1の手法の例と同様に、あるカテゴリーに属する入力テキスト中の、ある特徴語Aを計数するものとする。
通常の計数の結果、特徴語Aは、対象テキストに3回出現して、3回の信頼度はそれぞれ1, 0.8, 0.4 であったとすると、出現回数の期待値は、(信頼度xその信頼度の出現回数)の総和になるので、次式(14)のようになる。
CRcG(A) = (1 x 1) + (0.8 x 1) + (0.4 x 1)
= 2.2 …(14)
この値を、特徴語Aの計数結果の推定値 CG(A)とする。
統計情報データベース80に、CDG(A) の推定に利用できる統計情報が保管されている場合は、それを用いて CDG(A) を求め、式(11)に代入することで、より厳密な推定値 CG(A) を算出できる。
いま仮に、信頼度による足きり手法の説明で挙げた例と同じく、正解テキスト中の任意の特徴語に関して、
・誤りによって脱落して消えてしまう平均確率 p1 = 0.15 と、
・他の語に置換してしまう平均確率 p2 = 0.1
とが、統計情報データベース80に保管されているものとすると、
式(13)から
CG(A) = 2.2 / (1 - 0.15 - 0.1)
= 約2.9 …(15)
この式(15)の値 2.9 が計数結果の推定値となる。小数点以下の取り扱いについては、信頼度による足きり手法の場合と同様に、実数としてこのまま出力するか、四捨五入など予め定められた方法で丸めて出力すればよい。
<推定値CG(w)の第2の算出手法>
出現回数の期待値を用いるという第2の手法は、前記第1の手法と同様に、各特徴語の計数結果に、誤りから起因する本来ない特徴語まで数えてしまうことを防ぐことができるという効果を奏する。
第1と第2の手法の違いは、信頼度による足きりが、閾値未満(または以下)の信頼度の特徴語を全て切り捨ててしまうのに対して、期待値は、信頼度の分だけ重みをつけた計数結果であるといえる。
<推定値CG(w)の第3の算出手法>
第3の推定値 CG(w)の算出方法としては、各特徴語の出現箇所に付与されている信頼度を、その箇所の正解確率と見なし、出現回数の最頻値を計数結果とする手法がある。
このためには、信頼度つきテキスト入力装置10の説明で前述したように、入力テキストに付与されている信頼度が、0以上1以下の正解確率を示す確率変数に正規化されている必要がある。
例えば、先ほどの信頼度による足きり手法の例と同様に、あるカテゴリーに属する入力テキスト中の、ある特徴語Aを計数するものとする。通常の計数の結果、特徴語Aは対象テキストに3回出現して、3回の信頼度は、それぞれ、1, 0.8, 0.4 であったとする。
可能な計数結果と、その確率を計算して、確率が最大になる計数結果が、このときの最頻値となるので、実際に計算すると、以下の確率となる。
0回の確率 = (1 - 1) * (1 - 0.8) * (1 - 0.4) = 0
1回の確率 = 1 * (1 - 0.8) * (1 - 0.4) + (1 - 1) * 0.8 * (1 - 0.4) +
(1 - 1) * (1 - 0.8) * 0.4
= 0.12
2回の確率 = 1 * 0.8 * (1 - 0.4) + 1 * (1 - 0.8) * 0.4 +
(1 - 1) * 0.8 * 0.4
= 0.48 + 0.08 = 0.56
3回の確率 = 1 * 0.8 * 0.4 = 0.32
2回の確率が最大であるので、この最頻値2をCRcG(A) とする。
CDG(A)を考慮しない場合は、この値を、そのまま、特徴語Aの計数結果の推定値 CG(A)として出力する。
この第3の手法では、信頼度による足きりの第1の手法や、期待値による第2の手法の場合と同様に、統計情報データベース80に、CDG(A) の推定に利用できる統計情報が保管されている場合には、それを用いて CDG(A) を求め、式(11)に代入することで、より厳密な推定値 CG(A) を算出できる。
いま仮に、信頼度による足きり手法の説明で挙げた例と同じく、正解テキスト中の任意の特徴語に関して、
・誤りによって脱落して消えてしまう平均確率 p1 = 0.15 と、
・他の語に置換してしまう平均確率 p2 = 0.1 と
が統計情報データベース80に保管されていたとすると、式(13)から
CG(A) = 2 / (1 - 0.15 - 0.1)
= 約2.7 …(16)
この式(16)の値 2.7 が計数結果の推定値となる。
特徴度計算部40が計数結果として、実数を受理できる場合には、このまま出力してもよいが、計数結果として、整数のみ受理する場合には、計数結果の小数点以下を切り捨て、切り上げ、四捨五入など予め定められた方法で丸めて出力する。
ここで、式(16)の結果の後で、さらに最頻値の考え方をとる場合には、計数結果を3とする手法もあり得る。
また、この例では、式(11) における CRcG(w) と CDG(w) とを別々に計算したが、より厳密に、各計数結果が成立する確率を求めて、その値が最大となる計数結果を、CG(w) としてもよい。
以上、3つの推定値 CG(w)の算出手法を挙げたが、これは、各特徴語の信頼度と、統計情報データベース80に保管された統計情報から、計数結果を、推定する一般の統計的問題に帰着できる。よって、上記した第1乃至第3の3つの手法が全てではない。
本発明の実施の形態を使用する際に、想定される入力テキストの誤りが従う統計的傾向に応じて、適切な推定手法を用いればよい。
上記の3つの手法の例では、各特徴語の信頼度(正解確率)がおのおの独立であると仮定して計算を行ったが、それらが従属である場合には、その従属の仕方に応じて、独立の場合とは別の推定手法を用いるのが適切である。
例えば、入力テキストが複数のテキストに分かれていて、個々のテキスト内では同一の特徴語の正解確率が全て従属であると考えられる場合には、
・各特徴語の個々のテキスト内での信頼度のうち、最小のものをそのテキスト内での共通の信頼度とする手法や、
・個々のテキスト内での信頼度の平均値をとって、それをそのテキスト内での信頼度とする手法などが考えられる。
さらに、これまでの信頼度利用特徴語計数部30の説明では、入力テキスト中のある特定の部分集合に対して、各特徴語がその部分集合のテキストに何回出現しているか計数し、その結果を出力とする、という前提をおいた。
しかし、本発明の実施の形態が用いる、テキストマイニング手法や、ユーザ操作入力装置70とマイニング処理管理部60を通して入力されるユーザの設定などによっては、
各特徴語の計数結果そのものではなく、各特徴語が一定の閾値t回以上(または、より上)出現するテキストの数を、特徴度計算に用いる場合がある。
その場合も、本発明の実施の形態における、各特徴語の計数の推定は同じである。
各テキストに対して、
(S1)個々に特徴語の計数の推定を行い、
(S2)その推定結果が、閾値t回以上(または、より大)になるか否かを判断し、
(S3)判断の結果、閾値以上(または、より大)となったテキストの数を、計数する、
という一連の処理を行えばよい。
<特徴度計算部40>
特徴度計算部40は、信頼度利用特徴語計数部30が求めた各特徴語の計数結果の推定値を受け取り、各特徴語の特徴度を計算する。
具体的に、どのような特徴度計算を行うかは、本発明の実施の形態が用いるテキストマイニング手法や、ユーザ操作入力装置70とマイニング処理管理部60を通して入力されるユーザの設定などによって異なってくる。
特徴度計算部40で行う特徴度の計算自体は、従来のテキストマイニング技術と同様であり、本明細書では、これ以上の説明を行わない。
<マイニング結果出力装置50>
マイニング結果出力装置50は、特徴度計算部40で計算した各特徴語の特徴度をマイニング結果として出力する装置である。出力はディスプレイに行ってもよいし、ファイルとして出力してもよい。
実際にどのような形式で、特徴語と、その特徴度を出力するかは、本発明の実施の形態を使用する際の用途や目的などに応じて異なってくる。予め出力用のパラメータを設定して、特徴度が大きい方から、一定数だけ特徴語と特徴度を出力してもよいし、特徴度がある閾値を越えた特徴語のみ出力するのでもよい。入力テキストの全データに関する特徴語を一度に出力するのではなく、別途指定するカテゴリーに属する入力テキストに対してのみ、特徴語を出力することも可能である。
<マイニング処理管理部60>
マイニング処理管理部60は、ユーザ操作入力装置70を通して入力されたユーザの設定を受け取り、言語処理部20、信頼度利用特徴語計数部30、特徴度計算部40が動作する際に、それぞれの設定を伝える。
また、ユーザ操作入力装置70を通して、テキストマイニングの対象とするテキストや、テキストマイニング処理手順が入力された場合には、入力された操作に応じて、マイニング処理管理部60は、言語処理部20、信頼度利用特徴語計数部30、特徴度計算部40の各コンポーネントを起動する。
例えば、車のアンケートで、ユーザが、まずA社の特徴語で特徴度が最大となる語を求め、さらに、その特徴語がC社のカテゴリーでどの程度の特徴度となるか調べる操作を入力した場合、マイニング処理管理部60は、まず、入力テキスト全体に対して言語処理部20の処理を実行する。
次に、マイニング処理管理部60は、A社のカテゴリーのテキストに対して信頼度利用特徴語計数部30と特徴度計算部40との処理を実行し、A社のカテゴリーに対する各特徴語の特徴度を求める。
次に、マイニング処理管理部60は、求めた特徴度が最大となる特徴語が、C社のカテゴリーでどのような特徴度となるかを調べるため、信頼度利用特徴語計数部30と特徴度計算部40との処理をC社のカテゴリーのテキストに対して実行するよう指示を出す。
このように、マイニング処理管理部60は、ユーザの操作・設定に応じて、言語処理部20、信頼度利用特徴語計数部30、特徴度計算部40の各コンポーネントの動作を管理するためのコンポーネントである。
<ユーザ操作入力装置70>
ユーザ操作入力装置70は、
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数部30で実行する計数の補正手法、
・特徴度計算部40で計算する特徴度の計算方法などの設定、さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの操作を、ユーザが入力するための装置である。
<統計情報データベース80>
統計情報データベース80は、
・入力テキスト中に出現する語句や文字列の出現傾向、または、
・入力テキストに含まれる誤り傾向の統計情報
を保管するデータベースである。
ここで、誤り傾向の統計情報とは、例えば、想定される入力テキストにおいて、
・各単語や文字が別の単語や文字に間違ってしまう確率、
・各単語や文字が脱落してしまう確率、
・各単語や文字が間違って挿入されてしまう確率
などである。
この統計情報は、それぞれの誤りが生じる条件と、各誤りが生じる割合を示す、条件付き確率として規定される。
各条件付き確率の条件は、その成立する場合の条件や誤りの種類が、細分化されたものであってもよい。逆に、大まかな条件であっても良い。
細分化された条件の一例としては、単にある1つの単語が脱落してしまう確率ではなく、特定の単語A、B、C が連続して入力テキストに現れるとき、単語Bが脱落する確率のような、前後の単語や文脈を限定した条件付き確率があり得る。
大まかな条件の一例としては、単語Bが、どの単語になるかは分からないが、とにかく他の単語に間違って変わる確率のような条件付き確率がある。
これらの統計情報は、信頼度利用特徴語計数部30にて、各特徴語の計数結果の推定値を求めるために使用される。
一般に、細分化された条件つき確率情報が利用できるほど、各特徴語の計数結果をより正確に推定できるが、一方、条件が細分化されているほど、事前に正確な確率値を求めることが難しくなる。
具体的にどのような統計情報を統計情報データベース80に保管するかは、本発明の実施の形態を使用する際に、信頼度利用特徴語計数部30で用いられる、特徴語計数の推定手法により異なる。
なお、統計情報データベース80は、本発明の実施の形態において必須ではない(オプション)。
統計情報データベース80が存在しない場合には、信頼度利用特徴語計数部30において、入力テキストに付与された信頼度のみを用いて、各特徴語の計数の推定値を求めることとなる。
当然、この場合、信頼度利用特徴語計数部30では、信頼度のみを用いて各特徴語の計数結果を推定する手法が取られる。以上が、本発明の第1の実施の形態の構成である。
なお、上記第1の実施の形態の説明では、少なくとも一部のテキストには、信頼度が付与されているテキストが、信頼度つきテキスト入力装置10に入力されることを前提として説明したが、本発明はかかる構成に限定されるものでない。
<信頼度が付与されないテキストの処理>
本発明の第1の実施の形態においては、入力テキストの特殊なケースとして、まったく信頼度が付与されないテキストを受理することも可能である。その場合、信頼度利用特徴語計数部30では、統計情報データベース80に保管された入力テキストの誤り傾向の統計情報のみを利用して、各特徴語の計数の推定値を求める。
例えば、統計情報データベース80に、入力テキストに出現し得る任意の特徴語wに対して、次のような確率が保管されていたとする。
・正解テキスト中のw が、他の特徴語に置換される確率: Pr(w)
・正解テキスト中のw が、誤って削除される確率: Pd(w)
・誤りを含む入力テキスト中のwが、正解である確率: PC(w)
すると、上記の確率の定義から、
CD(w) / C(w) = Pr(w) + Pd(w) …(17)
CRc(w) / CR(w) = PC(w) …(18)
式(17)、(18)と式(8)から、次式(19)と(20)が導かれる。
C(w) = PC(w) * CR(w) + (Pr(w) + Pd(w)) * C(w) …(19)
C(w) = PC(w) * CR(w) / (1 - Pr(w) - Pd(w)) …(20)
よって、この場合、信頼度利用特徴語計数部30では、通常通り、CR(w)を入力テキストから計数した後に、統計情報データベース80から必要な統計情報であるPr(w)、Pd(w)、PC(w)を読み込んで、式(20)に代入し、C(w) を求めることができる。厳密に書くと、統計情報を用いたC(w)の推定値 CG(w) を求めることになる。
このように、入力テキストに信頼度が付与されていない場合でも、統計情報データベース80に特徴語を推定するために必要となる統計情報が格納されていれば、本発明の実施は可能である。
<プログラムによる実装>
また、本実施の形態では、信頼度つきテキスト入力装置10、言語処理部20、信頼度利用特徴語計数部30、特徴度計算部40、マイニング結果出力装置50、マイニング処理管理部60、ユーザ操作入力装置70、統計情報データベース80は各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
<第1の実施の形態の動作>
次に、本発明の第1の実施の形態のテキストマイニング装置における動作について、図3のフローチャートに沿って説明する。
本発明の実施の形態におけるテキストマイニング装置の動作では、まず、予めデフォルト設定として準備された設定や、ユーザ操作入力装置70を通して入力されたユーザの操作・指示に従って、
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数部30で実行する計数の補正手法、
・特徴度計算部40で計算する特徴度の計算方法などの設定、さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの設定を行う(ステップA1)。
なお、図3では、このステップA1をテキストマイニング動作の最初の処理としたが、ユーザ操作入力装置70を通して入力されたユーザの操作・指示に従って、動作の任意の時点で、そのとき装置が実行している処理の中断や、設定の変更を装置が行っても良い。
次に、信頼度つきテキスト入力装置に入力されたテキストを、入力テキストとして読み込み、言語処理部20に渡す(ステップA2)。
この際、入力テキストに付与されている信頼度が正規化されていない場合には、信頼度が0以上1以下の正解確率を意味するよう正規化する。
テキストデータが入力されると、それに対して、形態素解析、係り受け解析、同義語処理、不要語処理等の言語処理を実行し、本実施形態のテキストマイニング装置で取り扱う特徴語の単位に変換・整形を行う。
さらに、入力テキストで付与された信頼度の割り振り単位と、言語処理部20で変換・整形された特徴語との単位が異なる場合には、各特徴語の単位に1つの信頼度があるように、割り振りを変更する(ステップA3)。
つづいて、本実施形態で用いるテキストマイニング手法や、ステップA1で行われた設定に応じて、入力テキストの言語処理結果のマイニング処理対象とする部分集合に出現する特徴語の計数を、信頼度利用特徴語計数部30にて推定する(ステップA4)。
特徴語の計数の推定が終わると、その結果を用いて、各特徴語の特徴度を計算する(ステップA5)。
最後に、各特徴語の特徴度計算結果をテキストマイニング結果として出力する。必要ならば、ステップA1で操作・指示されたテキストマイニング対象やテキストマイニング処理手順の設定に従って、出力の書式を変換しても良い(ステップA6)。
以上のような動作を行うことで、本発明の第1の実施の形態のテキストマイニング装置における動作全体の終了となる。
<第2の実施の形態>
次に、本発明の第2の実施の形態について説明する。図4を参照すると、本発明の第2の実施の形態は、
マイニング対象のテキストデータを入力する信頼度つきテキスト入力装置(図4の10)と、
入力された信頼度つきテキストデータの言語解析を行う言語処理部(図4の20)と、
入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度や統計情報を利用して、計数結果の確率分布を計算する信頼度利用特徴語計数分布計算部(図2の90)と、
各特徴語の計数の従う確率分布から各特徴語の特徴度を計算する計数分布利用特徴度計算部(図4の100)と、
得られた各特徴語の特徴度を出力するマイニング結果出力装置(図4の50)と、
入力テキストを言語処理する際の設定や、求める特徴度の計算手法の設定などをユーザが入力するためのユーザ操作入力装置(図4の70)と、
ユーザ操作入力装置から入力されたユーザの指示を各部に伝えるマイニング処理管理部(図4の60)と、
想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベース(図4の80)と、を備えている。
一般に、テキストマイニング技術においては、入力テキスト中の各特徴語の出現回数を計数する動作が必要になる。
しかし、入力テキストに誤りが含まれている場合、入力テキスト中の各特徴語を通常通り計数しても、本来の正解テキストで計数した場合に比べて、大きな誤差が生じることがあり得る。
例えば、誤り含み入力テキスト中のある特徴語 w を数えた結果、CR(w) = 10 であったとする。
しかし、実は正解テキストでは、w の出現回数 C(w) = 0 かも知れない。3回かも知れない、8回かも知れない、さらには20回が正解の可能性もある。
そこで、本発明の第2の実施の形態のテキストマイニング装置では、
・入力テキストからの計数結果 CR(w) と、
・入力テキストに付与された信頼度、または、入力テキストの性質を示す統計情報
を用いて、正解計数 C(w) の推定値 CG(w)を1つだけ計算し、
以後は、その計数の推定値 CG(w) を用いて、通常通り特徴度を計算することで、誤りの影響による特徴度の誤差を少なくする手法をとる。
各特徴語の計数の推定値 CG(w) を1つ求める手法としては、
各特徴語の計数結果を確率変数とみなして、平均値や、最頻値などの代表値を用いる例を挙げた。
一方、本発明の第2の実施の形態では、各特徴語の計数の推定値を1つだけ求める代わりに、信頼度利用特徴語計数分布計算部90において、取りうる計数の値とその確率、すなわち計数の確率分布を求めて、計数分布利用特徴度計算部100にて、求めた各特徴語の計数の確率分布から、各特徴度の推定値を求める。
本発明の第2の実施の形態は、前記第1の実施の形態に比べて、計算量は増大するが、特徴度の推定精度は向上する特性を持つ。
図4の信頼度利用特徴語計数分布計算部90と、計数分布利用特徴度計算部100以外のコンポーネントは、図1における同名のコンポーネントと基本的の同じ機能を持つ。よって、以下の説明では、前記第1の実施の形態と異なる部分についてのみ説明し、同一の機能については、重複を回避するため、適宜、省略する。
信頼度つきテキスト入力装置10と、言語処理部20は、本発明の第1の実施の形態と同一である。
<信頼度利用特徴語計数分布計算部90>
信頼度利用特徴語計数分布計算部90は、入力テキスト中のある特定の部分集合に対して、各特徴語がその部分集合のテキストに何回出現しているかの計数の確率分布を求めて、計数分布利用特徴度計算部100に渡すコンポーネントである。
ここで、「入力テキスト中のある特定の部分集合」とは、本発明の実施の形態が用いるテキストマイニング手法や、ユーザ操作入力装置70とマイニング処理管理部60を通して入力されるユーザの設定などによって異なってくる。
計数の確率分布は、
・誤り含み入力テキストの実際の計数結果 CR(w) と、
・入力テキストに付与された信頼度、または、入力テキストの性質を示す統計情報と、
を用いて計算する。
例えば、正解テキスト中の特徴語w が、誤りによって脱落したり他の単語になってしまったりする確率が非常に低い場合、その定義から、CD(w) ≒ 0 となる。
よって、式(8) から、次式(21)が成立する。
C(w) ≒ CRc(w) …(21)
すなわち、入力テキストで計数した結果のうち、正解と考えられる回数が、正解テキストにおける計数結果となる。このとき、あるカテゴリーに属する入力テキスト中の、ある特徴語Aを計数するものとする。
通常の計数の結果、特徴語Aは、対象テキストに3回出現して、3回の信頼度はそれぞれ、1、 0.8、 0.4 であったとする。
可能な計数結果と、その確率を計算して、確率が最大になる計数結果が、このときの最頻値となるので、実際に計算すると、以下のような確率となる。
0回の確率 = (1 - 1) * (1 - 0.8) * (1 - 0.4) = 0
1回の確率 = 1 * (1 - 0.8) * (1 - 0.4) +
(1 - 1) * 0.8 * (1 - 0.4) + (1 - 1) * (1 - 0.8) * 0.4
= 0.12
2回の確率 = 1 * 0.8 * (1 - 0.4) + 1 * (1 - 0.8) * 0.4 +
(1 - 1) * 0.8 * 0.4
= 0.48 + 0.08 = 0.56
3回の確率 = 1 * 0.8 * 0.4 = 0.32
式(20)から、これが求めるC(A) の確率分布となる。
また、C(w)が0回の場合の確率、1回の場合の確率、2回の場合の確率…、のように各回数に対する確率を個々に求めなくても、統計情報として特徴語wの計数結果が従う確率分布や、CD(w) の従う確率分布が与えられている場合には、それを用いて、 C(w) の確率分布を計算しても良い。
例えば、「C(w) は CR(w)を平均とし、正解確率を0.8とする二項分布に従う」という統計情報がある場合には、実際に入力テキストからCR(w)を計数して、その結果を用いて、C(w)の確率分布を計算しても良い。
<計数分布利用特徴度計算部100>
計数分布利用特徴度計算部100は、信頼度利用特徴語計数分布計算部90で求められた各特徴語の計数分布から、各特徴語の特徴度の分布を計算し、その結果から各特徴語に対して1つの特徴度を、特徴度の推定値として出力する。
一般に、テキストマイニングでは、各特徴語の特徴度は、1つ以上の計数結果を引数とする関数として定義される。
この特徴度関数では、必ずしも計数結果が唯一の引数ではない(他には文書数などが引数としてあり得る)が、他の引数は誤り含み入力テキストの誤りによって影響を受けないため、信頼度利用特徴語計数分布計算部90で求めた、特徴度関数の計算に必要な特徴語の計数分布を特徴度関数に代入すれば、各特徴度の値とその確率、すなわち特徴度の確率分布が計算できる。
特徴度の確率分布を計算した後は、その結果から、予め定められた設定や、ユーザ操作入力装置70で、ユーザに指示された設定に従って、各特徴語の特徴度の推定値として1つの代表値を選択し、出力する。
この代表値としては、特徴度の確率分布から、
・特徴度の期待値を用いる手法、
・特徴度の最頻値を用いる手法、
・特徴度の最小値を用いる手法、
・特徴度の最大値を用いる手法、
などがある。
また、この他にも、特徴度関数の確率分位点を用いる手法がある。ここで、確率分位点とは、累積確率値がある定められた確率値x%を超える変数値のことを示す、統計学的な概念である。例えば、ある特徴度の計算結果で「90%確率分位点の特徴度が3である」とは「3という値が過小評価になっている確率が10%未満」であることを示す。特徴度を過小評価したくない場合(過小評価の可能性をある確率未満にしたい場合)などに有効である。
マイニング結果出力装置50は、計数分布利用特徴度計算部100で計算した各特徴語の特徴度をマイニング結果として出力する装置である。これ以外は、前記第1の実施の形態におけるマイニング結果出力装置50と同一である。
マイニング処理管理部60は、ユーザ操作入力装置70を通して入力されたユーザの設定を受け取り、言語処理部20、信頼度利用特徴語計数分布計算部90、計数分布利用特徴度計算部100が動作する際に、それぞれの設定を伝える。
また、ユーザ操作入力装置70を通して、テキストマイニングの対象とするテキストや、テキストマイニング処理手順が入力された場合には、入力された操作に応じて、言語処理部20、信頼度利用特徴語計数分布計算部90、計数分布利用特徴度計算部100の各コンポーネントを起動する。設定や起動先が異なる以外は、第1の実施の形態における同コンポーネントと同一である。
ユーザ操作入力装置70は、
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数分布計算部90で実行する計数分布の計算手法、
・計数分布利用特徴度計算部100で計算する特徴度の計算方法などの設定、さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの操作を、ユーザが入力するための装置である。
<統計情報データベース80>
統計情報データベース80は、そこに保管されている統計情報の送り先が、信頼度利用特徴語計数部30から、信頼度利用特徴語計数分布計算部90に替わった以外は、前記第1の実施の形態における統計情報データベース80と同一である。
以上が、本発明の第2の実施の形態の構成である。
<信頼度が付与されないテキストの処理>
なお、本発明の第2の実施の形態においても、前記第1の実施の形態での場合と同様に、信頼度つきテキスト入力装置10が、入力テキストの特殊なケースとして、まったく信頼度が付与されないテキストを受理することも可能である。その場合、信頼度利用特徴語計数分布計算部90では、統計情報データベース80に保管された入力テキストの誤り傾向の統計情報のみを利用して、各特徴語の計数分布を求める。
このような信頼度の付与されていないテキストを受け付けるためには、統計情報データベース80に、各特徴語の計数結果の確率分布を求めるために必要な統計情報が保管されていなければならない。
例えば「各特徴語の正解計数結果C(w)は、各特徴語の入力テキストにおける計数結果CR(w) を平均とするポアソン分布に従う」といった特徴語が従う統計情報が分かっていれば、入力テキストの計数結果CR(w) から、計数の確率分布を計算できる。
<プログラムによる実装>
また、本発明の第2の実施の形態では、信頼度つきテキスト入力装置10、言語処理部20、信頼度利用特徴語計数分布計算部90、計数分布利用特徴度計算部100、マイニング結果出力装置50、マイニング処理管理部60、ユーザ操作入力装置70、統計情報データベース80は各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
<第2の実施の形態の動作>
次に、本発明の第2の実施の形態のテキストマイニング装置における動作について、図5のフローチャートに沿って説明する。
本発明の実施の形態におけるテキストマイニング装置の動作では、まず、予めデフォルト設定として準備された設定や、ユーザ操作入力装置70を通して入力されたユーザの操作・指示に従って、
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数分布計算部90で実行する計数の確率分布の計算手段、
・計数分布利用特徴度計算部100で計算する特徴度の計算方法などの設定、
さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの設定を行う(ステップB1)。
なお、図5では、このステップB1を、テキストマイニング動作の最初の処理としたが、ユーザ操作入力装置70を通して入力されたユーザの操作・指示に従って、動作の任意の時点で、そのとき装置が実行している処理の中断や、設定の変更を装置が行っても良い。
次に信頼度つきテキスト入力装置10に入力されたテキストを、入力テキストとして読み込み、言語処理部20に渡す(ステップB2)。
この際、入力テキストに付与されている信頼度が正規化されていない場合には、信頼度が0以上1以下の正解確率を意味するよう正規化する。
テキストデータが入力されると、それに対して、形態素解析、係り受け解析、同義語処理、不要語処理等の言語処理を実行し、本発明のテキストマイニング装置で取り扱う特徴語の単位に変換・整形を行う。
さらに、入力テキストで付与された信頼度の割り振り単位と、言語処理部20で変換・整形された特徴語との単位が異なる場合には、各特徴語の単位に1つの信頼度があるように、割り振りを変更する(ステップB3)。
つづいて、本発明の実施の形態が用いるテキストマイニング手法や、ステップB1で行われた設定に応じて、入力テキストの言語処理結果のマイニング処理対象とする部分集合に出現する特徴語の計数の確率分布計算を信頼度利用特徴語計数分布計算部90にて行う(ステップB4)。
特徴語の計数分布計算が終わると、その結果を用いて、各特徴語の特徴度の確率分布を計算し、その計算結果から、各特徴語の特徴度として出力する推定値を求める(ステップB5)。
最後に、各特徴語の特徴度計算結果をテキストマイニング結果として出力する。
必要ならば、ステップB1で操作・指示されたテキストマイニング対象やテキストマイニング処理手順の設定に従って、出力の書式を変換しても良い(ステップB6)。
以上のような動作を行うことで、本発明の第2の実施の形態のテキストマイニング装置における動作全体の終了となる。
本発明によれば、コンタクトセンターやコールセンターなどの業務における音声から、音声認識技術を使用して作成した信頼度つきテキストデータから、精度良く特徴語とその特徴度を計算できるテキストマイニング装置や、そのようなテキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用可能である。
また紙面上に記録されたテキストデータから、文字認識技術を用いて作成した信頼度つきテキストデータから、精度良く特徴単語の特徴度を計算するテキストマイニング装置や、そのようなテキストマイニング装置をコンピュータに実現するためのプログラムといった用途にも適用可能である。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明の第1の実施の形態の構成を示す図である。 本発明を第1の実施の形態における、信頼度つき入力テキストの例を示す図である。 本発明の第1の実施の形態の動作を説明するためのフローチャートである。 本発明の第2の実施の形態の構成を示す図である。 本発明の第2の実施の形態の動作を説明するためのフローチャートである。
符号の説明
10 信頼度つきテキスト入力装置
20 言語処理部
30 信頼度利用特徴語計数部
40 特徴度計算部
50 マイニング結果出力装置
60 マイニング処理管理部
70 ユーザ操作入力装置
80 統計情報データベース
90 信頼度利用特徴語計数分布計算部
100 計数分布利用特徴度計算部

Claims (35)

  1. 入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する特徴語計数部を備えたことを特徴とするテキストマイニング装置。
  2. 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する信頼度利用特徴語計数部を備えたことを特徴とするテキストマイニング装置。
  3. 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いて計数結果を補正する信頼度利用特徴語計数部を備えたことを特徴とするテキストマイニング装置。
  4. 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付けるテキスト入力装置をさらに備えたことを特徴とする請求項1乃至3のいずれか一に記載のテキストマイニング装置。
  5. 前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する特徴語計数分布計算部と、
    前記特徴語計数分布計算部が計算した計数の確率分布を用いて各特徴語の特徴度を計算し、テキストマイニング結果とする計数分布利用特徴度計算部と、
    を備えたことを特徴とするテキストマイニング装置。
  6. 前記特徴語計数分布計算部は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストの性質を示す統計情報を用いることを特徴とする請求項5に記載のテキストマイニング装置。
  7. 前記特徴語計数分布計算部は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いることを特徴とする請求項5に記載のテキストマイニング装置。
  8. 前記特徴語計数分布計算部は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いることを特徴とする請求項5に記載のテキストマイニング装置。
  9. 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付けるテキスト入力装置をさらに備えたことを特徴とする請求項5乃至8のいずれか一に記載のテキストマイニング装置。
  10. 音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付けることを特徴とする請求項1乃至9のいずれか一に記載のテキストマイニング装置。
  11. 入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する工程を含むことを特徴とするテキストマイニング方法。
  12. 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する工程を含むことを特徴とするテキストマイニング方法。
  13. 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報とを用いて、計数結果を補正する工程を含むことを特徴とするテキストマイニング方法。
  14. 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付ける工程を含むことを特徴とする請求項11乃至13のいずれか一に記載のテキストマイニング方法。
  15. 前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する工程と、
    前記特徴語の計数が従う確率分布を用いて、各特徴語の特徴度を計算し、テキストマイニング結果とする工程と、
    を含むことを特徴とするテキストマイニング方法。
  16. 前記特徴語の計数が従う確率分布を計算する工程は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、
    前記入力テキストの性質を示す統計情報を用いることを特徴とする請求項15に記載のテキストマイニング方法。
  17. 前記特徴語の計数が従う確率分布を計算する工程は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いることを特徴とする請求項15に記載のテキストマイニング方法。
  18. 前記特徴語の計数が従う確率分布を計算する工程は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いることを特徴とする請求項15に記載のテキストマイニング方法。
  19. 前記入力テキストの一部ないし全部が、複数の候補文字列から構成される入力テキストを入力として受け付ける工程をさらに含むことを特徴とする請求項15乃至18のいずれか一に記載のテキストマイニング方法。
  20. 音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付ける工程を含むことを特徴とする請求項11乃至19のいずれか一に記載のテキストマイニング方法。
  21. 入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する処理を、コンピュータに実行させるプログラム。
  22. 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する処理を、コンピュータに実行させるプログラム。
  23. 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報とを用いて、計数結果を補正する処理を、コンピュータに実行させるプログラム。
  24. 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付ける処理をさらに含むことを特徴とする請求項21乃至23のいずれか一に記載のプログラム。
  25. 前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する処理と、
    前記特徴語の計数が従う確率分布を用いて、各特徴語の特徴度を計算し、テキストマイニング結果とする処理と、
    を、コンピュータに実行させるプログラム。
  26. 前記特徴語の計数が従う確率分布を計算する処理は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、
    前記入力テキストの性質を示す統計情報を用いることを特徴とする請求項25に記載のプログラム。
  27. 前記特徴語の計数が従う確率分布を計算する処理は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いることを特徴とする請求項25に記載のプログラム。
  28. 前記特徴語の計数が従う確率分布を計算する処理は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いることを特徴とする請求項25に記載のプログラム。
  29. 前記入力テキストの一部ないし全部が、複数の候補文字列から構成される入力テキストを入力として受け付ける処理をさらに含むことを特徴とする請求項25乃至28のいずれか一に記載のプログラム。
  30. 音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付ける処理を含むことを特徴とする請求項21乃至29のいずれか一に記載のプログラム。
  31. テキスト入力装置から入力されたテキストデータの言語解析を行い、特徴語の単位に変換・整形を行う言語処理部と、
    入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度、及び/又は、入力テキストの性質を示す統計情報を利用して、特徴語の出現回数の推定値を取得する信頼度利用特徴語計数部と、
    をさらに備え、
    前記特徴度計算部は、信頼度利用特徴語計数部で求められた特徴語の出現回数の推定値から、各特徴語の特徴度を計算する、ことを特徴とする請求項1記載のテキストマイニング装置。
  32. テキスト入力装置から入力されたテキストデータの言語解析を行い、特徴語の単位に変換・整形を行う言語処理部と、
    をさらに備え、
    前記特徴語計数分布計算部は、入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度、及び/又は、入力テキストの性質を示す統計情報を利用して、計数結果の確率分布を計算し、
    前記計数分布利用特徴度計算部は、前記特徴語計数分布計算部で求めた各特徴語の計数の確率分布から、各特徴度の推定値を求める、ことを特徴とする請求項5記載のテキストマイニング装置。
  33. 想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベースを備え、
    前記信頼度利用特徴語計数部は、信頼度が全く付与されていない入力テキストに対して、前記特徴情報データベースに保管された入力テキストの所定の統計情報を利用して、各特徴語の計数の推定値を求める、ことを特徴とする請求項31記載のテキストマイニング装置。
  34. 想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベースを備え、
    前記特徴語計数分布計算部は、信頼度が全く付与されていない入力テキストに対して、前記特徴情報データベースに保管された入力テキストの所定の統計情報を利用して、各特徴語の計数分布を求める、ことを特徴とする請求項32記載のテキストマイニング装置。
  35. 得られた各特徴語の特徴度を出力するマイニング結果出力装置と、
    入力テキストを言語処理する際の設定、求める特徴度の計算手法の設定を含むユーザの指示情報を入力するためのユーザ操作入力装置と、
    前記ユーザ操作入力装置から入力された指示を、各部に伝えるマイニング処理管理部と、を備えている、ことを特徴とする請求項31又は32記載のテキストマイニング装置。
JP2006212083A 2006-08-03 2006-08-03 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム Expired - Fee Related JP4453687B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006212083A JP4453687B2 (ja) 2006-08-03 2006-08-03 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
PCT/JP2007/064145 WO2008015907A1 (en) 2006-08-03 2007-07-18 Text mining device, text mining method, and text mining program
US12/375,638 US8140337B2 (en) 2006-08-03 2007-07-18 Apparatus, method and program for text mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006212083A JP4453687B2 (ja) 2006-08-03 2006-08-03 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Publications (2)

Publication Number Publication Date
JP2008039983A true JP2008039983A (ja) 2008-02-21
JP4453687B2 JP4453687B2 (ja) 2010-04-21

Family

ID=38997088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006212083A Expired - Fee Related JP4453687B2 (ja) 2006-08-03 2006-08-03 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Country Status (3)

Country Link
US (1) US8140337B2 (ja)
JP (1) JP4453687B2 (ja)
WO (1) WO2008015907A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2093660A2 (en) 2008-02-21 2009-08-26 Brother Kogyo Kabushiki Kaisha Printer and computer-readable recording medium
WO2010023938A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
WO2010023939A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
JP2015138141A (ja) * 2014-01-22 2015-07-30 富士通株式会社 頻度算出装置、方法、及びプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379801B2 (en) 2009-11-24 2013-02-19 Sorenson Communications, Inc. Methods and systems related to text caption error correction
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
WO2013108073A2 (en) * 2011-12-06 2013-07-25 Perception Partners, Inc. Text mining analysis and output system
CN104063472B (zh) * 2014-06-30 2017-02-15 电子科技大学 一种优化训练样本集的knn文本分类方法
US9454564B1 (en) * 2015-09-09 2016-09-27 Palantir Technologies Inc. Data integrity checks
US10268561B2 (en) * 2016-02-22 2019-04-23 International Business Machines Corporation User interface error prediction
US10404734B2 (en) * 2016-07-07 2019-09-03 International Business Machines Corporation Root cause analysis in dynamic software testing via probabilistic modeling
US10609047B2 (en) * 2018-05-18 2020-03-31 Bank Of America Corporation Network security tool
CN114998665B (zh) * 2022-08-04 2022-11-01 创新奇智(广州)科技有限公司 一种图像类别识别方法、装置、电子设备及存储介质
CN119323254B (zh) * 2024-05-08 2025-12-30 哈尔滨工业大学 基于指令学习的统一论辩挖掘方法及其挖掘系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319880A (ja) * 1994-05-20 1995-12-08 Fujitsu Ltd キーワード抽出・検索装置
JPH1173419A (ja) * 1997-08-28 1999-03-16 N T T Data:Kk 電子文書の検索方法及び装置
JPH1173149A (ja) 1997-08-29 1999-03-16 Victor Co Of Japan Ltd マグネット付記録紙
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
JP2000067085A (ja) * 1999-07-23 2000-03-03 Sharp Corp 非コ―ド化情報のデ―タベ―ス化方式
JP3526821B2 (ja) * 1999-08-25 2004-05-17 松下電器産業株式会社 文書検索装置
CA2404337A1 (en) * 2000-03-27 2001-10-04 Documentum, Inc. Method and apparatus for generating metadata for a document
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP3955522B2 (ja) 2002-11-11 2007-08-08 株式会社ジャストシステム データ分析装置及び方法、並びにプログラム
JP2005165754A (ja) 2003-12-03 2005-06-23 Nec Corp テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム
JP2005173950A (ja) 2003-12-11 2005-06-30 Canon Inc 文書処理装置及び文書処理方法
WO2008021459A2 (en) * 2006-08-17 2008-02-21 Anchorfree, Inc. Software web crawlwer and method thereof

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2093660A2 (en) 2008-02-21 2009-08-26 Brother Kogyo Kabushiki Kaisha Printer and computer-readable recording medium
WO2010023938A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
WO2010023939A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
US8380741B2 (en) 2008-08-29 2013-02-19 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
JP5472641B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
JP5472640B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
US8751531B2 (en) 2008-08-29 2014-06-10 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
JP2015138141A (ja) * 2014-01-22 2015-07-30 富士通株式会社 頻度算出装置、方法、及びプログラム

Also Published As

Publication number Publication date
WO2008015907A1 (en) 2008-02-07
JP4453687B2 (ja) 2010-04-21
US8140337B2 (en) 2012-03-20
US20090306982A1 (en) 2009-12-10

Similar Documents

Publication Publication Date Title
WO2008015907A1 (en) Text mining device, text mining method, and text mining program
US11455475B2 (en) Human-to-human conversation analysis
US9524291B2 (en) Visual display of semantic information
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
EP3591539A1 (en) Parsing unstructured information for conversion into structured data
JP5472640B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
JP5025353B2 (ja) 対話処理装置、対話処理方法及びコンピュータ・プログラム
CN110276023A (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN103678271B (zh) 一种文本校正方法及用户设备
CN109830272B (zh) 数据标准化方法、装置、计算机设备及存储介质
CN115359799B (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备
CN114861636B (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN115186654B (zh) 一种公文文本摘要生成方法
CN103038762B (zh) 自然语言处理装置、方法
US12307199B2 (en) Sentiment parsing method, electronic device, and storage medium
JP2022024093A (ja) テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器
CN114580417B (zh) 一种命名实体识别方法、装置、电子设备和可读存储介质
JP2011145844A (ja) 述部機能表現正規化方法、その装置及びプログラム
CN113627893B (zh) 一种bom文件的解析识别方法以及电子设备
JP5472641B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
CN117371445B (zh) 一种信息纠错方法、装置、计算机设备和存储介质
CN118690813A (zh) 一种用于意图识别的神经网络模型的训练方法和装置
JP7487768B2 (ja) 要約生成装置、要約生成方法及びプログラム
JP2011257790A (ja) 関係情報抽出装置、その方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4453687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees