JP2008039983A - テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム - Google Patents
テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム Download PDFInfo
- Publication number
- JP2008039983A JP2008039983A JP2006212083A JP2006212083A JP2008039983A JP 2008039983 A JP2008039983 A JP 2008039983A JP 2006212083 A JP2006212083 A JP 2006212083A JP 2006212083 A JP2006212083 A JP 2006212083A JP 2008039983 A JP2008039983 A JP 2008039983A
- Authority
- JP
- Japan
- Prior art keywords
- text
- feature
- input text
- input
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】マイニング対象のテキストデータを入力する信頼度つきテキスト入力装置10と、入力された信頼度つきテキストデータの言語解析を行う言語処理部20と、入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度や統計情報を利用して、得られた計数結果を補正する信頼度利用特徴語計数部30と、補正後の計数結果から、各特徴語の特徴度を計算する特徴度計算部40と、得られた各特徴語の特徴度を出力するマイニング結果出力装置50と、設定などを、ユーザが入力するためのユーザ操作入力装置70と、ユーザ操作入力装置から入力されたユーザの指示を、各部に伝えるマイニング処理管理部60と、想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベース80を含む。
【選択図】 図1
Description
はじめに、本願明細書・請求の範囲で用いられる用語を説明しておく。
アンケートや業務報告などの大量のテキストから、テキストの傾向など、有用な情報を分析するために、テキスト中に頻出する、あるいは、統計的基準で意味のある単語や熟語などを抽出するテキストマイニング技術が存在する。
・特徴語の出現回数を、そのまま特徴度とする手法や、
・各特徴語のカテゴリー毎の出現回数から、相互情報量のような統計的指標を用いる手法、
などがある。
入力された信頼度つきテキストの言語解析結果に対して、特徴語を計数する際に、テキストに付与されている信頼度を用いて各特徴語の計数結果を補正する信頼度利用特徴語計数部(図1の30)と、
計数された結果を基に各特徴語の特徴度を計算する特徴度計算部(図1の40)と、
計算された各特徴語の特徴度をテキストマイニング結果として出力するマイニング結果出力装置(図1の50)と、を有する。
入力された信頼度つきテキストの言語解析結果に対して、特徴語を計数する際に、テキストに付与されている信頼度を利用して、各特徴語の計数結果の分布を計算する信頼度利用特徴語計数分布計算部(図4の90)と、
得られた計数の分布を基に各特徴語の特徴度を計算する計数分布利用特徴度計算部(図4の100)と、
計算された各特徴語の特徴度をテキストマイニング結果として出力するマイニング結果出力装置(図4の50)と、を有する。
前記特徴語計数分布計算部が計算した計数の確率分布を用いて各特徴語の特徴度を計算し、テキストマイニング結果とする計数分布利用特徴度計算部(工程、処理)と、
を備える。
図1を参照すると、本発明の第1の実施の形態は、
マイニング対象のテキストデータを入力する信頼度つきテキスト入力装置(図1の10)と、
入力された信頼度つきテキストデータの言語解析を行う言語処理部(図1の20)と、
入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度や統計情報を利用して、得られた計数結果を補正する信頼度利用特徴語計数部(図1の30)と、
補正後の計数結果から、各特徴語の特徴度を計算する特徴度計算部(図1の40)と、
得られた各特徴語の特徴度を出力するマイニング結果出力装置(図1の50)と、
入力テキストを言語処理する際の設定や、求める特徴度の計算手法の設定などを、ユーザが入力するためのユーザ操作入力装置(図1の70)と、
ユーザ操作入力装置から入力されたユーザの指示を、各部に伝えるマイニング処理管理部(図1の60)と、
想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベース(図1の80)と、
を含む。以下、各部を順に説明する。
信頼度つきテキスト入力装置10は、本発明を実施する際に、処理対象とするテキストデータを入力する装置である。テキストデータは、ファイルとしてハードディスク等の記録装置から読み込まれるものであっても、ネットワークなどの通信手段を用いて他の機器から入力されるのであっても良い。具体的にどのような形態の入力機器を用いるかは、本発明の実施の形態を使用する目的・状況によって異なってくる。
もし、複数の候補文字列の一部の候補または全候補に、信頼度が付与されていないものが含まれている場合には、次に記述する計算法に従って信頼度を付与する。
(1 - 0.4) / 3 = 0.2
となるので、信頼度が付与されていない3つの候補それぞれに、信頼度 0.2 が付与される。
図2は、信頼度つきテキストの例を示す図である。テキスト中の斜線"/"が、単語の区切りを表しており、[0.92]のように、大括弧で囲まれた数字が、直前の単語の信頼度を表している。
言語処理部20では、信頼度つきテキスト入力装置10に入力されたテキストに対して、形態素解析、係り受け解析、同義語処理、不要語処理等の言語処理を実行し、本発明のテキストマイニング装置で取り扱う特徴語の単位に変換・整形を行う。
・複数の隣接する単語がまとめ上げられた文節単位であっても良いし、
・意味的に関係のある複数の単語の組をセットにした、単語組単位であっても良い。
・最初の名詞を用いる場合や、
・最長の文字列を主要な要素とする場合
などがある。
信頼度利用特徴語計数部30は、入力テキスト中のある特定の部分集合に対して、各特徴語がその部分集合のテキストに何回出現しているか計数して、特徴度計算部40に渡すコンポーネントである。
・本発明の実施の形態が用いるテキストマイニング手法や、
・ユーザ操作入力装置70とマイニング処理管理部60を通して入力されるユーザの設定等
によって異なってくる。
・まずA社のカテゴリーに属するテキストだけを対象にして、各特徴語の出現回数を計数し、
・ついでA社のカテゴリーに属さないテキストを対象にして、同じく各特徴語の出現回数を計数し、
・各特徴語に対するこの2つの計数結果から、特徴度を求める、
などの例が考えられる。
・「A社のカテゴリーに属するテキスト」、及び、
・「A社のカテゴリーに属さないテキスト」
という2つの入力テキストの部分集合に対して、計数が行われる。
・入力テキストに付与されている信頼度や、
・統計情報データベース80に記録された入力テキストの誤り傾向の統計情報
を用いて、出現回数の推定値を求め、実際の計数結果の代わりに、その推定値を特徴度計算部40に渡す点が、従来のテキストマイニング技術と異なる点である。
CR(w) : 誤りのある入力テキスト中の特徴語wの計数結果 …(2)
CRc(w) : CR(w) のうち、正解の数 …(3)
CRe(w) : CR(w) のうち、実は誤りの数 …(4)
CD(w) : 正解テキスト中の w が誤りによって脱落・置換した数 …(5)
CG(w) : C(w) の推定値 …(6)
CR(w) = CRc(w) + CRe(w) …(7)
C(w) = CR(w) - CRe(w) + CD(w)
= CRc(w) + CD(w) …(8)
第1は、信頼度による足きりを行う手法である。
CR(A) = 3 …(9)
ただし、信頼度 0.5 未満の足きり設定のため、信頼度 0.4 の1回が捨てられる。
CRcG(A) = 2 …(10)
CG(w) = CRcG(w) + CDG(w) …(11)
・統計情報データベース80に直接保管されているか、または、
・保管されている他の統計情報から導出できる場合、
には、保管された値又は導出された値を用い、さらに、
特徴語Aに関する統計情報ではないが、より一般的な統計情報を、特徴語Aに適用可能な場合にも、その値を用いる。
・誤りによって脱落して消えてしまう平均確率p1 と、
・他の語に置換してしまう平均確率 p2 と
が、統計情報データベース80に保管されていたとする。
CDG(w) = CG(w) * (p1 + p2) …(12)
CG(w) = CRcG(w) / (1 - p1 - p2) …(13)
p1 = 0.15, p2 = 0.1 であったとすると、特徴語Aの計数推定値CG(A)として、脱落・置換した割合も考慮した
CG(A) = 2 / (1 - 0.15 - 0.1)
= 約2.7
となる。
= 2.2 …(14)
・誤りによって脱落して消えてしまう平均確率 p1 = 0.15 と、
・他の語に置換してしまう平均確率 p2 = 0.1
とが、統計情報データベース80に保管されているものとすると、
CG(A) = 2.2 / (1 - 0.15 - 0.1)
= 約2.9 …(15)
出現回数の期待値を用いるという第2の手法は、前記第1の手法と同様に、各特徴語の計数結果に、誤りから起因する本来ない特徴語まで数えてしまうことを防ぐことができるという効果を奏する。
第3の推定値 CG(w)の算出方法としては、各特徴語の出現箇所に付与されている信頼度を、その箇所の正解確率と見なし、出現回数の最頻値を計数結果とする手法がある。
(1 - 1) * (1 - 0.8) * 0.4
= 0.12
(1 - 1) * 0.8 * 0.4
= 0.48 + 0.08 = 0.56
・誤りによって脱落して消えてしまう平均確率 p1 = 0.15 と、
・他の語に置換してしまう平均確率 p2 = 0.1 と
が統計情報データベース80に保管されていたとすると、式(13)から
CG(A) = 2 / (1 - 0.15 - 0.1)
= 約2.7 …(16)
・各特徴語の個々のテキスト内での信頼度のうち、最小のものをそのテキスト内での共通の信頼度とする手法や、
・個々のテキスト内での信頼度の平均値をとって、それをそのテキスト内での信頼度とする手法などが考えられる。
各特徴語の計数結果そのものではなく、各特徴語が一定の閾値t回以上(または、より上)出現するテキストの数を、特徴度計算に用いる場合がある。
(S1)個々に特徴語の計数の推定を行い、
(S2)その推定結果が、閾値t回以上(または、より大)になるか否かを判断し、
(S3)判断の結果、閾値以上(または、より大)となったテキストの数を、計数する、
という一連の処理を行えばよい。
特徴度計算部40は、信頼度利用特徴語計数部30が求めた各特徴語の計数結果の推定値を受け取り、各特徴語の特徴度を計算する。
マイニング結果出力装置50は、特徴度計算部40で計算した各特徴語の特徴度をマイニング結果として出力する装置である。出力はディスプレイに行ってもよいし、ファイルとして出力してもよい。
マイニング処理管理部60は、ユーザ操作入力装置70を通して入力されたユーザの設定を受け取り、言語処理部20、信頼度利用特徴語計数部30、特徴度計算部40が動作する際に、それぞれの設定を伝える。
ユーザ操作入力装置70は、
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数部30で実行する計数の補正手法、
・特徴度計算部40で計算する特徴度の計算方法などの設定、さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの操作を、ユーザが入力するための装置である。
統計情報データベース80は、
・入力テキスト中に出現する語句や文字列の出現傾向、または、
・入力テキストに含まれる誤り傾向の統計情報
を保管するデータベースである。
・各単語や文字が別の単語や文字に間違ってしまう確率、
・各単語や文字が脱落してしまう確率、
・各単語や文字が間違って挿入されてしまう確率
などである。
本発明の第1の実施の形態においては、入力テキストの特殊なケースとして、まったく信頼度が付与されないテキストを受理することも可能である。その場合、信頼度利用特徴語計数部30では、統計情報データベース80に保管された入力テキストの誤り傾向の統計情報のみを利用して、各特徴語の計数の推定値を求める。
・正解テキスト中のw が、誤って削除される確率: Pd(w)
・誤りを含む入力テキスト中のwが、正解である確率: PC(w)
CD(w) / C(w) = Pr(w) + Pd(w) …(17)
CRc(w) / CR(w) = PC(w) …(18)
C(w) = PC(w) * CR(w) + (Pr(w) + Pd(w)) * C(w) …(19)
C(w) = PC(w) * CR(w) / (1 - Pr(w) - Pd(w)) …(20)
また、本実施の形態では、信頼度つきテキスト入力装置10、言語処理部20、信頼度利用特徴語計数部30、特徴度計算部40、マイニング結果出力装置50、マイニング処理管理部60、ユーザ操作入力装置70、統計情報データベース80は各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
次に、本発明の第1の実施の形態のテキストマイニング装置における動作について、図3のフローチャートに沿って説明する。
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数部30で実行する計数の補正手法、
・特徴度計算部40で計算する特徴度の計算方法などの設定、さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの設定を行う(ステップA1)。
次に、本発明の第2の実施の形態について説明する。図4を参照すると、本発明の第2の実施の形態は、
マイニング対象のテキストデータを入力する信頼度つきテキスト入力装置(図4の10)と、
入力された信頼度つきテキストデータの言語解析を行う言語処理部(図4の20)と、
入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度や統計情報を利用して、計数結果の確率分布を計算する信頼度利用特徴語計数分布計算部(図2の90)と、
各特徴語の計数の従う確率分布から各特徴語の特徴度を計算する計数分布利用特徴度計算部(図4の100)と、
得られた各特徴語の特徴度を出力するマイニング結果出力装置(図4の50)と、
入力テキストを言語処理する際の設定や、求める特徴度の計算手法の設定などをユーザが入力するためのユーザ操作入力装置(図4の70)と、
ユーザ操作入力装置から入力されたユーザの指示を各部に伝えるマイニング処理管理部(図4の60)と、
想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベース(図4の80)と、を備えている。
・入力テキストからの計数結果 CR(w) と、
・入力テキストに付与された信頼度、または、入力テキストの性質を示す統計情報
を用いて、正解計数 C(w) の推定値 CG(w)を1つだけ計算し、
以後は、その計数の推定値 CG(w) を用いて、通常通り特徴度を計算することで、誤りの影響による特徴度の誤差を少なくする手法をとる。
各特徴語の計数結果を確率変数とみなして、平均値や、最頻値などの代表値を用いる例を挙げた。
信頼度利用特徴語計数分布計算部90は、入力テキスト中のある特定の部分集合に対して、各特徴語がその部分集合のテキストに何回出現しているかの計数の確率分布を求めて、計数分布利用特徴度計算部100に渡すコンポーネントである。
・誤り含み入力テキストの実際の計数結果 CR(w) と、
・入力テキストに付与された信頼度、または、入力テキストの性質を示す統計情報と、
を用いて計算する。
C(w) ≒ CRc(w) …(21)
(1 - 1) * 0.8 * (1 - 0.4) + (1 - 1) * (1 - 0.8) * 0.4
= 0.12
(1 - 1) * 0.8 * 0.4
= 0.48 + 0.08 = 0.56
計数分布利用特徴度計算部100は、信頼度利用特徴語計数分布計算部90で求められた各特徴語の計数分布から、各特徴語の特徴度の分布を計算し、その結果から各特徴語に対して1つの特徴度を、特徴度の推定値として出力する。
・特徴度の期待値を用いる手法、
・特徴度の最頻値を用いる手法、
・特徴度の最小値を用いる手法、
・特徴度の最大値を用いる手法、
などがある。
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数分布計算部90で実行する計数分布の計算手法、
・計数分布利用特徴度計算部100で計算する特徴度の計算方法などの設定、さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの操作を、ユーザが入力するための装置である。
統計情報データベース80は、そこに保管されている統計情報の送り先が、信頼度利用特徴語計数部30から、信頼度利用特徴語計数分布計算部90に替わった以外は、前記第1の実施の形態における統計情報データベース80と同一である。
なお、本発明の第2の実施の形態においても、前記第1の実施の形態での場合と同様に、信頼度つきテキスト入力装置10が、入力テキストの特殊なケースとして、まったく信頼度が付与されないテキストを受理することも可能である。その場合、信頼度利用特徴語計数分布計算部90では、統計情報データベース80に保管された入力テキストの誤り傾向の統計情報のみを利用して、各特徴語の計数分布を求める。
また、本発明の第2の実施の形態では、信頼度つきテキスト入力装置10、言語処理部20、信頼度利用特徴語計数分布計算部90、計数分布利用特徴度計算部100、マイニング結果出力装置50、マイニング処理管理部60、ユーザ操作入力装置70、統計情報データベース80は各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
次に、本発明の第2の実施の形態のテキストマイニング装置における動作について、図5のフローチャートに沿って説明する。
・言語処理部20が実行する言語処理の設定や、
・信頼度利用特徴語計数分布計算部90で実行する計数の確率分布の計算手段、
・計数分布利用特徴度計算部100で計算する特徴度の計算方法などの設定、
さらに、
・テキストマイニング対象とする入力テキストの部分集合、
・テキストマイニングの処理手順
などの設定を行う(ステップB1)。
20 言語処理部
30 信頼度利用特徴語計数部
40 特徴度計算部
50 マイニング結果出力装置
60 マイニング処理管理部
70 ユーザ操作入力装置
80 統計情報データベース
90 信頼度利用特徴語計数分布計算部
100 計数分布利用特徴度計算部
Claims (35)
- 入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する特徴語計数部を備えたことを特徴とするテキストマイニング装置。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する信頼度利用特徴語計数部を備えたことを特徴とするテキストマイニング装置。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いて計数結果を補正する信頼度利用特徴語計数部を備えたことを特徴とするテキストマイニング装置。
- 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付けるテキスト入力装置をさらに備えたことを特徴とする請求項1乃至3のいずれか一に記載のテキストマイニング装置。
- 前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する特徴語計数分布計算部と、
前記特徴語計数分布計算部が計算した計数の確率分布を用いて各特徴語の特徴度を計算し、テキストマイニング結果とする計数分布利用特徴度計算部と、
を備えたことを特徴とするテキストマイニング装置。 - 前記特徴語計数分布計算部は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストの性質を示す統計情報を用いることを特徴とする請求項5に記載のテキストマイニング装置。
- 前記特徴語計数分布計算部は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いることを特徴とする請求項5に記載のテキストマイニング装置。
- 前記特徴語計数分布計算部は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いることを特徴とする請求項5に記載のテキストマイニング装置。
- 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付けるテキスト入力装置をさらに備えたことを特徴とする請求項5乃至8のいずれか一に記載のテキストマイニング装置。
- 音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付けることを特徴とする請求項1乃至9のいずれか一に記載のテキストマイニング装置。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する工程を含むことを特徴とするテキストマイニング方法。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する工程を含むことを特徴とするテキストマイニング方法。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報とを用いて、計数結果を補正する工程を含むことを特徴とするテキストマイニング方法。
- 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付ける工程を含むことを特徴とする請求項11乃至13のいずれか一に記載のテキストマイニング方法。
- 前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する工程と、
前記特徴語の計数が従う確率分布を用いて、各特徴語の特徴度を計算し、テキストマイニング結果とする工程と、
を含むことを特徴とするテキストマイニング方法。 - 前記特徴語の計数が従う確率分布を計算する工程は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、
前記入力テキストの性質を示す統計情報を用いることを特徴とする請求項15に記載のテキストマイニング方法。 - 前記特徴語の計数が従う確率分布を計算する工程は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いることを特徴とする請求項15に記載のテキストマイニング方法。
- 前記特徴語の計数が従う確率分布を計算する工程は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いることを特徴とする請求項15に記載のテキストマイニング方法。
- 前記入力テキストの一部ないし全部が、複数の候補文字列から構成される入力テキストを入力として受け付ける工程をさらに含むことを特徴とする請求項15乃至18のいずれか一に記載のテキストマイニング方法。
- 音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付ける工程を含むことを特徴とする請求項11乃至19のいずれか一に記載のテキストマイニング方法。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストの性質を示す統計情報を用いて計数結果を補正する処理を、コンピュータに実行させるプログラム。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度を用いて計数結果を補正する処理を、コンピュータに実行させるプログラム。
- 入力テキストの特徴語毎の計数を行う際に、入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報とを用いて、計数結果を補正する処理を、コンピュータに実行させるプログラム。
- 入力テキストの一部又は全部が複数の候補文字列から構成される入力テキストを入力として受け付ける処理をさらに含むことを特徴とする請求項21乃至23のいずれか一に記載のプログラム。
- 前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する処理と、
前記特徴語の計数が従う確率分布を用いて、各特徴語の特徴度を計算し、テキストマイニング結果とする処理と、
を、コンピュータに実行させるプログラム。 - 前記特徴語の計数が従う確率分布を計算する処理は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、
前記入力テキストの性質を示す統計情報を用いることを特徴とする請求項25に記載のプログラム。 - 前記特徴語の計数が従う確率分布を計算する処理は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度を用いることを特徴とする請求項25に記載のプログラム。
- 前記特徴語の計数が従う確率分布を計算する処理は、前記入力テキストに含まれる特徴語の計数が従う確率分布を計算する際に、前記入力テキストに付与された信頼度と、入力テキストの性質を示す統計情報と、を用いることを特徴とする請求項25に記載のプログラム。
- 前記入力テキストの一部ないし全部が、複数の候補文字列から構成される入力テキストを入力として受け付ける処理をさらに含むことを特徴とする請求項25乃至28のいずれか一に記載のプログラム。
- 音声認識手段または文字認識手段によって認識された、誤り含みテキストを、前記入力テキストとして受け付ける処理を含むことを特徴とする請求項21乃至29のいずれか一に記載のプログラム。
- テキスト入力装置から入力されたテキストデータの言語解析を行い、特徴語の単位に変換・整形を行う言語処理部と、
入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度、及び/又は、入力テキストの性質を示す統計情報を利用して、特徴語の出現回数の推定値を取得する信頼度利用特徴語計数部と、
をさらに備え、
前記特徴度計算部は、信頼度利用特徴語計数部で求められた特徴語の出現回数の推定値から、各特徴語の特徴度を計算する、ことを特徴とする請求項1記載のテキストマイニング装置。 - テキスト入力装置から入力されたテキストデータの言語解析を行い、特徴語の単位に変換・整形を行う言語処理部と、
をさらに備え、
前記特徴語計数分布計算部は、入力テキスト中の特徴語を計数し、入力テキストに付与された信頼度、及び/又は、入力テキストの性質を示す統計情報を利用して、計数結果の確率分布を計算し、
前記計数分布利用特徴度計算部は、前記特徴語計数分布計算部で求めた各特徴語の計数の確率分布から、各特徴度の推定値を求める、ことを特徴とする請求項5記載のテキストマイニング装置。 - 想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベースを備え、
前記信頼度利用特徴語計数部は、信頼度が全く付与されていない入力テキストに対して、前記特徴情報データベースに保管された入力テキストの所定の統計情報を利用して、各特徴語の計数の推定値を求める、ことを特徴とする請求項31記載のテキストマイニング装置。 - 想定される入力テキストの性質を示す統計情報を記録・保持する統計情報データベースを備え、
前記特徴語計数分布計算部は、信頼度が全く付与されていない入力テキストに対して、前記特徴情報データベースに保管された入力テキストの所定の統計情報を利用して、各特徴語の計数分布を求める、ことを特徴とする請求項32記載のテキストマイニング装置。 - 得られた各特徴語の特徴度を出力するマイニング結果出力装置と、
入力テキストを言語処理する際の設定、求める特徴度の計算手法の設定を含むユーザの指示情報を入力するためのユーザ操作入力装置と、
前記ユーザ操作入力装置から入力された指示を、各部に伝えるマイニング処理管理部と、を備えている、ことを特徴とする請求項31又は32記載のテキストマイニング装置。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006212083A JP4453687B2 (ja) | 2006-08-03 | 2006-08-03 | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム |
| PCT/JP2007/064145 WO2008015907A1 (en) | 2006-08-03 | 2007-07-18 | Text mining device, text mining method, and text mining program |
| US12/375,638 US8140337B2 (en) | 2006-08-03 | 2007-07-18 | Apparatus, method and program for text mining |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006212083A JP4453687B2 (ja) | 2006-08-03 | 2006-08-03 | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008039983A true JP2008039983A (ja) | 2008-02-21 |
| JP4453687B2 JP4453687B2 (ja) | 2010-04-21 |
Family
ID=38997088
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006212083A Expired - Fee Related JP4453687B2 (ja) | 2006-08-03 | 2006-08-03 | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US8140337B2 (ja) |
| JP (1) | JP4453687B2 (ja) |
| WO (1) | WO2008015907A1 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2093660A2 (en) | 2008-02-21 | 2009-08-26 | Brother Kogyo Kabushiki Kaisha | Printer and computer-readable recording medium |
| WO2010023938A1 (ja) * | 2008-08-29 | 2010-03-04 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 |
| WO2010023939A1 (ja) * | 2008-08-29 | 2010-03-04 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 |
| JP2015138141A (ja) * | 2014-01-22 | 2015-07-30 | 富士通株式会社 | 頻度算出装置、方法、及びプログラム |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8379801B2 (en) | 2009-11-24 | 2013-02-19 | Sorenson Communications, Inc. | Methods and systems related to text caption error correction |
| EP2783365B1 (en) * | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance |
| WO2013108073A2 (en) * | 2011-12-06 | 2013-07-25 | Perception Partners, Inc. | Text mining analysis and output system |
| CN104063472B (zh) * | 2014-06-30 | 2017-02-15 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
| US9454564B1 (en) * | 2015-09-09 | 2016-09-27 | Palantir Technologies Inc. | Data integrity checks |
| US10268561B2 (en) * | 2016-02-22 | 2019-04-23 | International Business Machines Corporation | User interface error prediction |
| US10404734B2 (en) * | 2016-07-07 | 2019-09-03 | International Business Machines Corporation | Root cause analysis in dynamic software testing via probabilistic modeling |
| US10609047B2 (en) * | 2018-05-18 | 2020-03-31 | Bank Of America Corporation | Network security tool |
| CN114998665B (zh) * | 2022-08-04 | 2022-11-01 | 创新奇智(广州)科技有限公司 | 一种图像类别识别方法、装置、电子设备及存储介质 |
| CN119323254B (zh) * | 2024-05-08 | 2025-12-30 | 哈尔滨工业大学 | 基于指令学习的统一论辩挖掘方法及其挖掘系统 |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07319880A (ja) * | 1994-05-20 | 1995-12-08 | Fujitsu Ltd | キーワード抽出・検索装置 |
| JPH1173419A (ja) * | 1997-08-28 | 1999-03-16 | N T T Data:Kk | 電子文書の検索方法及び装置 |
| JPH1173149A (ja) | 1997-08-29 | 1999-03-16 | Victor Co Of Japan Ltd | マグネット付記録紙 |
| US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
| JP2000067085A (ja) * | 1999-07-23 | 2000-03-03 | Sharp Corp | 非コ―ド化情報のデ―タベ―ス化方式 |
| JP3526821B2 (ja) * | 1999-08-25 | 2004-05-17 | 松下電器産業株式会社 | 文書検索装置 |
| CA2404337A1 (en) * | 2000-03-27 | 2001-10-04 | Documentum, Inc. | Method and apparatus for generating metadata for a document |
| US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
| JP3955522B2 (ja) | 2002-11-11 | 2007-08-08 | 株式会社ジャストシステム | データ分析装置及び方法、並びにプログラム |
| JP2005165754A (ja) | 2003-12-03 | 2005-06-23 | Nec Corp | テキストマイニング分析装置、テキストマイニング分析方法、及びテキストマイニング分析プログラム |
| JP2005173950A (ja) | 2003-12-11 | 2005-06-30 | Canon Inc | 文書処理装置及び文書処理方法 |
| WO2008021459A2 (en) * | 2006-08-17 | 2008-02-21 | Anchorfree, Inc. | Software web crawlwer and method thereof |
-
2006
- 2006-08-03 JP JP2006212083A patent/JP4453687B2/ja not_active Expired - Fee Related
-
2007
- 2007-07-18 WO PCT/JP2007/064145 patent/WO2008015907A1/ja not_active Ceased
- 2007-07-18 US US12/375,638 patent/US8140337B2/en not_active Expired - Fee Related
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2093660A2 (en) | 2008-02-21 | 2009-08-26 | Brother Kogyo Kabushiki Kaisha | Printer and computer-readable recording medium |
| WO2010023938A1 (ja) * | 2008-08-29 | 2010-03-04 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 |
| WO2010023939A1 (ja) * | 2008-08-29 | 2010-03-04 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 |
| US8380741B2 (en) | 2008-08-29 | 2013-02-19 | Nec Corporation | Text mining apparatus, text mining method, and computer-readable recording medium |
| JP5472641B2 (ja) * | 2008-08-29 | 2014-04-16 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びプログラム |
| JP5472640B2 (ja) * | 2008-08-29 | 2014-04-16 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法、及びプログラム |
| US8751531B2 (en) | 2008-08-29 | 2014-06-10 | Nec Corporation | Text mining apparatus, text mining method, and computer-readable recording medium |
| JP2015138141A (ja) * | 2014-01-22 | 2015-07-30 | 富士通株式会社 | 頻度算出装置、方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2008015907A1 (en) | 2008-02-07 |
| JP4453687B2 (ja) | 2010-04-21 |
| US8140337B2 (en) | 2012-03-20 |
| US20090306982A1 (en) | 2009-12-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2008015907A1 (en) | Text mining device, text mining method, and text mining program | |
| US11455475B2 (en) | Human-to-human conversation analysis | |
| US9524291B2 (en) | Visual display of semantic information | |
| CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
| EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
| JP5472640B2 (ja) | テキストマイニング装置、テキストマイニング方法、及びプログラム | |
| JP5025353B2 (ja) | 対話処理装置、対話処理方法及びコンピュータ・プログラム | |
| CN110276023A (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
| CN103678271B (zh) | 一种文本校正方法及用户设备 | |
| CN109830272B (zh) | 数据标准化方法、装置、计算机设备及存储介质 | |
| CN115359799B (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
| CN113435188B (zh) | 基于语义相似的过敏文本样本生成方法、装置及相关设备 | |
| CN114861636B (zh) | 文本纠错模型的训练方法及装置、文本纠错方法及装置 | |
| CN115186654B (zh) | 一种公文文本摘要生成方法 | |
| CN103038762B (zh) | 自然语言处理装置、方法 | |
| US12307199B2 (en) | Sentiment parsing method, electronic device, and storage medium | |
| JP2022024093A (ja) | テキスト内の数値コンテンツの誤り訂正方法、装置及び電子機器 | |
| CN114580417B (zh) | 一种命名实体识别方法、装置、电子设备和可读存储介质 | |
| JP2011145844A (ja) | 述部機能表現正規化方法、その装置及びプログラム | |
| CN113627893B (zh) | 一种bom文件的解析识别方法以及电子设备 | |
| JP5472641B2 (ja) | テキストマイニング装置、テキストマイニング方法、及びプログラム | |
| CN117371445B (zh) | 一种信息纠错方法、装置、计算机设备和存储介质 | |
| CN118690813A (zh) | 一种用于意图识别的神经网络模型的训练方法和装置 | |
| JP7487768B2 (ja) | 要約生成装置、要約生成方法及びプログラム | |
| JP2011257790A (ja) | 関係情報抽出装置、その方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090728 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090928 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091214 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100112 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100125 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4453687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |