JP2002183171A - 文書データ・クラスタリングシステム - Google Patents
文書データ・クラスタリングシステムInfo
- Publication number
- JP2002183171A JP2002183171A JP2000377606A JP2000377606A JP2002183171A JP 2002183171 A JP2002183171 A JP 2002183171A JP 2000377606 A JP2000377606 A JP 2000377606A JP 2000377606 A JP2000377606 A JP 2000377606A JP 2002183171 A JP2002183171 A JP 2002183171A
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- document
- clustering
- documents
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 文書データをクラスタリング対象に応じたク
ラスタ数に分類できる文書クラスタリングシステムを提
供する。 【解決手段】 特徴ベクトル作成手段103が作成した各
文書の特徴ベクトルの組を特異値分解し、特異値分解の
結果106から文書間の類似度を計算するための文書類似
ベクトル108を作成する。クラスタ作成手段110は、対象
文書に対して文書類似ベクトルを用いて、文書とクラス
タ重心との距離を算出し、さらに同一の対象文書に対し
て一回目の分類に利用した文書類似ベクトルの次元数を
増加させて二回目の分類を行い、双方の結果を比較し変
化の少ないクラスタを安定クラスタとする。データ選択
手段109は、安定クラスタの文書を対象から除いてクラ
スタ作成手段の次の分類の対象文書を選定し、この試行
を繰り返す。段階的に分類を繰り返すことにより、クラ
スタ数を事前に決定していなくても、対象に応じたクラ
スタ数を決定できる。
ラスタ数に分類できる文書クラスタリングシステムを提
供する。 【解決手段】 特徴ベクトル作成手段103が作成した各
文書の特徴ベクトルの組を特異値分解し、特異値分解の
結果106から文書間の類似度を計算するための文書類似
ベクトル108を作成する。クラスタ作成手段110は、対象
文書に対して文書類似ベクトルを用いて、文書とクラス
タ重心との距離を算出し、さらに同一の対象文書に対し
て一回目の分類に利用した文書類似ベクトルの次元数を
増加させて二回目の分類を行い、双方の結果を比較し変
化の少ないクラスタを安定クラスタとする。データ選択
手段109は、安定クラスタの文書を対象から除いてクラ
スタ作成手段の次の分類の対象文書を選定し、この試行
を繰り返す。段階的に分類を繰り返すことにより、クラ
スタ数を事前に決定していなくても、対象に応じたクラ
スタ数を決定できる。
Description
【0001】
【発明の属する技術分野】本発明は、文書検索システム
や文書ファイリングシステムなどに利用される文書クラ
スタリングシステムに関し、特に、段階的にクラスタリ
ングを実施する手法を用いて文書を的確に分類すること
を可能にしたものである。
や文書ファイリングシステムなどに利用される文書クラ
スタリングシステムに関し、特に、段階的にクラスタリ
ングを実施する手法を用いて文書を的確に分類すること
を可能にしたものである。
【0002】
【従来の技術】従来、文書の分類方法では、文書の特徴
を表すものとして、文書の持つキーワードを抽出し、キ
ーワードの内容に基づいて文書を自動分類する方法が知
られている。キーワードは、形態素解析などの文書解析
方法を用いて文書から自動的に抽出され、あるいは、予
め人手によって付与される。例えば、特開平7−114
572号公報には、文書解析方法により文書から単語を
自動抽出し、各単語にベクトルを対応させた単語の特徴
ベクトルを文書ごとに求め、この特徴ベクトルの類似度
から文書を分類する方法が開示されている。
を表すものとして、文書の持つキーワードを抽出し、キ
ーワードの内容に基づいて文書を自動分類する方法が知
られている。キーワードは、形態素解析などの文書解析
方法を用いて文書から自動的に抽出され、あるいは、予
め人手によって付与される。例えば、特開平7−114
572号公報には、文書解析方法により文書から単語を
自動抽出し、各単語にベクトルを対応させた単語の特徴
ベクトルを文書ごとに求め、この特徴ベクトルの類似度
から文書を分類する方法が開示されている。
【0003】
【発明が解決しようとする課題】しかし、類似度から文
書を分類する場合には、沢山の分類候補が発生するた
め、どの分類候補を選択、採用すべきかの判定基準が不
明確になり、分類が困難になると云う問題点がある。
書を分類する場合には、沢山の分類候補が発生するた
め、どの分類候補を選択、採用すべきかの判定基準が不
明確になり、分類が困難になると云う問題点がある。
【0004】また、分類された結果が何を意味している
のかが分かりにくいという問題点がある。
のかが分かりにくいという問題点がある。
【0005】また、人間が日常行っているクラスタリン
グは、例えば、新聞記事を、まず政治関係記事、経済関
係記事、国際関係記事、スポーツ・芸能記事などに大別
し、さらに、経済関係記事を、経済政策記事、株式市場
関係記事、企業動向記事などに細分化する、と云うよう
に、分類の結果が階層的な構造を持つことが多い。これ
は、階層的なクラスタリングの方が、非階層的なクラス
タリングよりも人間にとって自然であり、理解しやすい
ことを意味している。そのため、機械的にクラスタリン
グを行う場合でも、なるべく階層的な構造を持つ分類結
果が得られるようにすることが望ましい。
グは、例えば、新聞記事を、まず政治関係記事、経済関
係記事、国際関係記事、スポーツ・芸能記事などに大別
し、さらに、経済関係記事を、経済政策記事、株式市場
関係記事、企業動向記事などに細分化する、と云うよう
に、分類の結果が階層的な構造を持つことが多い。これ
は、階層的なクラスタリングの方が、非階層的なクラス
タリングよりも人間にとって自然であり、理解しやすい
ことを意味している。そのため、機械的にクラスタリン
グを行う場合でも、なるべく階層的な構造を持つ分類結
果が得られるようにすることが望ましい。
【0006】本発明は、こうした課題に応えるものであ
り、文書データをクラスタリング対象に応じたクラスタ
数に的確に分類することができ、また、分類された結果
に対して、その内容を表す表示を対応付けることがで
き、さらに、文書データを階層構造に分類することがで
きる文書クラスタリングシステムを提供することを目的
としている。
り、文書データをクラスタリング対象に応じたクラスタ
数に的確に分類することができ、また、分類された結果
に対して、その内容を表す表示を対応付けることがで
き、さらに、文書データを階層構造に分類することがで
きる文書クラスタリングシステムを提供することを目的
としている。
【0007】
【課題を解決するための手段】そこで、本発明では、機
械可読な文書データを格納した文書データベースと、機
械可読な単語を格納した辞書とを備え、前記文書データ
ベースに格納された文書をクラスタリングする文書デー
タ・クラスタリングシステムにおいて、文書中の前記辞
書に格納された単語の出現頻度をもとに文書データベー
スに格納された文書の特徴ベクトルを作成する特徴ベク
トル作成手段と、特徴ベクトル作成手段により作成され
た特徴ベクトルの組を特異値分解する特異値分解手段
と、特異値分解の結果から文書間の類似度を計算するた
めの文書類似ベクトルを作成する文書類似ベクトル作成
手段と、文書類似ベクトル作成手段により作成された文
書類似ベクトルの組により文書データベース中の全てま
たは一部の文書を対象にクラスタを作成するクラスタ作
成手段と、作成されたクラスタの情報を格納するクラス
タ情報テーブルと、クラスタ情報テーブルを参照してク
ラスタ作成手段でのクラスタリングの対象となる文書を
文書データベースから選択するクラスタリングデータ選
択手段とを設け、クラスタ作成手段は、クラスタリング
対象の文書に対して、文書類似ベクトルを用いて、文書
とクラスタ重心との距離を算出し、さらに同一のクラス
タリング対象の文書に対して、一回目のクラスタリング
に利用した文書類似ベクトルの次元数を適度な範囲で増
加させて二回目のクラスタリングを行い、二回のクラス
タリング結果を比較して、変化の少ないクラスタを安定
したクラスタとして判別し、クラスタリングデータ選択
手段は、安定したクラスタに割り当てられた文書をクラ
スタリング対象から取り除いて、クラスタ作成手段が次
に行うクラスタリングの対象を選定し、クラスタ作成手
段とクラスタリングデータ選択手段との間で、この試行
を繰り返すように構成している。
械可読な文書データを格納した文書データベースと、機
械可読な単語を格納した辞書とを備え、前記文書データ
ベースに格納された文書をクラスタリングする文書デー
タ・クラスタリングシステムにおいて、文書中の前記辞
書に格納された単語の出現頻度をもとに文書データベー
スに格納された文書の特徴ベクトルを作成する特徴ベク
トル作成手段と、特徴ベクトル作成手段により作成され
た特徴ベクトルの組を特異値分解する特異値分解手段
と、特異値分解の結果から文書間の類似度を計算するた
めの文書類似ベクトルを作成する文書類似ベクトル作成
手段と、文書類似ベクトル作成手段により作成された文
書類似ベクトルの組により文書データベース中の全てま
たは一部の文書を対象にクラスタを作成するクラスタ作
成手段と、作成されたクラスタの情報を格納するクラス
タ情報テーブルと、クラスタ情報テーブルを参照してク
ラスタ作成手段でのクラスタリングの対象となる文書を
文書データベースから選択するクラスタリングデータ選
択手段とを設け、クラスタ作成手段は、クラスタリング
対象の文書に対して、文書類似ベクトルを用いて、文書
とクラスタ重心との距離を算出し、さらに同一のクラス
タリング対象の文書に対して、一回目のクラスタリング
に利用した文書類似ベクトルの次元数を適度な範囲で増
加させて二回目のクラスタリングを行い、二回のクラス
タリング結果を比較して、変化の少ないクラスタを安定
したクラスタとして判別し、クラスタリングデータ選択
手段は、安定したクラスタに割り当てられた文書をクラ
スタリング対象から取り除いて、クラスタ作成手段が次
に行うクラスタリングの対象を選定し、クラスタ作成手
段とクラスタリングデータ選択手段との間で、この試行
を繰り返すように構成している。
【0008】また、クラスタ作成手段は、クラスタリン
グ対象の文書に対して、文書類似ベクトルを用いて、文
書とクラスタ重心との距離を算出し、さらに同一のクラ
スタリング対象の文書に対して、一回目のクラスタリン
グに利用した文書類似ベクトルの次元数を適度な範囲で
増加させて二回目のクラスタリングを行い、二回のクラ
スタリング結果を比較して、変化の大きいクラスタを不
安定なクラスタとして判別し、クラスタリングデータ選
択手段は、不安定なクラスタに割り当てられた文書をク
ラスタリング対象から取り除いて、クラスタ作成手段が
次に行うクラスタリングの対象を選定し、クラスタ作成
手段とクラスタリングデータ選択手段との間で、この試
行を繰り返すように構成している。
グ対象の文書に対して、文書類似ベクトルを用いて、文
書とクラスタ重心との距離を算出し、さらに同一のクラ
スタリング対象の文書に対して、一回目のクラスタリン
グに利用した文書類似ベクトルの次元数を適度な範囲で
増加させて二回目のクラスタリングを行い、二回のクラ
スタリング結果を比較して、変化の大きいクラスタを不
安定なクラスタとして判別し、クラスタリングデータ選
択手段は、不安定なクラスタに割り当てられた文書をク
ラスタリング対象から取り除いて、クラスタ作成手段が
次に行うクラスタリングの対象を選定し、クラスタ作成
手段とクラスタリングデータ選択手段との間で、この試
行を繰り返すように構成している。
【0009】また、文書データベースと、辞書と、特異
値分解結果と、クラスタ情報テーブルとを参照して、ク
ラスタごとのラベルを抽出するラベル抽出手段を設け、
ラベル抽出手段は、クラスタの重心での前記単語の擬似
的な出現頻度を表現した特徴ベクトルを算出し、当該ク
ラスタに割り当てられた文書中から、前記特徴ベクトル
に含まれる出現頻度の大きな単語の周辺に出現する文字
列をラベルとして抽出するように構成している。
値分解結果と、クラスタ情報テーブルとを参照して、ク
ラスタごとのラベルを抽出するラベル抽出手段を設け、
ラベル抽出手段は、クラスタの重心での前記単語の擬似
的な出現頻度を表現した特徴ベクトルを算出し、当該ク
ラスタに割り当てられた文書中から、前記特徴ベクトル
に含まれる出現頻度の大きな単語の周辺に出現する文字
列をラベルとして抽出するように構成している。
【0010】また、クラスタ作成手段により作成された
クラスタの間の階層関係を設定するクラスタ階層関係決
定手段を設け、クラスタ階層関係決定手段は、任意のク
ラスタCが安定したクラスタであると判定されたときの
次元数を当該クラスタの安定次元d(C)として定義す
るとき、クラスタCの安定次元d(C)より安定次元が
低いクラスタC’に属する全ての文書とクラスタCの重
心g(C)とのd(C)次元における距離が一定の距離
R(C)以内にある場合に、クラスタCをクラスタC’
の上位クラスタに階層化するように構成している。
クラスタの間の階層関係を設定するクラスタ階層関係決
定手段を設け、クラスタ階層関係決定手段は、任意のク
ラスタCが安定したクラスタであると判定されたときの
次元数を当該クラスタの安定次元d(C)として定義す
るとき、クラスタCの安定次元d(C)より安定次元が
低いクラスタC’に属する全ての文書とクラスタCの重
心g(C)とのd(C)次元における距離が一定の距離
R(C)以内にある場合に、クラスタCをクラスタC’
の上位クラスタに階層化するように構成している。
【0011】そのため、本発明の文書データ・クラスタ
リングシステムでは、文書類似ベクトルの次元数を徐々
に増加させて、段階的にクラスタリングを繰り返すこと
により、クラスタ数を事前に決定していなくても、クラ
スタリング対象に応じたクラスタ数を決定することがで
きる。
リングシステムでは、文書類似ベクトルの次元数を徐々
に増加させて、段階的にクラスタリングを繰り返すこと
により、クラスタ数を事前に決定していなくても、クラ
スタリング対象に応じたクラスタ数を決定することがで
きる。
【0012】また、ラベル抽出手段が、クラスタの内容
を表す文字列を、そのクラスタに属する文書から抽出す
ることができる。
を表す文字列を、そのクラスタに属する文書から抽出す
ることができる。
【0013】また、クラスタ階層関係決定手段が、段階
的なクラスタリングで生成されたクラスタ間の階層化を
設定し、人間の直感に一致するクラスタ間の階層関係を
生成することができる。
的なクラスタリングで生成されたクラスタ間の階層化を
設定し、人間の直感に一致するクラスタ間の階層関係を
生成することができる。
【0014】
【発明の実施の形態】(第1の実施形態)第1の実施形
態の文書データ・クラスタリングシステムは、図1に示
すように、文書データを格納する文書データベース101
と、単語を格納した機械可読な辞書102と、クラスタリ
ング対象の文書における単語出現頻度から特徴ベクトル
を作成する特徴ベクトル作成手段103と、特徴ベクトル
データを特異値分解する特異値分解手段105と、特徴ベ
クトルの次元を縮小した文書類似ベクトルを作成する文
書類似ベクトル作成手段107と、クラスタリング対象の
文書を選択するクラスタリング対象データ選択手段109
と、文書類似ベクトルを基にしてクラスタリング対象文
書のクラスタを作成するクラスタ作成手段110と、クラ
スタ作成手段110により作成されたクラスタの情報を格
納するクラスタ情報テーブル111と、クラスタリング結
果を表示する結果表示手段112とを備えている。
態の文書データ・クラスタリングシステムは、図1に示
すように、文書データを格納する文書データベース101
と、単語を格納した機械可読な辞書102と、クラスタリ
ング対象の文書における単語出現頻度から特徴ベクトル
を作成する特徴ベクトル作成手段103と、特徴ベクトル
データを特異値分解する特異値分解手段105と、特徴ベ
クトルの次元を縮小した文書類似ベクトルを作成する文
書類似ベクトル作成手段107と、クラスタリング対象の
文書を選択するクラスタリング対象データ選択手段109
と、文書類似ベクトルを基にしてクラスタリング対象文
書のクラスタを作成するクラスタ作成手段110と、クラ
スタ作成手段110により作成されたクラスタの情報を格
納するクラスタ情報テーブル111と、クラスタリング結
果を表示する結果表示手段112とを備えている。
【0015】なお、図1において、104は、特徴ベクト
ル作成手段103によって作成されて格納された特徴ベク
トル組、106は、特異値分解手段105によって作成されて
格納された特異値分解結果、また、108は、文書類似ベ
クトル作成手段107によって作成されて格納された文書
類似ベクトル組を表している。
ル作成手段103によって作成されて格納された特徴ベク
トル組、106は、特異値分解手段105によって作成されて
格納された特異値分解結果、また、108は、文書類似ベ
クトル作成手段107によって作成されて格納された文書
類似ベクトル組を表している。
【0016】次に、以上の構成を有する文書データ・ク
ラスタリングシステムの動作を図2から図10を用いて
説明する。
ラスタリングシステムの動作を図2から図10を用いて
説明する。
【0017】まず、文書データから文書類似ベクトルを
作成するまでの処理手順について説明する。図3は、こ
の処理手順を表すフローチャートである。
作成するまでの処理手順について説明する。図3は、こ
の処理手順を表すフローチャートである。
【0018】ステップ302:特徴ベクトル作成手段103
は、辞書102を参照しながら、文書データベース101中の
文書について、その単語出現頻度の統計的情報により特
徴ベクトル104を作成する。
は、辞書102を参照しながら、文書データベース101中の
文書について、その単語出現頻度の統計的情報により特
徴ベクトル104を作成する。
【0019】特徴ベクトル作成手段103は、辞書102を参
照し、この辞書102に記載された単語の文書における出
現頻度を求め、各単語の出現頻度を当該文書に対する特
徴ベクトルの要素の値とする。特徴ベクトルの次元数は
辞書中の全単語数に一致し、特徴ベクトル数は文書数に
一致する。当該文書に出現しない単語の頻度は0とな
る。
照し、この辞書102に記載された単語の文書における出
現頻度を求め、各単語の出現頻度を当該文書に対する特
徴ベクトルの要素の値とする。特徴ベクトルの次元数は
辞書中の全単語数に一致し、特徴ベクトル数は文書数に
一致する。当該文書に出現しない単語の頻度は0とな
る。
【0020】図4は、文書内の単語の出現頻度を基にし
た特徴ベクトルの例である。文書識別子0001の文書
1には、辞書102に収録された単語1が13回、単語2
が0回、単語3が4回出現していることを表している。
た特徴ベクトルの例である。文書識別子0001の文書
1には、辞書102に収録された単語1が13回、単語2
が0回、単語3が4回出現していることを表している。
【0021】なお、特徴ベクトルの要素は、出現頻度だ
けでなく、図5に示すように、出現頻度を文書長で除算
して正規化した値や、図6に示すように、出現頻度を文
書内での単語の出現頻度の総和で除算して正規化した値
や、また、情報検索の分野で広く用いられている、文書
内出現頻度と全文書中での出現頻度とを考慮したtf・
idf値などを用いることができる。特徴ベクトルの要
素は、出現頻度を基に算出される統計的情報であればど
のような値でも構わない。
けでなく、図5に示すように、出現頻度を文書長で除算
して正規化した値や、図6に示すように、出現頻度を文
書内での単語の出現頻度の総和で除算して正規化した値
や、また、情報検索の分野で広く用いられている、文書
内出現頻度と全文書中での出現頻度とを考慮したtf・
idf値などを用いることができる。特徴ベクトルの要
素は、出現頻度を基に算出される統計的情報であればど
のような値でも構わない。
【0022】ステップ303:特異値分解手段105は、ステ
ップ302で得られた特徴ベクトル組について、特異値分
解を行う。
ップ302で得られた特徴ベクトル組について、特異値分
解を行う。
【0023】特徴ベクトル組を行列Xで表現すると、行
数は特徴ベクトル数、列数は特徴ベクトルの次元数、す
なわち辞書103中の単語数となる。行列Xを階数r、行
数m、列数nとすれば、特異値分解により、3つの行列
D、S、Tに分解できる(T’はTの転置行列を表
す)。 X=DST’ (式1) ここで、Sは、行列Xの特異値を対角要素とするr×r
の対角行列であり、Dはm×r、Tはn×rの列直交行
列(TT’=DD’=I、Iは単位行列)となる。こう
して、特徴ベクトルを特異値分解し、特異値分解結果10
6を得る。
数は特徴ベクトル数、列数は特徴ベクトルの次元数、す
なわち辞書103中の単語数となる。行列Xを階数r、行
数m、列数nとすれば、特異値分解により、3つの行列
D、S、Tに分解できる(T’はTの転置行列を表
す)。 X=DST’ (式1) ここで、Sは、行列Xの特異値を対角要素とするr×r
の対角行列であり、Dはm×r、Tはn×rの列直交行
列(TT’=DD’=I、Iは単位行列)となる。こう
して、特徴ベクトルを特異値分解し、特異値分解結果10
6を得る。
【0024】特異値分解を行った場合は、行列Sから対
角要素の大きい順にs個の要素を取り出して低階数近似
を行うことができ、このとき、低階数近似で得た特徴ベ
クトルの次元数は元の特徴ベクトル組の次元数よりも少
なくなる。
角要素の大きい順にs個の要素を取り出して低階数近似
を行うことができ、このとき、低階数近似で得た特徴ベ
クトルの次元数は元の特徴ベクトル組の次元数よりも少
なくなる。
【0025】ステップ305:文書類似ベクトル作成手段1
07は、特異値分解結果106を用いて、文書間の類似度を
算出するための文書類似ベクトル組を作成する。
07は、特異値分解結果106を用いて、文書間の類似度を
算出するための文書類似ベクトル組を作成する。
【0026】前記特徴ベクトル組104の行列表現Xを用
いると、文書間の類似度はXX’という行列で表現でき
る。したがって、文書間の類似度行列は、(式1)で与
えられる特異値分解結果から、 XX’=DST’TSD’=DSSD’=(DS)(DS)’(式2) と変形できる。行列DSはm×rの行列であり、行数は
文書数mに一致し、列数は行列Xの階数rに一致する。
この行列DSの行ベクトルを文書類似ベクトルとする。
いると、文書間の類似度はXX’という行列で表現でき
る。したがって、文書間の類似度行列は、(式1)で与
えられる特異値分解結果から、 XX’=DST’TSD’=DSSD’=(DS)(DS)’(式2) と変形できる。行列DSはm×rの行列であり、行数は
文書数mに一致し、列数は行列Xの階数rに一致する。
この行列DSの行ベクトルを文書類似ベクトルとする。
【0027】なお、特異値分解で得られる行列Sの対角
要素は、主成分分析における主成分に相当するので、次
元数が多いほど、より多くの情報をもつ。
要素は、主成分分析における主成分に相当するので、次
元数が多いほど、より多くの情報をもつ。
【0028】次に、このシステムでのクラスタリング処
理の処理手順について説明する。図2は、この処理手順
を表すフローチャートである。
理の処理手順について説明する。図2は、この処理手順
を表すフローチャートである。
【0029】ステップ202:クラスタリング対象データ
選択手段109は、文書データベース101の全文書(全要
素)をクラスタリング対象として、クラスタ情報テーブ
ル111に加える。
選択手段109は、文書データベース101の全文書(全要
素)をクラスタリング対象として、クラスタ情報テーブ
ル111に加える。
【0030】図7はクラスタ情報テーブル111の記述例
を示す。このテーブルのレコード数は文書データベース
101内の文書数であり、少なくとも文書を特定する文書
識別子と、その文書が割り当てられたクラスタの識別子
のフィールドと、その文書がクラスタリング対象である
ことを示すフラグとを有する。図7では、ステップ202
の結果、文書データベース101内の全文書がクラスタ識
別子0のクラスタに割り当てられていること、及び全て
の文書がクラスタリング対象であることを示している。
ここで、クラスタ識別子0は、クラスタリングが一度も
行われていないので、仮想的なクラスタを示している。
なお、クラスタリング対象フラグとして、1はクラスタ
リング対象、0はクラスタリング対象外であることを示
す。
を示す。このテーブルのレコード数は文書データベース
101内の文書数であり、少なくとも文書を特定する文書
識別子と、その文書が割り当てられたクラスタの識別子
のフィールドと、その文書がクラスタリング対象である
ことを示すフラグとを有する。図7では、ステップ202
の結果、文書データベース101内の全文書がクラスタ識
別子0のクラスタに割り当てられていること、及び全て
の文書がクラスタリング対象であることを示している。
ここで、クラスタ識別子0は、クラスタリングが一度も
行われていないので、仮想的なクラスタを示している。
なお、クラスタリング対象フラグとして、1はクラスタ
リング対象、0はクラスタリング対象外であることを示
す。
【0031】ステップ203:クラスタ作成手段110は、パ
ラメタとして、一回のクラスタリングで作成するクラス
タ数kと、クラスタ数の増分Δkと、クラスタ割り当て
時に利用する文書類似ベクトルの次元数d及び次元数の
増分Δdとを設定する。
ラメタとして、一回のクラスタリングで作成するクラス
タ数kと、クラスタ数の増分Δkと、クラスタ割り当て
時に利用する文書類似ベクトルの次元数d及び次元数の
増分Δdとを設定する。
【0032】クラスタ数kは、1以上、文書データベー
スの文書数以下であればよい。クラスタ数の増分Δk
は、0または、その絶対値が1から文書データベースの
文書数以下であればよい。次元数d及び次元数の増分Δ
dは、ステップ303で算出された行列Sの階数r以下で
あればよい。
スの文書数以下であればよい。クラスタ数の増分Δk
は、0または、その絶対値が1から文書データベースの
文書数以下であればよい。次元数d及び次元数の増分Δ
dは、ステップ303で算出された行列Sの階数r以下で
あればよい。
【0033】ステップ204:クラスタ作成手段110は、ク
ラスタ情報テーブル111を参照して、クラスタリング対
象文書数を調べる。クラスタリングが一度も行われてい
ない状態では、全ての文書がクラスタリング対象となる
ので、クラスタリング対象文書数は文書データベース中
の文書数に一致し、ステップ205へ進む。
ラスタ情報テーブル111を参照して、クラスタリング対
象文書数を調べる。クラスタリングが一度も行われてい
ない状態では、全ての文書がクラスタリング対象となる
ので、クラスタリング対象文書数は文書データベース中
の文書数に一致し、ステップ205へ進む。
【0034】ステップ205:ステップ305で得られた文書
類似ベクトル組108を用いて、K平均法と呼ばれる非階
層クラスタリングを行う。
類似ベクトル組108を用いて、K平均法と呼ばれる非階
層クラスタリングを行う。
【0035】K平均法では、以下のようなアルゴリズム
でクラスタリングを行う。まず、初期値としてk個のク
ラスタ重心点を与える。クラスタリング対象の文書(=
要素)ごとにk個のクラスタ重心との距離を計算し、最
も近いクラスタ重心のクラスタにその要素を割り当て
る。全ての要素について割り当てが終わったら、k個の
クラスタごとにその要素から重心を求め、これを新たな
重心点とし、再び各要素のクラスタへの割り当てを行
う。各要素はクラスタの割り当てごとに、別のクラスタ
に割り当てられる可能性があるが、全ての要素につい
て、直前のクラスタと新しく割り当てられるクラスタと
の一致しない数が一定数以下になった場合に割り当ては
終了する。
でクラスタリングを行う。まず、初期値としてk個のク
ラスタ重心点を与える。クラスタリング対象の文書(=
要素)ごとにk個のクラスタ重心との距離を計算し、最
も近いクラスタ重心のクラスタにその要素を割り当て
る。全ての要素について割り当てが終わったら、k個の
クラスタごとにその要素から重心を求め、これを新たな
重心点とし、再び各要素のクラスタへの割り当てを行
う。各要素はクラスタの割り当てごとに、別のクラスタ
に割り当てられる可能性があるが、全ての要素につい
て、直前のクラスタと新しく割り当てられるクラスタと
の一致しない数が一定数以下になった場合に割り当ては
終了する。
【0036】ステップ205では、クラスタ情報テーブル1
11中のクラスタリング対象となっている文書について、
K平均法によりクラスタリングを行う。ここで、クラス
タ重心と各要素の文書類似ベクトルとの間の距離計算、
及び、重心算出時に、r次元の文書類似ベクトルの第1
次元から第d次元までの要素を用いる。また、このとき
各クラスタ初期重心点と、クラスタに含まれる文書の文
書識別子のリストとを記録しておく。ステップ205の結
果、k個のクラスタが生成される。
11中のクラスタリング対象となっている文書について、
K平均法によりクラスタリングを行う。ここで、クラス
タ重心と各要素の文書類似ベクトルとの間の距離計算、
及び、重心算出時に、r次元の文書類似ベクトルの第1
次元から第d次元までの要素を用いる。また、このとき
各クラスタ初期重心点と、クラスタに含まれる文書の文
書識別子のリストとを記録しておく。ステップ205の結
果、k個のクラスタが生成される。
【0037】ステップ206:利用次元数dをrに満たな
い範囲で適度に増加させる。次元数dの増分をΔdとす
れば、d+Δdがdとなる。例えば、dが100、増分
を50とすれば、新しい利用次元数は150になる。 ステップ207:ステップ205と同様にK平均法によりk個
のクラスタを作成する。ここでのクラスタリングでは、
利用する次元数がステップ205の場合よりも大きくなっ
ているので、より多くの情報を用いて、クラスタリング
が行われる。このとき、初期重心は、ステップ205で用
いたものと同じ点を利用する。同じ初期重心を利用する
ことで、ステップ205で得られたクラスタとステップ207
で得られたクラスタとの対応づけが可能になる。このと
きクラスタに含まれる文書の文書識別子のリストを記録
しておく。
い範囲で適度に増加させる。次元数dの増分をΔdとす
れば、d+Δdがdとなる。例えば、dが100、増分
を50とすれば、新しい利用次元数は150になる。 ステップ207:ステップ205と同様にK平均法によりk個
のクラスタを作成する。ここでのクラスタリングでは、
利用する次元数がステップ205の場合よりも大きくなっ
ているので、より多くの情報を用いて、クラスタリング
が行われる。このとき、初期重心は、ステップ205で用
いたものと同じ点を利用する。同じ初期重心を利用する
ことで、ステップ205で得られたクラスタとステップ207
で得られたクラスタとの対応づけが可能になる。このと
きクラスタに含まれる文書の文書識別子のリストを記録
しておく。
【0038】ステップ208:ステップ205のクラスタリン
グ結果と、クラスタリングに利用する情報を増加させて
クラスタリングしたステップ207の結果とを比較するこ
とにより、それ以上のクラスタリングが不要であるクラ
スタを判別する。情報量を増やしてもクラスタに割り当
てられた文書が変動しないクラスタは、それ以上の情報
を与えてもクラスタリング結果は変わらないと判断でき
る。
グ結果と、クラスタリングに利用する情報を増加させて
クラスタリングしたステップ207の結果とを比較するこ
とにより、それ以上のクラスタリングが不要であるクラ
スタを判別する。情報量を増やしてもクラスタに割り当
てられた文書が変動しないクラスタは、それ以上の情報
を与えてもクラスタリング結果は変わらないと判断でき
る。
【0039】判別の手順は、まず、ステップ205及びス
テップ207で得られたクラスタごとに、それぞれ割り当
てられている文書の有無を比較し、一致度を調べる。
テップ207で得られたクラスタごとに、それぞれ割り当
てられている文書の有無を比較し、一致度を調べる。
【0040】図8は、あるクラスタについて、2回のク
ラスタリングの結果、割り当てられた文書を比較したも
のである。2行目はステップ205、すなわち、次元数d
を用いて作成したクラスタに含まれる文書を、3行目は
ステップ207、すなわち次元数d+Δdを用いて作成し
たクラスタに含まれる文書を、それぞれ示している。図
中で0は、その文書がクラスタに含まれていないこと
を、1はクラスタに含まれていることを示す。一致度
は、2回のクラスタリング結果に共通して含まれている
文書数と総文書数との比で与えるなどとすればよい。
ラスタリングの結果、割り当てられた文書を比較したも
のである。2行目はステップ205、すなわち、次元数d
を用いて作成したクラスタに含まれる文書を、3行目は
ステップ207、すなわち次元数d+Δdを用いて作成し
たクラスタに含まれる文書を、それぞれ示している。図
中で0は、その文書がクラスタに含まれていないこと
を、1はクラスタに含まれていることを示す。一致度
は、2回のクラスタリング結果に共通して含まれている
文書数と総文書数との比で与えるなどとすればよい。
【0041】図8では、1回目のクラスタリングで合計
100個の文書が、2回目のクラスタリングで合計11
0個の文書がそれぞれ割り当てられ、共通に含まれてい
る文書数が95である場合を示している。このとき一致
度は95/(100+110)=0.45となる。各ク
ラスタについて、適当なしきい値を与え、その一致度が
高いものは安定したクラスタとし、それ以外のクラスタ
は不安定なクラスタとする。
100個の文書が、2回目のクラスタリングで合計11
0個の文書がそれぞれ割り当てられ、共通に含まれてい
る文書数が95である場合を示している。このとき一致
度は95/(100+110)=0.45となる。各ク
ラスタについて、適当なしきい値を与え、その一致度が
高いものは安定したクラスタとし、それ以外のクラスタ
は不安定なクラスタとする。
【0042】また、一致度で不安定なクラスタを判断す
るだけでなく、クラスタに割り当てられた文書数と全文
書数との比などを用いて、不安定なクラスタを判断して
もよい。
るだけでなく、クラスタに割り当てられた文書数と全文
書数との比などを用いて、不安定なクラスタを判断して
もよい。
【0043】ステップ208:次に、安定したクラスタに
含まれる文書については、それ以上のクラスタリングは
不要であるので、クラスタ情報テーブル111のクラスタ
リング対象フラグを不要に設定する。不安定なクラスタ
に含まれる文書については、クラスタリング対象フラグ
を変化させないでおき、再クラスタリングの対象とす
る。クラスタ情報テーブル111には、安定したクラスタ
に含まれる文書のクラスタ番号のフィールドに2回目に
割り当てられたクラスタ番号を記録しておく。
含まれる文書については、それ以上のクラスタリングは
不要であるので、クラスタ情報テーブル111のクラスタ
リング対象フラグを不要に設定する。不安定なクラスタ
に含まれる文書については、クラスタリング対象フラグ
を変化させないでおき、再クラスタリングの対象とす
る。クラスタ情報テーブル111には、安定したクラスタ
に含まれる文書のクラスタ番号のフィールドに2回目に
割り当てられたクラスタ番号を記録しておく。
【0044】図9は、更新されたクラスタ情報テーブル
111の例を示している。文書識別子0001、0003
は安定したクラスタ1001に、また、文書識別子00
04、mは安定したクラスタ1002に割り当てられて
いる。文書識別子0002,0005は再クラスタリン
グ対象であるので、クラスタリング対象フラグが0にな
っている。
111の例を示している。文書識別子0001、0003
は安定したクラスタ1001に、また、文書識別子00
04、mは安定したクラスタ1002に割り当てられて
いる。文書識別子0002,0005は再クラスタリン
グ対象であるので、クラスタリング対象フラグが0にな
っている。
【0045】ステップ209:ステップ208の後、作成クラ
スタ数kをステップ203で与えたΔkだけ増加させる。
Δkが0の場合はクラスタ数は変化しない。
スタ数kをステップ203で与えたΔkだけ増加させる。
Δkが0の場合はクラスタ数は変化しない。
【0046】続いてステップ204へ移り、再びクラスタ
情報テーブル111を参照してクラスタリング対象文書数
を調べる。
情報テーブル111を参照してクラスタリング対象文書数
を調べる。
【0047】ステップ208で、全てのクラスタが安定し
たクラスタであると判断された場合は、クラスタリング
対象の文書は存在しないのでステップ210へ移り、クラ
スタリング処理が終了する。クラスタリング対象文書が
存在した場合は再びステップ205から208までを繰り返
す。ただし、クラスタ割り当て時に利用する文書類似ベ
クトルの次元数はd+Δdである。
たクラスタであると判断された場合は、クラスタリング
対象の文書は存在しないのでステップ210へ移り、クラ
スタリング処理が終了する。クラスタリング対象文書が
存在した場合は再びステップ205から208までを繰り返
す。ただし、クラスタ割り当て時に利用する文書類似ベ
クトルの次元数はd+Δdである。
【0048】図10は、以上説明したステップ201から
ステップ210までに作成されるクラスタの変化を表す概
念図である。左側には、クラスタ数kとステップ207の
クラスタリング時に利用した文書類似ベクトルの次元数
を示す。kは7としてある。Δkは0である。最初のク
ラスタリングでは、3つの安定したクラスタ(図中の四
角)と、4つの不安定なクラスタ(斜線入りの四角)と
が作成されたことを示している。次の段階では、4つの
不安定なクラスタに割り当てられた文書をクラスタリン
グ対象として、クラスタリングを行った結果を表してい
る。
ステップ210までに作成されるクラスタの変化を表す概
念図である。左側には、クラスタ数kとステップ207の
クラスタリング時に利用した文書類似ベクトルの次元数
を示す。kは7としてある。Δkは0である。最初のク
ラスタリングでは、3つの安定したクラスタ(図中の四
角)と、4つの不安定なクラスタ(斜線入りの四角)と
が作成されたことを示している。次の段階では、4つの
不安定なクラスタに割り当てられた文書をクラスタリン
グ対象として、クラスタリングを行った結果を表してい
る。
【0049】このように、クラスタリングを繰り返すこ
とによって、4段階目は不安定なクラスタが無くなり、
クラスタ作成処理が終了したことを示している。
とによって、4段階目は不安定なクラスタが無くなり、
クラスタ作成処理が終了したことを示している。
【0050】以上の説明のように、この実施形態の文書
データ・クラスタリングシステムでは、文書データの特
異値分解を行い、文書間の距離計算に用いる情報を徐々
に増加させ、段階的にクラスタリングを繰り返し行うこ
とにより、クラスタ数を事前に決定していなくても、ク
ラスタリング対象に応じたクラスタ数を決定することが
でき、また、類似している文書だけを集約したクラスタ
が生成できる、という効果がある。
データ・クラスタリングシステムでは、文書データの特
異値分解を行い、文書間の距離計算に用いる情報を徐々
に増加させ、段階的にクラスタリングを繰り返し行うこ
とにより、クラスタ数を事前に決定していなくても、ク
ラスタリング対象に応じたクラスタ数を決定することが
でき、また、類似している文書だけを集約したクラスタ
が生成できる、という効果がある。
【0051】(第2の実施形態)第2の実施形態では、
クラスタリングした結果に対して、その内容を表す文字
列をラベリングするシステムについて説明する。
クラスタリングした結果に対して、その内容を表す文字
列をラベリングするシステムについて説明する。
【0052】このシステムは、図11に示すように、第
1の実施形態と同様に、文書データを格納する文書デー
タベース1101と、単語を格納した機械可読な辞書1102
と、特徴ベクトルを作成する特徴ベクトル作成手段1103
と、特徴ベクトル組を特異値分解する特異値分解手段11
05と、特異値分解結果を基に文書間の類似度を算出する
ための文書類似ベクトルを算出する文書類似ベクトル作
成手段1107と、結果表示手段1112とを備え、さらに、ク
ラスタを代表するラベルを抽出するラベル抽出手段1110
を備えている。
1の実施形態と同様に、文書データを格納する文書デー
タベース1101と、単語を格納した機械可読な辞書1102
と、特徴ベクトルを作成する特徴ベクトル作成手段1103
と、特徴ベクトル組を特異値分解する特異値分解手段11
05と、特異値分解結果を基に文書間の類似度を算出する
ための文書類似ベクトルを算出する文書類似ベクトル作
成手段1107と、結果表示手段1112とを備え、さらに、ク
ラスタを代表するラベルを抽出するラベル抽出手段1110
を備えている。
【0053】図11において、1104は特徴ベクトル作成
手段1103によって作成された特徴ベクトル組を、1106は
特異値分解手段1105により得られた特異値分解結果を、
1108は文書類似ベクトル作成手段1107により作成された
文書類似ベクトル組を示している。また、1109は、何ら
かの方法で、文書データベース中の文書を複数のクラス
タのいずれかに割り当て、第1の実施形態と同様の情報
を格納してあるクラスタ情報テーブルを表している。
手段1103によって作成された特徴ベクトル組を、1106は
特異値分解手段1105により得られた特異値分解結果を、
1108は文書類似ベクトル作成手段1107により作成された
文書類似ベクトル組を示している。また、1109は、何ら
かの方法で、文書データベース中の文書を複数のクラス
タのいずれかに割り当て、第1の実施形態と同様の情報
を格納してあるクラスタ情報テーブルを表している。
【0054】ラベル抽出手段1110は、文書データベース
1101と辞書1102と特異値分解結果1106と文書類似ベクト
ル組1108とクラスタ情報テーブル1109とを参照しなが
ら、クラスタを代表するラベルを抽出する。1111はラベ
ル抽出手段1108により抽出されたラベルを示している。
結果表示手段1112は、クラスタ情報テーブル1109と抽出
ラベル1111とを表示する。
1101と辞書1102と特異値分解結果1106と文書類似ベクト
ル組1108とクラスタ情報テーブル1109とを参照しなが
ら、クラスタを代表するラベルを抽出する。1111はラベ
ル抽出手段1108により抽出されたラベルを示している。
結果表示手段1112は、クラスタ情報テーブル1109と抽出
ラベル1111とを表示する。
【0055】以上の構成の文書データ・クラスタリング
システムの動作を図12から図14を用いて説明する。
システムの動作を図12から図14を用いて説明する。
【0056】図12は、このシステムの処理手順を表す
フローチャートである。ステップ1202:特徴ベクトル作
成手段1103は、文書データベース1101と辞書1102とを用
いて特徴ベクトル組1104を作成する。この手順は第1の
実施形態(図3)のステップ302と同様である。
フローチャートである。ステップ1202:特徴ベクトル作
成手段1103は、文書データベース1101と辞書1102とを用
いて特徴ベクトル組1104を作成する。この手順は第1の
実施形態(図3)のステップ302と同様である。
【0057】ステップ1203:次に特異値分解手段1105
は、特徴ベクトル組をもとに、特異値分解を行い特異値
分解結果1106を得る。この手順は第1の実施形態(図
3)のステップ303と同様である。
は、特徴ベクトル組をもとに、特異値分解を行い特異値
分解結果1106を得る。この手順は第1の実施形態(図
3)のステップ303と同様である。
【0058】特異値分解の結果、第1の実施形態の(式
1)と同様にして、特徴ベクトル組の行列表現X(m×
n)は、3つの行列D(m×r)、S(r×r)、T
(n×r)に分解される。ここで、mは文書データベー
ス中の文書数、nは辞書中の単語数、rは行列Xの階数
である。
1)と同様にして、特徴ベクトル組の行列表現X(m×
n)は、3つの行列D(m×r)、S(r×r)、T
(n×r)に分解される。ここで、mは文書データベー
ス中の文書数、nは辞書中の単語数、rは行列Xの階数
である。
【0059】ステップ1204:文書類似ベクトル作成手段
1107は、特異値分解結果から文書類似ベクトル1108を作
成する。この手順は第1の実施形態(図3)のステップ
304と同様である。
1107は、特異値分解結果から文書類似ベクトル1108を作
成する。この手順は第1の実施形態(図3)のステップ
304と同様である。
【0060】ステップ1205:次に、ラベル抽出手段1110
は、クラスタからのラベル抽出処理に移る。ステップ12
05では、全てのクラスタからラベルを抽出し終えたかど
うかを判断する。全てのクラスタについてラベル抽出を
終えていた場合は、処理は終了する(ステップ1210)。
ラベル抽出手段1106は、ラベル抽出を終えていないクラ
スタについて、クラスタからのラベル抽出処理を行う
(ステップ1206からステップ1209)。
は、クラスタからのラベル抽出処理に移る。ステップ12
05では、全てのクラスタからラベルを抽出し終えたかど
うかを判断する。全てのクラスタについてラベル抽出を
終えていた場合は、処理は終了する(ステップ1210)。
ラベル抽出手段1106は、ラベル抽出を終えていないクラ
スタについて、クラスタからのラベル抽出処理を行う
(ステップ1206からステップ1209)。
【0061】ステップ1206:まず、クラスタの重心ベク
トルgを求める。クラスタの重心ベクトルgの各要素
は、クラスタに割り当てられた文書に対応する文書類似
ベクトル1108の各要素ごとの平均値とする。クラスタ重
心ベクトルの次元数は文書類似ベクトルの次元数に一致
し、rとなる。
トルgを求める。クラスタの重心ベクトルgの各要素
は、クラスタに割り当てられた文書に対応する文書類似
ベクトル1108の各要素ごとの平均値とする。クラスタ重
心ベクトルの次元数は文書類似ベクトルの次元数に一致
し、rとなる。
【0062】ステップ1207:次に、クラスタの重心ベク
トルg(1×r)と、特異値分解結果1106とを利用し、
(式3)に示す計算方法で代表語ベクトルhを取得す
る。 h=gST’ (式3) (式3)の右辺は、(式1)における行列Dを重心ベク
トルgに置き換えたものであるので、hはクラスタの重
心ベクトルgに対応する特徴ベクトルを表すことにな
る。したがって、代表語ベクトルhの各要素は辞書1102
中の単語に対応し、要素の値はクラスタ重心に対する出
現頻度に対応する。
トルg(1×r)と、特異値分解結果1106とを利用し、
(式3)に示す計算方法で代表語ベクトルhを取得す
る。 h=gST’ (式3) (式3)の右辺は、(式1)における行列Dを重心ベク
トルgに置き換えたものであるので、hはクラスタの重
心ベクトルgに対応する特徴ベクトルを表すことにな
る。したがって、代表語ベクトルhの各要素は辞書1102
中の単語に対応し、要素の値はクラスタ重心に対する出
現頻度に対応する。
【0063】図13は、代表語ベクトルの例を示す。図
中で代表語ベクトルを点線で囲み、各要素に対応する単
語を左側に記述してある。
中で代表語ベクトルを点線で囲み、各要素に対応する単
語を左側に記述してある。
【0064】次に、代表語ベクトルの各要素に対応する
単語を辞書1102を参照して取得し、これらを代表語組と
する。各代表語にはそのスコアとして、代表語ベクトル
の対応する要素の値を記録しておく。代表語数は辞書11
02中の単語数に一致するが、スコアの小さなものを代表
語から取り除いてもよい。
単語を辞書1102を参照して取得し、これらを代表語組と
する。各代表語にはそのスコアとして、代表語ベクトル
の対応する要素の値を記録しておく。代表語数は辞書11
02中の単語数に一致するが、スコアの小さなものを代表
語から取り除いてもよい。
【0065】ステップ1208:続いて、代表語を用いて、
クラスタに割り当てられた文書に出現する代表語の周辺
にある文字列をラベル候補として抽出する。ここでは、
任意の2つの代表語に挟まれた文字列をラベル候補とす
る。
クラスタに割り当てられた文書に出現する代表語の周辺
にある文字列をラベル候補として抽出する。ここでは、
任意の2つの代表語に挟まれた文字列をラベル候補とす
る。
【0066】なお、代表語の周辺の文字列をラベルとし
て抽出する方法は、例えば代表語の品詞を考慮し、固有
名詞である代表語で始まりサ変動詞である代表語で終わ
る文字列をラベル候補とする、などの方法も考えられ
る。また、ラベル抽出元の文書はクラスタに割り当てら
れた全ての文書でもよいし、幾つかの選択した文書でも
よい。文書の選択方法としては、クラスタの重心ベクト
ルと文書類似ベクトルとの距離を算出し、その距離が近
いものから数文書を選択するなどという方法が考えられ
る。
て抽出する方法は、例えば代表語の品詞を考慮し、固有
名詞である代表語で始まりサ変動詞である代表語で終わ
る文字列をラベル候補とする、などの方法も考えられ
る。また、ラベル抽出元の文書はクラスタに割り当てら
れた全ての文書でもよいし、幾つかの選択した文書でも
よい。文書の選択方法としては、クラスタの重心ベクト
ルと文書類似ベクトルとの距離を算出し、その距離が近
いものから数文書を選択するなどという方法が考えられ
る。
【0067】ステップ1209:各ラベル候補について、ス
コアを計算し、スコアの大きなラベル候補をクラスタを
代表するラベルとして抽出する。スコア計算方法は幾つ
か考えられるが、一例として(式4)に示すような計算
方法がある。 (p×w1+(1−p)w2)/L (式4) ここで、pはラベル候補の先頭に位置する代表語のスコ
ア重みを表し、その値は0以上1以下である。w1、w
2はラベル候補の先頭に位置する代表語のスコア、末尾
に位置する代表語のスコアをそれぞれ表す。Lはラベル
候補の長さである。
コアを計算し、スコアの大きなラベル候補をクラスタを
代表するラベルとして抽出する。スコア計算方法は幾つ
か考えられるが、一例として(式4)に示すような計算
方法がある。 (p×w1+(1−p)w2)/L (式4) ここで、pはラベル候補の先頭に位置する代表語のスコ
ア重みを表し、その値は0以上1以下である。w1、w
2はラベル候補の先頭に位置する代表語のスコア、末尾
に位置する代表語のスコアをそれぞれ表す。Lはラベル
候補の長さである。
【0068】図14は、文書中から、ラベル候補を抽出
し、そのスコアを算出した例を示している。上段の例で
は、「生活」及び「水準」で挟まれた文字列として「生
活水準」が抽出され、そのスコアが、(式4)において
P=0.5として算出されている。下段の例では、「専
門」及び「連携」で挟まれた文字列として「専門性を生
かした連携」が抽出され、そのスコアが算出されてい
る。
し、そのスコアを算出した例を示している。上段の例で
は、「生活」及び「水準」で挟まれた文字列として「生
活水準」が抽出され、そのスコアが、(式4)において
P=0.5として算出されている。下段の例では、「専
門」及び「連携」で挟まれた文字列として「専門性を生
かした連携」が抽出され、そのスコアが算出されてい
る。
【0069】以上の説明のように、この実施形態の文書
データ・クラスタリングシステムでは、クラスタリング
された結果に対して、その内容を代表させた文字列をラ
ベルとして抽出することができ、クラスタを区別し、そ
の内容を推測させるための情報を提供できるという効果
がある。
データ・クラスタリングシステムでは、クラスタリング
された結果に対して、その内容を代表させた文字列をラ
ベルとして抽出することができ、クラスタを区別し、そ
の内容を推測させるための情報を提供できるという効果
がある。
【0070】(第3の実施形態)第3の実施形態では、
不安定なクラスタを対象から除いて、再クラスタリング
を繰り返し、類似している文書だけを集約したクラスタ
を生成するシステムについて説明する。
不安定なクラスタを対象から除いて、再クラスタリング
を繰り返し、類似している文書だけを集約したクラスタ
を生成するシステムについて説明する。
【0071】第1の実施形態では、再クラスタリングを
実施する場合に、安定しているクラスタを対象から除い
て再クラスタリングを実施しているが、第3の実施形態
のシステムでは、情報量を増やしてクラスタリングした
ときの不一致度が高い不安定なクラスタを対象から除い
て再クラスタリングを行う。
実施する場合に、安定しているクラスタを対象から除い
て再クラスタリングを実施しているが、第3の実施形態
のシステムでは、情報量を増やしてクラスタリングした
ときの不一致度が高い不安定なクラスタを対象から除い
て再クラスタリングを行う。
【0072】このシステムは、図15に示すように、ク
ラスタリング対象データ選択手段109として、文書デー
タベース101またはクラスタリング結果から、不安定な
クラスタを除き、残ったクラスタをクラスタリング対象
として、その文書データの識別子を選択する主要親クラ
スタリング対象データ選択手段1091を備えている。その
他の構成は、第1の実施形態(図1)と変わりが無い。
ラスタリング対象データ選択手段109として、文書デー
タベース101またはクラスタリング結果から、不安定な
クラスタを除き、残ったクラスタをクラスタリング対象
として、その文書データの識別子を選択する主要親クラ
スタリング対象データ選択手段1091を備えている。その
他の構成は、第1の実施形態(図1)と変わりが無い。
【0073】このシステムの動作を図16のフローチャ
ートに示している。図16において、ステップ202から
ステップ207までの手順は、第1の実施形態(図2)の
手順と同様である。
ートに示している。図16において、ステップ202から
ステップ207までの手順は、第1の実施形態(図2)の
手順と同様である。
【0074】ステップ208:ステップ205のクラスタリン
グ結果と、クラスタリングに利用する情報を増加させて
クラスタリングしたステップ207の結果とを比較するこ
とにより、クラスタの対象から外すクラスタを判別す
る。情報量を増やしてもクラスタに割り当てられた文書
が大きく変動するクラスタは、情報をさらに与えること
によりクラスタリング結果は更に大きく変動すると判断
する。
グ結果と、クラスタリングに利用する情報を増加させて
クラスタリングしたステップ207の結果とを比較するこ
とにより、クラスタの対象から外すクラスタを判別す
る。情報量を増やしてもクラスタに割り当てられた文書
が大きく変動するクラスタは、情報をさらに与えること
によりクラスタリング結果は更に大きく変動すると判断
する。
【0075】判別の手順は、まず、ステップ205及びス
テップ207で得られたクラスタごとに、それぞれ割り当
てられている文書の有無を比較し、一致度を調べる。図
17はあるクラスタについて、2回のクラスタリングの
結果、割り当てられた文書を比較したものである。2行
目はステップ205、すなわち、次元数dを用いて作成し
たクラスタに含まれる文書を、3行目はステップ207、
すなわち次元数d+Δdを用いて作成したクラスタに含
まれる文書を、それぞれ示している。図中で0はその文
書がクラスタに含まれていないことを、1はクラスタに
含まれていることを示す。一致度は2回のクラスタリン
グ結果に共通して含まれている文書数と総文書数との比
で与えるなどすればよい。図17では、1回目のクラス
タリングで合計100個の文書が、2回目のクラスタリ
ングで合計110個の文書がそれぞれ割り当てられ、相
互に共通しない文書数が40である場合を示している。
このとき、不一致度は40/(100+110)=0.
18となる。
テップ207で得られたクラスタごとに、それぞれ割り当
てられている文書の有無を比較し、一致度を調べる。図
17はあるクラスタについて、2回のクラスタリングの
結果、割り当てられた文書を比較したものである。2行
目はステップ205、すなわち、次元数dを用いて作成し
たクラスタに含まれる文書を、3行目はステップ207、
すなわち次元数d+Δdを用いて作成したクラスタに含
まれる文書を、それぞれ示している。図中で0はその文
書がクラスタに含まれていないことを、1はクラスタに
含まれていることを示す。一致度は2回のクラスタリン
グ結果に共通して含まれている文書数と総文書数との比
で与えるなどすればよい。図17では、1回目のクラス
タリングで合計100個の文書が、2回目のクラスタリ
ングで合計110個の文書がそれぞれ割り当てられ、相
互に共通しない文書数が40である場合を示している。
このとき、不一致度は40/(100+110)=0.
18となる。
【0076】各クラスタについて、適当なしきい値を与
え、その不一致が高いものは不安定なクラスタとして除
外し、それ以外を安定したクラスタとする。なお、不一
致度で不安定なクラスタを判断するだけでなく、クラス
タに割り当てられた文書数と全文書数との比などを用い
て不安定なクラスタを判断してもよい。
え、その不一致が高いものは不安定なクラスタとして除
外し、それ以外を安定したクラスタとする。なお、不一
致度で不安定なクラスタを判断するだけでなく、クラス
タに割り当てられた文書数と全文書数との比などを用い
て不安定なクラスタを判断してもよい。
【0077】次に、不安定なクラスタに含まれる文書に
ついては、クラスタ情報テーブル111のクラスタリング
対象フラグを不要に設定する。安定なクラスタに含まれ
る文書については、クラスタリング対象フラグを変化さ
せないでおき、再クラスタリング対象とする。クラスタ
情報テーブル111の、安定したクラスタに含まれる文書
のクラスタ番号のフィールドには2回目に割り当てられ
たクラスタ番号を記録しておく。
ついては、クラスタ情報テーブル111のクラスタリング
対象フラグを不要に設定する。安定なクラスタに含まれ
る文書については、クラスタリング対象フラグを変化さ
せないでおき、再クラスタリング対象とする。クラスタ
情報テーブル111の、安定したクラスタに含まれる文書
のクラスタ番号のフィールドには2回目に割り当てられ
たクラスタ番号を記録しておく。
【0078】図18は、更新されたクラスタ情報テーブ
ル111の例を示している。文書識別子0001、000
3は安定したクラスタ1001に、文書識別子000
4、mは安定したクラスタ1002に割り当てられ、再
クラスタリング対象であるので、クラスタリング対象フ
ラグが1になっている。文書識別子0002、0005
は再クラスタリング対象から除外されるので、クラスタ
リング対象フラグが0になっている。
ル111の例を示している。文書識別子0001、000
3は安定したクラスタ1001に、文書識別子000
4、mは安定したクラスタ1002に割り当てられ、再
クラスタリング対象であるので、クラスタリング対象フ
ラグが1になっている。文書識別子0002、0005
は再クラスタリング対象から除外されるので、クラスタ
リング対象フラグが0になっている。
【0079】ステップ208以降については、図1と同様
の処理が行われる。こうすることで、安定したクラスタ
を更にクラスタリングすることができる。
の処理が行われる。こうすることで、安定したクラスタ
を更にクラスタリングすることができる。
【0080】図19は、クラスタの変化を表す概念図で
ある。左側には、クラスタ数kとステップ207のクラス
タリング時に利用した文書類似ベクトルの次元数を示
す。kは7としてある。Δkは0である。最初のクラス
タリングでは、3つの安定したクラスタ(図中の四角)
と、4つの不安定なクラスタ(斜線入りの四角)とが作
成されたことを示している。次の段階では、3つの安定
なクラスタに割り当てられた文書をクラスタリング対象
として、クラスタリングを行った結果を表している。
ある。左側には、クラスタ数kとステップ207のクラス
タリング時に利用した文書類似ベクトルの次元数を示
す。kは7としてある。Δkは0である。最初のクラス
タリングでは、3つの安定したクラスタ(図中の四角)
と、4つの不安定なクラスタ(斜線入りの四角)とが作
成されたことを示している。次の段階では、3つの安定
なクラスタに割り当てられた文書をクラスタリング対象
として、クラスタリングを行った結果を表している。
【0081】このように、クラスタリングを繰り返すこ
とによって、類似している文書だけを集約したクラスタ
を生成することができる。
とによって、類似している文書だけを集約したクラスタ
を生成することができる。
【0082】以上の説明のように、この実施形態の文書
データ・クラスタリングシステムでは、文書データの特
異値分解を行い、文書間の距離計算に用いる情報を徐々
に増加させ、段階的にクラスタリングを繰り返し行うこ
とにより、クラスタ数を事前に決定していなくても、ク
ラスタリング対象に応じたクラスタ数が決定でき、ま
た、類似している文書だけを集約したクラスタを生成す
ることができる、という効果がある。
データ・クラスタリングシステムでは、文書データの特
異値分解を行い、文書間の距離計算に用いる情報を徐々
に増加させ、段階的にクラスタリングを繰り返し行うこ
とにより、クラスタ数を事前に決定していなくても、ク
ラスタリング対象に応じたクラスタ数が決定でき、ま
た、類似している文書だけを集約したクラスタを生成す
ることができる、という効果がある。
【0083】(第4の実施形態)第4の実施形態では、
文書データを階層的に分類する文書データ・クラスタリ
ングシステムについて説明する。
文書データを階層的に分類する文書データ・クラスタリ
ングシステムについて説明する。
【0084】このシステムでの階層化の基本的な考え方
は以下の通りである。第1の実施形態では、クラスタを
作成する過程において、使用する次元数を増やしなが
ら、安定したクラスタを随時除いて行き、残った要素
を、より大きな次元を持つ空間でクラスタリングする、
という段階的なクラスタリングを実現している。
は以下の通りである。第1の実施形態では、クラスタを
作成する過程において、使用する次元数を増やしなが
ら、安定したクラスタを随時除いて行き、残った要素
を、より大きな次元を持つ空間でクラスタリングする、
という段階的なクラスタリングを実現している。
【0085】このような段階的なクラスタリングでは、
より密集したクラスタが早期に安定し、より広がりをも
ったクラスタが後になって生成され易い、という傾向が
認められる。そのため、より密集したクラスタ、すなわ
ち、より特定のテーマに関連した文書からなるクラスタ
が、早期に生成され、より疎なクラスタ、すなわち、よ
り一般的なテーマの下で纏められる文書からなるクラス
タが、後から生成され易い。
より密集したクラスタが早期に安定し、より広がりをも
ったクラスタが後になって生成され易い、という傾向が
認められる。そのため、より密集したクラスタ、すなわ
ち、より特定のテーマに関連した文書からなるクラスタ
が、早期に生成され、より疎なクラスタ、すなわち、よ
り一般的なテーマの下で纏められる文書からなるクラス
タが、後から生成され易い。
【0086】この場合、より一般的なテーマに関連した
文書クラスタを、より特定のテーマに関する文書クラス
タの上位クラスタとすることは、人間の行うクラスタ間
の階層化の直感にも一致する。
文書クラスタを、より特定のテーマに関する文書クラス
タの上位クラスタとすることは、人間の行うクラスタ間
の階層化の直感にも一致する。
【0087】したがって、クラスタリングの過程におい
て、段階的に求められたクラスタ間に自然な階層関係を
導入するには、より後になって安定した(安定次元の高
い)クラスタを、より先に安定して(安定次元の低い)
クラスタよりも階層において上位に位置させることが望
ましい。
て、段階的に求められたクラスタ間に自然な階層関係を
導入するには、より後になって安定した(安定次元の高
い)クラスタを、より先に安定して(安定次元の低い)
クラスタよりも階層において上位に位置させることが望
ましい。
【0088】ただし、上位クラスタは、下位クラスタの
テーマをカバーするというのが自然な直感であるから、
下位クラスタは、上位クラスタの重心から一定の範囲内
に収まっていることが望まれる。
テーマをカバーするというのが自然な直感であるから、
下位クラスタは、上位クラスタの重心から一定の範囲内
に収まっていることが望まれる。
【0089】これらの要件を満たすべく、各クラスタの
重心と当該クラスタが安定したと判定されたときの次元
とを参照し、先に安定したクラスタC’が、後で次元d
(C)で安定したクラスタCの重心から一定距離以内に
位置する場合、すなわち、次元d(C)において、クラ
スタCの重心からクラスタC’までの距離が、クラスタ
Cの大きさを示す一定距離の範囲内に収まる場合には、
CをC’の上位クラスタと位置付けることにより、段階
的に生成されたクラスタ間の階層関係を設定している。
重心と当該クラスタが安定したと判定されたときの次元
とを参照し、先に安定したクラスタC’が、後で次元d
(C)で安定したクラスタCの重心から一定距離以内に
位置する場合、すなわち、次元d(C)において、クラ
スタCの重心からクラスタC’までの距離が、クラスタ
Cの大きさを示す一定距離の範囲内に収まる場合には、
CをC’の上位クラスタと位置付けることにより、段階
的に生成されたクラスタ間の階層関係を設定している。
【0090】ここで、各クラスタの重心や、クラスタの
大きさを表す距離は、文書特徴ベクトル間の計算により
機械的に求めることができる計算可能な量である。
大きさを表す距離は、文書特徴ベクトル間の計算により
機械的に求めることができる計算可能な量である。
【0091】以上の考え方に従って、この実施形態の文
書データ・クラスタリングシステムは、クラスタリング
を実行する。
書データ・クラスタリングシステムは、クラスタリング
を実行する。
【0092】このシステムは、図20に示すように、第
1の実施形態(図1)と同様、文書データベース1901、
辞書1902、特徴ベクトル作成手段1903、特徴ベクトル組
1904、特異値分解手段1905、特異値分解結果1906、文書
類似ベクトル作成手段1907、文書類似ベクトル組1908、
クラスタリング対象データ選択手段1909、クラスタ作成
手段1910、クラスタ情報テーブル1911、及び、結果表示
手段1915を備えるとともに、さらに、クラスタ情報テー
ブル1911に格納されたクラスタの情報と文書類似ベクト
ル組1908とからクラスタ間の階層関係を計算するクラス
タ階層関係決定手段1912と、各クラスタのサイズ情報を
格納するクラスタサイズ情報テーブル1913と、クラスタ
間の階層関係を登録するクラスタ階層関係テーブル1914
とを備えている。
1の実施形態(図1)と同様、文書データベース1901、
辞書1902、特徴ベクトル作成手段1903、特徴ベクトル組
1904、特異値分解手段1905、特異値分解結果1906、文書
類似ベクトル作成手段1907、文書類似ベクトル組1908、
クラスタリング対象データ選択手段1909、クラスタ作成
手段1910、クラスタ情報テーブル1911、及び、結果表示
手段1915を備えるとともに、さらに、クラスタ情報テー
ブル1911に格納されたクラスタの情報と文書類似ベクト
ル組1908とからクラスタ間の階層関係を計算するクラス
タ階層関係決定手段1912と、各クラスタのサイズ情報を
格納するクラスタサイズ情報テーブル1913と、クラスタ
間の階層関係を登録するクラスタ階層関係テーブル1914
とを備えている。
【0093】ここで、クラスタ作成手段1910は、第1の
実施形態における作用に加えて、安定したクラスタを検
出したときに、その時点での使用次元を当該クラスタの
安定次元としてクラスタサイズ情報テーブル1912に格納
し、また、同時に当該クラスタの重心を同クラスタサイ
ズ情報テーブル1913に格納する。また、結果表示手段19
15は、クラスタリング結果及びクラスタ間階層関係を表
示する。このクラスタ作成手段1910を除く1901から1911
までの内部構成と作用は、第1の実施形態と同一であ
る。
実施形態における作用に加えて、安定したクラスタを検
出したときに、その時点での使用次元を当該クラスタの
安定次元としてクラスタサイズ情報テーブル1912に格納
し、また、同時に当該クラスタの重心を同クラスタサイ
ズ情報テーブル1913に格納する。また、結果表示手段19
15は、クラスタリング結果及びクラスタ間階層関係を表
示する。このクラスタ作成手段1910を除く1901から1911
までの内部構成と作用は、第1の実施形態と同一であ
る。
【0094】図21は、前記クラスタサイズ情報テーブ
ル1913の例である。このテーブルには、各クラスタごと
に、クラスタ番号、安定次元、重心ベクトル、及び、基
準半径が格納されている。クラスタCの安定次元とは、
クラスタリングの過程において、クラスタCが安定して
いるとしてクラスタリング対象から外されるときの次元
数である。以後、この安定次元をd(C)と表す。
ル1913の例である。このテーブルには、各クラスタごと
に、クラスタ番号、安定次元、重心ベクトル、及び、基
準半径が格納されている。クラスタCの安定次元とは、
クラスタリングの過程において、クラスタCが安定して
いるとしてクラスタリング対象から外されるときの次元
数である。以後、この安定次元をd(C)と表す。
【0095】クラスタCの基準半径とは、クラスタCに
属す文書のうち、クラスタCのクラスタ重心(g(C)
と表記)から、d(C)次元での距離において最も遠い
文書とg(C)とのd(C)次元での距離をR1(C)
とし、また、安定次元がd(C)以上のC以外のクラス
タに属す文書のうち、d(C)次元での距離において、
最もg(C)に近くなる文書とg(C)とのd(C)次
元での距離をR2(C)とするとき、R1(C)及びR
2(C)の中の小さい方とする。以後、クラスタCの基
準半径をR(C)と表す。
属す文書のうち、クラスタCのクラスタ重心(g(C)
と表記)から、d(C)次元での距離において最も遠い
文書とg(C)とのd(C)次元での距離をR1(C)
とし、また、安定次元がd(C)以上のC以外のクラス
タに属す文書のうち、d(C)次元での距離において、
最もg(C)に近くなる文書とg(C)とのd(C)次
元での距離をR2(C)とするとき、R1(C)及びR
2(C)の中の小さい方とする。以後、クラスタCの基
準半径をR(C)と表す。
【0096】ただし、ここで、d(C)次元における文
書あるいはクラスタ重心間の距離は、文書類似ベクトル
間のd(C)次元における距離であるとし、文書類似ベ
クトルx1=(x11,x12,‥,x1d(C),‥,x1r)
と、x2=(x21,x22,‥,x2d(C),‥,x2r)と
のd(C)次元における距離dist(x1,x2)
は、 dist(x1,x2)={(x11−x21)2+(x12−x22)2+‥ +(x1d(C)−x2d(C))2}0.5 (式5) により定義する。
書あるいはクラスタ重心間の距離は、文書類似ベクトル
間のd(C)次元における距離であるとし、文書類似ベ
クトルx1=(x11,x12,‥,x1d(C),‥,x1r)
と、x2=(x21,x22,‥,x2d(C),‥,x2r)と
のd(C)次元における距離dist(x1,x2)
は、 dist(x1,x2)={(x11−x21)2+(x12−x22)2+‥ +(x1d(C)−x2d(C))2}0.5 (式5) により定義する。
【0097】図22は、クラスタ階層関係テーブル1914
の例を示した図である。生成された全クラスタ数をCma
xとすると、同テーブルは、Cmax×Cmax次元の行列で
あり、第(i,j)要素には、クラスタ番号iのクラス
タが、クラスタ番号jのクラスタの上位クラスタである
場合には、1が、それ以外の場合には、0が格納され
る。図22は、クラスタ2001が、クラスタ1001
の上位クラスタであると登録されている状態を示してい
る。初期状態では、すべての要素は0である。
の例を示した図である。生成された全クラスタ数をCma
xとすると、同テーブルは、Cmax×Cmax次元の行列で
あり、第(i,j)要素には、クラスタ番号iのクラス
タが、クラスタ番号jのクラスタの上位クラスタである
場合には、1が、それ以外の場合には、0が格納され
る。図22は、クラスタ2001が、クラスタ1001
の上位クラスタであると登録されている状態を示してい
る。初期状態では、すべての要素は0である。
【0098】以上の構成の文書データ・クラスタリング
システムの動作を図23から図25を用いて説明する。
図23は、クラスタリング処理及びクラスタ間の階層関
係計算手順を表すフローチャートである。
システムの動作を図23から図25を用いて説明する。
図23は、クラスタリング処理及びクラスタ間の階層関
係計算手順を表すフローチャートである。
【0099】ステップ2202:特徴ベクトル作成手段1903
は、文書データベース1901に含まれる文書について特徴
ベクトル1904を作成する。 ステップ2203:特異値分解手段1905は、特徴ベクトル組
をもとに、特異値分解を行い特異値分解結果1906を得
る。 ステップ2204:文書類似ベクトル作成手段1907は、特異
値分解結果から文書類似ベクトル組1908を作成する。 ここまでの手順は、第1の実施形態(図3)のステップ
302〜ステップ305と同じである。
は、文書データベース1901に含まれる文書について特徴
ベクトル1904を作成する。 ステップ2203:特異値分解手段1905は、特徴ベクトル組
をもとに、特異値分解を行い特異値分解結果1906を得
る。 ステップ2204:文書類似ベクトル作成手段1907は、特異
値分解結果から文書類似ベクトル組1908を作成する。 ここまでの手順は、第1の実施形態(図3)のステップ
302〜ステップ305と同じである。
【0100】ステップ2205:クラスタリング対象データ
選択手段1909、クラスタ作成手段1910は、文書類似ベク
トル組1908及び文書データベース1901を参照しながら、
文書データベース中のすべての文書に対してクラスタリ
ングを行う。この手順は、第1の実施形態(図2)のス
テップ201からステップ210と同様である。ただし、クラ
スタ作成手段1910は、安定したクラスタを認定するたび
に(第1の実施形態のステップ208の時点に相当)、そ
の時点での使用次元数及び当該クラスタの重心ベクトル
をクラスタサイズ情報テーブル1913に登録する。
選択手段1909、クラスタ作成手段1910は、文書類似ベク
トル組1908及び文書データベース1901を参照しながら、
文書データベース中のすべての文書に対してクラスタリ
ングを行う。この手順は、第1の実施形態(図2)のス
テップ201からステップ210と同様である。ただし、クラ
スタ作成手段1910は、安定したクラスタを認定するたび
に(第1の実施形態のステップ208の時点に相当)、そ
の時点での使用次元数及び当該クラスタの重心ベクトル
をクラスタサイズ情報テーブル1913に登録する。
【0101】ステップ2206:次に、クラスタ階層関係決
定手段1912は、クラスタ情報テーブル1911とクラスタサ
イズ情報テーブル1913との内容を参照し、上述の定義に
従って、各クラスタの基準半径を計算し、クラスタサイ
ズ情報テーブル1912に登録する。 ステップ2207:クラスタ階層関係決定手段1913は、クラ
スタ情報テーブル1911とクラスタサイズ情報テーブル19
13との内容を参照し、各クラスタ間の階層関係を計算
し、結果をクラスタ階層関係テーブル1914に登録する。
定手段1912は、クラスタ情報テーブル1911とクラスタサ
イズ情報テーブル1913との内容を参照し、上述の定義に
従って、各クラスタの基準半径を計算し、クラスタサイ
ズ情報テーブル1912に登録する。 ステップ2207:クラスタ階層関係決定手段1913は、クラ
スタ情報テーブル1911とクラスタサイズ情報テーブル19
13との内容を参照し、各クラスタ間の階層関係を計算
し、結果をクラスタ階層関係テーブル1914に登録する。
【0102】図24は、このクラスタ間の階層関係を計
算する手順を表すフローチャートである。 ステップ2302:まず、クラスタ階層関係テーブル1914の
要素をすべて0(何も階層関係がない状態)に初期化す
る。 ステップ2303:次に、クラスタサイズ情報テーブル1913
を参照し、次元dの値を、登録されている安定次元の最
小値とする。 ステップ2304:次に、クラスタサイズ情報テーブル1913
を参照し、安定次元がdのクラスタの集合を比較対象集
合として求める。以後、比較対象集合のことをS0と表
すことにする。
算する手順を表すフローチャートである。 ステップ2302:まず、クラスタ階層関係テーブル1914の
要素をすべて0(何も階層関係がない状態)に初期化す
る。 ステップ2303:次に、クラスタサイズ情報テーブル1913
を参照し、次元dの値を、登録されている安定次元の最
小値とする。 ステップ2304:次に、クラスタサイズ情報テーブル1913
を参照し、安定次元がdのクラスタの集合を比較対象集
合として求める。以後、比較対象集合のことをS0と表
すことにする。
【0103】ステップ2305:次に、次元を、クラスタリ
ングのときに用いたΔdの値だけ増やし、 ステップ2306:クラスタサイズ情報テーブル1913を参照
し、増やした結果の次元が、安定次元の最大値を超えて
いるか調べる。超えていれば、クラスタ間の階層関係の
計算を終了する(ステップ2314)。超えていなければ、 ステップ2307:クラスタサイズ情報テーブル1913を参照
し、現在の次元を安定次元とするクラスタの集合を、処
理対象集合として求める。以後、処理対象集合のことを
S1と表すことにする。
ングのときに用いたΔdの値だけ増やし、 ステップ2306:クラスタサイズ情報テーブル1913を参照
し、増やした結果の次元が、安定次元の最大値を超えて
いるか調べる。超えていれば、クラスタ間の階層関係の
計算を終了する(ステップ2314)。超えていなければ、 ステップ2307:クラスタサイズ情報テーブル1913を参照
し、現在の次元を安定次元とするクラスタの集合を、処
理対象集合として求める。以後、処理対象集合のことを
S1と表すことにする。
【0104】ステップ2308:次に、処理対象集合S1に
属する各クラスタを全て未処理とした後、 ステップ2309:S1の中に未処理のクラスタが無くなる
まで、 ステップ2310:S1からクラスタを一つ取り出して処理
対象とし、 ステップ2311:S0の各クラスタと、その処理対象のク
ラスタとの包含関係を調べる。この手順については後に
図25を用いて詳述する。
属する各クラスタを全て未処理とした後、 ステップ2309:S1の中に未処理のクラスタが無くなる
まで、 ステップ2310:S1からクラスタを一つ取り出して処理
対象とし、 ステップ2311:S0の各クラスタと、その処理対象のク
ラスタとの包含関係を調べる。この手順については後に
図25を用いて詳述する。
【0105】ステップ2312:処理が済んだ処理対象のク
ラスタを処理済みとし、ステップ2309からの手順を繰り
返す。
ラスタを処理済みとし、ステップ2309からの手順を繰り
返す。
【0106】S1のすべてのクラスタについて、S0の
クラスタとの階層関係の計算が終わったら、 ステップ2313:処理対象集合S1の全クラスタを比較対
象集合S0に加えて、ステップ2305に戻る。
クラスタとの階層関係の計算が終わったら、 ステップ2313:処理対象集合S1の全クラスタを比較対
象集合S0に加えて、ステップ2305に戻る。
【0107】以上により、各クラスタについて、当該ク
ラスタの安定次元より低い安定次元を持つクラスタ、す
なわち、当該クラスタよりも早い段階で安定したと判定
されたクラスタとの間の階層関係が計算される。
ラスタの安定次元より低い安定次元を持つクラスタ、す
なわち、当該クラスタよりも早い段階で安定したと判定
されたクラスタとの間の階層関係が計算される。
【0108】図25は、下位クラスタの求め方の手順を
表すフローチャートである。この図25を用いて、ステ
ップ2311における処理対象のクラスタと比較対象集合S
0の各クラスタとの間の階層関係の計算について説明す
る。ここで、処理対象のクラスタをCとする。
表すフローチャートである。この図25を用いて、ステ
ップ2311における処理対象のクラスタと比較対象集合S
0の各クラスタとの間の階層関係の計算について説明す
る。ここで、処理対象のクラスタをCとする。
【0109】ステップ2402:比較対象集合のクラスタを
すべて未比較とする。 ステップ2403:次に、クラスタサイズ情報テーブル1912
を参照し、処理対象のクラスタCのクラスタ重心g
(C)の重心ベクトルとクラスタCの基準半径R(C)
とを得る。
すべて未比較とする。 ステップ2403:次に、クラスタサイズ情報テーブル1912
を参照し、処理対象のクラスタCのクラスタ重心g
(C)の重心ベクトルとクラスタCの基準半径R(C)
とを得る。
【0110】ステップ2404:次に、比較対象集合の中
に、未比較のクラスタがあるか調べる。なければ、階層
関係の計算を終了する(ステップ2409)。未比較のクラス
タがあれば、 ステップ2405:そのうちの一つを比較対象とする。比較
対象としたクラスタをC’とする。
に、未比較のクラスタがあるか調べる。なければ、階層
関係の計算を終了する(ステップ2409)。未比較のクラス
タがあれば、 ステップ2405:そのうちの一つを比較対象とする。比較
対象としたクラスタをC’とする。
【0111】ステップ2406:次に、比較対象のクラスタ
C’に属するすべての文書が、処理対象のクラスタCの
重心g(C)を中心とする基準半径R(C)の範囲に入
っているか調べる。ただし、距離に関しては、(式5)
の定義に従って計算する。
C’に属するすべての文書が、処理対象のクラスタCの
重心g(C)を中心とする基準半径R(C)の範囲に入
っているか調べる。ただし、距離に関しては、(式5)
の定義に従って計算する。
【0112】ステップ2407:その結果、すべてが入って
いれば、処理対象のクラスタCを、比較対象のクラスタ
C’の上位クラスタとし、 ステップ2408:比較対象のクラスタC’を比較済みにす
る。また、ステップ2406の検査で、比較対象のクラスタ
C’に属する文書で、処理対象のクラスタCの重心g
(C)から、基準半径R(C)内の範囲に入っていない
ものがあった場合は、ステップ2406から直接ステップ24
08に移る。ステップ2408の後はステップ2404に戻り、次
の比較対象があるか調べる。
いれば、処理対象のクラスタCを、比較対象のクラスタ
C’の上位クラスタとし、 ステップ2408:比較対象のクラスタC’を比較済みにす
る。また、ステップ2406の検査で、比較対象のクラスタ
C’に属する文書で、処理対象のクラスタCの重心g
(C)から、基準半径R(C)内の範囲に入っていない
ものがあった場合は、ステップ2406から直接ステップ24
08に移る。ステップ2408の後はステップ2404に戻り、次
の比較対象があるか調べる。
【0113】以上が、処理対象のクラスタと比較対象集
合S0の各クラスタとの間の階層関係を調べる方法であ
る。
合S0の各クラスタとの間の階層関係を調べる方法であ
る。
【0114】以上の説明のように、第4の実施の形態の
文書データ・クラスタリングシステムでは、文書データ
の特異値分解を行い、文書間の距離計算に用いる情報を
徐々に増加させ、段階的にクラスタリングを行った結果
のクラスタ間に、計算可能な量を用いて、自然な形の階
層関係を導入できる、という効果がある。
文書データ・クラスタリングシステムでは、文書データ
の特異値分解を行い、文書間の距離計算に用いる情報を
徐々に増加させ、段階的にクラスタリングを行った結果
のクラスタ間に、計算可能な量を用いて、自然な形の階
層関係を導入できる、という効果がある。
【0115】なお、上記実施形態では、クラスタCがク
ラスタC’の上位クラスタであると認定された後も、ク
ラスタC’の要素をクラスタCに直接含めることは行わ
なかったが、下位クラスタの要素を上位クラスタに含ま
せるようにしてもよい。
ラスタC’の上位クラスタであると認定された後も、ク
ラスタC’の要素をクラスタCに直接含めることは行わ
なかったが、下位クラスタの要素を上位クラスタに含ま
せるようにしてもよい。
【0116】また、下位クラスタの要素を考慮して、上
位クラスタの重心を計算し直すようにしてもよい。
位クラスタの重心を計算し直すようにしてもよい。
【0117】また、上記実施形態では、クラスタ間の階
層関係を調べる際に基準半径という距離を定義して用い
たが、上記定義の基準半径の代わりに、例えば、処理対
象のクラスタの重心から同クラスタに属する各文書まで
の距離の最大値や、最小値、あるは、平均値、95%の
要素が入るような半径など、d(C)次元において定義
される各種の距離を用いるようにしてもよい。
層関係を調べる際に基準半径という距離を定義して用い
たが、上記定義の基準半径の代わりに、例えば、処理対
象のクラスタの重心から同クラスタに属する各文書まで
の距離の最大値や、最小値、あるは、平均値、95%の
要素が入るような半径など、d(C)次元において定義
される各種の距離を用いるようにしてもよい。
【0118】
【発明の効果】以上の説明から明らかなように、本発明
の文書データ・クラスタリングシステムでは、文書デー
タの特異値分解を行い、文書間の距離計算に用いる情報
を徐々に増加させ、段階的にクラスタリングを繰り返す
ことにより、クラスタ数を事前に決定していなくても、
クラスタリング対象に応じたクラスタ数が決定でき、ま
た、類似している文書だけを集約したクラスタを生成す
ることができる、という効果がある。
の文書データ・クラスタリングシステムでは、文書デー
タの特異値分解を行い、文書間の距離計算に用いる情報
を徐々に増加させ、段階的にクラスタリングを繰り返す
ことにより、クラスタ数を事前に決定していなくても、
クラスタリング対象に応じたクラスタ数が決定でき、ま
た、類似している文書だけを集約したクラスタを生成す
ることができる、という効果がある。
【0119】また、ラベル抽出手段を設けたシステムで
は、クラスタリングされた結果に対して、その内容を表
す文字列をラベリングすることができ、クラスタリング
結果を分かり易く示すことができる。
は、クラスタリングされた結果に対して、その内容を表
す文字列をラベリングすることができ、クラスタリング
結果を分かり易く示すことができる。
【0120】また、段階的なクラスタリングで生成した
クラスタの間を階層化することにより、人間の直感に一
致するクラスタ間の階層関係を生成することができると
いう効果がある。
クラスタの間を階層化することにより、人間の直感に一
致するクラスタ間の階層関係を生成することができると
いう効果がある。
【図1】第1の実施形態における文書データ・クラスタ
リングシステムの全体構成を表すブロック図、
リングシステムの全体構成を表すブロック図、
【図2】第1の実施形態における文書データ・クラスタ
リングシステムのクラスタリング処理手順を表すフロー
チャート、
リングシステムのクラスタリング処理手順を表すフロー
チャート、
【図3】第1の実施形態における文書データ・クラスタ
リングシステムの文書データベースから文書類似ベクト
ルを作成するまでの処理手順を表すフローチャート、
リングシステムの文書データベースから文書類似ベクト
ルを作成するまでの処理手順を表すフローチャート、
【図4】第1の実施形態における文書データ・クラスタ
リングシステムの文書内の単語の出現頻度を基にした特
徴ベクトルの例、
リングシステムの文書内の単語の出現頻度を基にした特
徴ベクトルの例、
【図5】第1の実施形態における文書データ・クラスタ
リングシステムの出現頻度を文書長で除算し正規化した
値を基にした特徴ベクトルの例、
リングシステムの出現頻度を文書長で除算し正規化した
値を基にした特徴ベクトルの例、
【図6】第1の実施形態における文書データ・クラスタ
リングシステムの出現頻度を文書内での単語の出現頻度
の総和で除算し正規化した値を基にした特徴ベクトルの
例、
リングシステムの出現頻度を文書内での単語の出現頻度
の総和で除算し正規化した値を基にした特徴ベクトルの
例、
【図7】第1の実施形態における文書データ・クラスタ
リングシステムのクラスタ情報テーブルの記述例、
リングシステムのクラスタ情報テーブルの記述例、
【図8】第1の実施形態における文書データ・クラスタ
リングシステムのあるクラスタについて、2回のクラス
タリングの結果割り当てられた文書を比較した例、
リングシステムのあるクラスタについて、2回のクラス
タリングの結果割り当てられた文書を比較した例、
【図9】第1の実施形態における文書データ・クラスタ
リングシステムの更新されたクラスタ情報テーブルの
例、
リングシステムの更新されたクラスタ情報テーブルの
例、
【図10】第1の実施形態における文書データ・クラス
タリングシステムのクラスタの変化を表す概念図、
タリングシステムのクラスタの変化を表す概念図、
【図11】第2の実施形態における文書データ・クラス
タリングシステムの全体構成を表すブロック図、
タリングシステムの全体構成を表すブロック図、
【図12】第2の実施形態における文書データ・クラス
タリングシステムの処理手順を表すフローチャート、
タリングシステムの処理手順を表すフローチャート、
【図13】第2の実施形態における文書データ・クラス
タリングシステムの代表語ベクトルの例、
タリングシステムの代表語ベクトルの例、
【図14】第2の実施形態における文書データ・クラス
タリングシステムの文書中から、ラベル候補を抽出し、
そのスコアを算出した例、
タリングシステムの文書中から、ラベル候補を抽出し、
そのスコアを算出した例、
【図15】第3の実施形態における文書データ・クラス
タリングシステムの全体構成を表すブロック図、
タリングシステムの全体構成を表すブロック図、
【図16】第3の実施形態における文書データ・クラス
タリングシステムのクラスタリング処理手順を表すフロ
ーチャート、
タリングシステムのクラスタリング処理手順を表すフロ
ーチャート、
【図17】第3の実施形態における文書データ・クラス
タリングシステムのクラスタについて、2回のクラスタ
リングの結果割り当てられた文書を比較した例、
タリングシステムのクラスタについて、2回のクラスタ
リングの結果割り当てられた文書を比較した例、
【図18】第3の実施形態における文書データ・クラス
タリングシステムの更新されたクラスタ情報テーブルの
例、
タリングシステムの更新されたクラスタ情報テーブルの
例、
【図19】第3の実施形態における文書データ・クラス
タリングシステムのクラスタの変化を表す概念図、
タリングシステムのクラスタの変化を表す概念図、
【図20】第4の実施形態における文書データ・クラス
タリングシステムの構成を示すブロック図、
タリングシステムの構成を示すブロック図、
【図21】第4の実施形態におけるクラスタサイズ情報
テーブルの例を示す図、
テーブルの例を示す図、
【図22】第4の実施形態におけるクラスタ階層関係テ
ーブルの例を示す図、
ーブルの例を示す図、
【図23】第4の実施形態における文書データ・クラス
タリングシステムの動作手順を示すフローチャート、
タリングシステムの動作手順を示すフローチャート、
【図24】第4の実施形態におけるクラスタ間の階層関
係計算手順を示すフローチャート、
係計算手順を示すフローチャート、
【図25】第4の実施形態における下位クラスタ計算手
順を示すフローチャートである。
順を示すフローチャートである。
101、1101、1901 文書データベース 102、1102、1902 辞書 103、1103、1903 特徴ベクトル作成手段 104、1104、1904 特徴ベクトル組 105、1105、1905 特異値分解手段 106、1106、1906 特異値分解結果 107、1107、1907 文書類似ベクトル作成手段 108、1108、1908 文書類似ベクトル組 109、1909 クラスタリング対象データ選択手段 110、1910 クラスタ作成手段 111、1109、1911 クラスタ情報テーブル 112、1112、1915 結果表示手段 1091 主要親クラスタリング対象データ選択手段 1110 ラベル抽出手段 1111 抽出ラベル 1912 クラスタ階層関係決定手段 1913 クラスタサイズ情報テーブル 1914 クラスタ階層関係テーブル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小山 隆正 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 ND03 NK06 NR12 PQ02 PR04 PR06 QM08 UU06
Claims (5)
- 【請求項1】 機械可読な文書データを格納した文書デ
ータベースと、機械可読な単語を格納した辞書とを備
え、前記文書データベースに格納された文書をクラスタ
リングする文書データ・クラスタリングシステムにおい
て、 文書中の前記辞書に格納された単語の出現頻度をもとに
前記文書データベースに格納された文書の特徴ベクトル
を作成する特徴ベクトル作成手段と、前記特徴ベクトル
作成手段により作成された特徴ベクトルの組を特異値分
解する特異値分解手段と、前記特異値分解の結果から文
書間の類似度を計算するための文書類似ベクトルを作成
する文書類似ベクトル作成手段と、前記文書類似ベクト
ル作成手段により作成された文書類似ベクトルの組によ
り前記文書データベース中の全てまたは一部の文書を対
象にクラスタを作成するクラスタ作成手段と、作成され
たクラスタの情報を格納するクラスタ情報テーブルと、
前記クラスタ情報テーブルを参照して前記クラスタ作成
手段でのクラスタリングの対象となる文書を前記文書デ
ータベースから選択するクラスタリングデータ選択手段
とを具備し、 前記クラスタ作成手段は、クラスタリング対象の文書に
対して、前記文書類似ベクトルを用いて、文書とクラス
タ重心との距離を算出し、さらに同一のクラスタリング
対象の文書に対して、一回目のクラスタリングに利用し
た文書類似ベクトルの次元数を適度な範囲で増加させて
二回目のクラスタリングを行い、二回のクラスタリング
結果を比較して、変化の少ないクラスタを安定したクラ
スタとして判別し、前記クラスタリングデータ選択手段
は、前記安定したクラスタに割り当てられた文書をクラ
スタリング対象から取り除いて、前記クラスタ作成手段
が次に行うクラスタリングの対象を選定し、前記クラス
タ作成手段と前記クラスタリングデータ選択手段との間
で、この試行を繰り返すことを特徴とする文書データ・
クラスタリングシステム。 - 【請求項2】 機械可読な文書データを格納した文書デ
ータベースと、機械可読な単語を格納した辞書とを備
え、前記文書データベースに格納された文書をクラスタ
リングする文書データ・クラスタリングシステムにおい
て、 文書中の前記辞書に格納された単語の出現頻度をもとに
前記文書データベースに格納された文書の特徴ベクトル
を作成する特徴ベクトル作成手段と、前記特徴ベクトル
作成手段により作成された特徴ベクトルの組を特異値分
解する特異値分解手段と、前記特異値分解の結果から文
書間の類似度を計算するための文書類似ベクトルを作成
する文書類似ベクトル作成手段と、前記文書類似ベクト
ル作成手段により作成された文書類似ベクトルの組によ
り前記文書データベース中の全てまたは一部の文書を対
象にクラスタを作成するクラスタ作成手段と、作成され
たクラスタの情報を格納するクラスタ情報テーブルと、
前記クラスタ情報テーブルを参照して前記クラスタ作成
手段でのクラスタリングの対象となる文書を前記文書デ
ータベースから選択するクラスタリングデータ選択手段
とを具備し、 前記クラスタ作成手段は、クラスタリング対象の文書に
対して、前記文書類似ベクトルを用いて、文書とクラス
タ重心との距離を算出し、さらに同一のクラスタリング
対象の文書に対して、一回目のクラスタリングに利用し
た文書類似ベクトルの次元数を適度な範囲で増加させて
二回目のクラスタリングを行い、二回のクラスタリング
結果を比較して、変化の大きいクラスタを不安定なクラ
スタとして判別し、前記クラスタリングデータ選択手段
は、前記不安定なクラスタに割り当てられた文書をクラ
スタリング対象から取り除いて、前記クラスタ作成手段
が次に行うクラスタリングの対象を選定し、前記クラス
タ作成手段と前記クラスタリングデータ選択手段との間
で、この試行を繰り返すことを特徴とする文書データ・
クラスタリングシステム。 - 【請求項3】 前記文書データベースと、前記辞書と、
前記特異値分解結果と、前記クラスタ情報テーブルとを
参照して、クラスタごとのラベルを抽出するラベル抽出
手段を具備し、前記ラベル抽出手段は、クラスタの重心
での前記単語の擬似的な出現頻度を表現した特徴ベクト
ルを算出し、当該クラスタに割り当てられた文書中か
ら、前記特徴ベクトルに含まれる出現頻度の大きな単語
の周辺に出現する文字列をラベルとして抽出することを
特徴とする請求項1または2に記載の文書データ・クラ
スタリングシステム。 - 【請求項4】 前記クラスタ作成手段により作成された
クラスタの間の階層関係を設定するクラスタ階層関係決
定手段を具備し、前記クラスタ階層関係決定手段は、任
意のクラスタCが安定したクラスタであると判定された
ときの次元数を当該クラスタの安定次元d(C)として
定義するとき、クラスタCの安定次元d(C)より安定
次元が低いクラスタC’に属する全ての文書と前記クラ
スタCの重心g(C)とのd(C)次元における距離が
一定の距離R(C)以内にある場合に、前記クラスタC
を前記クラスタC’の上位クラスタに階層化することを
特徴とする請求項1に記載の文書データ・クラスタリン
グシステム。 - 【請求項5】 前記クラスタ階層関係決定手段は、クラ
スタCに属する各文書と前記クラスタCの重心g(C)
とのd(C)次元における距離の中で最大の距離をR1
(C)とし、安定次元がd(C)以上のC以外のクラス
タに属する各文書と前記クラスタCの重心g(C)との
d(C)次元における距離の中で最小の距離をR2
(C)とするとき、R1(C)及びR2(C)の内の小
さい方を、前記R(C)とすることを特徴とする請求項
4に記載の文書データ・クラスタリングシステム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000377606A JP2002183171A (ja) | 2000-12-12 | 2000-12-12 | 文書データ・クラスタリングシステム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000377606A JP2002183171A (ja) | 2000-12-12 | 2000-12-12 | 文書データ・クラスタリングシステム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002183171A true JP2002183171A (ja) | 2002-06-28 |
Family
ID=18846305
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000377606A Pending JP2002183171A (ja) | 2000-12-12 | 2000-12-12 | 文書データ・クラスタリングシステム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2002183171A (ja) |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004199472A (ja) * | 2002-12-19 | 2004-07-15 | Internatl Business Mach Corp <Ibm> | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
| JP2004318408A (ja) * | 2003-04-15 | 2004-11-11 | Tokyo Electric Power Co Inc:The | テキスト主旨分析装置およびテキスト主旨分析プログラム |
| JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
| JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
| WO2006087854A1 (ja) * | 2004-11-25 | 2006-08-24 | Sharp Kabushiki Kaisha | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
| WO2007026870A1 (ja) * | 2005-09-02 | 2007-03-08 | Nec Corporation | データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム |
| WO2008102410A1 (ja) * | 2007-02-19 | 2008-08-28 | Sony Computer Entertainment Inc. | クラスタリング装置、その方法、コンピュータ、プログラムおよび記録媒体 |
| JP2008204374A (ja) * | 2007-02-22 | 2008-09-04 | Fuji Xerox Co Ltd | クラスタ生成装置およびクラスタ生成プログラム |
| JP2009163700A (ja) * | 2007-12-28 | 2009-07-23 | Ind Technol Res Inst | データ分類システム及びデータ分類システム用の分類ツリーの構築方法 |
| JP2010026782A (ja) * | 2008-07-18 | 2010-02-04 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
| KR101086510B1 (ko) | 2003-03-05 | 2011-11-23 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터 |
| WO2013001893A1 (ja) | 2011-06-28 | 2013-01-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム |
| JP2014029713A (ja) * | 2007-12-31 | 2014-02-13 | Mastercard International Inc | データベース内に近似文字列照合を実装するための方法およびシステム |
| US8972407B2 (en) | 2007-05-30 | 2015-03-03 | International Business Machines Corporation | Information processing method for determining weight of each feature in subjective hierarchical clustering |
| JP2020042797A (ja) * | 2018-09-07 | 2020-03-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | サンプル処理方法、装置、機器および記憶媒体 |
| JP2020154512A (ja) * | 2019-03-19 | 2020-09-24 | 株式会社日立製作所 | 文分類装置、文分類方法及び文分類プログラム |
| JP2023011610A (ja) * | 2017-04-13 | 2023-01-24 | フラティロン ヘルス,インコーポレイテッド | モデル支援コホート選択を行うシステム及び方法 |
| JP2023142769A (ja) * | 2022-03-25 | 2023-10-05 | 株式会社 日立産業制御ソリューションズ | 文字列分類装置、プログラムおよび文字列分類方法 |
| JP2023550211A (ja) * | 2021-01-22 | 2023-11-30 | ベイジン ウォドン チアンジュン インフォメーション テクノロジー カンパニー リミテッド | テキストを生成するための方法および装置 |
| JP2024025938A (ja) * | 2022-08-15 | 2024-02-28 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
-
2000
- 2000-12-12 JP JP2000377606A patent/JP2002183171A/ja active Pending
Cited By (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004199472A (ja) * | 2002-12-19 | 2004-07-15 | Internatl Business Mach Corp <Ibm> | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
| KR101086510B1 (ko) | 2003-03-05 | 2011-11-23 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 문서 클러스터링 장치 및 방법, 컴퓨터 판독가능한 저장 매체 및 컴퓨터 |
| JP2004318408A (ja) * | 2003-04-15 | 2004-11-11 | Tokyo Electric Power Co Inc:The | テキスト主旨分析装置およびテキスト主旨分析プログラム |
| JP2004341948A (ja) * | 2003-05-16 | 2004-12-02 | Ricoh Co Ltd | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 |
| JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
| WO2006087854A1 (ja) * | 2004-11-25 | 2006-08-24 | Sharp Kabushiki Kaisha | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
| US7693683B2 (en) | 2004-11-25 | 2010-04-06 | Sharp Kabushiki Kaisha | Information classifying device, information classifying method, information classifying program, information classifying system |
| US7827179B2 (en) | 2005-09-02 | 2010-11-02 | Nec Corporation | Data clustering system, data clustering method, and data clustering program |
| WO2007026870A1 (ja) * | 2005-09-02 | 2007-03-08 | Nec Corporation | データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム |
| JP4893624B2 (ja) * | 2005-09-02 | 2012-03-07 | 日本電気株式会社 | データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム |
| WO2008102410A1 (ja) * | 2007-02-19 | 2008-08-28 | Sony Computer Entertainment Inc. | クラスタリング装置、その方法、コンピュータ、プログラムおよび記録媒体 |
| JP2008204374A (ja) * | 2007-02-22 | 2008-09-04 | Fuji Xerox Co Ltd | クラスタ生成装置およびクラスタ生成プログラム |
| US8972407B2 (en) | 2007-05-30 | 2015-03-03 | International Business Machines Corporation | Information processing method for determining weight of each feature in subjective hierarchical clustering |
| JP2009163700A (ja) * | 2007-12-28 | 2009-07-23 | Ind Technol Res Inst | データ分類システム及びデータ分類システム用の分類ツリーの構築方法 |
| JP2014029713A (ja) * | 2007-12-31 | 2014-02-13 | Mastercard International Inc | データベース内に近似文字列照合を実装するための方法およびシステム |
| JP2010026782A (ja) * | 2008-07-18 | 2010-02-04 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類装置、文書分類方法、プログラム及び記録媒体 |
| WO2013001893A1 (ja) | 2011-06-28 | 2013-01-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム |
| JP2023011610A (ja) * | 2017-04-13 | 2023-01-24 | フラティロン ヘルス,インコーポレイテッド | モデル支援コホート選択を行うシステム及び方法 |
| JP7522167B2 (ja) | 2017-04-13 | 2024-07-24 | フラティロン ヘルス,インコーポレイテッド | モデル支援コホート選択を行うシステム及び方法 |
| JP2020042797A (ja) * | 2018-09-07 | 2020-03-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | サンプル処理方法、装置、機器および記憶媒体 |
| JP2020154512A (ja) * | 2019-03-19 | 2020-09-24 | 株式会社日立製作所 | 文分類装置、文分類方法及び文分類プログラム |
| JP7148444B2 (ja) | 2019-03-19 | 2022-10-05 | 株式会社日立製作所 | 文分類装置、文分類方法及び文分類プログラム |
| JP2023550211A (ja) * | 2021-01-22 | 2023-11-30 | ベイジン ウォドン チアンジュン インフォメーション テクノロジー カンパニー リミテッド | テキストを生成するための方法および装置 |
| JP7520246B2 (ja) | 2021-01-22 | 2024-07-22 | ベイジン ウォドン チアンジュン インフォメーション テクノロジー カンパニー リミテッド | テキストを生成するための方法および装置 |
| US12450431B2 (en) | 2021-01-22 | 2025-10-21 | Beijing Wodong Tianjun Information Technology Co., Ltd. | Method and apparatus for generating text |
| JP2023142769A (ja) * | 2022-03-25 | 2023-10-05 | 株式会社 日立産業制御ソリューションズ | 文字列分類装置、プログラムおよび文字列分類方法 |
| JP7739215B2 (ja) | 2022-03-25 | 2025-09-16 | 株式会社 日立産業制御ソリューションズ | 文字列分類装置、プログラムおよび文字列分類方法 |
| JP2024025938A (ja) * | 2022-08-15 | 2024-02-28 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2002183171A (ja) | 文書データ・クラスタリングシステム | |
| EP3709184B1 (en) | Sample set processing method and apparatus, and sample querying method and apparatus | |
| US8019699B2 (en) | Machine learning system | |
| JP6544756B2 (ja) | 画像の高次元特徴の類似性を比較するための方法及びデバイス | |
| CN112035620B (zh) | 医疗查询系统的问答管理方法、装置、设备及存储介质 | |
| Liao et al. | A sample-based hierarchical adaptive K-means clustering method for large-scale video retrieval | |
| US20130297607A1 (en) | Identification of pattern similarities by unsupervised cluster analysis | |
| US10353925B2 (en) | Document classification device, document classification method, and computer readable medium | |
| WO2011130526A1 (en) | Ascribing actionable attributes to data that describes a personal identity | |
| CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
| JP2005011042A (ja) | データ検索方法、データ検索装置、データ検索プログラムおよびコンピュータで読み取り可能な記録媒体 | |
| KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
| CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
| US20230177362A1 (en) | Risk assessment apparatus, risk assessment method, and program | |
| CN113553326A (zh) | 电子表格数据处理方法、装置、计算机设备和存储介质 | |
| CN109670182A (zh) | 一种基于文本哈希向量化表示的海量极短文本分类方法 | |
| CN115688760A (zh) | 一种智能化导诊方法、装置、设备及存储介质 | |
| CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
| CN108647985B (zh) | 一种物品推荐方法和装置 | |
| JP3903613B2 (ja) | 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP4883719B2 (ja) | 類似画像検索方法および装置 | |
| CN120144809A (zh) | 一种基于深度学习的商标图像检索方法及系统 | |
| CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
| Yoon et al. | Efficient implementation of associative classifiers for document classification | |
| CN118250169A (zh) | 一种网络资产类别推荐方法、设备及储存介质 |