[go: up one dir, main page]

WO2010117031A1 - 類型化装置、類型化方法及び類型化プログラム - Google Patents

類型化装置、類型化方法及び類型化プログラム Download PDF

Info

Publication number
WO2010117031A1
WO2010117031A1 PCT/JP2010/056352 JP2010056352W WO2010117031A1 WO 2010117031 A1 WO2010117031 A1 WO 2010117031A1 JP 2010056352 W JP2010056352 W JP 2010056352W WO 2010117031 A1 WO2010117031 A1 WO 2010117031A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
similarity
target data
data
merge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2010/056352
Other languages
English (en)
French (fr)
Inventor
由希子 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to US13/263,030 priority Critical patent/US9075829B2/en
Priority to JP2011508385A priority patent/JP5569698B2/ja
Publication of WO2010117031A1 publication Critical patent/WO2010117031A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Definitions

  • a categorization program includes a similarity calculation function that calculates the similarity between any two target data except a combination with itself among a plurality of target data and stores the similarity in a similarity table; Merge target selection function that selects two target data whose similarity satisfies a predetermined standard as a merge target, a new target creation function that creates new target data from the merge target, and two target data selected as the merge target.
  • the merge target removal function that removes the similarity between each of the objects and other objects from the similarity table, the new object data, and the similarity between the object data other than the new object data in the plurality of object data
  • the computer implements the new target addition function to be calculated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 対象データのうち含まれる数は少なくても特徴的な情報を抽出することを可能とすることが望まれる。類型化装置は、複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出部と、類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択部と、併合対象から新たな対象データを作成する新対象作成部と、併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を類似度テーブルから除去する併合対象除去部と、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する新対象追加部とを備える。

Description

類型化装置、類型化方法及び類型化プログラム
 本発明は、文書、画像、時系列データなどの対象の類型化装置、類型化方法および類型化プログラムに関する。本発明は特に、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークホルダの要求獲得・分析の際に、特徴的な対象を抽出することができる類型化システム、類型化方法および類型化プログラムに関する。
 マーケティングやコールセンタにおいては、多くの顧客意見を収集するので、類似の意見をまとめていくつかのグループに類型化(クラスタリング)して、グループごとの内容を分析する場合がある。また、巨大プロジェクトにおける要求獲得においても、類似の要求をまとめていくつかのグループに類型化して、グループごとにニーズを抽出する場合がある。類型化は、例えば、文書の場合、形態素解析を行ってから、含まれる単語の出現頻度などに基づいて文書間の類似度を計算することによって実行できる。例えば、特許文献1には、単語出現頻度を用いて、文書をベクトル表現し、文書間の類似度をコサイン類似度で計算する方法が記載されている。非特許文献1には、さまざまな類型化方法が記載されている。
 また、特許文献2には、マーケティングやコールセンタなどの顧客意見を分析する際に、設定されたキーワードと評価値とを用いて、顧客ニーズの重要度を算出する装置が記載されている。特許文献3には、文タグ判定テーブルを参照してキーワードから分類対象文を抽出し、用語パターン記述テーブルを参照にして用語を抽出し、形態素解析で抽出した単語に対する表記の揺れを解消し、分類パターン記述テーブルを参照にして分類パターンを生成し、分類パターンを基準にして分類する装置が記載されている。
 さらに、形態素解析を用いない手法として、例えば、非特許文献2には、コルモゴロフ複雑性に基づいた対象間の類似度計算法が記載されている。文書、画像、時系列データなどの対象に対し、対象間の類似度を計算することができる。
特開2008-234482号公報 特開2007-226568号公報 特開2001-229177号公報
神嶌敏弘著、「データマイニング分野のクラスタリング手法(1)」2003年発行の人工知能学会誌18巻1号59-65頁 ミング(Ming)著「ザ シミラリティ メトリクス(The Similarity Metric)」2004年発行の論文誌IEEE トランザクションズ オン インフォメーション セオリー(Transactions on Information Theory)」50巻12号3250-3264頁
 しかしながら、特許文献1で用いる類似度計算方法では、単語数が大きくなると、非特許文献1に記載されているように有意な解を得ることができなくなる。そのため、不要と考えられる単語の情報を予め排除し、単語数を少なくする必要がある。しかし、大部分の文書に含まれる一般語や僅かな文書にしか出現しない単語が予め排除されがちであり、僅かな文書にしか出現しない単語が重要であっても機械的に排除されてしまう。そのため、僅かな文書にしか出現しない単語による特徴的な対象間の類似度の高さが分からず、含まれる数は少なくても特徴的な対象を抽出するような類型化がされにくいという問題がある。また、一般語を部分に含むような複合語が機械的に排除されてしまい、一般語を部分に含むような複合語が重要であっても用いられずに類型化されてしまうという問題がある。
 特許文献2では、一般語を部分に含むような複合語が重要であったり、数は少なくても特徴的な単語があったりした場合でも類型化するために、設定されたキーワードと重要度を用いている。しかし、キーワードはシステムのユーザが予め決める必要があり、システムのユーザの手間がかかる上に、システムのユーザの想定外のキーワードを用いて分析することはできない。したがって、ユーザが事前に想定しない限り、含まれる数は少なくても特徴的な対象を抽出することはできない。
 また、特許文献3でも、特徴的な単語を用いて分析するために、文タグ判定テーブルにはキーワードとそれに対応するタグを用い、分類パターン記述テーブルには各階層に含まれるstring、concept、subconceptを用いている。しかし、文タグ判定テーブルのキーワードや分類パターン記述テーブルのstring、concept、subconceptは、特許文献2と同様に、システムのユーザが予め決める必要がある。そのため、システムのユーザの手間がかかる上に、システムのユーザの想定外の文字列や概念を用いて分析することはできなかい。したがって、ユーザが事前に想定しない限り、含まれる数は少なくても特徴的な対象を抽出することはできない。含まれる数は少なくても特徴的な対象を抽出する技術が望まれる。
 非特許文献2では、距離でなく類似度を計算するために、理論的に適用できる類型化法が限定されている。例えば、最短距離法は理論的に適用できるが、非特許文献1に記載されているように、チェイニング効果によって恣意的な階段状構造に類型化されてしまうため、適切に類型化することができないという問題がある。また、非特許文献2で計算される類似度は、特許文献3に記載されるような規則的な変換や同義語だけでなく、それぞれ日本語における文体である「ですます調」と「である調」の混在という表記の揺れの影響も受けてしまう。そのために、適切に類型化することができないという問題もあった。
 本発明の一側面による類型化装置は、複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出部と、類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択部と、併合対象から新たな対象データを作成する新対象作成部と、併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を類似度テーブルから除去する併合対象除去部と、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する新対象追加部とを備える。
 本発明の一側面による類型化方法は、複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶し、類似度が所定の基準を満たす2つの対象データを併合対象として選択し、併合対象から新たな対象データを作成し、併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を類似度テーブルから除去し、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する。
 本発明の一側面による類型化プログラムは、複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出機能と、類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択機能と、併合対象から新たな対象データを作成する新対象作成機能と、併合対象として選択された2つの対象データの各々とそれ以外の対象との類似度を類似度テーブルから除去する併合対象除去機能と、新たな対象データと、複数の対象データの中の新たな対象データ以外の対象データとの類似度を計算する新対象追加機能とをコンピュータに実現させる。
 本発明により、文書、画像、時系列データなどの対象の類型化システム、類型化方法および類型化用プログラムが提供される。特に、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークホルダの要求獲得・分析の際に、含まれる数は少なくても特徴的な対象を抽出することができる類型化システム、類型化方法および類型化用プログラムが提供される。
 本発明に関する上述の及びその他の目的、利点、特徴は、いくつかの実施形態に関して、添付図面と併せて以下の記載から更に明らかとなるであろう。その添付図面には下記のものが含まれる。
図1は、本発明の第1の実施形態の類型化システムの例を示すブロック図である。 図2は、対象記憶部11に記憶される対象の例を示す説明図である。 図3は、類似度記憶部12に記憶される類似度の例を示す説明図である。 図4は、併合対象として対象1と対象2が選択され除去されたときの対象記憶部11の例を示す説明図である。 図5は、併合対象として対象1と対象2が選択され除去されたときの類似度記憶部12の例を示す説明図である。 図6は、対象1と対象2とを連結した新対象を対象1として記憶したときの対象記憶部11の例を示す説明図である。 図7は、対象1と対象2とを連結した新対象を対象1として記憶したときの類似度記憶部12の例を示す説明図である。 図8は、本発明の第1の実施形態の類型化システムの処理経過の例を示すフローチャートである。 図9は、本発明の第2の実施形態の類型化システムの例を示すブロック図である。 図10は、前処理ルールの例を示す説明図である。 図11は、前処理ルールを適用して変換した対象記憶部11の例を示す説明図である。 図12は、本発明の第2の実施形態の類型化システムの前処理部の処理経過の例を示すフローチャートである。
 以下、本発明の実施形態について図面を参照して説明する。
[第1の実施形態]
 図1は、本発明の第1の実施形態における類型化システムを示すブロック図である。本実施形態の類型化システム100は、記憶部1と、計算部2とを備える。記憶部1は、対象記憶部11と、類似度記憶部12とを備える。計算部2は、類似度計算部21と、制御部22と、併合対象選択部23と、新対象作成部24と、併合対象除去部25と、新対象追加部26とを備える。類型化システムはパーソナルコンピュータなどの計算装置によって実現することができる。記憶部1はハードディスク等の記憶装置によって実現される。計算部2は、記憶装置に格納されたプログラムをCPUが読み出し、そのプログラムに記述された手順に従った動作を実行することによって実現される機能ブロックである。
 記憶部1の対象記憶部11には、類型化すべき複数の対象が予め記憶されている。複数の対象は、それぞれ画像や文書などのデータである。これらの対象は、類型化システムの動作にともなって書き換えられる。対象が文書の場合の対象記憶部11に格納される対象データの例を図2に示す。図に示すように、対象記憶部11には、対象を特定するための識別子を示すIDと対象の中身を示す内容とが記憶される。なお、以降、IDがiの対象を対象iと呼ぶことにする。
 類似度記憶部12は、類似度テーブルを記憶する。類似度テーブルには対象記憶部11に記憶された複数の対象のうちの任意の2つの対象の間の類似度が格納される。類似度テーブルの例を図3に示す。図に示すように、類似度テーブルには、2つの対象に対する類似度が数値として記憶される。ここで、対象iと対象iとのような自分自身との類似度は記憶しない。また、i≠jである対象iの対象jに対する類似度が、対象jの対象iに対する類似度と同じとみなせる場合には、対象iの対象jに対する類似度が記憶されれば、対象jの対象iに対する類似度は記憶しなくてもよい。
 計算部2の類似度算出部21は、対象記憶部11に記憶された複数の対象のうちの2つの対象の類似度を計算し、類似度記憶部12に記憶する。類似度の計算方法は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定される。ここで、対象iと対象iとのような自分自身との類似度は計算せず、また、i≠jである対象iの対象jに対する類似度が、対象jの対象iに対する類似度と同じとみなせる場合には、無駄な計算を省くため、対象iの対象jに対する類似度を計算するのみで対象jの対象iに対する類似度は計算しない。類似度算出部21は、それ以外の全ての対象のペアの類似度を計算する。
 制御部22は、終了条件を満たすかどうかをチェックし、満たすなら動作を終了し、満たさないなら動作を続行する。ここで、終了条件は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定される。併合対象選択部23は、類似度記憶部12に記憶された類似度に基づいて、対象記憶部11に記憶された対象のなかから、2つの対象を併合対象として選択する。例えば、類似度記憶部12に記憶された類似度が最大である2つの文書を併合対象として選択する。新対象作成部24は、選択した2つの併合対象に基づいて新たな対象を作成する。例えば、2つの併合対象を連結して新たな対象を作成する。
 併合対象除去部25は、併合対象として選択された2つの対象の類似度を対象記憶部11から除去する。併合対象除去部25は更に、併合対象として選択された2つの対象の各々とそれ以外の対象との類似度を類似度記憶部12の類似度テーブルから除去する。ここで、図2において、対象1と対象2とが2つの対象が併合対象として選択された場合の例として、対象記憶部11が記憶する対象データを図4、類似度記憶部12が記憶する類似度テーブルを図5に示す。図に示すように、対象1と対象2とが、対象記憶部11から除去され、対象1と他の対象との類似度と、対象2と他の対象との類似度とが、類似度記憶部12から除去される。
 新対象追加部26は、対象記憶部11に記憶された複数の対象の各々と新対象との間の類似度を計算し、計算された類似度を類似度記憶部12に記憶し、新対象を対象記憶部11に記憶する。対象記憶部11が記憶する対象データの例を図6、類似度記憶部12が記憶する類似度テーブルの例を図7に示す。図6では、2つの対象を連結した新対象を対象1として対象記憶部11に記憶しており、この新対象1と対象3との間の類似度、・・・新対象1と対象Nの類似度を計算して、図7に示すように、それぞれの類似度を類似度記憶部12に記憶する。
 次に、類型化システムの動作について説明する。図8は、本実施形態の類型化システムの処理経過の例を示すフローチャートである。例えば、複数の対象が対象記憶部11に記憶され、類似度の計算方法と終了条件がキーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されると、類型化システムは以下のように動作する。ここで、対象記憶部11にはN件の対象が記憶されているものとする。
 まず、類似度計算部21は、対象記憶部11に記憶された対象のペアに対し類似度を計算し、類似度記憶部12に記憶する(図8のステップA1)。ここで、対象iと対象iとのような自分自身との類似度は記憶せず、また、i≠jである対象iの対象jに対する類似度が、対象jの対象iに対する類似度と同じとみなせる場合には、無駄な計算を省くため、対象jの対象iに対する類似度を計算したり記憶したりしないが、それ以外の全てのペアの類似度を計算し記憶する。類似度の計算方法は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定される。
 類似度の計算方法の例を示す。例えば、圧縮による計算方法が指定されており、対象を圧縮するアルゴリズムが指定されたとする。対象iと対象jとの間の類似度d(i,j)は、対象iを圧縮した場合のサイズをC(i)、対象jを圧縮した場合のサイズをC(j)、対象iとjとを連結させた新たな対象を圧縮した場合のサイズをC(ij)とすると、例えば、以下の[数1]または[数2]に示す数式によって計算することができる。これらはコルモゴロフ複雑性を近似する方法であると見なすことができる。
[数1]
Figure JPOXMLDOC01-appb-I000001
[数2]
Figure JPOXMLDOC01-appb-I000002
 指定される圧縮アルゴリズムは、例えば、文書の場合はgip、zgipなどであり、画像の場合は、pngへの変換などである。
 次に、制御部22は、終了条件を満たすかどうかをチェックし、満たすなら動作を終了し、満たさないならステップA3に動作を移す(ステップA2)。ここで、終了条件は、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されている。終了条件としては、例えば以下のような条件を採用することができる。
(A)対象記憶部11に記憶された対象の数が予め定めた数L以下である。
(B)類似度記憶部12に記憶された類似度の最大値が予め定めた閾値θ以下である。
 併合対象選択部23は、類似度記憶部12に記憶された類似度に基づいて、対象記憶部11に記憶された対象のなかから、2つの対象を併合対象として選択する(ステップA3)。ここで、選択方法は、例えば、類似度記憶部12に記憶された類似度が最大となる2つの文書を選択する、などである。
 新対象作成部24は、2つの併合対象を連結して新たな対象を作成する(ステップA4)。併合対象除去部25は、選択された2つの併合対象を対象記憶部から除去する(ステップA5)。また、選択された2つの併合対象と他の対象との類似度を類似度記憶部12から除去する(ステップA6)。新対象追加部26は、対象記憶部11に記憶された対象と新対象との間の類似度を計算し、類似度記憶部12に追加して記憶する(ステップA7)。また、新対象を対象記憶部11に記憶する(ステップA8)。
 動作が終了すると、対象記憶部11に記憶された対象をディスプレイなどの出力装置に出力して表示してもよい。また、対象記憶部11とは別の記憶部を用意して、もとの対象のIDとその内容や、新対象に対応するもとの対象のIDの組とを記憶しておき、新対象ともとの対象との間の関係を樹形図(デンドログラム)として表示してもよい。また、ここでは、説明のため、対象記憶部11に対象IDと対象の内容とを記憶したが、単に、対象(の内容)を対象IDというファイル名で記憶しておいてもよい。
 次に第1の実施形態の効果について説明する。第1の実施形態では、含まれる数は少なくても特徴的な対象を抽出するよう類型化するため、コルモゴロフ複雑性を近似する方法で類似度を計算している。ここで、例えば、2つの併合対象を、対象iと対象jとし、対象iは、部分Aと部分Bからなり、対象jが部分Aと部分Cからなるとする。単に最短距離法を用いて類型化を行ったとすると、最短距離法は、新たな対象を生成したり、もとの対象を除去したりせず、[数3]で示されるように、それぞれのクラスタP、Qに含まれる対象間で最も類似度の高い対象を選んで、その類似度をクラスタ間の類似度とする。
[数3]
Figure JPOXMLDOC01-appb-I000003
 そのため、部分Bと極めて類似度の高い部分B’をもつ対象があるときに、その対象とクラスタとの類似度が高いと計算される。したがって、非特許文献2にも記載されているように、クラスタに含まれる対象数が多いほど、最も類似度の高い対象として選ぶことができる候補が増え、そのクラスタは併合するために選ばれやすくなる。その結果、大きく併合されたクラスタと、それ以外のいくつかの対象という恣意的な階段状構造が生じてしまい、適切に類型化することができなかった。
 一方、本発明の第1の実施形態では、2つの併合対象を連結して新たな対象を作成し、新対象とその他の対象との類似度を計算して次の併合対象を選択するため、クラスタに含まれる多くの対象と類似度の高い対象が選ばれやすくなる。例えば、部分Bと極めて類似度の高い部分B’をもつ対象よりも、クラスタに多く含まれる部分Aとやや類似度の高いA’をもつ対象の方が、選ばれやすくなる。
 このように、第1の実施形態では、含まれる数は少なくても特徴的な対象を抽出するように、適切に類型化を行うことができる。また、第1の実施形態では、対象全体の情報を圧縮するなどして用いるので、例えば対象が文書の場合に、単語数が多くても一般語や特殊語を除くことなく類似度を計算することができる。したがって、部分が一般語となる複合語や特殊語があったとしても類型化を行うことができる。
[第2の実施形態]
 図9は、本発明の第2の実施形態における類型化システムの例を示すブロック図である。本実施形態の類型化システム200は、記憶部3と、類型化部4とを備える。記憶部3は、前処理ルール記憶部30と、対象記憶部11と、類似度記憶部12とを備える。計算部4は、前処理部40と、類似度計算部21と、制御部22と、併合対象選択部23と、新対象作成部24と、併合対象除去部25と、新対象追加部26とを備える。対象記憶部11と、類似度記憶部12と、類似度計算部21と、制御部22と、併合対象選択部23と、新対象作成部24と、併合対象除去部25と、新対象追加部26とは、第1の実施形態と同様である。
 前処理ルール記憶部30は、対象の表現形式を統一するための前処理ルールを記憶する。前処理ルールは、予めシステムに記憶されていてもよいし、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されてもよい。対象が文書の場合の前処理ルールの例を図10に示す。図に示すように、「分からない→わからない」、「無い→ない」のように、漢字とひらがなの両方の表記を、どちらかに統一する。また、「パーソナルコンピュータ→パソコン」、「PC→パソコン」のように、さまざまな表記のある同義語を統一する。また、「できます→できる」、「でした→だった」のように、「ですます調」と「である調」の両方の表記を、どちらかに統一する。
 前処理部40は、前処理ルール記憶部30に記憶された前処理ルールに基づいて、対象記憶部11に記憶された対象を変換し、対象記憶部11に上書きする。図2の対象を変換した対象記憶部11の例を図11に示す。図では、「分からない→わからない」、「無い→ない」と変換されている。
 なお、ここでは、対象が文書の場合を例として示したが、対象が画像や時系列データの場合にも同様に前処理ルールを指定できる。対象が画像の場合の前処理ルールは、例えば、画像解像度を100ppi(pixels per inch)に変換するなどである。対象が時系列データの場合の前処理ルールは、例えば、表示される数値のフォーマットを同じものに変換するなどである。
 次に動作について説明する。図12は、本実施形態における分類システムの前処理部40の処理経過の例を示すフローチャートである。例えば、前処理ルールが予めシステムに記憶されるか、キーボードなどの入力装置を介してシステムのユーザにより指定されるか、あるいは他の様態により指定されると、類型化システムの前処理部40は以下のように動作する。なお、問題領域固有の言葉などが事前に分かっている場合には、キーボードなどの入力装置を介してシステムのユーザにより前処理ルールとして入力されてもよい。
 まず、対象記憶部11の対象の識別番号を示す変数iを1に初期化する(図12のステップB1)。それから、対象記憶部11のi番目の対象iの内容を読み込む(ステップB2)。対象iに前処理ルールを適用して、対象iを変換する(ステップB3)。変換した対象iを対象記憶部11のi番目の内容として上書きする(ステップB4)。変数iをインクリメントする(ステップB5)。変数iを全対象数Nと比較し(ステップB6)、iがN以下ならステップB3に戻り、iがNを超えるなら、前処理部40の動作を終了する。
 次に第2の実施形態の効果について説明する。第2の実施形態では、前処理で対象の表現形式を統一することにより、表現形式が統一されていなかった対象を適切に類型化することができる。
 次に、上に説明した第1および第2の実施形態における類型化システムを、インタビュー結果からの要求獲得に適用した場合の例を示す。本インタビューは、新たなオフィス環境を提示し、導入したらどう思うかについて、インタビュワーが被験者1名に質問し、書記(記録係)が記述したものであり、101件、計9,000文字程度の文書である。インタビュワーは、事前に決めた3つのテーマについて質問しているが、被験者をリラックスさせ広く要求を抽出するためテーマにあまり固執せずに質問した。また、書記は、インタビュワーや被験者が使用した曖昧で非形式的な日常会話をそのまま記録した。検証のためテーマを未知として、図10のような前処理ルールを適用して一般的に用いられる用語の表現形式を統一した後、全101件の文書を第1の実施形態で説明した処理によって5つの新対象に類型化し、5つの新対象に多く含まれる単語を抽出した。その結果、3つのテーマを示す3つのキーワードが全て抽出できた。
 次に、比較するため、第2の実施形態で説明した前処理を同様に行ってから、第1の実施形態で説明したものと同じ類似度を用いてウォード法による類型化を行った。ウォード法は、非特許文献1に記載されており、類似度をユークリッド距離と想定した手法である。この方法は、一般には適切な類型化結果を得られることが多い。それに対して第1の実施形態で説明した類似度はユークリッド距離ではない。上記のインタビュー結果に対してウォード法を適用して類型化できるかを試したところ、3つのテーマを示すキーワードのうち、1つしか抽出することができなかった。
 本発明は、例えば、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークホルダの要求獲得・分析の際に、含まれる数は少なくても特徴的な対象を抽出する類型化システムに適用される。また、本発明は、例えば、マーケティングやコールセンタなどにおける顧客意見の分析や、ステークスホルダの要求獲得・分析の際に、表現形式が統一されていない対象を類型化する類型化システムに適用される。
 以上、いくつかの実施形態によって本発明を説明したが、これらの実施の諸形態は単に発明を説明するために挙げられたものであり請求の範囲の内容を限定するために参照されるべきでないことは、当業者には明らかである。
 この出願は、2009年4月10日に出願された日本出願特願2009-095618号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (18)

  1.  複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出部と、
     前記類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択部と、
     前記併合対象から新たな対象データを作成する新対象作成部と、
     前記併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を前記類似度テーブルから除去する併合対象除去部と、
     前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する新対象追加部
     とを具備する類型化装置。
  2.  前記新対象作成部は、前記併合対象として選択された2つの対象データを連結することによって前記新たな対象データを作成する
     請求項1に記載の類型化装置。
  3.  前記併合対象選択部は、前記類似度テーブルの中で最も類似度が高い2つの対象データを前記併合対象として選択する
     請求項1または請求項2に記載の類型化装置。
  4.  前記類似度算出部は、コルモゴロフ複雑性の近似計算法に基づいて類似度を計算する
     請求項1から請求項3のうちのいずれか1項に記載の類型化装置。
  5.  前記近似計算法は、2つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、2つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
     請求項4に記載の類型化装置。
  6.  前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
     請求項1から請求項5のうちのいずれか1項に記載の類型化装置。
  7.  複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶し、
     前記類似度が所定の基準を満たす2つの対象データを併合対象として選択し、
     前記併合対象から新たな対象データを作成し、
     前記併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を前記類似度テーブルから除去し、
     前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する
     類型化方法。
  8.  前記新たな対象データは、前記併合対象として選択された2つの対象データを連結することによって作成される
     請求項7に記載の類型化方法。
  9.  前記類似度テーブルの中で最も類似度が高い2つの対象データが前記併合対象として選択される
     請求項7または請求項8に記載の類型化方法。
  10.  前記類似度は、コルモゴロフ複雑性の近似計算法に基づいて計算される
     請求項7から請求項9のうちのいずれか1項に記載の類型化方法。
  11.  前記近似計算法は、2つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、2つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
     請求項10に記載の類型化方法。
  12.  前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
     請求項7から請求項11のいずれか1項に記載の類型化方法。
  13.  複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出機能と、
     前記類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択機能と、
     前記併合対象から新たな対象データを作成する新対象作成機能と、
     前記併合対象として選択された2つの対象データの各々とそれ以外の対象との類似度を前記類似度テーブルから除去する併合対象除去機能と、
     前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する新対象追加機能
     とをコンピュータに実現させるための類型化プログラム。
  14.  前記新対象作成機能は、前記併合対象として選択された2つの対象データを連結することによって前記新たな対象データを作成する
     請求項13に記載の類型化プログラム。
  15.  前記併合対象選択機能は、前記類似度テーブルの中で最も類似度が高い2つの対象データを前記併合対象として選択する
     請求項13または請求項14に記載の類型化プログラム。
  16.  前記類似度算出機能は、コルモゴロフ複雑性の近似計算法に基づいて類似度を計算する 請求項13から請求項15のうちのいずれか1項に記載の類型化プログラム。
  17.  前記近似計算法は、2つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、2つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
     請求項16に記載の類型化プログラム。
  18.  前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
     請求項13から請求項17のうちのいずれか1項に記載の類型化プログラム。
PCT/JP2010/056352 2009-04-10 2010-04-08 類型化装置、類型化方法及び類型化プログラム Ceased WO2010117031A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/263,030 US9075829B2 (en) 2009-04-10 2010-04-08 Clustering apparatus, and clustering method
JP2011508385A JP5569698B2 (ja) 2009-04-10 2010-04-08 類型化装置、類型化方法及び類型化プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-095618 2009-04-10
JP2009095618 2009-04-10

Publications (1)

Publication Number Publication Date
WO2010117031A1 true WO2010117031A1 (ja) 2010-10-14

Family

ID=42936312

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/056352 Ceased WO2010117031A1 (ja) 2009-04-10 2010-04-08 類型化装置、類型化方法及び類型化プログラム

Country Status (3)

Country Link
US (1) US9075829B2 (ja)
JP (1) JP5569698B2 (ja)
WO (1) WO2010117031A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026197A1 (ja) * 2010-08-24 2012-03-01 日本電気株式会社 文書分析システム、文書分析方法、文書分析プログラムおよび記録媒体
WO2012124301A1 (ja) * 2011-03-16 2012-09-20 日本電気株式会社 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
JP2016006583A (ja) * 2014-06-20 2016-01-14 株式会社エヌ・ティ・ティ・データ ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム
CN118656495A (zh) * 2024-08-20 2024-09-17 湖南数据产业集团有限公司 一种舆情发布溯源方法、装置、设备及其存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386281B (zh) * 2022-01-13 2022-09-13 北京卫星环境工程研究所 一种基于聚类的试验加热回路自动设计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008283412A (ja) * 2007-05-10 2008-11-20 Nippon Hoso Kyokai <Nhk> コメント収集解析装置およびそのプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8503304A (nl) * 1985-11-29 1987-06-16 Philips Nv Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal.
US6961664B2 (en) * 1999-01-19 2005-11-01 Maxygen Methods of populating data structures for use in evolutionary simulations
JP2001229177A (ja) 2000-02-16 2001-08-24 Mitsubishi Electric Corp 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体
JP4870448B2 (ja) 2006-02-23 2012-02-08 株式会社日立製作所 情報処理装置、顧客ニーズ分析方法、およびプログラム
US7937334B2 (en) * 2006-05-31 2011-05-03 Lockheed Martin Corporation System and method for defining normal operating regions and identifying anomalous behavior of units within a fleet, operating in a complex, dynamic environment
US8745055B2 (en) * 2006-09-28 2014-06-03 Symantec Operating Corporation Clustering system and method
JP4936455B2 (ja) 2007-03-22 2012-05-23 日本電信電話株式会社 文書分類装置、文書分類方法、プログラムおよび記録媒体
US8136160B2 (en) * 2008-11-25 2012-03-13 At&T Intellectual Property I, Lp System and method to select monitors that detect prefix hijacking events

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008283412A (ja) * 2007-05-10 2008-11-20 Nippon Hoso Kyokai <Nhk> コメント収集解析装置およびそのプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ETSUKO INOUE: "A New Interactive Graph-Based Visualization Method for Large-Scale Clustering Analyses", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS (J92-D), vol. J92-D, no. 3, 1 March 2009 (2009-03-01), pages 351 - 360 *
ISAO NAMBA: "Question Answering Retrieval for Log Using Pseudo Frequency", IEICE TECHNICAL REPORT, vol. 101, no. 712, 7 March 2002 (2002-03-07), pages 101 - 108 *
KAZUNARI ISHIDA: "On a statistical analysis of relation among documents in terms of terminology and a development of system to support the analysis", IPSJ SIG NOTES, vol. 99, no. 57, 16 July 1999 (1999-07-16), pages 49 - 56 *
YUKIKO FUJIWARA ET AL.: "Kolmogorov Fukuzatsu Sei ni Motozuku Seihin?Service no Kachi Hyoka", FIT2009, 4 September 2009 (2009-09-04), pages 55 - 62, Retrieved from the Internet <URL:http://www.sofken.com/FIT2009/pdf/F/RF002.pdf> *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026197A1 (ja) * 2010-08-24 2012-03-01 日本電気株式会社 文書分析システム、文書分析方法、文書分析プログラムおよび記録媒体
US9575937B2 (en) 2010-08-24 2017-02-21 Nec Corporation Document analysis system, document analysis method, document analysis program and recording medium
WO2012124301A1 (ja) * 2011-03-16 2012-09-20 日本電気株式会社 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
JPWO2012124301A1 (ja) * 2011-03-16 2014-07-17 日本電気株式会社 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム
JP2016006583A (ja) * 2014-06-20 2016-01-14 株式会社エヌ・ティ・ティ・データ ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム
CN118656495A (zh) * 2024-08-20 2024-09-17 湖南数据产业集团有限公司 一种舆情发布溯源方法、装置、设备及其存储介质

Also Published As

Publication number Publication date
US9075829B2 (en) 2015-07-07
JP5569698B2 (ja) 2014-08-13
US20120124048A1 (en) 2012-05-17
JPWO2010117031A1 (ja) 2012-10-18

Similar Documents

Publication Publication Date Title
Large et al. On time series classification with dictionary-based classifiers
CN107750015B (zh) 视频版权的检测方法、装置、存储介质及设备
JP5458815B2 (ja) マルチメディア検索システム
JP2012038244A (ja) 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
CN114429566A (zh) 一种图像语义理解方法、装置、设备及存储介质
Vidyadharan et al. Digital image forgery detection using compact multi-texture representation
JP5569698B2 (ja) 類型化装置、類型化方法及び類型化プログラム
US20190130030A1 (en) Generation method, generation device, and recording medium
Arya et al. Local triangular coded pattern: a texture descriptor for image classification
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
CN118643342A (zh) 样本对生成、大模型的训练、图像检索方法及装置、设备和介质
JP7116969B2 (ja) 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
Le et al. National Institute of Informatics, Japan at TRECVID 2011.
US20250045459A1 (en) Apparatus for and method of de-identification of medical images
JP2019133478A (ja) 計算機システム
Dandekar et al. Verification of family relation from parents and child facial images
CN118643819A (zh) 用于富文本内容查重的方法、处理器以及存储介质
CN112241470A (zh) 一种视频分类方法及系统
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
JP2011108192A (ja) マルチメディア分類システム及びマルチメディア検索システム
US11270155B2 (en) Duplicate image detection based on image content
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
Deepa et al. Age estimation in human face by fractal directional code method
Kannagi et al. Image Retrieval based on Deep Learning-Convolutional Neural Networks
JP7333891B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10761730

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011508385

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13263030

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10761730

Country of ref document: EP

Kind code of ref document: A1