[go: up one dir, main page]

JP2005332080A - 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 - Google Patents

視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 Download PDF

Info

Publication number
JP2005332080A
JP2005332080A JP2004148236A JP2004148236A JP2005332080A JP 2005332080 A JP2005332080 A JP 2005332080A JP 2004148236 A JP2004148236 A JP 2004148236A JP 2004148236 A JP2004148236 A JP 2004148236A JP 2005332080 A JP2005332080 A JP 2005332080A
Authority
JP
Japan
Prior art keywords
information
content
keyword
concept
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004148236A
Other languages
English (en)
Other versions
JP4453440B2 (ja
Inventor
Yoshiyo Ikeda
佳代 池田
Shinji Abe
伸治 安部
Yoshihide Sato
吉秀 佐藤
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004148236A priority Critical patent/JP4453440B2/ja
Publication of JP2005332080A publication Critical patent/JP2005332080A/ja
Application granted granted Critical
Publication of JP4453440B2 publication Critical patent/JP4453440B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 コンテンツに付属するキーワードについて、分類カテゴリ情報を基に算出する重みを設け、キーワードに優先順位を付けることで、よりコンテンツの特色を表すことを可能にする。
【解決手段】 本発明は、コンテンツが属する分類カテゴリとコンテンツが持つキーワードが属する分類カテゴリとを比較し、概念マップ上で、コンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離が遠いほど重み率は軽くなり、近いほど重くなるようなキーワードの重み率を算出し、コンテンツが持つキーワードそれぞれに対し、概念マップ上で当てはまるキーワードベクトルに重み率を掛けて、全てののキーワードの重心をとることで、コンテンツの配置座標を算出する。
【選択図】 図1

Description

本発明は、視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体に係り、特に、予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、その情報に付与されたキーワードを、各々の情報間の内容的類似性によって、その情報を視覚的に分類する視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体に関する。
詳しくは、ユーザが大量の情報をその構造を概観または観察しながら、少しずつ情報要求を明確化し、興味ある情報に到達できるようにするためのブラウジングインタフェースに適用するのに有効な技術に関する。
近年では、電子化された情報の分類方法についてさまざまな方法が行われている。その中で代表的なものはディレクトリ形式のリスト表示であるが、情報が大量になると単なるディレクトリ形式の分類では階層構造が深くならざるを得なくなり、ユーザにとって使い勝手が悪いものとなってしまう。また、階層構造を深くしない場合でも、ディレクトリの最下層に多量の情報が属することとなり、リスト形式表示では、欲しい情報を探しにくいという欠点がある。その上、その分類方法がユーザの感覚と合っていない場合は、欲しい情報に辿り着きにくくなってしまう。
そこで、扱う情報が大量にある場合は、その情報を視覚的に分類配置し、ユーザに見える形で提供するコンテンツナビゲーションの方法が提供されている。
従来、大量のコンテンツを2次元上に視覚的に分類する配置技術が提案されている(例えば、非特許文献1参照)。この技術は、コンテンツがテキスト文書である場合を対象として、テキスト文書からのキーワード、並びに、キーワードの文書中の出現頻度を抽出して、キーワードベクトル(概念ベクトル)を生成し、これに多次元尺度法を適用してコンテンツの2次元配置及びそれを用いたブラウジングインタフェースを実現している。
また、ここで扱う概念ベクトルとしては、概要説明文からの概念ベクトル(事前に定められた語彙に関する重みベクトルとして与えられる)の算出方法とその概念ベクトルを集めた概念ベース(概念ベクトルの集まりで辞書のようなもの)の作成方法がある(例えば、非特許文献2参照)。
また、概念ベース(概念ベクトルの集まりで辞書のようなもの)に分類カテゴリの代表語が入力されると、その代表語から連想される語彙や説明文から概念ベクトルを算出するという方法がある(例えば、非特許文献3参照)。
また、概念ベース(概念ベクトルの集まりで辞書のようなもの)を基に多次元尺度法を用いて、予め決められた特徴的な単語で表された分類カテゴリの単語情報を基準マップと呼ばれる2次元マップ上に落とし込み、そのマップの上にコンテンツを配置するという方法が提案されている。この場合、コンテンツには予め付与された分類カテゴリと概要説明文などのテキストもしくは、キーワード(語彙)などのメタ情報があり、そのメタ情報と概念ベースや基準マップとの類似性すなわち、距離を算出し、コンテンツの概念ベクトルを計算し、多次元尺度法を用いて2次元平面上にコンテンツを分類配置することが行われる(例えば、非特許文献4参照)。
ある情報にメタ情報が付与されている場合、これをその情報の検索に利用することは効果的である。例えば、その情報をウェブページとした場合、ウェブページの検索では、多くのポータルサイトなどが提供している、各々のウェブページに付与されているメタ情報を利用したディレクトリサービスを用いることで、目的のウェブページを効率的に絞り込むということができる。
図11に概念マップの概要を説明するための図を、図12に従来の技術の概要を示す。
予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られた図11に示すような概念マップに、コンテンツの持つキーワード(語彙)を基に分類配置しようとする時、コンテンツに付与されたキーワード(概念ベースに含まれる語彙)、もしくは、コンテンツに付与されたメタ情報を分析することによりその特徴を表すキーワードを抽出した後、従来の方法では、図12に示すように、コンテンツを配置する際に、コンテンツに付属するメタ情報等にキーワードがどのくらい出現しているかという、出現頻度を算出し、キーワードに重みを付けるか、もしくは、キーワードの全てを同一の価値として扱い、概念ベース上に当てはまるそれらのキーワードの重心等にコンテンツを配置する。
James A. Wise, et. Al. Visualizing the non-visual: Spatial analysis and interaction with information from text documents Proc. Of IEEE Information Visualization ’95, pp. 51-58(1995) 熊本睦他、「概念ベースの情報検索への適用−概念ベースを用いた検索の特徴評価」、信学技報、AI98-63(1999) 笠原要他、「国語辞書を利用した日常語の類似性判別、情処論、Vol, 138,No7, pp. 1272-1283, (1997) 藤田悦郎他、「分類情報と言語情報の統合利用に基づくコンテンツ空間の可視化」、DEWS2003 1-P-03(2003,Mar.) http://www.ieice.org/iss/de/DEWS/proc/2003/program.html#1st-1-P
上記の図12に示すような従来の方法の中で、単にコンテンツを表すキーワードの重心にコンテンツを配置するような方法では、コンテンツが属する分類カテゴリに関係なく、他の分類カテゴリに属するキーワードもそのコンテンツを表すキーワードとして、同等のものとして扱われていた。よって、キーワードがコンテンツの属さないカテゴリを持つとき、そのカテゴリ情報のほうへ必要以上に引っ張られて配置されることとなり、コンテンツの特色をゆがめてしまっていた。
また、出現頻度に応じて、キーワードに重みを付ける方法では、別々の分類カテゴリに属する複数のコンテンツを配置する際、それらが、同じ出現頻度を持つキーワードを持っていた場合、概念マップ上でほぼ同じ位置に配置されてしまうことになり、コンテンツを特徴付ける分類カテゴリの意図を反映できず、コンテンツの相違を表現することが困難である。
本発明は、上記の点に鑑みなされたもので、コンテンツに付属するキーワードについて、分類カテゴリ情報を基に算出する重みを設け、キーワードに優先順位を付けることで、よりコンテンツの特色を表すことが可能な視覚的分類方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類方法であって、
予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、
同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られ、該概念ベースの持つ概念ベクトルが配置されている概念マップ上に、コンテンツの持つキーワード(語彙)を基に分類配置する際に、
概念マップ上へのコンテンツ登録要求が発行されると、コンテンツのキーワードと分類カテゴリ情報、該概念マップの持つ分類カテゴリ情報、及び、キーワード(語彙)情報を記憶手段から取得する情報取得ステップと(ステップ1)、
分類カテゴリ情報と、キーワード情報を比較し、概念マップ上でコンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離が遠いほど重み率は軽くなり、近いほど重くなるような重み率を算出する重み率算出ステップと(ステップ2)、
コンテンツが持つキーワードそれぞれに対し、概念マップ上で当てはまるキーワードベクトル(概念ベクトル)に重み率算出ステップで算出した重み率を掛けて、全てのキーワードの重心をとることで、コンテンツの配置座標を算出し、記憶手段に出力する配置座標算出ステップと(ステップ3)からなる。
図2は、本発明の原理構成図である。
本発明は、予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類装置であって、
予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、
同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られ、該概念ベースの持つ概念ベクトルが配置されている概念マップ上に、コンテンツの持つキーワード(語彙)を基に分類配置する際に、
マップ上への配置対象となるコンテンツと、該コンテンツの内容を表すテキストやキーワード、分類カテゴリ情報が格納されているコンテンツデータベース20と、
分類カテゴリ情報が格納されているメタ情報データベース21と、
分類カテゴリによって分類されたキーワード(語彙)がキーワードベクトル(概念ベクトル)として格納されている概念ベクトルデータベース22と、
概念マップ上へのコンテンツ登録要求が発行されると、コンテンツデータベース20からコンテンツのキーワードと分類カテゴリ情報を、メタ情報データベース21から該概念マップの持つ分類カテゴリ情報を、概念ベクトルデータベース22から、分類カテゴリとキーワード(語彙)の関係情報とキーワード(語彙)のベクトル情報をそれぞれ取得し、該分類カテゴリ情報と該キーワード情報とを比較し、該概念マップ上でコンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離が遠いほど重み率は軽くなり、近いほど重くなるような重み率を算出する重み率算出手段300と、
コンテンツが持つキーワードそれぞれに対し、概念マップ上で当てはまるキーワードベクトル(概念ベクトル)に重み率算出手段300で算出した重み率を掛けて、全てのキーワードの重心をとることで、コンテンツの配置座標を算出し、座標配置データベースに出力する配置座標算出手段310と、を有する。
本発明は、予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類プログラムであって、上記の視覚的情報分類方法の実現に用いられる処理をコンピュータに実現させるための視覚的情報分類プログラムである。
本発明は、予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類プログラムを記録した記憶媒体であって、上記の視覚的情報分類方法の実現に用いられる処理をコンピュータに実現させるための視覚的情報分類プログラムを記録した記憶媒体である。
上述のように、本発明によれば、予め分類カテゴリ情報を持つようなコンテンツ配置に対して、コンテンツが属する分類カテゴリからの距離に応じて、コンテンツに付属するキーワードに優先度(重み)を設けることで、たとえキーワードの重心をとったとしても、よりコンテンツの特徴を表すキーワードに寄った配置となる。
また、コンテンツの特色を表すキーワードがコンテンツの配置算出に、より影響を与えることとなるため、従来の方法よりもコンテンツの特徴が現れやすくなる。
そして、同じキーワードを持つコンテンツであっても、そのキーワードの優先度に応じて、配置位置が異なるようになる。
以上のように、従来の技術よりも、より視覚的にコンテンツの特徴の現れる配置を行うことができる。
以下、図面と共に本発明の実施の形態を説明する。
最初に本発明の概要を説明する。
図3は、本発明の概要を説明するための図である。
本発明は、予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られた概念マップ上に、コンテンツの持つキーワード(語彙)を基に分類配置するものである。このとき、コンテンツが属する分類カテゴリからの距離に応じてコンテンツに属するキーワードに重みを儲け、キーワードの重心をとった場合に、当該コンテンツの特徴を表すキーワードに寄った配置となるようにする。
前述の図2に従って本発明の視覚的分類装置の構成の概要を説明する。
視覚的分類装置は、キーワード重み率算出手段300、コンテンツ座標算出手段310、コンテンツDB20,メタ情報DB21,概念ベクトルDB22,配置座標DB23から構成される。
キーワード重み率算出手段300は、概念マップ上のコンテンツ登録要求により、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報(キーワードと分類カテゴリ情報)をコンテンツDB20から取得し、概念マップの持つ分類カテゴリ情報とキーワード(語彙)情報(キーワードとそれに付随する概念ベクトル)、分類カテゴリとキーワード(語彙)との関係情報をメタ情報DB21と概念ベクトルDB22とから取得する。
コンテンツが属する分類カテゴリとコンテンツが持つキーワードが概念マップ上で属する分類カテゴリとを比較し、同一カテゴリ内であれば、重み率を1とし、異なるカテゴリであれば、概念マップ上におけるコンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離に応じて重み率を算出する。この距離が遠いほど重み率の値は小さくなり、近いほど1に近くなる。
コンテンツ座標算出手段310は、概念ベクトルDB22から、コンテンツが持つキーワードそれぞれに対するベクトル(概念ベクトル)を取得し、キーワード重み率算出手段300で算出した重み率をそれぞれのキーワードベクトル(概念ベクトル)にかけ、それぞれの値すべての重心をとることで、コンテンツの配置座標を算出する。このようにして算出されたコンテンツ配置座標を配置座標DB23に格納する。
次に、上記の構成における動作の概要を前述の図1に従って説明する。
ステップ1) キーワード重み算出手段300において、概念マップ上へのコンテンツ登録要求が発行されると、コンテンツデータベース20からコンテンツのキーワードと分類カテゴリ情報を、メタ情報データベース21から該概念マップの持つ分類カテゴリ情報を、概念ベクトルデータベース22から、分類カテゴリとキーワード(語彙)の関係情報とキーワード(語彙)のベクトル情報をそれぞれ取得する。
ステップ2) キーワード重み算出手段300において、コンテンツが属する分類カテゴリとコンテンツが持つキーワードが概念マップ上で属する分類カテゴリとを比較し、同一カテゴリ内であれば、重み率を1とし、異なるカテゴリであれば、概念マップ上におけるコンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離に応じて重み率を算出する。この距離が遠いほど重み率の値は小さくなり、近いほど1に近くなる。
ステップ3) コンテンツ座標算出手段310において、コンテンツが持つキーワードそれぞれに対し、概念マップ上で当てはまるキーワードベクトル(概念ベクトル)に、ステップ1で算出した重み率を掛けて、全てのキーワードの重心をとることで、コンテンツの配置座標を算出し、配置座標データベース23に出力する。
次に、本発明の一実施の形態を詳細に説明する。
本発明の一実施の形態では、多次元または、2次元上にキーワードが配置された概念マップ上にメタ情報を持つようなコンテンツを配置するために、コンテンツ座標を求める。
図4は、本発明の一実施の形態における視覚的情報分類装置の具体的な構成を示す。
同図に示す視覚的情報分類装置は、コンピュータ10とこのコンピュータ10にネットワーク40を介して接続されるコンテンツデータベース(コンテンツDB)20,メタ情報データベース(メタ情報DB)21,概念ベクトルデータベース(概念ベクトルDB)22,及び、配置座標データベース(配置座標DB)23から構成されている。
コンピュータ10は、RAM,ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及びマウスやキーボードなどからなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現されるキーワード重み率算出処理部300と、コンテンツ座標算出部310を備えている。
コンテンツDB20には、配置対象となるコンテンツと、その内容を表すテキスト(概要説明文等)やキーワード、コンテンツが所属するカテゴリ情報などのメタ情報が格納されている。
メタ情報DB21には、分類カテゴリ情報が格納されている。
この分類カテゴリの情報は、事前に与えられており、コンテンツ毎に付与される。本実施の形態では、分類カテゴリ情報は、深さN(Nは正の整数)の階層構造を有しているものとする。
図5に、本発明の一実施の形態におけるコンテンツを分類するための分類カテゴリの体系例を示す。この分類カテゴリ体系に従う場合、メタ情報DB21に、このカテゴリ情報が格納されている。また、コンテンツDB20に格納されている、各コンテンツには、図5に示すLij(i,j=1〜4)のいずれかの適切な分類カテゴリが事前に割り当てられており、その情報は、コンテンツのメタ情報として、コンテンツDB20にも格納されている。なお、図5における一階層目のカテゴリ及び二階層目のカテゴリに記載されている例えば、L11の数字部分は、上記のi,jに対応する添え字である。
概念ベクトルDB22には、利用するサービスや分野に合わせて、指定された分類カテゴリによって分類されたキーワード(語彙)が、キーワードベクトル(概念ベクトル)として格納されている。また、その分類カテゴリとキーワード(語彙)の関係情報も格納されている。キーワードベクトル(概念ベクトル)は、分類カテゴリに適する情報源の内容的類似性(TF/IDF等により算出されるキーワードの出現頻度等を利用)を基に算出される多次元または、2次元の概念ベクトルである。このベクトルは、すべて統一された次元数を持つ実数値ベクトルとして表される。この時、分類カテゴリ情報もベクトル化されて格納している場合もある。
この算出方法については、前述の非特許文献2,3,4のような方法でもよい。また、予め指定された分類カテゴリに合わせて、Webページなどの外部情報を収集し、その情報から語彙を切り出し、その語彙をすべての対象文章における出現頻度によって算出した概念ベクトルを集めて概念ベースを作成するという方法でもよい。
この概念ベクトルとメタ情報DB21に格納されている分類カテゴリ情報を用いると概念マップとして利用することができる。概念マップは、コンテンツを配置するための地図であり、例えば、分類カテゴリやキーワード(語彙)の概念ベクトルが図6のように配置されている。なお、図6における「L1」「L21」「K111」などの数字部分は、L,Lij,Kijyそれぞれに対応する添え字である。
コンテンツの持つメタ情報(分類カテゴリ情報とキーワード)と概念マップの情報(分類カテゴリ情報とキーワード(語彙))との距離を両者の情報の一致度合に応じて、概念マップ上におけるコンテンツの配置座標を算出する。
配置座標DB23には、以降に説明する処理によって、各々のコンテンツの配置座標が格納される。この座標においても概念ベクトルと同様の次元数を持つが、多次元である場合は、コンテンツ表現方法に合わせて、多次元尺度構成法等によって2次元もしくは3次元のベクトルとすることも可能である。
キーワード重み率算出処理部300と、コンテンツ座標算出処理部310は、このように構成される視覚的情報分類システムのもとで、以降に説明する処理を実行することで本発明を実現するよう動作する。
以下にそのコンテンツの配置座標の算出方法を説明する。
[1]キーワード重み率算出処理部300の処理:
図7に、本発明の一実施の形態におけるキーワード重み算出処理のフローチャートを示す。
次のような方法により、キーワードK(t>0)にかかる重み率W(K)を求める。
概念マップ上へのコンテンツ登録要求により、未配置のコンテンツが与えられる場合に、その未配置コンテンツの持つメタ情報(キーワードと分類カテゴリ情報)をコンテンツDB20から取得し(ステップ701)、概念マップの持つ分類カテゴリ情報とキーワード(語彙)情報(キーワードとそれに付随する概念ベクトル)、分類カテゴリとキーワード(語彙)との関係情報をメタ情報DB21と概念ベクトルDB22とから取得する(ステップ702)。
次に、両者から集めた分類カテゴリ情報とキーワード情報とを照合し、共通するキーワード情報のベクトルを取得する(ステップ703)。
この際、キーワードK(t>0)がコンテンツの内容を表す概要説明文等のテキストd中に多用され、ある閾値回数を超えて出現するような場合は、そのコンテンツにおいてのみ、テキストdの特色を表すにはふさわしくないキーワードとしてKをキーワード算出対象としないといように指定することもできる。
また、登録したいコンテンツの内容を表す概要説明文等に出現するキーワードの出現頻度を求め、その出現頻度に応じて、重みを加減することも可能である(ステップ705)。例えば、対象とする概要説明文等のテキストdを形態素解析し、その中に出現するキーワードKに対する重みW(K,d)は、
W(K,d)=(dの中でのKの生起数)/(dのキーワードの出現総数)
といった式で算出できる。
ここでのdのキーワード出現総数とは、例えば、キーワード「イチロー」という言葉が3回出現し、別のキーワード「松井」が2回出現した場合は、『5』となる。このとき、キーワード「イチロー」の生起数は、『3』となる。
このような事前処理を行った後、決定されたキーワードそれぞれに対し、以下に示す分類カテゴリに応じたキーワードの重み率算出処理を行う。上記、事前処理を行わない場合は、W(K、d)=1となる。コンテンツの内容を表す概要説明文等のテキストd中に出現するキーワードKに対する重み率W(K)は、以下の2通りの場合に分けられて決定される。
・コンテンツの属する分類カテゴリに含まれるキーワード(ステップ706)。
W(K)=W(K,d)
・コンテンツの属さない分類カテゴリに含まれるキーワード(ステップ707)。
図8に、本発明の一実施の形態におけるキーワードの重み率算出のための変数の説明を示す。
ij:コンテンツが属するカテゴリの重心Gからキーワードが属するカテゴリの重心Gまでの距離(i,j≧1);
WD(K,Dij):上記で示した重心からの距離Dijを持つときのキーワードKが分類カテゴリに含まれない場合にかかる重み率;
LD:概念マップ上でカテゴリ重心同士が最も遠くなる組み合わせの距離としたとき、
W(K)=W(K,d)×WD(K、Dij
WD(K,Dij)=−(1/LD)×Dij+1 WD(K、Dij)≧0
として、Dij距離が遠くなるほど、キーワードにかかる重み率の値が小さくなるように決定する。
ここで、重心同士の距離Dijがあまりに遠くになると、コンテンツの特色を表すのにふさわしくないキーワードである可能性があるため、
TD:キーワード算出対象範囲;
WP:計算対象範囲決定値 (0≦WP≦1)
としたとき、次のようにも設定することができる。
WD(K,Dij)=−(1/TD)×Dij+1 D(K,Dij)≧0
TD=LD×WP
このとき、WPは、事前に設定されており、概念マップ上で最も遠くなるカテゴリ重心同士の距離LDを基準として、コンテンツの属するカテゴリからどの程度の距離範囲に含まれるカテゴリのキーワードを重み算出対象にするかを決定する値である。WP=0であれば、コンテンツが属するカテゴリ以外に含まれるキーワードは、重み算出対象外であり、WP=1であれば、概念マップ上のすべてのキーワードを算出対象とするように設定できる。
以上のようにして全ての重み率を算出した後に、この値を正規化して以降の計算に用いることができる(ステップ708)。
W(K)=W(K,d)×{WD(K,Dij)/ΣWD(K,Dij)}
以上のようにして、コンテンツに付属するキーワード全てに対して、重み率を決定する。
[2]コンテンツ座標算出処理部310の処理:
コンテンツが持つ各キーワードにキーワード重み率算出処理部300で算出した重み率を掛け、すべてのキーワードの重心をとることで、コンテンツの配置座標を算出することができる。式で表すと以下のようになる。
VC:コンテンツのベクトル座標
VK:キーワードKのベクトル座標
VC=Σ(W(K)×VK
このようにして、算出されたコンテンツ配置座標は、配置座標DB23に格納される。
以上のようにして、算出されたコンテンツ配置座標は、概念マップ上に表現され、コンテンツマップとして見ることができる。図9に、本発明の一実施の形態におけるコンテンツマップ(その1)を示し、図10に、本発明の一実施の形態におけるコンテンツマップ(その2)を示す。図9は、2次元表現であり、図10は、3次元表現である。また、この表示方法は、前述の非特許文献4のような表示方法を利用してもよい。
これらのマップは、Webブラウザなどを利用してコンピュータのディスプレイ(表示部11)上に表示することや、印刷して表示することができる。また、このコンテンツの表示方法については、2次元や3次元等様々な表現方法に適用することができる。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ユーザが大量の情報をその構造を概観または観察しながら、興味ある情報に到達できるようにするためのブラウジングインタフェース技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の概要を説明するための図である。 本発明の一実施の形態における視覚的情報分類装置の構成図である。 本発明の一実施の形態におけるコンテンツを分類するための分類カテゴリの体系例である。 本発明の一実施の形態における概念マップの例である。 本発明の一実施の形態におけるキーワード重み率算出処理のフローチャートである。 本発明の一実施の形態におけるキーワードの重み率算出のための変数を説明するための図である。 本発明の一実施の形態におけるコンテンツマップ(その1)である。 本発明の一実施の形態におけるコンテンツマップ(その2)である。 概念マップの概要を説明するための図である。 従来の技術の概要を説明するための図である。
符号の説明
10 コンピュータ
11 表示部
12 指示入力部
20 コンテンツデータベース(DB)
21 メタ情報データベース(DB)
22 概念ベクトルデータベース(DB)
23 配置座標データベース(DB)
40 ネットワーク
300 キーワード重み率算出手段、キーワード重み率算出処理部
310 コンテンツ座標算出手段、コンテンツ座標算出処理部

Claims (4)

  1. 予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類方法であって、
    予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、
    同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られ、該概念ベースの持つ概念ベクトルが配置されている概念マップ上に、コンテンツの持つキーワード(語彙)を基に分類配置する際に、
    前記概念マップ上へのコンテンツ登録要求が発行されると、コンテンツのキーワードと分類カテゴリ情報、該概念マップの持つ分類カテゴリ情報、及び、キーワード(語彙)情報を記憶手段から取得する情報取得ステップと、
    前記分類カテゴリ情報と、前記キーワード情報を比較し、前記概念マップ上でコンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離が遠いほど重み率は軽くなり、近いほど重くなるような重み率を算出する重み率算出ステップと、
    前記コンテンツが持つキーワードそれぞれに対し、前記概念マップ上で当てはまるキーワードベクトル(概念ベクトル)に前記重み率算出ステップで算出した前記重み率を掛けて、全てのキーワードの重心をとることで、コンテンツの配置座標を算出し、記憶手段に出力する配置座標算出ステップと、
    からなることを特徴とする視覚的情報分類方法。
  2. 予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類装置であって、
    予め決められた特徴的な単語で表された分類カテゴリの単語情報によって分類されたコンテンツを、
    同様の分類カテゴリによって分類された大量の語彙情報(概念ベクトル)によって作られた概念ベース(概念ベクトルの集まりで辞書のようなもの)で作られ、該概念ベースの持つ概念ベクトルが配置されている概念マップ上に、コンテンツの持つキーワード(語彙)を基に分類配置する際に、
    前記マップ上への配置対象となるコンテンツと、該コンテンツの内容を表すテキストやキーワード、分類カテゴリ情報が格納されているコンテンツデータベースと、
    分類カテゴリ情報が格納されているメタ情報データベースと、
    分類カテゴリとそれによって分類されたキーワード(語彙)との関係情報や前記キーワードのベクトル(概念ベクトル)座標とが格納されている概念ベクトルデータベース、
    前記概念マップ上へのコンテンツ登録要求が発行されると、前記コンテンツデータベースからコンテンツのキーワードと分類カテゴリ情報を、前記メタ情報データベースから該概念マップの持つ分類カテゴリ情報を、前記概念ベクトルデータベースからキーワード(語彙)情報をそれぞれ取得し、該分類カテゴリ情報と該キーワード情報とを比較し、該概念マップ上でコンテンツが属するカテゴリからキーワードが属するカテゴリまでの距離が遠いほど重み率は軽くなり、近いほど重くなるような重み率を算出する重み率算出手段と、
    前記コンテンツが持つキーワードそれぞれに対し、前記概念マップ上で当てはまるキーワードベクトル(概念ベクトル)に前記重み率算出手段で算出した前記重み率を掛けて、全てのキーワードの重心をとることで、コンテンツの配置座標を算出し、座標配置データベースに出力する配置座標算出手段と、
    を有することを特徴とする視覚的情報分類装置。
  3. 予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類プログラムであって、
    請求項1に記載の視覚的情報分類方法の実現に用いられる処理をコンピュータに実現させるための視覚的情報分類プログラム。
  4. 予め特徴的な単語で表された分類カテゴリ情報(単語情報)が付与された大量の情報において、該情報に付与されたキーワードを、各々の情報間の内容的類似性によって、該情報を視覚的に分類配置する視覚的情報分類プログラムを記録した記憶媒体であって、
    請求項1に記載の視覚的情報分類方法の実現に用いられる処理をコンピュータに実現させるための視覚的情報分類プログラムを記録した記憶媒体。
JP2004148236A 2004-05-18 2004-05-18 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 Expired - Fee Related JP4453440B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004148236A JP4453440B2 (ja) 2004-05-18 2004-05-18 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004148236A JP4453440B2 (ja) 2004-05-18 2004-05-18 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体

Publications (2)

Publication Number Publication Date
JP2005332080A true JP2005332080A (ja) 2005-12-02
JP4453440B2 JP4453440B2 (ja) 2010-04-21

Family

ID=35486723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004148236A Expired - Fee Related JP4453440B2 (ja) 2004-05-18 2004-05-18 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体

Country Status (1)

Country Link
JP (1) JP4453440B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334871A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置、プログラムおよび記録媒体
JP2007334865A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置およびプログラム
JP2008310811A (ja) * 2007-05-16 2008-12-25 Atelosoft Co Ltd 情報検索システム、情報検索方法および情報検索サーバ
JP2010009254A (ja) * 2008-06-25 2010-01-14 Yahoo Japan Corp 素性語選別装置、方法及びプログラム
JP2011141899A (ja) * 2011-04-13 2011-07-21 Toshiba Corp 表示処理装置、表示処理方法及びプログラム
US8032505B2 (en) 2008-03-11 2011-10-04 Fuji Xerox Co., Ltd. Relative document representing system, relative document representing method, and computer readable medium
US8099413B2 (en) 2008-03-21 2012-01-17 Fuji Xerox Co., Ltd. Relative document presenting system, relative document presenting method, and computer readable medium
JP2013222388A (ja) * 2012-04-18 2013-10-28 Nippon Telegr & Teleph Corp <Ntt> グラフ生成装置、方法、及びプログラム
CN114491192A (zh) * 2022-02-14 2022-05-13 中国农业银行股份有限公司 一种数据可视化方法、装置、设备及存储介质
JP2023027966A (ja) * 2021-08-18 2023-03-03 学校法人常翔学園 情報処理装置、情報処理方法、およびプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334871A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置、プログラムおよび記録媒体
JP2007334865A (ja) * 2006-05-15 2007-12-27 Data Keekibeeka Kk データ処理方法、データ処理装置およびプログラム
JP2008310811A (ja) * 2007-05-16 2008-12-25 Atelosoft Co Ltd 情報検索システム、情報検索方法および情報検索サーバ
US8032505B2 (en) 2008-03-11 2011-10-04 Fuji Xerox Co., Ltd. Relative document representing system, relative document representing method, and computer readable medium
US8099413B2 (en) 2008-03-21 2012-01-17 Fuji Xerox Co., Ltd. Relative document presenting system, relative document presenting method, and computer readable medium
JP2010009254A (ja) * 2008-06-25 2010-01-14 Yahoo Japan Corp 素性語選別装置、方法及びプログラム
JP2011141899A (ja) * 2011-04-13 2011-07-21 Toshiba Corp 表示処理装置、表示処理方法及びプログラム
JP2013222388A (ja) * 2012-04-18 2013-10-28 Nippon Telegr & Teleph Corp <Ntt> グラフ生成装置、方法、及びプログラム
JP2023027966A (ja) * 2021-08-18 2023-03-03 学校法人常翔学園 情報処理装置、情報処理方法、およびプログラム
JP7745242B2 (ja) 2021-08-18 2025-09-29 学校法人常翔学園 情報処理装置、情報処理方法、およびプログラム
CN114491192A (zh) * 2022-02-14 2022-05-13 中国农业银行股份有限公司 一种数据可视化方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP4453440B2 (ja) 2010-04-21

Similar Documents

Publication Publication Date Title
JP3781696B2 (ja) イメージ検索方法及び検索装置
US8345042B2 (en) Mesh-based shape retrieval system
JP4972358B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2003345811A (ja) 文書情報表示システム、文書情報表示方法及び文書検索方法
JP5458815B2 (ja) マルチメディア検索システム
WO2002054287A2 (en) Multi-query data visualization
JPWO2005038672A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
CN119669455A (zh) 基于多模态知识图谱的船舶设计知识检索方法及系统
JP4453440B2 (ja) 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体
JP6529698B2 (ja) データ分析装置およびデータ分析方法
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
CN119066179B (zh) 问答处理方法、计算机程序产品、设备及介质
JP5414334B2 (ja) 擬似文書検索システム及び擬似文書検索方法
US8666898B2 (en) Visual information retrieval system for applying self organizing maps/SOM using five distinct modules that merge the best maps
JP2005316897A (ja) 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
JP2004086262A (ja) 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体
JPH10111869A (ja) 情報分類装置とその方法
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
KR101078978B1 (ko) 문서 분류 시스템
JP2017208047A (ja) 情報検索方法、情報検索装置、及びプログラム
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees