WO2013114509A1

WO2013114509A1 - 多次元データ可視化装置、方法およびプログラム

Info

Publication number: WO2013114509A1
Application number: PCT/JP2012/008195
Authority: WO
Inventors: 森永　聡; 吉伸河原; 伊藤　貴之; 雲珠鄭; はるか末松
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-02-03
Filing date: 2012-12-21
Publication date: 2013-08-08
Anticipated expiration: 2014-08-03
Also published as: CN103354928A; JP2013161226A; JP5392635B2; CN103354928B; US20170032017A1

Description

多次元データ可視化装置、方法およびプログラム

　本発明は、多次元データ可視化装置、多次元データ可視化方法および多次元データ可視化プログラムに関し、特に、人間が一度に全体を把握することが困難な高次元データの分布を、複数のＰＣＰ（Parallel Coordinates Plot ）で表現することで可視化する多次元データ可視化装置、方法およびプログラムに関する。

　近年の急速なデータインフラストラクチャの整備に伴い、大規模で大量なデータを効率的に処理することが、産業の重要課題の一つとなっている。データ分析においてはデータの分布や統計的な性質を分析者が理解することが極めて重要であり、そのためにデータを可視化する技術が重要である。そして、データの次元が３次元より大きい場合には、散布図等を用いてデータを直接可視化することができないため、高次元データを可視化する方法を実現することは、可視化技術の大きな課題の一つである。

　多次元データの可視化技術として、Scatter Plot Matrix （以下、SP Matrix と記す。）が挙げられる。SP Matrix では、画面を格子状に分割し、多次元データから得られる複数の二次元散布図（Scatter Plot。以下、SPと記す場合がある。）を、分割後の領域に配置する。Scatter Plot Matrix による多次元データの可視化の例を図７に例示する。図７は、１３次元データをScatter Plot Matrix によって可視化した場合の例を示す。

　また、多次元データの可視化技術の他の例として、ＰＣＰ（Parallel Coordinates Plot ：平行座標プロット）が挙げられる（非特許文献１参照）。ＰＣＰは、個々の次元に対する軸を平行に配置し、各軸上の値を軸間の線分で結ぶことによって多次元データを可視化するグラフである。図８は、図７で表した１３次元データを表現したＰＣＰの例である。

　また、複数のグラフのレイアウトに関する技術が、非特許文献２に記載されている。

　また、本発明に関連する技術として、Isomapが非特許文献３に記載されている。

Alfred Inselberg, Bernard Dimsdale, "Parallel Coordinates: A Tool for Visualizing Multi-dimensional Geometry", IEEE Visualization ‘90 T.Itoh, C.Muelder, K.-L.Ma, J.Sese, "A Hybrid Space-Filling and Force-Directed Layout Method for Visualizing Multiple-Category Graphs", IEEE Pacific Visualization Symposium, pp.121-128, ２００９年 J.B.Tenenbaum, V.de Silva, C.Langford, "A Global Geometric Framework for Nonlinear Dimensionality Reduction", Science Vol.290(5500) pp.2319-2323, ２０００年１２月２２日

　SP Matrix では、多次元データから得られる複数の二次元散布図を格子状に配置するので、データの次元が高くなると（例えば、データが数十次元を超えると）各格子のサイズが小さくなり、可視性が低下してしまう。

　そのため、SP Matrix と次元選択とを組み合わせることも考えられる。例えば、入力データが１００次元である場合、そのうちの１０次元のみを選択してSP Matrix で表示することも考えられる。しかし、選択された次元のほとんどのペアには情報が少ないケースが多いという問題や、二次元散布図間の関係性（すなわち、入力次元の間の関係性）が理解しにくいという問題がある。以下、このような問題の例を示す。図９は、図７に示すデータと同様のデータに関し、クラスラベルエントロピーが低いサブプロット（換言すれば、各クラスのデータが良好に分離できているサブプロット）の上位５件をハイライト表示によって示す図である。図９からわかるように、SP Matrix では同様の情報を持っているサブプロットが必ずしも近い位置に表示されない。そのため、各入力次元（すなわち、入力された多次元データにおける各次元）間の関係性を理解することが極めて困難である。

　また、ＰＣＰ（図８参照）では、以下のような問題がある。ＰＣＰでは、隣り合わない軸の関係がわかりにくいため、３軸以上と高い相関性を有するデータにおいて、現象を十分に表現できない。また、次元数が大きくなると、横方向に非常に長い画面空間を必要とするという問題も生じる。

　そこで、本発明は、高次元データの入力空間におけるデータの分布を入力次元間の関係性がわかるように可視化することができる多次元データ可視化装置、多次元データ可視化方法および多次元データ可視化プログラムを提供することを目的とする。

　本発明による多次元データ可視化装置は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成手段と、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出手段と、特徴量算出手段によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出手段とを備えることを特徴とする。

　また、本発明による多次元データ可視化方法は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成し、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出し、その特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出することを特徴とする。

　また、本発明による多次元データ可視化プログラムは、コンピュータに、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成処理、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出処理、および、特徴量算出処理で算出した特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出処理を実行させることを特徴とする。

　本発明によれば、高次元データの入力空間におけるデータの分布を、入力次元間の関係性がわかるように可視化することができる。

本発明によって出力される画面の例を模式的に示す模式図である。本発明の多次元データ可視化装置の例を示すブロック図である。高次元データのＰＣＰ、およびその高次元データから得られる複数の低次元ＰＣＰの例を示す説明図である。本発明の処理経過の例を示すフローチャートである。低次元ＰＣＰ生成装置１０３の構成例を示すブロック図である。本発明の多次元データ可視化装置の最小構成の例を示すブロック図である。 Scatter Plot Matrix による多次元データの可視化の例を示す説明図である。ＰＣＰの例を示す説明図である。図７に示すデータと同様のデータに関し、クラスラベルエントロピーが低いサブプロットの上位５件をハイライト表示した図である。

　以下、本発明の実施形態を図面を参照して説明する。
　本発明による多次元データ可視化装置は、多次元データから、その多次元データの次元数よりも低い次元のＰＣＰ（低次元ＰＣＰまたは低次元平行座標プロットと記す場合がある。）を複数生成する。そして、多次元データ可視化装置は、図１に例示するように、複数の低次元ＰＣＰを画面上に配置することによって、多次元データを可視化する。

　また、本発明による多次元データ可視化装置は、複数の低次元ＰＣＰを画面上に配置する際、類似した特徴を持つ低次元ＰＣＰ同士を近くに配置する。その結果、低次元ＰＣＰの配置によって入力次元（入力された多次元データにおける各次元）の関係性を表現することができる。

　図２は、本発明の多次元データ可視化装置の例を示すブロック図である。本発明の多次元データ可視化装置１は、データ入力装置１０１と、入力データ記憶部１０２と、低次元ＰＣＰ生成装置１０３と、ＰＣＰ間特徴量算出装置１０４と、座標最適化装置１０５と、出力装置１０６とを備える。

　多次元データ可視化装置１には、入力データ１０７が入力され、最適可視化出力１０８を出力する。入力データ１０７は多次元データであり、最適可視化出力１０８は、その多次元データに基づいて生成した複数の低次元ＰＣＰの配置結果である。

　データ入力装置１０１は、入力データ１０７を入力するためのインタフェース装置である。上記のように、入力データ１０７は多次元データである。入力データ１０７として入力される多次元データがＤ次元の多次元データであるものとして説明する。また、入力データ１０７として入力される多次元データのデータ数をＮとする。

　多次元データの例として、以下のようなデータが挙げられる。例えば、Ｄ個のセンサを有するＮ台の自動車から、Ｎ個の点を有するＤ次元データが得られる。また、例えば、Ｄ種類の健康診断情報を有するＮ人の患者から、Ｎ個の点を有するＤ次元データが得られる。このような、Ｎ個のＤ次元データを入力データ１０７として用いることができる。ただし、ここで示した２種類のＤ次元データは例示であり、入力データ１０７は、上記の例に限定されない。

　データ入力装置１０１には、入力データ１０７の入力時に、分析に必要なパラメータが合わせて入力されてもよい。分析に必要なパラメータの例として、例えば、後述するＰＣＰ間特徴量の種類を指定するパラメータ等が挙げられる。また、例えば、座標最適化装置１０５が主成分分析またはIsomapを利用する場合には、主成分分析またはIsomapの入力パラメータ等が挙げられる。ただし、入力データ１０７とともに入力されるパラメータの種類は、特に限定されない。

　入力データ記憶部１０２は、データ入力装置１０１に入力された入力データ１０７を記憶する記憶装置である。

　低次元ＰＣＰ生成装置１０３は、予め定められた方法で、高次元データ（具体的には、入力データ１０７として入力されたＤ次元データ）に対する低次元ＰＣＰを生成する。

　図３は、高次元データのＰＣＰ、およびその高次元データから得られる複数の低次元ＰＣＰの例を示す説明図である。図３の上段は、高次元データのＰＣＰとして、１０次元データのＰＣＰを表している。この１０次元データのＰＣＰにおいて、軸１～１０は、相関性の高いものが隣同士になるように配置されている。しかし、この１０次元データのＰＣＰ（図３の上段参照）において、軸３は軸２，４以外の軸とも高い相関性を有しているが、図３の上段に示すＰＣＰからそのことを読み取ることは難しい。一方、例えば、図３の下段に示すように、軸３が複数の低次元データで重複するようにして、上記の１０次元データのＰＣＰを３つの低次元ＰＣＰに分割したとする。この場合、多くの軸と相関性を有する軸３の特性を適切に表現することができる。

　低次元ＰＣＰ生成装置１０３は、低次元ＰＣＰを生成する際に、どの軸とも相関性を有さない軸を表示から割愛してもよい。このようにどの軸とも相関性を有さない軸をいずれの低次元ＰＣＰにも含めないことで、可視化する意義の高い情報だけを表示することができる。

　また、図３の上段に示すように１０次元データのＰＣＰは横長のグラフとなるが、低次元ＰＣＰに分割することで、例えば、表示用ディスプレイ装置の大きさや縦横比に合わせて、効率的な画面空間の活用が可能となる。

　ＰＣＰ間特徴量算出装置１０４は、低次元ＰＣＰ生成装置１０３によって生成された各低次元ＰＣＰ間に対して、低次元ＰＣＰ間の関係性を表す特徴量（以下、ＰＣＰ間特徴量と記す。）を、予め定められた方法で算出する。すなわち、ＰＣＰ間特徴量算出装置１０４は、一対の低次元ＰＣＰの組毎に、対をなす低次元ＰＣＰにおけるＰＣＰ間特徴量を算出する。ＰＣＰ間特徴量は、どのような観点で低次元ＰＣＰを画面上に配置して可視化するかに応じて定められる。

　ＰＣＰ間特徴量の例について、図１を参照して説明する。図１に示すＰＣＰ１，２，３や、図１内の他のＰＣＰは、それぞれ低次元ＰＣＰである。また、説明を簡単にするため、図１においてＰＣＰ１，２の軸に軸番号を付している。ＰＣＰ１とＰＣＰ２は、多くの軸を共有する。具体的には、ＰＣＰ１，２はともに５本の軸を有するが、５本中、３本の軸（すなわち、軸１，４，６）が共通である。従って、画面上でＰＣＰ１，２を近くに配置することで、どのような部分空間で相関が現れているかを可視化することが可能となる。一方、ＰＣＰ３は、ＰＣＰ１およびＰＣＰ２とは相関の傾向が異なるため、ＰＣＰ３は、画面内においてＰＣＰ１およびＰＣＰ２から離れた位置に配置することが好ましい。ＰＣＰ間特徴量算出装置１０４は、このような配置を可能にするためのＰＣＰ間特徴量を、例えば、以下のように算出すればよい。ＰＣＰ間特徴量算出装置１０４は、各低次元ＰＣＰに対してクラスラベル毎に相関係数を算出し、クラスラベル毎の相関係数をベクトル化したベクトル（以下、相関係数ベクトルと記す。）を算出する。そして、ＰＣＰ間特徴量算出装置１０４は、一対の低次元ＰＣＰの組毎に相関係数ベクトルの距離を算出すればよい。このようにして算出した相関係数ベクトルの距離は、ＰＣＰ間特徴量として利用することができる。

　ＰＣＰ間特徴量算出装置１０４によるクラスラベル毎の相関係数の算出例を説明する。ここでは、３つの軸（軸ａ～ｃとする。）に着目した場合を例にして説明する。また、軸ａ～ｃは、低次元ＰＣＰ内で、例えば左側から順序付けられているものとする。

　ＰＣＰ間特徴量算出装置１０４は、この３軸について、順序が隣り合う軸間の相関係数をそれぞれ算出し、その相関係数の平均を算出してもよい。本例では、ＰＣＰ間特徴量算出装置１０４は、軸ａ，ｂ間の相関係数、および、軸ｂ，ｃ間の相関係数を算出し、その相関係数の平均を算出してもよい。

　あるいは、ＰＣＰ間特徴量算出装置１０４は、上記の３軸について、対になる軸の全ての組について軸間の相関係数を算出し、その相関係数の平均を算出してもよい。本例では、ＰＣＰ間特徴量算出装置１０４は、軸ａ，ｂ間の相関係数、軸ｂ，ｃ間の相関係数、および、軸ａ，ｃ間の相関係数を算出し、その相関係数の平均を算出してもよい。

　あるいは、ＰＣＰ間特徴量算出装置１０４は、共分散行列の固有値を相関係数として利用してもよい。本例では、ＰＣＰ間特徴量算出装置１０４は、上記の３本の軸ａ～ｃから、共分散行列（この場合、３×３の行列）を算出し、その共分散行列の固有値、あるいはその共分散行列の固有値の平方根を相関係数として利用してもよい。

　なお、上記の相関係数の各算出方法は例示であり、相関係数の算出方法は上記の例に限定されない。

　また、上述の相関係数ベクトルの距離は、ＰＣＰ間特徴量の一例であり、ＰＣＰ間特徴量として、相関係数ベクトルの距離以外の値を算出してもよい。なお、上記の例では、ＰＣＰ間特徴量を求めるために相関係数ベクトルを用いる場合を説明したが、ＰＣＰ間特徴量算出装置１０４は、相関係数ベクトル以外のベクトルからＰＣＰ間特徴量を算出してもよい。ＰＣＰ間特徴量を算出するために低次元ＰＣＰ毎に求めるベクトルを、ＰＣＰ間特徴量ベクトルと記す。上記の相関係数ベクトルは、ＰＣＰ間特徴量ベクトルの一例である。

　また、ＰＣＰ間特徴量算出装置１０４は、データ入力装置１０１に入力されるパラメータに応じて、算出するＰＣＰ間特徴量の種類を変更してもよい。

　座標最適化装置１０５は、ＰＣＰ間特徴量算出装置１０４によって算出されたＰＣＰ間特徴量に基づいて、低次元座標空間における各低次元ＰＣＰの配置を最適化する。例えば、座標最適化装置１０５は、二次元空間において各低次元ＰＣＰを配置するために最適な座標を決定する。

　各低次元ＰＣＰの最適な座標の算出方法として、主成分分析やIsomap（非特許文献３参照）等に代表される次元圧縮技術を利用することができる。以下、各低次元ＰＣＰを配置するための最適な座標の算出方法の例を説明する。

　まず、主成分分析を利用した座標算出方法の例を説明する。この方法では、座標最適化装置１０５は、ＰＣＰ間特徴量ベクトルから共分散行列を算出する。次に、座標最適化装置１０５は、その共分散行列の固有値問題を解くことによって、主成分ベクトルを算出する。そして、座標最適化装置１０５は、指定された主成分ベクトル（例えば、上位２次元主成分ベクトル）の方向にＰＣＰ間特徴量ベクトルを射影することによって、低次元ＰＣＰの最適な座標を算出すればよい。

　次に、Isomapを利用した座標算出方法の例を説明する。この方法では、座標最適化装置１０５は、ＰＣＰ間特徴量ベクトルから距離行列を算出する。距離行列を求めるために用いる距離として、例えば、ユークリッド距離やグラフを利用した測地距離が代表例として挙げられる。座標最適化装置１０５は、算出した距離行列に対する固有値問題を解くことにより、ＰＣＰ間特徴量ベクトルの埋め込み座標（低次元の座標）を算出すればよい。

　また、座標最適化装置１０５は、非特許文献２に記載された技術を利用して各低次元ＰＣＰを配置するための座標を算出してもよい。この方法では、座標最適化装置１０５は、各低次元ＰＣＰを連結するネットワーク構造を生成する。このネットワーク構造の生成方法の例として、例えば、任意の低次元ＰＣＰのペアのうち、相関係数ベクトルの距離が近い一定個数のペアをリンクで連結する方法が挙げられる。なお、相関係数ベクトルの距離が近いか否かは、相関係数ベクトルの距離と閾値とを比較することによって判定すればよい。続いて、座標最適化装置１０５は、生成したリンクにバネと同様の力学を想定し、運動方程式の反復計算によって、低次元空間における各ＰＣＰの仮の位置を決定する。さらに、座標最適化装置１０５は、この仮の位置を参照して長方形空間充填手法を適用することで、低次元空間における各低次元ＰＣＰの位置を決定すればよい。

　また、主成分分析またはIsomapを利用して各低次元ＰＣＰの座標を算出した後、非特許文献２に記載された技術を適用してもよい。この場合、座標最適化装置１０５は、主成分分析またはIsomapを利用して算出した座標に配置した低次元ＰＣＰを連結するネットワーク構造を生成して、上記と同様の処理を行えばよい。このように、座標最適化装置１０５が主成分分析またはIsomapを利用して各低次元ＰＣＰの座標を算出した後、ネットワーク構造を生成し、上記のように各低次元ＰＣＰの位置を決定することにより、低次元ＰＣＰの配置位置を最適化することができ、各低次元ＰＣＰの見やすさを向上させることができる。

　出力装置１０６は、算出された低次元ＰＣＰおよびその配置を、最適可視化出力１０８として出力する。例えば、出力装置１０６は、各低次元ＰＣＰをその最適な座標に配置した画像を出力すればよい。なお、出力装置１０６は、そのような画像を例えばディスプレイ装置上に表示すればよいが、出力装置１０６による出力態様は特に限定されない。例えば、出力装置１０６は、画像を印刷によって出力してもよい。

　データ入力装置１０１，入力データ記憶部１０２、低次元ＰＣＰ生成装置１０３、ＰＣＰ間特徴量算出装置１０４、座標最適化装置１０５および出力装置１０６は、それぞれ独立した装置であってもよい。あるいは、これらの各装置が、データ入力装置１０１となるインタフェース装置や入力データ記憶部１０２となる記憶装置を備えたコンピュータによって実現されてもよい。この場合、コンピュータが多次元データ可視化プログラムを読み込み、そのプログラムに従って、上記の各装置の動作を実現すればよい。また、多次元データ可視化プログラムは、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。

　次に、本発明の処理経過について説明する。図４は、本発明の処理経過の例を示すフローチャートである。データ入力装置１０１に入力データ１０７が入力されると、入力データ記憶部１０２はその入力データ１０７を記憶する（ステップＳ１）。

　次に、低次元ＰＣＰ生成装置１０３が、その入力データ１０７に基づいて、複数の低次元ＰＣＰを算出する（ステップＳ２）。

　次に、プロット間特徴量算出装置１０４が、一対の低次元の組毎に、ＰＣＰ間特徴量を算出する（ステップＳ３）。

　次に、座標最適化装置１０５が、ステップＳ３で算出されたＰＣＰ間特徴量を用いて、各低次元ＰＣＰの低次元座標を算出する（ステップＳ４）。

　そして、出力装置１０６が最適可視化出力１０８を出力する（ステップＳ５）。出力装置１０６は、各低次元ＰＣＰをその最適な低次元座標に配置した画像を出力する。

　次に、複数の低次元ＰＣＰを算出する低次元ＰＣＰ生成装置１０３の構成例について説明する。図５は、低次元ＰＣＰ生成装置１０３の構成例を示すブロック図である。低次元ＰＣＰ生成装置１０３は、データ入力装置２０１と、入力データ記憶部２０２と、次元分割装置２０３と、低次元ＰＣＰ構築装置２０４と、出力装置２０５とを備える。

　データ入力装置２０１は、入力データ２０６を入力するためのインタフェース装置である。ここで、入力データ２０６は、入力データ記憶部１０２（図１参照）に記憶された多次元データ（Ｄ次元データ）である。この多次元データは、多次元データ可視化装置１（図１参照）に入力された多次元データであり、この多次元データのデータ数はＮである。なお、データ入力装置２０１には、分析に必要なパラメータが合わせて入力されてもよい。

　入力データ記憶部２０２は、入力データ２０６として入力された多次元データを記憶する低次元ＰＣＰ生成装置１０３内の記憶装置である。

　次元分割装置２０３は、多次元データを構成するＤ個の次元を、少数の次元で構成される複数のグループに分割する。このグループの数をＭとする。また、次元分割装置２０３は、Ｄ個の次元を複数のグループに分割する場合、以下の第１および第２の条件を満たすように分割する。第１の条件は、分割された個々のグループにおいて、同一のグループに属する次元同士は、できるだけ情報（例えば、相関性や分離性）を有するという条件である。第２の条件は、異なるグループに属する次元同士は、できるだけ情報を有さないという条件である。

　このような条件を満たすようにＤ個の次元を複数のグループに分割する場合、次元分割装置２０３は、以下のように動作すればよい。以下に示す次元分割装置２０３の動作では、条件付き独立性の概念を導入している。また、ここでは、観測データの各次元に対応する変数の数をＤ個として説明する。次元分割装置２０３は、Ｄ個の変数の任意の組み合わせに対して条件付き独立性となるか否かを判定する。そして、次元分割装置２０３は、任意の変数集合を与えたときに互いに独立とならない２変数が同じグループに属するようにグループを生成する。その際、変数が多いときには変数の組み合わせの数が多くなり、計算量が極めて多くなることを防ぐため、劣モジュラ性の概念を導入してもよい。

　次元分割装置２０３は、以下のように条件付き独立性を判定する。Ｄ個の変数において互いに重ならない任意の３つの部分集合を与えたとき、その３つの集合をＸ＿Ａ，Ｘ＿Ｂ，Ｘ＿Ｃとする。次元分割装置２０３は、それらの集合を用いて計算される条件付き相互情報量Ｉ（Ｘ＿Ａ，Ｘ＿Ｂ｜Ｘ＿Ｃ）を計算する。そして、その条件付き相互情報量の値が極めて０に近い値である場合、次元分割装置２０３は、変数集合Ｘ＿ＡとＸ＿Ｂは、Ｘ＿Ｃを与えたときに条件付き独立になると判定すればよい。なお、条件付き相互情報量の値が極めて０に近い値であるか否かは、条件付き相互情報量の値と、予め定められた閾値との比較により判定すればよい。

　具体例として、次元分割装置２０３が５個の変数｛Ｘ＿１，Ｘ＿２，・・・，Ｘ＿５｝をグループ分けする場合を例示する。まず、次元分割装置２０３は、条件とする変数集合を｛Ｘ＿１，Ｘ＿２｝とする。なお、「条件とする変数集合」は、上記のＸ＿Ｃに相当する。次元分割装置２０３は、条件とする変数集合を貪欲的に定める。次元分割装置２０３は、条件付き相互情報量Ｉ（Ｘ＿３，｛Ｘ＿４，Ｘ＿５｝｜｛Ｘ＿１，Ｘ＿２｝）を計算し、この値が０（０に極めて近い値でもよい。）になったとする。この場合、次元分割装置２０３は、「条件とする変数集合」以外の２つの集合にそれぞれ、「条件とする変数集合」を追加することによって、元の変数の集合を２つの集合に分解する。本例では、次元分割装置２０３は、５個の変数の集合を、｛Ｘ＿１，Ｘ＿２，Ｘ＿３｝と、｛Ｘ＿１，Ｘ＿２，Ｘ＿４，Ｘ＿５｝とに分解する。そして、次元分割装置２０３は、分解によって得られた変数の集合に対して、同様の処理を繰り返す。分解後の変数の集合について、それ以上分解を行えない場合には、その変数の集合については、上記の繰り返し処理を終了すればよい。例えば、上記の例において、次元分割装置２０３が、｛Ｘ＿１，Ｘ＿２，Ｘ＿４，Ｘ＿５｝をさらに、｛Ｘ＿１，Ｘ＿４｝と、｛Ｘ＿２，Ｘ＿４，Ｘ＿５｝とに分解したとする。そして、例えば、｛Ｘ＿１，Ｘ＿２，Ｘ＿３｝，｛Ｘ＿１，Ｘ＿４｝，｛Ｘ＿２，Ｘ＿４，Ｘ＿５｝のいずれについてもそれ以上分解できなくなったならば、次元分割装置２０３は、変数の集合の分解を終了する。この例では、５個の変数が３つのグループに分けられることになる。

　低次元ＰＣＰ構築装置２０４は、次元分割装置２０３の分割処理によって得られた個々のグループ毎に、グループに属する変数に対応する次元を用いて、低次元ＰＣＰを構築する。例えば、１つのグループ｛Ｘ＿１，Ｘ＿４｝に関して、低次元ＰＣＰ構築装置２０４は、変数Ｘ＿１に対応する軸と、変数Ｘ＿４に対応する軸とを含む低次元ＰＣＰを生成する。他のグループに関しても、それぞれ同様に低次元ＰＣＰを生成する。

　出力装置２０５は、低次元ＰＣＰ構築装置２０４によって得られた低次元ＰＣＰ生成結果２０７（すなわち、低次元ＰＣＰ構築装置２０４が生成した各低次元ＰＣＰ）を、ＰＣＰ間特徴量算出装置１０４（図２参照）に出力する。

　このように、図５に例示する構成の低次元ＰＣＰ生成装置１０３によって、Ｄ次元データから複数の低次元ＰＣＰを生成することができる。

　また、低次元ＰＣＰ生成装置１０３において、データ入力装置２０１、入力データ記憶部２０２、次元分割装置２０３、低次元ＰＣＰ構築装置２０４、出力装置２０５は、それぞれ独立した装置であってもよい。あるいは、これらの各装置が、図２に示す各装置とともに、多次元データ可視化プログラムに従って動作するコンピュータによって実現されてもよい。

　本発明によれば、低次元ＰＣＰを所望の観点で配置するための指標となる特徴量をＰＣＰ間特徴量算出装置１０４が算出する。そして、座標最適化手段１０５が、その特徴量を用いて、低次元空間において低次元ＰＣＰを配置するための座標を算出する。従って、入力された多次元データにおける入力次元間の関係性がわかるようにデータの分布を可視化することができる。また、特徴量の種類を変更することによって、どのような観点で高次元データを可視化するかを調整することができる。

　また、多次元データをそのままＰＣＰで表すと、一画面内に収まらないほど横方向に長いＰＣＰが生成されることになる。本発明では、多次元データから複数の低次元ＰＣＰを生成するので、個々の低次元ＰＣＰの横幅が長くなることを防ぐことができる。そして、そのような低次元ＰＣＰを画面内に配置するので、多次元データを可視化する際に、一画面に収まらないような横長のＰＣＰで多次元データを提示することを防ぐことができる。

　また、本発明では、複数の低次元ＰＣＰで同一の軸を重複させることによって、３軸以上との間で高い相関性を有する軸であっても、各軸との相関性を適切に表現することができる。

　以下、本発明の最小構成について説明する。図６は、本発明の多次元データ可視化装置の最小構成の例を示すブロック図である。多次元データ可視化装置は、低次元平行座標プロット生成手段７１と、特徴量算出手段７２と、座標算出手段７３とを備える。

　低次元平行座標プロット生成手段７１（例えば、低次元ＰＣＰ生成装置１０３）は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロット（低次元ＰＣＰ）を複数生成する。

　特徴量算出手段７２（例えば、ＰＣＰ間特徴量算出装置１０４）は、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する。

　座標算出手段７３（例えば、座標最適化装置１０５）は、特徴量算出手段７２によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する。

　そのような構成によって、高次元データの入力空間におけるデータの分布を、入力次元間の関係性がわかるように可視化することができる。

　また、低次元平行座標プロット生成手段７１が、入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化手段（例えば、次元分割装置２０３）と、変数グループ化手段によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出手段（例えば、低次元ＰＣＰ構築装置２０４）とを含み、変数グループ化手段が、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるようにその複数の変数を２つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、分割処理を行うことを繰り返す構成であってもよい。

　上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下には限られない。

（付記１）入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成部と、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出部とを備えることを特徴とする多次元データ可視化装置。

（付記２）低次元平行座標プロット生成部は、入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化部と、前記変数グループ化部によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出部とを含み、前記変数グループ化部は、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を２つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す請求項１に記載の多次元データ可視化装置。

　この出願は、２０１２年２月３日に出願された日本特許出願２０１２－２２１１２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

　本発明は、多次元データを人間が把握しやすくするように可視化する多次元データ可視化装置に好適に適用される。

　１　多次元データ可視化装置
　１０１　データ入力装置
　１０２　入力データ記憶部
　１０３　低次元ＰＣＰ生成装置
　１０４　ＰＣＰ間特徴量算出装置
　１０５　座標最適化装置
　１０６　出力装置
　２０１　データ入力装置
　２０２　入力データ記憶部
　２０３　次元分割装置
　２０４　低次元ＰＣＰ構築装置
　２０５　出力装置

Claims

　入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成手段と、
　一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出手段と、
　前記特徴量算出手段によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出手段とを備える
　ことを特徴とする多次元データ可視化装置。
　低次元平行座標プロット生成手段は、
　入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化手段と、
　前記変数グループ化手段によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出手段とを含み、
　前記変数グループ化手段は、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を２つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す
　請求項１に記載の多次元データ可視化装置。
　入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成し、
　一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出し、
　前記特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する
　ことを特徴とする多次元データ可視化方法。
　入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化処理を実行し、
　前記変数グループ化処理で得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出し、
　前記変数グループ化処理で、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を２つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す
　請求項３に記載の多次元データ可視化方法。
　コンピュータに、
　入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成処理、
　一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出処理、および、
　前記特徴量算出処理で算出した特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出処理
　を実行させるための多次元データ可視化プログラム。
　コンピュータに、
　低次元平行座標プロット生成処理で、
　入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化処理、および、
　前記変数グループ化処理で得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出処理を実行させ、
　前記変数グループ化処理で、
　複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を２つのグループに分割する分割処理を実行させ、分割処理後の各グループに属する変数に対して、前記分割処理を実行することを繰り返させる
　請求項５に記載の多次元データ可視化プログラム。