WO2013114509A1 - 多次元データ可視化装置、方法およびプログラム - Google Patents
多次元データ可視化装置、方法およびプログラム Download PDFInfo
- Publication number
- WO2013114509A1 WO2013114509A1 PCT/JP2012/008195 JP2012008195W WO2013114509A1 WO 2013114509 A1 WO2013114509 A1 WO 2013114509A1 JP 2012008195 W JP2012008195 W JP 2012008195W WO 2013114509 A1 WO2013114509 A1 WO 2013114509A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- low
- dimensional
- parallel coordinate
- data
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Definitions
- the present invention relates to a multidimensional data visualization apparatus, a multidimensional data visualization method, and a multidimensional data visualization program, and in particular, a distribution of high-dimensional data that is difficult for a human to grasp at a time is represented by a plurality of PCP (Parallel Coordinates).
- PCP Parallel Coordinates
- the present invention relates to a multidimensional data visualization apparatus, method, and program that are visualized by expressing them in Plot IV).
- Scatter® Plot® Matrix® As a visualization technology for multidimensional data, there is Scatter® Plot® Matrix® (hereinafter referred to as SP® Matrix®).
- SP Matrix the screen is divided into a grid, and a plurality of two-dimensional scatter diagrams (Scatter Plot; hereinafter referred to as SP in some cases) obtained from multidimensional data are arranged in the divided area.
- An example of visualization of multidimensional data by Scatter Plot Matrix is illustrated in FIG.
- FIG. 7 shows an example in which 13-dimensional data is visualized by Scatter Plot Matrix.
- PCP Parallel Coordinates Plot: parallel coordinate plot
- PCP is a graph that visualizes multidimensional data by arranging axes for individual dimensions in parallel and connecting the values on each axis with line segments between the axes.
- FIG. 8 is an example of a PCP expressing the 13-dimensional data shown in FIG.
- Non-Patent Document 2 describes a technique related to the layout of a plurality of graphs.
- Non-Patent Document 3 is described in Non-Patent Document 3 as a technique related to the present invention.
- FIG. 9 shows, by highlighting, the top five subplots with low class label entropy (in other words, subplots in which the data of each class is well separated) with respect to data similar to the data shown in FIG. FIG.
- sub-plots having similar information are not necessarily displayed at close positions in SP Matrix. Therefore, it is extremely difficult to understand the relationship between each input dimension (that is, each dimension in the input multidimensional data).
- the PCP (see FIG. 8) has the following problems.
- PCP it is difficult to understand the relationship between axes that are not adjacent to each other, so the phenomenon cannot be expressed sufficiently in data having a high correlation with three or more axes. Further, when the number of dimensions is increased, there is a problem that a very long screen space is required in the horizontal direction.
- the present invention provides a multidimensional data visualization apparatus, a multidimensional data visualization method, and a multidimensional data visualization program capable of visualizing the distribution of data in an input space of high-dimensional data so that the relationship between input dimensions can be understood.
- the purpose is to provide.
- the multidimensional data visualization apparatus generates a plurality of low-dimensional parallel coordinate plots, which are diagrams representing parallel dimension plots of data related to some dimensions in the multidimensional data from the input multidimensional data.
- the feature amount calculating means for calculating the relationship between the paired low dimensional parallel coordinate plots, and the feature amount calculating means for each pair of the low dimensional parallel coordinate plots.
- a coordinate calculating means for calculating coordinates for arranging each low-dimensional parallel coordinate plot based on the feature amount.
- the multidimensional data visualization method generates a plurality of low-dimensional parallel coordinate plots, which are diagrams representing parallel dimension plots of data related to some dimensions in the multidimensional data from the input multidimensional data. , For each pair of low-dimensional parallel coordinate plots, calculate the feature quantity that represents the relationship between the paired low-dimensional parallel coordinate plots, and based on the feature quantity, coordinates to place each low-dimensional parallel coordinate plot Is calculated.
- the multidimensional data visualization program provides a computer with a low-dimensional parallel coordinate plot, which is a diagram representing data on a part of dimensions in the multidimensional data as parallel coordinate plots from the input multidimensional data.
- Multiple low-dimensional parallel coordinate plot generation processing, feature amount calculation processing for calculating a feature amount representing a relationship between a pair of low-dimensional parallel coordinate plots for each pair of low-dimensional parallel coordinate plots, and features Based on the feature amount calculated in the amount calculation process, a coordinate calculation process for calculating coordinates for arranging each low-dimensional parallel coordinate plot is executed.
- the distribution of data in the input space of high-dimensional data can be visualized so that the relationship between the input dimensions can be understood.
- FIG. 8 is a diagram in which the top five subplots with low class label entropy are highlighted for data similar to the data shown in FIG. 7.
- the multidimensional data visualization apparatus generates a plurality of PCPs having dimensions lower than the number of dimensions of the multidimensional data (may be referred to as low-dimensional PCP or low-dimensional parallel coordinate plot) from the multidimensional data.
- the multidimensional data visualization apparatus visualizes multidimensional data by arranging a plurality of low-dimensional PCPs on the screen, as illustrated in FIG.
- the multidimensional data visualization apparatus when a plurality of low-dimensional PCPs are arranged on the screen, the low-dimensional PCPs having similar characteristics are arranged close to each other. As a result, the relationship between the input dimensions (each dimension in the input multidimensional data) can be expressed by the arrangement of the low-dimensional PCP.
- FIG. 2 is a block diagram showing an example of the multidimensional data visualization apparatus of the present invention.
- the multidimensional data visualization device 1 of the present invention includes a data input device 101, an input data storage unit 102, a low-dimensional PCP generation device 103, an inter-PCP feature quantity calculation device 104, a coordinate optimization device 105, and an output device. 106.
- the input data 107 is input to the multidimensional data visualization apparatus 1 and an optimal visualization output 108 is output.
- the input data 107 is multidimensional data
- the optimal visualization output 108 is the arrangement result of a plurality of low-dimensional PCPs generated based on the multidimensional data.
- the data input device 101 is an interface device for inputting input data 107.
- the input data 107 is multidimensional data. Description will be made assuming that the multidimensional data input as the input data 107 is D-dimensional multidimensional data. Further, the number of multidimensional data input as the input data 107 is N.
- Examples of multidimensional data include the following data.
- D-dimensional data having N points can be obtained from N automobiles having D sensors.
- D-dimensional data having N points can be obtained from N patients having D types of medical examination information.
- Such N pieces of D-dimensional data can be used as the input data 107.
- the two types of D-dimensional data shown here are examples, and the input data 107 is not limited to the above example.
- parameters necessary for analysis may be input together when the input data 107 is input.
- parameters necessary for the analysis for example, a parameter for designating the type of inter-PCP feature value described later can be cited.
- input parameters of principal component analysis or Isomap can be cited.
- the type of parameter input together with the input data 107 is not particularly limited.
- the input data storage unit 102 is a storage device that stores the input data 107 input to the data input device 101.
- the low-dimensional PCP generation device 103 generates a low-dimensional PCP for high-dimensional data (specifically, D-dimensional data input as the input data 107) by a predetermined method.
- FIG. 3 is an explanatory diagram showing an example of PCP of high-dimensional data and a plurality of low-dimensional PCPs obtained from the high-dimensional data.
- the upper part of FIG. 3 represents PCP of 10-dimensional data as PCP of high-dimensional data.
- the axes 1 to 10 are arranged so that the highly correlated ones are adjacent to each other.
- the axis 3 has a high correlation with axes other than the axes 2 and 4, but this is read from the PCP shown in the upper part of FIG. It ’s difficult.
- the lower part of FIG. for example, as shown in the lower part of FIG.
- the PCP of the 10-dimensional data is divided into three low-dimensional PCPs so that the axis 3 overlaps with a plurality of low-dimensional data.
- the characteristics of the axis 3 having a correlation with many axes can be appropriately expressed.
- the low-dimensional PCP generation apparatus 103 may omit an axis that has no correlation with any axis from the display. In this way, by not including in any low-dimensional PCP an axis that has no correlation with any axis, only highly meaningful information to be visualized can be displayed.
- the PCP of 10-dimensional data is a horizontally long graph.
- the PCP is more efficient in accordance with the size and aspect ratio of the display device for display. Screen space can be used.
- the inter-PCP feature quantity calculation device 104 represents a feature quantity that represents the relationship between the low-dimensional PCPs for each low-dimensional PCP generated by the low-dimensional PCP generation apparatus 103 (hereinafter referred to as an inter-PCP feature quantity). Is calculated by a predetermined method. That is, the inter-PCP feature quantity calculation device 104 calculates the inter-PCP feature quantity in the paired low-dimensional PCP for each pair of low-dimensional PCPs. The inter-PCP feature amount is determined according to what viewpoint the low-dimensional PCP is arranged on the screen and visualized.
- the PCPs 1, 2, and 3 shown in FIG. 1 and other PCPs in FIG. 1 are low-dimensional PCPs.
- axis numbers are assigned to the axes of PCP1 and PCP2 in FIG. PCP1 and PCP2 share many axes.
- both PCPs 1 and 2 have five axes, but three of the five axes (that is, axes 1, 4, and 6) are common. Therefore, by arranging the PCPs 1 and 2 close to each other on the screen, it is possible to visualize in which partial space the correlation appears.
- the inter-PCP feature quantity calculation device 104 may calculate the inter-PCP feature quantity for enabling such an arrangement as follows, for example.
- the inter-PCP feature quantity calculation apparatus 104 calculates a correlation coefficient for each class label for each low-dimensional PCP, and a vector obtained by vectorizing the correlation coefficient for each class label (hereinafter referred to as a correlation coefficient vector). Is calculated.
- the inter-PCP feature quantity calculation device 104 may calculate the distance of the correlation coefficient vector for each pair of low-dimensional PCPs. The distance of the correlation coefficient vector calculated in this way can be used as a feature quantity between PCPs.
- the inter-PCP feature quantity calculation device 104 may calculate the correlation coefficient between the axes that are adjacent in order with respect to the three axes, and may calculate the average of the correlation coefficients.
- the inter-PCP feature quantity calculation device 104 may calculate a correlation coefficient between the axes a and b and a correlation coefficient between the axes b and c, and may calculate an average of the correlation coefficients. .
- the inter-PCP feature quantity calculation device 104 may calculate the correlation coefficient between the axes for all the pairs of axes that are paired with respect to the above three axes, and calculate the average of the correlation coefficients.
- the inter-PCP feature quantity calculation device 104 calculates the correlation coefficient between the axes a and b, the correlation coefficient between the axes b and c, and the correlation coefficient between the axes a and c. You may calculate the average of the number of relations.
- the inter-PCP feature quantity calculation apparatus 104 may use the eigenvalue of the covariance matrix as a correlation coefficient.
- the inter-PCP feature quantity calculation apparatus 104 calculates a covariance matrix (in this case, a 3 ⁇ 3 matrix) from the above three axes a to c, and the eigenvalue of the covariance matrix, or The square root of the eigenvalue of the covariance matrix may be used as the correlation coefficient.
- each calculation method of the correlation coefficient is an example, and the calculation method of the correlation coefficient is not limited to the above example.
- the above-described correlation coefficient vector distance is an example of the inter-PCP feature quantity, and a value other than the correlation coefficient vector distance may be calculated as the inter-PCP feature quantity.
- the inter-PCP feature quantity calculation device 104 calculates the inter-PCP feature quantity from a vector other than the correlation coefficient vector. May be.
- a vector obtained for each low-dimensional PCP in order to calculate an inter-PCP feature quantity is referred to as an inter-PCP feature quantity vector.
- the correlation coefficient vector is an example of an inter-PCP feature quantity vector.
- inter-PCP feature quantity calculation device 104 may change the type of the inter-PCP feature quantity to be calculated according to the parameter input to the data input device 101.
- the coordinate optimization apparatus 105 optimizes the arrangement of each low-dimensional PCP in the low-dimensional coordinate space based on the inter-PCP feature quantity calculated by the inter-PCP feature quantity calculation apparatus 104. For example, the coordinate optimization device 105 determines the optimal coordinates for arranging each low-dimensional PCP in the two-dimensional space.
- the coordinate optimization apparatus 105 calculates a covariance matrix from the inter-PCP feature quantity vector.
- the coordinate optimization device 105 calculates a principal component vector by solving the eigenvalue problem of the covariance matrix.
- the coordinate optimization device 105 calculates the optimum coordinates of the low-dimensional PCP by projecting the inter-PCP feature vector in the direction of the designated principal component vector (for example, the upper two-dimensional principal component vector). Good.
- the coordinate optimization apparatus 105 calculates a distance matrix from the inter-PCP feature quantity vector.
- Typical examples of the distance used for obtaining the distance matrix include a Euclidean distance and a geodetic distance using a graph.
- the coordinate optimization device 105 may calculate the embedded coordinates (low-dimensional coordinates) of the inter-PCP feature vector by solving the eigenvalue problem for the calculated distance matrix.
- the coordinate optimization device 105 may calculate coordinates for arranging each low-dimensional PCP using the technique described in Non-Patent Document 2. In this method, the coordinate optimization device 105 generates a network structure that connects the low-dimensional PCPs. As an example of a method for generating this network structure, for example, there is a method of connecting a certain number of pairs having a close correlation coefficient vector distance among links of arbitrary low-dimensional PCP pairs. Whether or not the distance between the correlation coefficient vectors is close may be determined by comparing the distance between the correlation coefficient vectors with a threshold value.
- the coordinate optimization device 105 assumes the same dynamics as the spring in the generated link, and determines the temporary position of each PCP in the low-dimensional space by iterative calculation of the equation of motion. Furthermore, the coordinate optimization apparatus 105 may determine the position of each low-dimensional PCP in the low-dimensional space by applying the rectangular space filling method with reference to this temporary position.
- the coordinate optimization apparatus 105 may generate a network structure that connects low-dimensional PCPs arranged at coordinates calculated using principal component analysis or Isomap, and perform the same processing as described above.
- the coordinate optimization device 105 calculates the coordinates of each low-dimensional PCP using principal component analysis or Isomap
- the network structure is generated and the position of each low-dimensional PCP is determined as described above.
- the arrangement position of the low-dimensional PCP can be optimized, and the visibility of each low-dimensional PCP can be improved.
- the output device 106 outputs the calculated low-dimensional PCP and its arrangement as the optimum visualization output 108.
- the output device 106 may output an image in which each low-dimensional PCP is arranged at its optimum coordinates.
- the output device 106 may display such an image on a display device, for example, but the output mode by the output device 106 is not particularly limited.
- the output device 106 may output an image by printing.
- the data input device 101, the input data storage unit 102, the low-dimensional PCP generation device 103, the inter-PCP feature quantity calculation device 104, the coordinate optimization device 105, and the output device 106 may be independent devices.
- each of these devices may be realized by a computer including an interface device serving as the data input device 101 and a storage device serving as the input data storage unit 102.
- the computer may read the multidimensional data visualization program and realize the operation of each of the above devices according to the program.
- the multidimensional data visualization program may be stored in a computer-readable recording medium.
- FIG. 4 is a flowchart showing an example of processing progress of the present invention.
- the low-dimensional PCP generation device 103 calculates a plurality of low-dimensional PCPs based on the input data 107 (step S2).
- the inter-plot feature quantity calculation device 104 calculates the inter-PCP feature quantity for each pair of low-dimensional groups (step S3).
- the coordinate optimization device 105 calculates the low-dimensional coordinates of each low-dimensional PCP using the inter-PCP feature amount calculated in step S3 (step S4).
- the output device 106 outputs the optimum visualization output 108 (step S5).
- the output device 106 outputs an image in which each low-dimensional PCP is arranged at its optimum low-dimensional coordinates.
- FIG. 5 is a block diagram illustrating a configuration example of the low-dimensional PCP generation apparatus 103.
- the low-dimensional PCP generation device 103 includes a data input device 201, an input data storage unit 202, a dimension division device 203, a low-dimensional PCP construction device 204, and an output device 205.
- the data input device 201 is an interface device for inputting input data 206.
- the input data 206 is multidimensional data (D-dimensional data) stored in the input data storage unit 102 (see FIG. 1).
- the multidimensional data is multidimensional data input to the multidimensional data visualization apparatus 1 (see FIG. 1), and the number of data of the multidimensional data is N.
- the data input device 201 may be input with parameters necessary for analysis.
- the input data storage unit 202 is a storage device in the low-dimensional PCP generation device 103 that stores multidimensional data input as the input data 206.
- the dimension dividing device 203 divides the D dimensions constituting the multidimensional data into a plurality of groups constituted by a small number of dimensions. Let M be the number of groups. Further, when dividing the D dimensions into a plurality of groups, the dimension dividing device 203 divides the dimension so as to satisfy the following first and second conditions.
- the first condition is a condition that, in each divided group, dimensions belonging to the same group have as much information (for example, correlation or separation property) as possible.
- the second condition is a condition that dimensions belonging to different groups have as little information as possible.
- the dimension dividing device 203 may operate as follows. In the operation of the dimension dividing apparatus 203 shown below, the concept of conditional independence is introduced. Here, the description will be made assuming that the number of variables corresponding to each dimension of the observation data is D. The dimension dividing device 203 determines whether or not conditional independence is obtained for an arbitrary combination of D variables. Then, the dimension dividing device 203 generates groups so that two variables that are not independent from each other when given an arbitrary variable set belong to the same group. At this time, the concept of submodularity may be introduced in order to prevent the number of combinations of variables from increasing when there are a large number of variables, resulting in an extremely large amount of calculation.
- the dimension dividing device 203 determines conditional independence as follows. When arbitrary three subsets that do not overlap with each other in D variables are given, the three sets are assumed to be X_A, X_B, and X_C. The dimension dividing apparatus 203 calculates a conditional mutual information I (X_A, X_B
- the dimension dividing device 203 groups five variables ⁇ X_1, X_2,..., X_5 ⁇ is illustrated.
- the dimension dividing device 203 sets ⁇ X_1, X_2 ⁇ as a variable set as a condition.
- the “variable set as a condition” corresponds to the above X_C.
- the dimension dividing device 203 greedyly determines a variable set as a condition.
- the dimension dividing apparatus 203 calculates the conditional mutual information I (X_3, ⁇ X_4, X_5 ⁇
- the dimension dividing apparatus 203 decomposes the original variable set into two sets by adding “variable set as a condition” to each of the two sets other than “variable set as a condition”.
- the dimension dividing device 203 decomposes a set of five variables into ⁇ X_1, X_2, X_3 ⁇ and ⁇ X_1, X_2, X_4, X_5 ⁇ . Then, the dimension dividing device 203 repeats the same processing for the variable set obtained by the decomposition. If no further decomposition can be performed on the set of variables after decomposition, the above-described iterative process may be terminated for the set of variables.
- the dimension dividing device 203 further decomposes ⁇ X_1, X_2, X_4, X_5 ⁇ into ⁇ X_1, X_4 ⁇ and ⁇ X_2, X_4, X_5 ⁇ . Then, for example, if any of ⁇ X_1, X_2, X_3 ⁇ , ⁇ X_1, X_4 ⁇ , ⁇ X_2, X_4, X_5 ⁇ cannot be further decomposed, the dimension dividing apparatus 203 decomposes the set of variables. finish. In this example, five variables are divided into three groups.
- the low-dimensional PCP construction device 204 constructs a low-dimensional PCP for each individual group obtained by the division processing of the dimension division device 203, using dimensions corresponding to variables belonging to the group. For example, for one group ⁇ X_1, X_4 ⁇ , the low-dimensional PCP construction apparatus 204 generates a low-dimensional PCP including an axis corresponding to the variable X_1 and an axis corresponding to the variable X_4. Similarly, the low-dimensional PCP is generated for each of the other groups.
- the output device 205 outputs the low-dimensional PCP generation result 207 obtained by the low-dimensional PCP construction device 204 (that is, each low-dimensional PCP generated by the low-dimensional PCP construction device 204) to the inter-PCP feature quantity calculation device 104 (FIG. 2). Output).
- a plurality of low-dimensional PCPs can be generated from D-dimensional data by the low-dimensional PCP generation apparatus 103 having the configuration illustrated in FIG.
- the data input device 201, the input data storage unit 202, the dimension division device 203, the low-dimensional PCP construction device 204, and the output device 205 may be independent devices. Or these each apparatus may be implement
- the inter-PCP feature quantity calculation device 104 calculates a feature quantity that serves as an index for arranging the low-dimensional PCP from a desired viewpoint. Then, the coordinate optimization unit 105 calculates coordinates for arranging the low-dimensional PCP in the low-dimensional space using the feature amount. Therefore, the data distribution can be visualized so that the relationship between the input dimensions in the input multidimensional data can be understood. In addition, by changing the type of feature amount, it is possible to adjust from what viewpoint high-dimensional data is visualized.
- multidimensional data when multidimensional data is expressed as PCP as it is, a PCP that is long in the horizontal direction is generated so that it does not fit within one screen.
- a plurality of low-dimensional PCPs are generated from multidimensional data, it is possible to prevent the width of each low-dimensional PCP from becoming long.
- such low-dimensional PCP is arrange
- the correlation with each axis is appropriately expressed. be able to.
- FIG. 6 is a block diagram showing an example of the minimum configuration of the multidimensional data visualization apparatus of the present invention.
- the multidimensional data visualization apparatus includes a low-dimensional parallel coordinate plot generation unit 71, a feature amount calculation unit 72, and a coordinate calculation unit 73.
- the low-dimensional parallel coordinate plot generation means 71 (for example, the low-dimensional PCP generation device 103) is a low-level chart that represents data related to a part of dimensions in the multidimensional data from the input multidimensional data. A plurality of dimensional parallel coordinate plots (low dimensional PCP) are generated.
- the feature quantity calculation means 72 calculates a feature quantity that represents the relationship between a pair of low-dimensional parallel coordinate plots for each pair of low-dimensional parallel coordinate plots.
- the coordinate calculation unit 73 calculates the coordinates for arranging each low-dimensional parallel coordinate plot based on the feature amount calculated by the feature amount calculation unit 72.
- Such a configuration makes it possible to visualize the distribution of data in the input space of high-dimensional data so that the relationship between the input dimensions can be understood.
- the low-dimensional parallel coordinate plot generation means 71 includes a variable grouping means (for example, a dimension dividing device 203) that divides each variable corresponding to each dimension of the input multidimensional data into a plurality of groups, and a variable grouping means.
- a low-dimensional parallel coordinate plot deriving means for example, a low-dimensional PCP
- the variable grouping means divides the plurality of variables into two groups so that they become conditionally independent when a part of the plurality of variables is defined as a conditional variable set. The division process may be performed, and the division process may be repeated for the variables belonging to each group after the division process.
- a low-dimensional parallel coordinate plot generation unit that generates a plurality of low-dimensional parallel coordinate plots, which are diagrams representing parallel dimension plots of data related to some dimensions in the multi-dimensional data from the input multi-dimensional data; For each pair of low-dimensional parallel coordinate plots, a feature-value calculating unit that calculates the relationship between the paired low-dimensional parallel coordinate plots, and a feature amount calculated by the feature-value calculating unit.
- a multidimensional data visualization apparatus comprising: a coordinate calculation unit that calculates coordinates for arranging each low-dimensional parallel coordinate plot.
- the low-dimensional parallel coordinate plot generation unit includes a variable grouping unit that divides each variable corresponding to each dimension of the input multidimensional data into a plurality of groups, and each group obtained by the variable grouping unit. And a low-dimensional parallel coordinate plot deriving unit for deriving a low-dimensional parallel coordinate plot by generating a parallel coordinate plot about the dimension corresponding to the variable belonging to the group, and the variable grouping unit includes a plurality of variable grouping units Variable processing that divides the plurality of variables into two groups so as to be conditionally independent when a part of the variables is defined as a conditional variable set, and variables belonging to each group after the division processing
- the multidimensional data visualization apparatus according to claim 1, wherein the division process is repeated.
- the present invention is suitably applied to a multidimensional data visualization apparatus that visualizes multidimensional data so that it can be easily understood by humans.
- Multidimensional data visualization apparatus 101 Data input apparatus 102 Input data storage part 103 Low-dimensional PCP production
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Image Generation (AREA)
Description
本発明は、多次元データ可視化装置、多次元データ可視化方法および多次元データ可視化プログラムに関し、特に、人間が一度に全体を把握することが困難な高次元データの分布を、複数のPCP(Parallel Coordinates Plot )で表現することで可視化する多次元データ可視化装置、方法およびプログラムに関する。
近年の急速なデータインフラストラクチャの整備に伴い、大規模で大量なデータを効率的に処理することが、産業の重要課題の一つとなっている。データ分析においてはデータの分布や統計的な性質を分析者が理解することが極めて重要であり、そのためにデータを可視化する技術が重要である。そして、データの次元が3次元より大きい場合には、散布図等を用いてデータを直接可視化することができないため、高次元データを可視化する方法を実現することは、可視化技術の大きな課題の一つである。
多次元データの可視化技術として、Scatter Plot Matrix (以下、SP Matrix と記す。)が挙げられる。SP Matrix では、画面を格子状に分割し、多次元データから得られる複数の二次元散布図(Scatter Plot。以下、SPと記す場合がある。)を、分割後の領域に配置する。Scatter Plot Matrix による多次元データの可視化の例を図7に例示する。図7は、13次元データをScatter Plot Matrix によって可視化した場合の例を示す。
また、多次元データの可視化技術の他の例として、PCP(Parallel Coordinates Plot :平行座標プロット)が挙げられる(非特許文献1参照)。PCPは、個々の次元に対する軸を平行に配置し、各軸上の値を軸間の線分で結ぶことによって多次元データを可視化するグラフである。図8は、図7で表した13次元データを表現したPCPの例である。
また、複数のグラフのレイアウトに関する技術が、非特許文献2に記載されている。
また、本発明に関連する技術として、Isomapが非特許文献3に記載されている。
Alfred Inselberg, Bernard Dimsdale, "Parallel Coordinates: A Tool for Visualizing Multi-dimensional Geometry", IEEE Visualization ‘90
T.Itoh, C.Muelder, K.-L.Ma, J.Sese, "A Hybrid Space-Filling and Force-Directed Layout Method for Visualizing Multiple-Category Graphs", IEEE Pacific Visualization Symposium, pp.121-128, 2009年
J.B.Tenenbaum, V.de Silva, C.Langford, "A Global Geometric Framework for Nonlinear Dimensionality Reduction", Science Vol.290(5500) pp.2319-2323, 2000年12月22日
SP Matrix では、多次元データから得られる複数の二次元散布図を格子状に配置するので、データの次元が高くなると(例えば、データが数十次元を超えると)各格子のサイズが小さくなり、可視性が低下してしまう。
そのため、SP Matrix と次元選択とを組み合わせることも考えられる。例えば、入力データが100次元である場合、そのうちの10次元のみを選択してSP Matrix で表示することも考えられる。しかし、選択された次元のほとんどのペアには情報が少ないケースが多いという問題や、二次元散布図間の関係性(すなわち、入力次元の間の関係性)が理解しにくいという問題がある。以下、このような問題の例を示す。図9は、図7に示すデータと同様のデータに関し、クラスラベルエントロピーが低いサブプロット(換言すれば、各クラスのデータが良好に分離できているサブプロット)の上位5件をハイライト表示によって示す図である。図9からわかるように、SP Matrix では同様の情報を持っているサブプロットが必ずしも近い位置に表示されない。そのため、各入力次元(すなわち、入力された多次元データにおける各次元)間の関係性を理解することが極めて困難である。
また、PCP(図8参照)では、以下のような問題がある。PCPでは、隣り合わない軸の関係がわかりにくいため、3軸以上と高い相関性を有するデータにおいて、現象を十分に表現できない。また、次元数が大きくなると、横方向に非常に長い画面空間を必要とするという問題も生じる。
そこで、本発明は、高次元データの入力空間におけるデータの分布を入力次元間の関係性がわかるように可視化することができる多次元データ可視化装置、多次元データ可視化方法および多次元データ可視化プログラムを提供することを目的とする。
本発明による多次元データ可視化装置は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成手段と、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出手段と、特徴量算出手段によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出手段とを備えることを特徴とする。
また、本発明による多次元データ可視化方法は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成し、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出し、その特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出することを特徴とする。
また、本発明による多次元データ可視化プログラムは、コンピュータに、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成処理、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出処理、および、特徴量算出処理で算出した特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出処理を実行させることを特徴とする。
本発明によれば、高次元データの入力空間におけるデータの分布を、入力次元間の関係性がわかるように可視化することができる。
以下、本発明の実施形態を図面を参照して説明する。
本発明による多次元データ可視化装置は、多次元データから、その多次元データの次元数よりも低い次元のPCP(低次元PCPまたは低次元平行座標プロットと記す場合がある。)を複数生成する。そして、多次元データ可視化装置は、図1に例示するように、複数の低次元PCPを画面上に配置することによって、多次元データを可視化する。
本発明による多次元データ可視化装置は、多次元データから、その多次元データの次元数よりも低い次元のPCP(低次元PCPまたは低次元平行座標プロットと記す場合がある。)を複数生成する。そして、多次元データ可視化装置は、図1に例示するように、複数の低次元PCPを画面上に配置することによって、多次元データを可視化する。
また、本発明による多次元データ可視化装置は、複数の低次元PCPを画面上に配置する際、類似した特徴を持つ低次元PCP同士を近くに配置する。その結果、低次元PCPの配置によって入力次元(入力された多次元データにおける各次元)の関係性を表現することができる。
図2は、本発明の多次元データ可視化装置の例を示すブロック図である。本発明の多次元データ可視化装置1は、データ入力装置101と、入力データ記憶部102と、低次元PCP生成装置103と、PCP間特徴量算出装置104と、座標最適化装置105と、出力装置106とを備える。
多次元データ可視化装置1には、入力データ107が入力され、最適可視化出力108を出力する。入力データ107は多次元データであり、最適可視化出力108は、その多次元データに基づいて生成した複数の低次元PCPの配置結果である。
データ入力装置101は、入力データ107を入力するためのインタフェース装置である。上記のように、入力データ107は多次元データである。入力データ107として入力される多次元データがD次元の多次元データであるものとして説明する。また、入力データ107として入力される多次元データのデータ数をNとする。
多次元データの例として、以下のようなデータが挙げられる。例えば、D個のセンサを有するN台の自動車から、N個の点を有するD次元データが得られる。また、例えば、D種類の健康診断情報を有するN人の患者から、N個の点を有するD次元データが得られる。このような、N個のD次元データを入力データ107として用いることができる。ただし、ここで示した2種類のD次元データは例示であり、入力データ107は、上記の例に限定されない。
データ入力装置101には、入力データ107の入力時に、分析に必要なパラメータが合わせて入力されてもよい。分析に必要なパラメータの例として、例えば、後述するPCP間特徴量の種類を指定するパラメータ等が挙げられる。また、例えば、座標最適化装置105が主成分分析またはIsomapを利用する場合には、主成分分析またはIsomapの入力パラメータ等が挙げられる。ただし、入力データ107とともに入力されるパラメータの種類は、特に限定されない。
入力データ記憶部102は、データ入力装置101に入力された入力データ107を記憶する記憶装置である。
低次元PCP生成装置103は、予め定められた方法で、高次元データ(具体的には、入力データ107として入力されたD次元データ)に対する低次元PCPを生成する。
図3は、高次元データのPCP、およびその高次元データから得られる複数の低次元PCPの例を示す説明図である。図3の上段は、高次元データのPCPとして、10次元データのPCPを表している。この10次元データのPCPにおいて、軸1~10は、相関性の高いものが隣同士になるように配置されている。しかし、この10次元データのPCP(図3の上段参照)において、軸3は軸2,4以外の軸とも高い相関性を有しているが、図3の上段に示すPCPからそのことを読み取ることは難しい。一方、例えば、図3の下段に示すように、軸3が複数の低次元データで重複するようにして、上記の10次元データのPCPを3つの低次元PCPに分割したとする。この場合、多くの軸と相関性を有する軸3の特性を適切に表現することができる。
低次元PCP生成装置103は、低次元PCPを生成する際に、どの軸とも相関性を有さない軸を表示から割愛してもよい。このようにどの軸とも相関性を有さない軸をいずれの低次元PCPにも含めないことで、可視化する意義の高い情報だけを表示することができる。
また、図3の上段に示すように10次元データのPCPは横長のグラフとなるが、低次元PCPに分割することで、例えば、表示用ディスプレイ装置の大きさや縦横比に合わせて、効率的な画面空間の活用が可能となる。
PCP間特徴量算出装置104は、低次元PCP生成装置103によって生成された各低次元PCP間に対して、低次元PCP間の関係性を表す特徴量(以下、PCP間特徴量と記す。)を、予め定められた方法で算出する。すなわち、PCP間特徴量算出装置104は、一対の低次元PCPの組毎に、対をなす低次元PCPにおけるPCP間特徴量を算出する。PCP間特徴量は、どのような観点で低次元PCPを画面上に配置して可視化するかに応じて定められる。
PCP間特徴量の例について、図1を参照して説明する。図1に示すPCP1,2,3や、図1内の他のPCPは、それぞれ低次元PCPである。また、説明を簡単にするため、図1においてPCP1,2の軸に軸番号を付している。PCP1とPCP2は、多くの軸を共有する。具体的には、PCP1,2はともに5本の軸を有するが、5本中、3本の軸(すなわち、軸1,4,6)が共通である。従って、画面上でPCP1,2を近くに配置することで、どのような部分空間で相関が現れているかを可視化することが可能となる。一方、PCP3は、PCP1およびPCP2とは相関の傾向が異なるため、PCP3は、画面内においてPCP1およびPCP2から離れた位置に配置することが好ましい。PCP間特徴量算出装置104は、このような配置を可能にするためのPCP間特徴量を、例えば、以下のように算出すればよい。PCP間特徴量算出装置104は、各低次元PCPに対してクラスラベル毎に相関係数を算出し、クラスラベル毎の相関係数をベクトル化したベクトル(以下、相関係数ベクトルと記す。)を算出する。そして、PCP間特徴量算出装置104は、一対の低次元PCPの組毎に相関係数ベクトルの距離を算出すればよい。このようにして算出した相関係数ベクトルの距離は、PCP間特徴量として利用することができる。
PCP間特徴量算出装置104によるクラスラベル毎の相関係数の算出例を説明する。ここでは、3つの軸(軸a~cとする。)に着目した場合を例にして説明する。また、軸a~cは、低次元PCP内で、例えば左側から順序付けられているものとする。
PCP間特徴量算出装置104は、この3軸について、順序が隣り合う軸間の相関係数をそれぞれ算出し、その相関係数の平均を算出してもよい。本例では、PCP間特徴量算出装置104は、軸a,b間の相関係数、および、軸b,c間の相関係数を算出し、その相関係数の平均を算出してもよい。
あるいは、PCP間特徴量算出装置104は、上記の3軸について、対になる軸の全ての組について軸間の相関係数を算出し、その相関係数の平均を算出してもよい。本例では、PCP間特徴量算出装置104は、軸a,b間の相関係数、軸b,c間の相関係数、および、軸a,c間の相関係数を算出し、その相関係数の平均を算出してもよい。
あるいは、PCP間特徴量算出装置104は、共分散行列の固有値を相関係数として利用してもよい。本例では、PCP間特徴量算出装置104は、上記の3本の軸a~cから、共分散行列(この場合、3×3の行列)を算出し、その共分散行列の固有値、あるいはその共分散行列の固有値の平方根を相関係数として利用してもよい。
なお、上記の相関係数の各算出方法は例示であり、相関係数の算出方法は上記の例に限定されない。
また、上述の相関係数ベクトルの距離は、PCP間特徴量の一例であり、PCP間特徴量として、相関係数ベクトルの距離以外の値を算出してもよい。なお、上記の例では、PCP間特徴量を求めるために相関係数ベクトルを用いる場合を説明したが、PCP間特徴量算出装置104は、相関係数ベクトル以外のベクトルからPCP間特徴量を算出してもよい。PCP間特徴量を算出するために低次元PCP毎に求めるベクトルを、PCP間特徴量ベクトルと記す。上記の相関係数ベクトルは、PCP間特徴量ベクトルの一例である。
また、PCP間特徴量算出装置104は、データ入力装置101に入力されるパラメータに応じて、算出するPCP間特徴量の種類を変更してもよい。
座標最適化装置105は、PCP間特徴量算出装置104によって算出されたPCP間特徴量に基づいて、低次元座標空間における各低次元PCPの配置を最適化する。例えば、座標最適化装置105は、二次元空間において各低次元PCPを配置するために最適な座標を決定する。
各低次元PCPの最適な座標の算出方法として、主成分分析やIsomap(非特許文献3参照)等に代表される次元圧縮技術を利用することができる。以下、各低次元PCPを配置するための最適な座標の算出方法の例を説明する。
まず、主成分分析を利用した座標算出方法の例を説明する。この方法では、座標最適化装置105は、PCP間特徴量ベクトルから共分散行列を算出する。次に、座標最適化装置105は、その共分散行列の固有値問題を解くことによって、主成分ベクトルを算出する。そして、座標最適化装置105は、指定された主成分ベクトル(例えば、上位2次元主成分ベクトル)の方向にPCP間特徴量ベクトルを射影することによって、低次元PCPの最適な座標を算出すればよい。
次に、Isomapを利用した座標算出方法の例を説明する。この方法では、座標最適化装置105は、PCP間特徴量ベクトルから距離行列を算出する。距離行列を求めるために用いる距離として、例えば、ユークリッド距離やグラフを利用した測地距離が代表例として挙げられる。座標最適化装置105は、算出した距離行列に対する固有値問題を解くことにより、PCP間特徴量ベクトルの埋め込み座標(低次元の座標)を算出すればよい。
また、座標最適化装置105は、非特許文献2に記載された技術を利用して各低次元PCPを配置するための座標を算出してもよい。この方法では、座標最適化装置105は、各低次元PCPを連結するネットワーク構造を生成する。このネットワーク構造の生成方法の例として、例えば、任意の低次元PCPのペアのうち、相関係数ベクトルの距離が近い一定個数のペアをリンクで連結する方法が挙げられる。なお、相関係数ベクトルの距離が近いか否かは、相関係数ベクトルの距離と閾値とを比較することによって判定すればよい。続いて、座標最適化装置105は、生成したリンクにバネと同様の力学を想定し、運動方程式の反復計算によって、低次元空間における各PCPの仮の位置を決定する。さらに、座標最適化装置105は、この仮の位置を参照して長方形空間充填手法を適用することで、低次元空間における各低次元PCPの位置を決定すればよい。
また、主成分分析またはIsomapを利用して各低次元PCPの座標を算出した後、非特許文献2に記載された技術を適用してもよい。この場合、座標最適化装置105は、主成分分析またはIsomapを利用して算出した座標に配置した低次元PCPを連結するネットワーク構造を生成して、上記と同様の処理を行えばよい。このように、座標最適化装置105が主成分分析またはIsomapを利用して各低次元PCPの座標を算出した後、ネットワーク構造を生成し、上記のように各低次元PCPの位置を決定することにより、低次元PCPの配置位置を最適化することができ、各低次元PCPの見やすさを向上させることができる。
出力装置106は、算出された低次元PCPおよびその配置を、最適可視化出力108として出力する。例えば、出力装置106は、各低次元PCPをその最適な座標に配置した画像を出力すればよい。なお、出力装置106は、そのような画像を例えばディスプレイ装置上に表示すればよいが、出力装置106による出力態様は特に限定されない。例えば、出力装置106は、画像を印刷によって出力してもよい。
データ入力装置101,入力データ記憶部102、低次元PCP生成装置103、PCP間特徴量算出装置104、座標最適化装置105および出力装置106は、それぞれ独立した装置であってもよい。あるいは、これらの各装置が、データ入力装置101となるインタフェース装置や入力データ記憶部102となる記憶装置を備えたコンピュータによって実現されてもよい。この場合、コンピュータが多次元データ可視化プログラムを読み込み、そのプログラムに従って、上記の各装置の動作を実現すればよい。また、多次元データ可視化プログラムは、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。
次に、本発明の処理経過について説明する。図4は、本発明の処理経過の例を示すフローチャートである。データ入力装置101に入力データ107が入力されると、入力データ記憶部102はその入力データ107を記憶する(ステップS1)。
次に、低次元PCP生成装置103が、その入力データ107に基づいて、複数の低次元PCPを算出する(ステップS2)。
次に、プロット間特徴量算出装置104が、一対の低次元の組毎に、PCP間特徴量を算出する(ステップS3)。
次に、座標最適化装置105が、ステップS3で算出されたPCP間特徴量を用いて、各低次元PCPの低次元座標を算出する(ステップS4)。
そして、出力装置106が最適可視化出力108を出力する(ステップS5)。出力装置106は、各低次元PCPをその最適な低次元座標に配置した画像を出力する。
次に、複数の低次元PCPを算出する低次元PCP生成装置103の構成例について説明する。図5は、低次元PCP生成装置103の構成例を示すブロック図である。低次元PCP生成装置103は、データ入力装置201と、入力データ記憶部202と、次元分割装置203と、低次元PCP構築装置204と、出力装置205とを備える。
データ入力装置201は、入力データ206を入力するためのインタフェース装置である。ここで、入力データ206は、入力データ記憶部102(図1参照)に記憶された多次元データ(D次元データ)である。この多次元データは、多次元データ可視化装置1(図1参照)に入力された多次元データであり、この多次元データのデータ数はNである。なお、データ入力装置201には、分析に必要なパラメータが合わせて入力されてもよい。
入力データ記憶部202は、入力データ206として入力された多次元データを記憶する低次元PCP生成装置103内の記憶装置である。
次元分割装置203は、多次元データを構成するD個の次元を、少数の次元で構成される複数のグループに分割する。このグループの数をMとする。また、次元分割装置203は、D個の次元を複数のグループに分割する場合、以下の第1および第2の条件を満たすように分割する。第1の条件は、分割された個々のグループにおいて、同一のグループに属する次元同士は、できるだけ情報(例えば、相関性や分離性)を有するという条件である。第2の条件は、異なるグループに属する次元同士は、できるだけ情報を有さないという条件である。
このような条件を満たすようにD個の次元を複数のグループに分割する場合、次元分割装置203は、以下のように動作すればよい。以下に示す次元分割装置203の動作では、条件付き独立性の概念を導入している。また、ここでは、観測データの各次元に対応する変数の数をD個として説明する。次元分割装置203は、D個の変数の任意の組み合わせに対して条件付き独立性となるか否かを判定する。そして、次元分割装置203は、任意の変数集合を与えたときに互いに独立とならない2変数が同じグループに属するようにグループを生成する。その際、変数が多いときには変数の組み合わせの数が多くなり、計算量が極めて多くなることを防ぐため、劣モジュラ性の概念を導入してもよい。
次元分割装置203は、以下のように条件付き独立性を判定する。D個の変数において互いに重ならない任意の3つの部分集合を与えたとき、その3つの集合をX_A,X_B,X_Cとする。次元分割装置203は、それらの集合を用いて計算される条件付き相互情報量I(X_A,X_B|X_C)を計算する。そして、その条件付き相互情報量の値が極めて0に近い値である場合、次元分割装置203は、変数集合X_AとX_Bは、X_Cを与えたときに条件付き独立になると判定すればよい。なお、条件付き相互情報量の値が極めて0に近い値であるか否かは、条件付き相互情報量の値と、予め定められた閾値との比較により判定すればよい。
具体例として、次元分割装置203が5個の変数{X_1,X_2,・・・,X_5}をグループ分けする場合を例示する。まず、次元分割装置203は、条件とする変数集合を{X_1,X_2}とする。なお、「条件とする変数集合」は、上記のX_Cに相当する。次元分割装置203は、条件とする変数集合を貪欲的に定める。次元分割装置203は、条件付き相互情報量I(X_3,{X_4,X_5}|{X_1,X_2})を計算し、この値が0(0に極めて近い値でもよい。)になったとする。この場合、次元分割装置203は、「条件とする変数集合」以外の2つの集合にそれぞれ、「条件とする変数集合」を追加することによって、元の変数の集合を2つの集合に分解する。本例では、次元分割装置203は、5個の変数の集合を、{X_1,X_2,X_3}と、{X_1,X_2,X_4,X_5}とに分解する。そして、次元分割装置203は、分解によって得られた変数の集合に対して、同様の処理を繰り返す。分解後の変数の集合について、それ以上分解を行えない場合には、その変数の集合については、上記の繰り返し処理を終了すればよい。例えば、上記の例において、次元分割装置203が、{X_1,X_2,X_4,X_5}をさらに、{X_1,X_4}と、{X_2,X_4,X_5}とに分解したとする。そして、例えば、{X_1,X_2,X_3},{X_1,X_4},{X_2,X_4,X_5}のいずれについてもそれ以上分解できなくなったならば、次元分割装置203は、変数の集合の分解を終了する。この例では、5個の変数が3つのグループに分けられることになる。
低次元PCP構築装置204は、次元分割装置203の分割処理によって得られた個々のグループ毎に、グループに属する変数に対応する次元を用いて、低次元PCPを構築する。例えば、1つのグループ{X_1,X_4}に関して、低次元PCP構築装置204は、変数X_1に対応する軸と、変数X_4に対応する軸とを含む低次元PCPを生成する。他のグループに関しても、それぞれ同様に低次元PCPを生成する。
出力装置205は、低次元PCP構築装置204によって得られた低次元PCP生成結果207(すなわち、低次元PCP構築装置204が生成した各低次元PCP)を、PCP間特徴量算出装置104(図2参照)に出力する。
このように、図5に例示する構成の低次元PCP生成装置103によって、D次元データから複数の低次元PCPを生成することができる。
また、低次元PCP生成装置103において、データ入力装置201、入力データ記憶部202、次元分割装置203、低次元PCP構築装置204、出力装置205は、それぞれ独立した装置であってもよい。あるいは、これらの各装置が、図2に示す各装置とともに、多次元データ可視化プログラムに従って動作するコンピュータによって実現されてもよい。
本発明によれば、低次元PCPを所望の観点で配置するための指標となる特徴量をPCP間特徴量算出装置104が算出する。そして、座標最適化手段105が、その特徴量を用いて、低次元空間において低次元PCPを配置するための座標を算出する。従って、入力された多次元データにおける入力次元間の関係性がわかるようにデータの分布を可視化することができる。また、特徴量の種類を変更することによって、どのような観点で高次元データを可視化するかを調整することができる。
また、多次元データをそのままPCPで表すと、一画面内に収まらないほど横方向に長いPCPが生成されることになる。本発明では、多次元データから複数の低次元PCPを生成するので、個々の低次元PCPの横幅が長くなることを防ぐことができる。そして、そのような低次元PCPを画面内に配置するので、多次元データを可視化する際に、一画面に収まらないような横長のPCPで多次元データを提示することを防ぐことができる。
また、本発明では、複数の低次元PCPで同一の軸を重複させることによって、3軸以上との間で高い相関性を有する軸であっても、各軸との相関性を適切に表現することができる。
以下、本発明の最小構成について説明する。図6は、本発明の多次元データ可視化装置の最小構成の例を示すブロック図である。多次元データ可視化装置は、低次元平行座標プロット生成手段71と、特徴量算出手段72と、座標算出手段73とを備える。
低次元平行座標プロット生成手段71(例えば、低次元PCP生成装置103)は、入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロット(低次元PCP)を複数生成する。
特徴量算出手段72(例えば、PCP間特徴量算出装置104)は、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する。
座標算出手段73(例えば、座標最適化装置105)は、特徴量算出手段72によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する。
そのような構成によって、高次元データの入力空間におけるデータの分布を、入力次元間の関係性がわかるように可視化することができる。
また、低次元平行座標プロット生成手段71が、入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化手段(例えば、次元分割装置203)と、変数グループ化手段によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出手段(例えば、低次元PCP構築装置204)とを含み、変数グループ化手段が、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるようにその複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、分割処理を行うことを繰り返す構成であってもよい。
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成部と、一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出部とを備えることを特徴とする多次元データ可視化装置。
(付記2)低次元平行座標プロット生成部は、入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化部と、前記変数グループ化部によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出部とを含み、前記変数グループ化部は、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す請求項1に記載の多次元データ可視化装置。
この出願は、2012年2月3日に出願された日本特許出願2012-22112を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、多次元データを人間が把握しやすくするように可視化する多次元データ可視化装置に好適に適用される。
1 多次元データ可視化装置
101 データ入力装置
102 入力データ記憶部
103 低次元PCP生成装置
104 PCP間特徴量算出装置
105 座標最適化装置
106 出力装置
201 データ入力装置
202 入力データ記憶部
203 次元分割装置
204 低次元PCP構築装置
205 出力装置
101 データ入力装置
102 入力データ記憶部
103 低次元PCP生成装置
104 PCP間特徴量算出装置
105 座標最適化装置
106 出力装置
201 データ入力装置
202 入力データ記憶部
203 次元分割装置
204 低次元PCP構築装置
205 出力装置
Claims (6)
- 入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成手段と、
一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出手段と、
前記特徴量算出手段によって算出された特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出手段とを備える
ことを特徴とする多次元データ可視化装置。 - 低次元平行座標プロット生成手段は、
入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化手段と、
前記変数グループ化手段によって得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出手段とを含み、
前記変数グループ化手段は、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す
請求項1に記載の多次元データ可視化装置。 - 入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成し、
一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出し、
前記特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する
ことを特徴とする多次元データ可視化方法。 - 入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化処理を実行し、
前記変数グループ化処理で得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出し、
前記変数グループ化処理で、複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を行い、分割処理後の各グループに属する変数に対して、前記分割処理を行うことを繰り返す
請求項3に記載の多次元データ可視化方法。 - コンピュータに、
入力された多次元データから、当該多次元データにおける一部の次元に関するデータを平行座標プロットで表した図表である低次元平行座標プロットを複数生成する低次元平行座標プロット生成処理、
一対の低次元平行座標プロットの組毎に、対をなす低次元平行座標プロット間の関係性を表す特徴量を算出する特徴量算出処理、および、
前記特徴量算出処理で算出した特徴量に基づいて、各低次元平行座標プロットを配置する座標を算出する座標算出処理
を実行させるための多次元データ可視化プログラム。 - コンピュータに、
低次元平行座標プロット生成処理で、
入力された多次元データの各次元に対応する各変数を複数のグループに分ける変数グループ化処理、および、
前記変数グループ化処理で得られたグループ毎に、グループに属する変数に対応する次元を軸とする平行座標プロットを生成することによって、低次元平行座標プロットを導出する低次元平行座標プロット導出処理を実行させ、
前記変数グループ化処理で、
複数の変数のうちの一部を条件となる変数集合と定めたときに条件付き独立になるように前記複数の変数を2つのグループに分割する分割処理を実行させ、分割処理後の各グループに属する変数に対して、前記分割処理を実行することを繰り返させる
請求項5に記載の多次元データ可視化プログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201280008211.9A CN103354928B (zh) | 2012-02-03 | 2012-12-21 | 多维度数据可视化设备、方法和程序 |
| US13/977,186 US20170032017A1 (en) | 2012-02-03 | 2012-12-21 | Multidimensional data visualization apparatus, method, and program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012-022112 | 2012-02-03 | ||
| JP2012022112A JP5392635B2 (ja) | 2012-02-03 | 2012-02-03 | 多次元データ可視化装置、方法およびプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2013114509A1 true WO2013114509A1 (ja) | 2013-08-08 |
Family
ID=48904598
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2012/008195 Ceased WO2013114509A1 (ja) | 2012-02-03 | 2012-12-21 | 多次元データ可視化装置、方法およびプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20170032017A1 (ja) |
| JP (1) | JP5392635B2 (ja) |
| CN (1) | CN103354928B (ja) |
| WO (1) | WO2013114509A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104484326A (zh) * | 2014-09-30 | 2015-04-01 | 天津大学 | 一种基于可视分析的文物集成信息的交互探索方法 |
Families Citing this family (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6018014B2 (ja) * | 2013-04-24 | 2016-11-02 | 日本電信電話株式会社 | 情報処理装置、特徴量変換システム、表示制御方法及び表示制御プログラム |
| WO2015017632A1 (en) * | 2013-07-31 | 2015-02-05 | The Johns Hopkins University | Advanced treatment response prediction using clinical parameters and advanced unsupervised machine learning: the contribution scattergram |
| CN103700060B (zh) * | 2013-12-26 | 2016-09-21 | 北京大学 | 一种海量任意形状多边形的快速可视化方法 |
| JP6336881B2 (ja) * | 2014-10-20 | 2018-06-06 | 日本電子株式会社 | 散布図表示装置、散布図表示方法、および表面分析装置 |
| CN104750847B (zh) * | 2015-04-10 | 2018-07-06 | 河海大学 | 一种基于动态平行坐标的关联规则可视化系统及方法 |
| JP6532762B2 (ja) * | 2015-06-02 | 2019-06-19 | 株式会社東芝 | 情報生成システム、装置、方法、及びプログラム |
| CN106599234A (zh) * | 2016-12-20 | 2017-04-26 | 深圳飓风传媒科技有限公司 | 基于多维标识的数据可视化处理方法和系统 |
| CN106845314B (zh) * | 2016-12-28 | 2019-07-12 | 广州智慧城市发展研究院 | 一种二维码的快速定位方法 |
| US9934364B1 (en) | 2017-02-28 | 2018-04-03 | Anixa Diagnostics Corporation | Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis |
| US11164082B2 (en) | 2017-02-28 | 2021-11-02 | Anixa Diagnostics Corporation | Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis |
| US11620315B2 (en) * | 2017-10-09 | 2023-04-04 | Tableau Software, Inc. | Using an object model of heterogeneous data to facilitate building data visualizations |
| WO2019173233A1 (en) * | 2018-03-05 | 2019-09-12 | Anixa Diagnostics Corporation | Methods for using artificial neural network analysis on flow cytometry data for cancer diagnosis |
| CN108428209B (zh) * | 2018-03-28 | 2022-02-15 | 深圳大学 | 高维数据可视化方法、装置及系统 |
| CN109753547B (zh) * | 2018-11-19 | 2020-09-11 | 浙江财经大学 | 基于平行坐标轴排列地理空间多维数据可视分析方法 |
| WO2020117669A1 (en) | 2018-12-03 | 2020-06-11 | DSi Digital, LLC | Data interaction platforms utilizing dynamic relational awareness |
| US11016988B1 (en) | 2018-12-19 | 2021-05-25 | Airspeed Systems LLC | Matched array flight alignment system and method |
| US10803085B1 (en) | 2018-12-19 | 2020-10-13 | Airspeed Systems LLC | Matched array airspeed and angle of attack alignment system and method |
| US10896529B1 (en) | 2018-12-19 | 2021-01-19 | EffectiveTalent Office LLC | Matched array talent architecture system and method |
| US11010940B2 (en) | 2018-12-19 | 2021-05-18 | EffectiveTalent Office LLC | Matched array alignment system and method |
| US11010941B1 (en) | 2018-12-19 | 2021-05-18 | EffectiveTalent Office LLC | Matched array general talent architecture system and method |
| US11574560B2 (en) | 2019-04-16 | 2023-02-07 | International Business Machines Corporation | Quantum state visualization device |
| CN110096500B (zh) * | 2019-05-07 | 2022-10-14 | 上海海洋大学 | 一种面向海洋多维数据的可视分析方法及系统 |
| CN111488502A (zh) * | 2020-04-10 | 2020-08-04 | 山西大学 | 基于Isomap算法布局的低维平行坐标图构建方法 |
| GB202114944D0 (en) * | 2021-10-19 | 2021-12-01 | Oxbotica Ltd | Method and apparatus |
| JP7801880B2 (ja) * | 2021-11-16 | 2026-01-19 | 三菱電機株式会社 | グラフ生成装置及びグラフ生成方法 |
| US11893666B2 (en) * | 2022-01-19 | 2024-02-06 | International Business Machines Corporation | Parallel chart generator |
| US12271981B2 (en) | 2022-10-25 | 2025-04-08 | Kyndryl, Inc. | Generation of data visualizations on a single visual representation |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1115895A (ja) * | 1997-06-19 | 1999-01-22 | Fujitsu Ltd | データ表示装置、データ表示方法、およびデータ表示用プログラムを記録した記録媒体 |
| US5917500A (en) * | 1998-01-05 | 1999-06-29 | N-Dimensional Visualization, Llc | Intellectual structure for visualization of n-dimensional space utilizing a parallel coordinate system |
| JP2001282819A (ja) * | 2000-01-28 | 2001-10-12 | Fujitsu Ltd | データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101510291A (zh) * | 2008-02-15 | 2009-08-19 | 国际商业机器公司 | 多维数据的可视化方法及装置 |
| CN101266607A (zh) * | 2008-05-09 | 2008-09-17 | 东北大学 | 基于最大间隙空间映射的高维数据索引方法 |
| CN102707917B (zh) * | 2012-05-23 | 2015-03-25 | 中国科学院对地观测与数字地球科学中心 | 一种高维数据可视化方法及装置 |
-
2012
- 2012-02-03 JP JP2012022112A patent/JP5392635B2/ja not_active Expired - Fee Related
- 2012-12-21 WO PCT/JP2012/008195 patent/WO2013114509A1/ja not_active Ceased
- 2012-12-21 CN CN201280008211.9A patent/CN103354928B/zh not_active Expired - Fee Related
- 2012-12-21 US US13/977,186 patent/US20170032017A1/en not_active Abandoned
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1115895A (ja) * | 1997-06-19 | 1999-01-22 | Fujitsu Ltd | データ表示装置、データ表示方法、およびデータ表示用プログラムを記録した記録媒体 |
| US5917500A (en) * | 1998-01-05 | 1999-06-29 | N-Dimensional Visualization, Llc | Intellectual structure for visualization of n-dimensional space utilizing a parallel coordinate system |
| JP2001282819A (ja) * | 2000-01-28 | 2001-10-12 | Fujitsu Ltd | データマイニング装置、データマイニング処理プログラムを格納したコンピュータ可読の記憶媒体、及びデータマイニング処理プログラム |
Non-Patent Citations (2)
| Title |
|---|
| GEOFFREY ELLIS ET AL.: "Enabling Automatic Clutter Reduction in Parallel Coordinate Plots", IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, vol. 12, no. 5, 20 November 2006 (2006-11-20), pages 717 - 724, XP011143803 * |
| KEISUKE HONDA ET AL.: "3 dimensional parallel coordinate plot", TOKEI SURI, vol. 55, no. 1, 2007, pages 69 - 83, Retrieved from the Internet <URL:URL:www.ism.ac.jp/editsec/toukei/pdf/55-1-069.pdf> [retrieved on 20130306] * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104484326A (zh) * | 2014-09-30 | 2015-04-01 | 天津大学 | 一种基于可视分析的文物集成信息的交互探索方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103354928A (zh) | 2013-10-16 |
| JP2013161226A (ja) | 2013-08-19 |
| JP5392635B2 (ja) | 2014-01-22 |
| CN103354928B (zh) | 2015-06-24 |
| US20170032017A1 (en) | 2017-02-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5392635B2 (ja) | 多次元データ可視化装置、方法およびプログラム | |
| Amaro et al. | Filtering variational quantum algorithms for combinatorial optimization | |
| Ibrahim et al. | 3D-RadVis: Visualization of Pareto front in many-objective optimization | |
| Wu et al. | GAP: A graphical environment for matrix visualization and cluster analysis | |
| Furukawa | SOM of SOMs | |
| Cafaro et al. | Qubit geodesics on the Bloch sphere from optimal-speed Hamiltonian evolutions | |
| Lu et al. | Doubly stochastic neighbor embedding on spheres | |
| JPWO2013114510A1 (ja) | 多次元データ可視化装置、方法およびプログラム | |
| Paetznick et al. | Quantum circuit optimization by topological compaction in the surface code | |
| Krivulin | An algebraic approach to multidimensional minimax location problems with Chebyshev distance | |
| CN119670909A (zh) | 一种生成量子态集合的方法及模型 | |
| Gandon et al. | Quantum computing in spin-adapted representations for efficient simulations of spin systems | |
| Zhen et al. | Multiobjective test problems with degenerate Pareto fronts | |
| JP2018163396A (ja) | 区分線形近似関数生成装置および方法 | |
| Kässinger et al. | Persival: Simulating complex 3d meshes on resource-constrained mobile ar devices using interpolation | |
| JP6602013B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| Walter et al. | Layered drawing of undirected graphs with generalized port constraints | |
| JP7360074B2 (ja) | 秘匿計算方法、秘匿計算システム及びプログラム | |
| Halnaut et al. | VRGrid: Efficient transformation of 2d data into pixel grid layout | |
| Gerdt et al. | A mathematica package for simulation of quantum computation | |
| WO2016002020A1 (ja) | 行列生成装置及び行列生成方法及び行列生成プログラム | |
| Futer et al. | Finite surgeries on three-tangle pretzel knots | |
| Prusinkiewicz et al. | L-systems in geometric modeling | |
| JP6942007B2 (ja) | 画像処理装置、及びプログラム | |
| Prusinkiewicz et al. | L-systems in geometric modeling |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| WWE | Wipo information: entry into national phase |
Ref document number: 13977186 Country of ref document: US |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12867239 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 12867239 Country of ref document: EP Kind code of ref document: A1 |