JP2013020290A - Pattern extraction device, pattern extraction method and pattern extraction program - Google Patents
Pattern extraction device, pattern extraction method and pattern extraction program Download PDFInfo
- Publication number
- JP2013020290A JP2013020290A JP2011150634A JP2011150634A JP2013020290A JP 2013020290 A JP2013020290 A JP 2013020290A JP 2011150634 A JP2011150634 A JP 2011150634A JP 2011150634 A JP2011150634 A JP 2011150634A JP 2013020290 A JP2013020290 A JP 2013020290A
- Authority
- JP
- Japan
- Prior art keywords
- data
- similarity
- class
- degree
- separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】クラス分類を適切に行なうことができるパターン抽出装置を提供する。
【解決手段】学習データ間の第1の類似度と、前記学習データおよび新規データ間の第2の類似度とを計算する類似度計算部102と、学習データの、同じクラスに属するデータの組について、元の空間で類似度の高いものは変換後の距離が小さくなるように集約度を計算するクラス内集約度計算部103と、異なるクラスに属するデータの組について、元の空間で類似度の低いものはデータ変換後の距離が大きくなるように分離度を計算するクラス間分離度計算部104と、前記クラス内のデータ集約度およびクラス間のデータ分離度が大きくなる特徴空間への変換情報を計算する射影情報計算部105と、新規データを、前記第2の類似度および変換情報を用いて、特徴空間に変換するデータ変換部107と、前記変換情報および変換された新規データを出力する結果出力部108と、を備える。
【選択図】図1A pattern extraction apparatus capable of appropriately classifying a class is provided.
A similarity calculation unit that calculates a first similarity between learning data and a second similarity between the learning data and new data, and a set of data belonging to the same class of learning data In the original space, a high degree of similarity in the original space calculates the degree of aggregation so that the distance after the conversion becomes small, and the degree of similarity is calculated in the original space for a set of data belonging to different classes. For those having a low level, an interclass separation degree calculation unit 104 that calculates a separation degree so that a distance after data conversion becomes large, and conversion to a feature space in which the data aggregation degree in the class and the data separation degree between classes become large A projection information calculation unit 105 that calculates information; a data conversion unit 107 that converts new data into a feature space using the second similarity and conversion information; and the conversion information and the conversion information It was provided with a result output unit 108 for outputting the new data.
[Selection] Figure 1
Description
本発明は教師あり機械学習に関し、特にテキストや画像などのデータをクラス分類するためのパターン抽出装置、方法に関する。 The present invention relates to supervised machine learning, and more particularly to a pattern extraction apparatus and method for classifying data such as text and images.
従来、パターン抽出方法として、非特許文献1に示すように線形判別分析という手法があった。線形判別分析は次のように、与えられたn組のデータxi∈Rm及びそのラベルyi∈{1,…,c}からクラス分類が行いやすいパターンzi∈Rc-1,c<mを抽出する。 Conventionally, as a pattern extraction method, there has been a technique called linear discriminant analysis as shown in Non-Patent Document 1. In the linear discriminant analysis, patterns z i ∈R c−1 , c that are easy to classify from given n sets of data x i ∈R m and their labels y i ∈ {1,. <M is extracted.
zi=WTxi,i=1,…,n (1)
ここで、W=(w1,…,wc-1),wi∈Rm。尚cはクラス数、mは抽出する特徴の次元数(データの次元)、Rは空間を各々示している。
z i = W T x i , i = 1,..., n (1)
Here, W = (w 1 ,..., W c-1 ), w i ∈R m . Note that c represents the number of classes, m represents the number of dimensions of the features to be extracted (data dimensions), and R represents the space.
wiは、クラス間分散とクラス内分散の比J(w)を最大化するように選ぶ。 w i is selected to maximize the ratio J (w) of the interclass variance to the intraclass variance.
すなわち、w=argmaxwJ(w)。 That is, w = argmax w J (w).
これは下記の一般化固有値問題を解くことで求められる。 This can be obtained by solving the following generalized eigenvalue problem.
wiは、上位c−1個の固有値の固有ベクトルとなる。 w i is the eigenvector of the upper c-1 eigenvalues.
例えば、入力空間におけるデータ集合を表す図4のようにclass 1,class 2のデータが与えられると、wは図4のwで示す直線として求められる。この例は、クラス数c=2で、1(=c−1)次元の特徴が得られる。抽出されるパターンは図5となる。図5によれば、class 1,class 2がx軸上で上手く分離されている事が分かる(図5ではclass 1,class 2の結果が見やすいように、y軸の値をずらしてある)。 For example, when data of class 1 and class 2 are given as shown in FIG. 4 representing a data set in the input space, w is obtained as a straight line indicated by w in FIG. In this example, the number of classes c = 2, and 1 (= c-1) -dimensional features are obtained. The extracted pattern is shown in FIG. According to FIG. 5, it can be seen that class 1 and class 2 are well separated on the x-axis (in FIG. 5, the y-axis values are shifted so that the results of class 1 and class 2 can be easily seen).
上述した線形判別分析では、
1.各クラスの平均値を分離する特徴しか得られない
2.クラス数−1の次元の特徴しか得られない
3.各クラスがガウス分布を仮定しているため、多峰性のデータにフィットしない
という問題があった。
In the linear discriminant analysis described above,
1. Only features that separate the average value of each class are obtained. 2. Only dimensional features of class number -1 can be obtained. Since each class assumed a Gaussian distribution, there was a problem that it did not fit multimodal data.
特に、図6のようなclass 1,class 2のデータが与えられると、class 1,class 2の平均値が等しくなるため、SBがゼロ行列となり、前記式(8)の解が求まらないため、クラスを分離する特徴が得られない。 In particular, when data of class 1 and class 2 as shown in FIG. 6 are given, the average values of class 1 and class 2 become equal, so that S B becomes a zero matrix, and the solution of equation (8) is obtained. As a result, the class separating feature cannot be obtained.
本発明は、上記問題を解決するものであり、クラス分類を適切に行なうことができるパターン抽出装置、方法、プログラムを提供することを目的としている。 SUMMARY OF THE INVENTION The present invention solves the above-described problems, and an object thereof is to provide a pattern extraction apparatus, method, and program that can perform class classification appropriately.
上記課題を解決するための本発明のパターン抽出装置は、入力データをクラス分類するためのパターン抽出装置であって、学習時に入力された学習データ間の第1の類似度と、前記学習データおよび分類時に入力された新規データ間の第2の類似度とを計算する類似度計算手段と、学習時に入力された、同じクラスに属するデータの組について、元の空間で類似度の高いものはデータ変換後の距離が小さくなるように集約度を計算するクラス内集約度計算手段と、学習時に入力された、異なるクラスに属するデータの組について、元の空間で類似度の低いものはデータ変換後の距離が大きくなるように分離度を計算するクラス間分離度計算手段と、前記クラス内集約度計算手段により計算されたクラス内のデータ集約度およびクラス間分離度計算手段により計算されたクラス間のデータ分離度が大きくなる特徴空間への変換情報を計算する射影情報計算手段と、分類時に入力された新規データを、前記類似度計算手段によって計算された第2の類似度および射影情報計算手段によって計算された変換情報を用いて、クラス内のデータの集約度およびクラス間のデータの分離度が大きくなる特徴空間に変換するデータ変換手段と、前記射影情報計算手段によって計算された変換情報およびデータ変換手段によって変換された新規データを出力する結果出力手段と、を備えたことを特徴としている。 A pattern extraction device of the present invention for solving the above-mentioned problem is a pattern extraction device for classifying input data, wherein the first similarity between learning data input during learning, the learning data, Similarity calculation means for calculating the second similarity between new data input at the time of classification, and data sets belonging to the same class that are input at the time of learning are those having high similarity in the original space Intraclass aggregation degree calculation means for calculating the degree of aggregation so that the distance after conversion becomes small, and a set of data belonging to different classes input during learning, those with low similarity in the original space are after data conversion Class separation degree calculating means for calculating the degree of separation so that the distance between the classes increases, and the data aggregation degree and the class separation degree within the class calculated by the intra-class aggregation degree calculation means Projection information calculation means for calculating conversion information into a feature space in which the degree of data separation between classes calculated by the calculation means is large, and second data calculated by the similarity calculation means for new data input at the time of classification. Using the conversion information calculated by the similarity and projection information calculation means, the data conversion means for converting into a feature space in which the degree of aggregation of data within a class and the degree of separation of data between classes are large, and the projection information calculation And a result output means for outputting the conversion information calculated by the means and the new data converted by the data conversion means.
上記構成によれば、クラス内集約度計算手段は各クラスの分散ではなく、元の空間で類似度の高いものは変換後の距離が小さくなるように評価するため、多峰性などの非ガウス分布のデータに対応できる。また、本発明のクラス間分離度計算手段は各クラスの平均ではなく、元の空間で類似度の低いものは変換後の距離が大きくなるように評価するため、各クラスの平均値が等しい場合にも対応できる。 According to the above configuration, the intra-class aggregation degree calculation means is not a variance of each class, but evaluates an object with high similarity in the original space so that the distance after the conversion becomes small. Can handle distribution data. In addition, since the interclass separation degree calculation means of the present invention is not the average of each class, but evaluates an object having a low similarity in the original space so that the distance after conversion becomes large, the average value of each class is equal. Can also be supported.
また、本発明の射影情報計算手段は、各クラスの平均値間の関係ではなく、類似度計算手段で求めたデータ間の関係を基に特徴空間を計算するため、クラス数以上の特徴を求めることができる。 In addition, the projection information calculation means of the present invention calculates the feature space based on the relationship between the data obtained by the similarity calculation means, not the relationship between the average values of each class, and thus obtains a feature that exceeds the number of classes. be able to.
さらに、本発明のデータ変換手段は、射影情報計算手段で計算した情報を用いてデータを特徴量空間に変換する。こうすることで、新規のデータについてもクラス分類に適した特徴量空間に変換できる。 Furthermore, the data conversion means of the present invention converts the data into the feature amount space using the information calculated by the projection information calculation means. In this way, new data can be converted into a feature amount space suitable for classification.
本発明によれば、次のような効果が得られる。
(1)各クラスの平均値に依存せず、平均値が等しくても分離することができる。
(2)抽出する特徴の次元は次元数k(≦m)によって変えることができ、分類に有効な特徴が得られる。
(3)ガウス分布の過程をしていないので、多峰性のデータにもフィットする。
According to the present invention, the following effects can be obtained.
(1) It does not depend on the average value of each class and can be separated even if the average values are equal.
(2) The dimension of the feature to be extracted can be changed by the number of dimensions k (≦ m), and a feature effective for classification can be obtained.
(3) Since the process of Gaussian distribution is not performed, it fits to multimodal data.
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。本発明のパターン抽出装置は、図1のブロック図に示すように、入力される各種データおよびパラメータを取り込むデータ入力部101、類似度計算手段としての類似度計算部102、クラス内集約度計算手段としてのクラス内集約度計算部103、クラス間分離度計算手段としてのクラス間分離度計算部104、射影情報計算手段としての射影情報計算部105、各種データおよびパラメータが格納される蓄積部106、データ変換手段としてのデータ変換部107および結果出力手段としての結果出力部108を備えている。 Hereinafter, embodiments of the present invention will be described with reference to the drawings, but the present invention is not limited to the following embodiments. As shown in the block diagram of FIG. 1, the pattern extraction apparatus of the present invention includes a data input unit 101 for capturing various input data and parameters, a similarity calculation unit 102 as a similarity calculation unit, and an intra-class aggregation level calculation unit. An intra-class aggregation degree calculation unit 103, an inter-class separation degree calculation unit 104 as an inter-class separation degree calculation unit, a projection information calculation unit 105 as a projection information calculation unit, a storage unit 106 in which various data and parameters are stored, A data conversion unit 107 as data conversion means and a result output unit 108 as result output means are provided.
図1のパターン抽出装置で実施されるパターン抽出のアルゴリズムは以下の手順からなる。
Algorithm 1 学習時の手順
Require:X,y,k,τ,ζ,η
1:類似度行列の計算
2:クラス内集約度の計算
3:クラス間分離度の計算
4:射影情報の計算
5:X,k,τ,αj,bの蓄積
6:αjの出力
Algorithm 2 分類時の手順
Require:Z
1:類似度行列の計算
2:データ変換の実行
3:f(zu)の出力
上記「Algorithm 1 学習時の手順」は図2のフローチャートのステップS201〜S207で示され、「Algorithm 2 分類時の手順」は図3のフローチャートのステップS301〜S304で示される。
The pattern extraction algorithm implemented by the pattern extraction apparatus of FIG.
Algorithm 1 Learning Procedure Required: X, y, k, τ, ζ, η
1: Calculation of similarity matrix 2: Calculation of intra-class aggregation degree 3: Calculation of separation between classes 4: Calculation of projection information 5: Accumulation of X, k, τ, α j , b 6: Output of α j
Algorithm 2 Classification Request: Z
1: Calculation of similarity matrix 2: Execution of data conversion 3: Output of f (z u )
The above “procedure for learning Algorithm 1” is shown in steps S201 to S207 in the flowchart of FIG. 2, and the “procedure for sorting Algorithm 2” is shown in steps S301 to S304 of the flowchart in FIG.
図1のパターン抽出装置は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM,RAM,CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。 The pattern extraction apparatus of FIG. 1 is configured by a computer, for example, and includes hardware resources of a normal computer such as a ROM, a RAM, a CPU, an input device, an output device, a communication interface, a hard disk, a recording medium, and a driving device thereof. .
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、本実施形態例のパターン抽出装置は、図1に示すように、データ入力部101、類似度計算部102、クラス内集約度計算部103、クラス間分離度計算部104、射影情報計算部105、蓄積部106、データ変換部107および結果出力部108を実装する。 As a result of the cooperation between the hardware resource and the software resource (OS, application, etc.), the pattern extraction apparatus according to the present embodiment has a data input unit 101, a similarity calculation unit 102, an in-class as shown in FIG. An aggregation degree calculation unit 103, an interclass separation degree calculation unit 104, a projection information calculation unit 105, a storage unit 106, a data conversion unit 107, and a result output unit 108 are mounted.
前記蓄積部106は、ハードディスクあるいはRAMなどの保存手段・記憶手段で構成されているものとする。 It is assumed that the storage unit 106 includes a storage unit / storage unit such as a hard disk or a RAM.
次に上記のように構成された装置の詳細を具体的に説明する。本実施形態例では、学習時に、データX=(x1,…,xn),xi∈Rm,ラベルy=(y1,…,yn),yi∈{1,…,c}(cはクラス数),抽出する特徴の次元数k(0<k<m),類似度計算のパラメータτ>0,クラス内集約度のパラメータζ≧0,及びクラス間分離度のパラメータη≧0を入力とし、射影情報計算部105により計算された射影情報αj,bj,j=1,…,kを出力し、分類時に、新規データZを入力とし、データ変換部107によって変換された新規データf(zu)を出力する。 Next, the details of the apparatus configured as described above will be specifically described. In this embodiment, at the time of learning, data X = (x 1 ,..., X n ), x i ∈R m , label y = (y 1 ,..., Y n ), y i ∈ {1,. } (C is the number of classes), dimension number k of extracted features (0 <k <m), similarity calculation parameter τ> 0, intraclass aggregation parameter ζ ≧ 0, and interclass separation parameter η ≧ 0 is input, projection information α j , b j , j = 1,..., K calculated by the projection information calculation unit 105 is output. At the time of classification, new data Z is input and converted by the data conversion unit 107 The new data f (z u ) thus output is output.
データ入力部101は、ネットワークまたはファイルなどから、学習時には学習データX,ラベルy,パラメータk,τ,ζ,ηを入力し、分類時には新規データZを入力する。 The data input unit 101 inputs learning data X, label y, parameters k, τ, ζ, and η during learning from a network or a file, and inputs new data Z during classification.
蓄積部105には、データ入力部101から入力されたデータX,パラメータk,τ,及び射影情報計算部105により計算された射影情報αj,bj,j=1,…,kが蓄積される。 The storage unit 105 stores data X, parameters k and τ input from the data input unit 101, and projection information α j , b j , j = 1,..., K calculated by the projection information calculation unit 105. The
類似度計算部102は学習時に入力された、学習データXの類似度行列Ω(第1の類似度)、及び学習データXと分類時に入力された新規データZとの類似度行列Ωnew(第2の類似度)を計算する。 The similarity calculation unit 102 inputs the similarity matrix Ω (first similarity) of the learning data X input at the time of learning and the similarity matrix Ω new (the first similarity data between the learning data X and the new data Z input at the time of classification). 2).
ωij=exp{−τ‖xi−xj‖} (9)
は、学習データxiと学習データxjの類似度である。
ω ij = exp {−τ‖x i −x j ‖} (9)
Is the similarity between the learning data x i and the learning data x j .
ωij new=exp{−τ‖xi−zj‖} (10)
は、学習データxiと新規データzjの類似度である。
ω ij new = exp {−τ‖x i −z j ‖} (10)
Is the similarity between the learning data x i and the new data z j .
ここで、‖・‖はユークリッドノルムである。 Here, ‖ and ‖ are Euclidean norms.
クラス内集約度計算部103は、学習時に入力された、同じクラスに属するデータの組について、元の空間で類似度の高いものはデータ変換後の距離が小さくなるように集約度を計算するものであり、クラス内集約度行列LW、すなわち同一のクラスに属するデータを近くに配置するための項、を計算する。 The intra-class aggregation degree calculation unit 103 calculates the degree of aggregation so that the distance between the data sets that belong to the same class input at the time of learning is high in the original space so that the distance after data conversion becomes small And calculate an intra-class intensity matrix L W , that is, a term for arranging data belonging to the same class nearby.
LW=DW−SW (11)
ここで、
L W = D W −S W (11)
here,
は、同一クラスに属するデータ間の類似度を示す。 Indicates the similarity between data belonging to the same class.
また、 Also,
は、同一クラス内で密集した(すなわち同じクラス内のデータから高い類似度で参照される)データを重視するための項である。 Is a term for emphasizing data that is dense within the same class (that is, is referenced with high similarity from data within the same class).
クラス間分離度計算部104は、学習時に入力された、異なるクラスに属するデータの組について、元の空間で類似度の低いものはデータ変換後の距離が大きくなるように分離度を計算するものであり、クラス間分離度行列LB、すなわち異なるクラスに属するデータを遠くに配置するための項、を計算する。 The interclass separation degree calculation unit 104 calculates the degree of separation so that the distance after data conversion becomes large for a set of data belonging to different classes input at the time of learning and having a low similarity in the original space The interclass separation matrix L B , that is, a term for disposing data belonging to different classes far away is calculated.
LB=DB−SB (14)
ここで、
L B = D B −S B (14)
here,
は、異なるクラスに属するデータ間の非類似度(距離が大きいものほど値が大きく、距離の小さいものは値が小さい)を示す。 Indicates the degree of dissimilarity between data belonging to different classes (the value increases as the distance increases, and the value decreases as the distance decreases).
また、 Also,
は、クラス間で隔たりが大きい(すなわち異なるクラスのデータから遠い距離で参照される)データを重視するための項である。 Is a term for emphasizing data having a large gap between classes (that is, referred to at a distance far from data of different classes).
射影情報計算部105は、前記クラス内集約度計算部103により計算されたクラス内のデータ集約度およびクラス間分離度計算部104により計算されたクラス間のデータ分離度が大きくなるような特徴空間を求め、その特徴空間への変換情報、すなわち射影情報αj,bj,j=1,…,kを計算する。 The projection information calculation unit 105 has a feature space in which the data intensity within the class calculated by the intra-class aggregation degree calculation unit 103 and the data separation degree between classes calculated by the inter-class separation degree calculation unit 104 are increased. And conversion information into the feature space, that is, projection information α j , b j , j = 1,..., K is calculated.
ここで、αjは、クラス内のデータの集約度、およびクラス間のデータの分離度が大きくなる空間に変換した学習データである。 Here, α j is learning data converted into a space in which the degree of aggregation of data within a class and the degree of separation of data between classes are increased.
また、bjは、新規データをクラス内のデータの集約度、およびクラス間のデータの分離度が大きくなる空間に変換するためのパラメータである。 Further, b j is a parameter for converting new data into a space in which the degree of aggregation of data in a class and the degree of separation of data between classes are increased.
これは、下記の固有値問題を解くことで求められる。 This can be obtained by solving the following eigenvalue problem.
LMΩα=λα (17)
αjは、上位k個の固有値に対応した固有ベクトルとなる。
LMΩα = λα (17)
α j is an eigenvector corresponding to the top k eigenvalues.
ここで、 here,
また、 Also,
データ変換部107は、類似度計算部102によって計算された学習データXと新規データZとの類似度行列Ωnewと、射影情報計算部105によって計算された射影情報αj,bjを用いて、 The data converter 107 uses the similarity matrix Ω new between the learning data X and the new data Z calculated by the similarity calculator 102 and the projection information α j and b j calculated by the projection information calculator 105. ,
結果出力部108は、ネットワーク、またはファイルなどに、学習時は、蓄積部106に蓄積された射影情報αj,bj,j=1,…,kを出力し、分類時はデータ変換部107によって変換された新規データf(z1)、…、f(zl)を出力する。 The result output unit 108 outputs projection information α j , b j , j = 1,..., K stored in the storage unit 106 during learning to a network or a file, and the data conversion unit 107 during classification. The new data f (z 1 ),..., F (z 1 ) converted by the above is output.
次に、上記のように構成された装置の動作を、学習時のフローチャートを示す図2、および分類時のフローチャートを示す図3とともに説明する。 Next, the operation of the apparatus configured as described above will be described with reference to FIG. 2 showing a flowchart for learning and FIG. 3 showing a flowchart for classification.
<学習時>
学習時にデータ入力部101は、例えば表1に示す学習データX、及びラベルyを入力する(図6と同じもの)。ここで、データの次元m=2、データ数n=20。
<During learning>
At the time of learning, the data input unit 101 inputs, for example, the learning data X and the label y shown in Table 1 (the same as in FIG. 6). Here, the data dimension m = 2 and the number of data n = 20.
また、他のパラメータ
k=1 (23)
τ=1 (24)
ζ=1 (25)
η=1 (26)
を入力する(ステップS201)。
Other parameters k = 1 (23)
τ = 1 (24)
ζ = 1 (25)
η = 1 (26)
Is input (step S201).
次に類似度計算部102は、前記式(9)に従って学習データXの類似度行列Ωを計算する(ステップS202)。 Next, the similarity calculation unit 102 calculates the similarity matrix Ω of the learning data X according to the equation (9) (step S202).
次にクラス内集約度計算部103は、前記式(11)に従ってクラス内集約度LWを計算する(ステップS203)。 Next, the intra-class aggregation degree calculation unit 103 calculates the intra-class aggregation degree L W according to the equation (11) (step S203).
次にクラス間分離度計算部104は、前記式(14)に従ってクラス間分離度LBを計算する(ステップS204)。 Next, the inter-class separation degree calculation unit 104 calculates the inter-class separation degree L B according to the equation (14) (step S204).
次に射影情報計算部105は、前記式(17)の固有値問題を解いて射影情報を計算する(ステップS205)。k=1なので、最大固有値に対応した固有ベクトルを求める。 Next, the projection information calculation unit 105 calculates the projection information by solving the eigenvalue problem of the equation (17) (step S205). Since k = 1, the eigenvector corresponding to the maximum eigenvalue is obtained.
最大固有値は、λ1=6.64998と計算され、またその最大固有値に対応する固有ベクトルα1を表2に示す。 The maximum eigenvalue is calculated as λ 1 = 6.664998, and the eigenvector α 1 corresponding to the maximum eigenvalue is shown in Table 2.
次に、前記式(21)に従ってb1を計算すると、b1=−7.51549×10-16となる。 Next, when b 1 is calculated according to the equation (21), b 1 = −7.51549 × 10 −16 is obtained.
次にステップS206において、データX,パラメータk,τ,及び射影情報α1,b1が蓄積部106に蓄積される。 In step S <b> 206, the data X, parameters k, τ, and projection information α 1 , b 1 are stored in the storage unit 106.
次に結果出力部108は、前記射影情報α1を出力する(ステップS207)。 Next, the result output unit 108 outputs the projection information α 1 (step S207).
射影情報α1を図7に示す。射影情報α1はクラス内のデータの集約度およびクラス間のデータの分離度が大きくなる空間に変換した学習データであり、図7によれば、class 1とclass 2がx軸で上手く分離されていることが分かる(尚図7では、class 1とclass 2の結果が見やすいように、y軸の値をずらしてある)。 The projection information α 1 is shown in FIG. The projection information α 1 is learning data converted into a space in which the degree of aggregation of data within a class and the degree of separation of data between classes are large. According to FIG. 7, class 1 and class 2 are well separated on the x axis. (In FIG. 7, the y-axis value is shifted so that the results of class 1 and class 2 are easy to see).
<分類時>
分類時にデータ入力部101は、新規データZ=(z1,…,zl)を入力する(ステップS301)。Zは[−1,4]×[−1,4]の点とする。
<At the time of classification>
At the time of classification, the data input unit 101 inputs new data Z = (z 1 ,..., Z l ) (step S301). Z is a point of [-1, 4] x [-1, 4].
次に類似度計算部102は、前記式(10)に従って学習データXと新規データZの類似度行列Ωnewを計算する(ステップS302)。学習データX,及びτは蓄積部106から取得する。 Next, the similarity calculation unit 102 calculates a similarity matrix Ω new between the learning data X and the new data Z according to the equation (10) (step S302). The learning data X and τ are acquired from the storage unit 106.
次にデータ変換部107は、入力データzuを前記式(22)に従ってf(zu)∈Rkに変換する(ステップS303)。この際、k,α,bは蓄積部106から取得し、Ωnewは類似度計算部102から取得する。この例ではk=1である。 Next, the data converter 107 converts the input data z u into f (z u ) εR k according to the equation (22) (step S303). At this time, k, α, and b are acquired from the storage unit 106, and Ω new is acquired from the similarity calculation unit 102. In this example, k = 1.
新規データZに対応した値f(Z)を図8に示す。データ変換部107は、入力された新規データzuをクラス内のデータの集約度およびクラス間のデータの分離度が大きくなる空間Rkに変換しているため、図8のようにclass 1の近くの領域で値が0より大きく(白に近く)、class 2の近くの領域で値が0より小さく(黒に近く)なっている。 A value f (Z) corresponding to the new data Z is shown in FIG. Since the data conversion unit 107 converts the input new data z u into a space R k in which the degree of aggregation of the data in the class and the degree of separation of the data between the classes are increased, the data of the class 1 as shown in FIG. The value is larger than 0 (close to white) in the nearby region, and the value is smaller than 0 (close to black) in the region near class 2.
したがって図8によれば、新規データに対してもクラス分類に有効な特徴が得られているのが分かる。 Therefore, according to FIG. 8, it can be seen that features effective for classification are obtained even for new data.
また、本実施形態のパターン抽出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態のパターン抽出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。 In addition, a part or all of the functions of each unit in the pattern extraction apparatus of the present embodiment can be configured by a computer program, and the program can be executed using the computer to realize the present invention. It goes without saying that the procedure in the pattern extraction method can be configured by a computer program and the program can be executed by the computer, and the program for realizing the function by the computer can be read by a computer-readable recording medium such as an FD. (Floppy (registered trademark) Disk), MO (Magneto-Optical disk), ROM (Read Only Memory), memory card, CD (Compact Disk) -ROM, DVD (Digital Versati) e Disk) -ROM, CD-R, CD-RW, HDD, and recorded in a removable disk, or stored, it is possible or distribute. It is also possible to provide the above program through a network such as the Internet or electronic mail.
101…データ入力部
102…類似度計算部
103…クラス内集約度計算部
104…クラス間分離度計算部
105…射影情報計算部
106…蓄積部
107…データ変換部
108…結果出力部
DESCRIPTION OF SYMBOLS 101 ... Data input part 102 ... Similarity calculation part 103 ... Intraclass aggregation degree calculation part 104 ... Interclass separation degree calculation part 105 ... Projection information calculation part 106 ... Accumulation part 107 ... Data conversion part 108 ... Result output part
Claims (5)
学習時に入力された学習データ間の第1の類似度と、前記学習データおよび分類時に入力された新規データ間の第2の類似度とを計算する類似度計算手段と、
学習時に入力された、同じクラスに属するデータの組について、元の空間で類似度の高いものはデータ変換後の距離が小さくなるように集約度を計算するクラス内集約度計算手段と、
学習時に入力された、異なるクラスに属するデータの組について、元の空間で類似度の低いものはデータ変換後の距離が大きくなるように分離度を計算するクラス間分離度計算手段と、
前記クラス内集約度計算手段により計算されたクラス内のデータ集約度およびクラス間分離度計算手段により計算されたクラス間のデータ分離度が大きくなる特徴空間への変換情報を計算する射影情報計算手段と、
分類時に入力された新規データを、前記類似度計算手段によって計算された第2の類似度および射影情報計算手段によって計算された変換情報を用いて、クラス内のデータの集約度およびクラス間のデータの分離度が大きくなる特徴空間に変換するデータ変換手段と、
前記射影情報計算手段によって計算された変換情報およびデータ変換手段によって変換された新規データを出力する結果出力手段と、
を備えたことを特徴とするパターン抽出装置。 A pattern extraction device for classifying input data,
Similarity calculating means for calculating a first similarity between learning data input during learning and a second similarity between the learning data and new data input during classification;
With respect to a set of data belonging to the same class input at the time of learning, an intra-class aggregation degree calculation means for calculating an aggregation degree so that a distance after data conversion is small in a high similarity in the original space,
For a set of data belonging to different classes input at the time of learning, an inter-class separability calculating means for calculating a separability so that the distance after data conversion is large for those with low similarity in the original space,
Projection information calculation means for calculating conversion information into a feature space in which the data intensity within the class calculated by the intra-class aggregation degree calculation means and the data separation degree between classes calculated by the class separation degree calculation means are large. When,
Using the second similarity calculated by the similarity calculation means and the conversion information calculated by the projection information calculation means, the degree of data aggregation within the class and the data between classes are used. Data conversion means for converting into a feature space in which the degree of separation of
A result output means for outputting the conversion information calculated by the projection information calculation means and the new data converted by the data conversion means;
A pattern extraction apparatus comprising:
前記類似度計算手段は、学習時に入力された学習データXの類似度行列Ωを計算することで前記第1の類似度を求め、前記学習データXと分類時に入力された新規データZとの類似度行列Ωnewを計算することで前記第2の類似度を求め、
前記クラス内集約度計算手段は、同一クラスに属するデータ間の類似度を
同一クラス内で密集したデータを重視するための項を
前記クラス間分離度計算手段は、異なるクラスに属するデータ間の非類似度を
クラス間で隔たりが大きいデータを重視するための項を
前記射影情報計算手段は、下記に示す固有値問題、すなわち、
LMΩα=λα (17)
前記データ変換手段は、
The similarity calculation means obtains the first similarity by calculating a similarity matrix Ω of learning data X input at the time of learning, and the similarity between the learning data X and new data Z input at the time of classification By calculating the degree matrix Ω new , the second similarity is obtained,
The intra-class aggregation degree calculation means calculates the similarity between data belonging to the same class.
A section for emphasizing dense data within the same class
The interclass separation degree calculation means calculates the dissimilarity between data belonging to different classes.
A term for emphasizing data with large gaps between classes
The projection information calculation means has the following eigenvalue problem, that is,
LMΩα = λα (17)
The data conversion means includes
類似度計算手段が、学習時に入力された学習データ間の第1の類似度を計算する第1の類似度計算ステップと、
クラス内集約度計算手段が、学習時に入力された、同じクラスに属するデータの組について、元の空間で類似度の高いものはデータ変換後の距離が小さくなるように集約度を計算するクラス内集約度計算ステップと、
クラス間分離度計算手段が、学習時に入力された、異なるクラスに属するデータの組について、元の空間で類似度の低いものはデータ変換後の距離が大きくなるように分離度を計算するクラス間分離度計算ステップと、
射影情報計算手段が、前記クラス内集約度計算手段により計算されたクラス内のデータ集約度およびクラス間分離度計算手段により計算されたクラス間のデータ分離度が大きくなる特徴空間への変換情報を計算する射影情報計算ステップと、
結果出力手段が、前記射影情報計算手段によって計算された変換情報を出力する第1の結果出力ステップと、
類似度計算手段が、前記学習データおよび分類時に入力された新規データ間の第2の類似度を計算する第2の類似度計算ステップと、
データ変換手段が、分類時に入力された新規データを、前記類似度計算手段によって計算された第2の類似度および射影情報計算手段によって計算された変換情報を用いて、クラス内のデータの集約度およびクラス間のデータの分離度が大きくなる特徴空間に変換するデータ変換ステップと、
結果出力手段が、前記データ変換手段によって変換されたデータを出力する第2の結果出力ステップと、
を備えたことを特徴とするパターン抽出方法。 A pattern extraction method for classifying input data,
A first similarity calculating step in which a similarity calculating means calculates a first similarity between learning data input at the time of learning;
Intra-class aggregation level calculation means, for a set of data belonging to the same class that was input during learning, those with high similarity in the original space calculate the aggregation level so that the distance after data conversion is small An aggregation calculation step;
Inter-class separability calculation means calculates the separability of data sets that belong to different classes that were input during learning so that the distance after data conversion is greater for those with low similarity in the original space A separation degree calculating step;
Projection information calculation means includes conversion information to a feature space in which the data intensity within the class calculated by the intra-class aggregation degree calculation means and the data separation degree between classes calculated by the inter-class separation degree calculation means are increased. A projection information calculation step to calculate,
A first result output step in which the result output means outputs the conversion information calculated by the projection information calculation means;
A second similarity calculating step in which a similarity calculating means calculates a second similarity between the learning data and the new data input at the time of classification;
The data conversion means uses the second similarity calculated by the similarity calculation means and the conversion information calculated by the projection information calculation means for the new data input at the time of classification, and the degree of data aggregation in the class And a data conversion step for converting to a feature space that increases the degree of separation of data between classes,
A second result output step in which the result output means outputs the data converted by the data conversion means;
A pattern extraction method characterized by comprising:
前記第1の類似度計算ステップは、学習時に入力された学習データXの類似度行列Ωを計算することで前記第1の類似度を求め、
前記クラス内集約度計算ステップは、同一クラスに属するデータ間の類似度を
同一クラス内で密集したデータを重視するための項を
前記クラス間分離度計算ステップは、異なるクラスに属するデータ間の非類似度を
クラス間で隔たりが大きいデータを重視するための項を
前記射影情報計算ステップは、下記に示す固有値問題、すなわち、
LMΩα=λα (17)
前記第1の結果出力ステップは、前記射影情報計算手段によって計算された変換情報αj,bjを出力し、
前記第2の類似度計算ステップは、前記学習データXと分類時に入力された新規データZとの類似度行列Ωnewを計算することで前記第2の類似度を求め、
前記データ変換ステップは、
前記第2の結果出力ステップは、前記データ変換手段によって変換された新規データを出力することを特徴とする請求項3に記載のパターン抽出方法。 The learning data label is y, the dimension number of features to be extracted is k, the similarity calculation parameter is τ, the intra-class aggregation parameter is ζ, and the inter-class separation parameter is η,
In the first similarity calculation step, the first similarity is obtained by calculating a similarity matrix Ω of learning data X input during learning,
In the intra-class aggregation degree calculation step, similarity between data belonging to the same class is calculated.
A section for emphasizing dense data within the same class
In the interclass separation degree calculation step, dissimilarity between data belonging to different classes is calculated.
A term for emphasizing data with large gaps between classes
The projection information calculation step includes the following eigenvalue problem:
LMΩα = λα (17)
The first result output step outputs conversion information α j and b j calculated by the projection information calculation means,
In the second similarity calculation step, the second similarity is obtained by calculating a similarity matrix Ω new between the learning data X and the new data Z input at the time of classification,
The data conversion step includes
The pattern extraction method according to claim 3, wherein the second result output step outputs new data converted by the data conversion unit.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011150634A JP5545889B2 (en) | 2011-07-07 | 2011-07-07 | Pattern extraction apparatus, pattern extraction method, and pattern extraction program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011150634A JP5545889B2 (en) | 2011-07-07 | 2011-07-07 | Pattern extraction apparatus, pattern extraction method, and pattern extraction program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013020290A true JP2013020290A (en) | 2013-01-31 |
| JP5545889B2 JP5545889B2 (en) | 2014-07-09 |
Family
ID=47691702
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011150634A Expired - Fee Related JP5545889B2 (en) | 2011-07-07 | 2011-07-07 | Pattern extraction apparatus, pattern extraction method, and pattern extraction program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5545889B2 (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015207055A (en) * | 2014-04-17 | 2015-11-19 | 富士通株式会社 | Information processor and method for searching |
| CN106503095A (en) * | 2016-10-13 | 2017-03-15 | 南京航空航天大学 | A kind of data fusion method based on ballot mode |
| WO2018163352A1 (en) * | 2017-03-09 | 2018-09-13 | Nec Corporation | Pattern recognition apparatus, method, and program |
| WO2021033791A1 (en) * | 2019-08-19 | 2021-02-25 | 엘지전자 주식회사 | Ai-based new learning model generation system for vision inspection on product production line |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004341959A (en) * | 2003-05-16 | 2004-12-02 | Just Syst Corp | Data classification device, data classification method, and program for causing computer to execute the method |
| JP2008192031A (en) * | 2007-02-07 | 2008-08-21 | Nec Corp | Compression method, compression device, compressed data restoration method, compressed data restoration device, visualization method and visualization device |
| JP2010238149A (en) * | 2009-03-31 | 2010-10-21 | Toshiba Corp | Feature extraction device and pattern recognition device |
| WO2011058605A1 (en) * | 2009-11-12 | 2011-05-19 | 株式会社 東芝 | Metric space learning device |
-
2011
- 2011-07-07 JP JP2011150634A patent/JP5545889B2/en not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004341959A (en) * | 2003-05-16 | 2004-12-02 | Just Syst Corp | Data classification device, data classification method, and program for causing computer to execute the method |
| JP2008192031A (en) * | 2007-02-07 | 2008-08-21 | Nec Corp | Compression method, compression device, compressed data restoration method, compressed data restoration device, visualization method and visualization device |
| JP2010238149A (en) * | 2009-03-31 | 2010-10-21 | Toshiba Corp | Feature extraction device and pattern recognition device |
| WO2011058605A1 (en) * | 2009-11-12 | 2011-05-19 | 株式会社 東芝 | Metric space learning device |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015207055A (en) * | 2014-04-17 | 2015-11-19 | 富士通株式会社 | Information processor and method for searching |
| CN106503095A (en) * | 2016-10-13 | 2017-03-15 | 南京航空航天大学 | A kind of data fusion method based on ballot mode |
| CN106503095B (en) * | 2016-10-13 | 2019-06-04 | 南京航空航天大学 | A data fusion method based on voting |
| WO2018163352A1 (en) * | 2017-03-09 | 2018-09-13 | Nec Corporation | Pattern recognition apparatus, method, and program |
| JP2020502658A (en) * | 2017-03-09 | 2020-01-23 | 日本電気株式会社 | Pattern recognition device, method, and program |
| US11403545B2 (en) | 2017-03-09 | 2022-08-02 | Nec Corporation | Pattern recognition apparatus, method, and program |
| WO2021033791A1 (en) * | 2019-08-19 | 2021-02-25 | 엘지전자 주식회사 | Ai-based new learning model generation system for vision inspection on product production line |
| US12051187B2 (en) | 2019-08-19 | 2024-07-30 | Lg Electronics Inc. | AI-based new learning model generation system for vision inspection on product production line |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5545889B2 (en) | 2014-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111639178B (en) | Automatic classification and interpretation of life science documents | |
| JP2012216191A5 (en) | Method and system for selecting frequency features | |
| JP5880454B2 (en) | Image identification apparatus and program | |
| US8699789B2 (en) | Document classification using multiple views | |
| EP3065090A2 (en) | Learning method and recording medium background | |
| EP2953064B1 (en) | Information conversion method, information conversion device, and information conversion program | |
| JP6569500B2 (en) | Image processing apparatus and image processing method | |
| JP5900208B2 (en) | Image processing apparatus and image processing method | |
| JP2016071412A (en) | Image classification device, image classification system, image classification method, and program | |
| CN103456013B (en) | A kind of method representing similarity between super-pixel and tolerance super-pixel | |
| JP5545889B2 (en) | Pattern extraction apparatus, pattern extraction method, and pattern extraction program | |
| JP2017138989A (en) | Method, apparatus and computer-readable recording medium for detecting text contained in an image | |
| US20190164078A1 (en) | Information processing system, information processing method, and recording medium | |
| CN104679779A (en) | Method and device for classifying videos | |
| JP2012088972A (en) | Data classification device, data classification method and data classification program | |
| JP2018206252A (en) | Image processing system, evaluation model construction method, image processing method, and program | |
| CN103793714B (en) | Many Classification and Identification device generating means and its method, data identification means and its method | |
| JP2013152543A (en) | Image storage program, method and device | |
| CN115393868B (en) | Text detection method, device, electronic equipment and storage medium | |
| US9639808B2 (en) | Non-transitory computer readable medium, information processing apparatus, and attribute estimation method | |
| WO2014107947A1 (en) | Recognition method and recognition device for sheet-type medium | |
| JP2014115920A (en) | Multi-class identifier, method, and program | |
| EP2953063A1 (en) | Learning method, information conversion device, and learning program | |
| JP2014132392A (en) | Image processing apparatus, image processing method, and program | |
| JP5385313B2 (en) | Data area dividing apparatus, data area dividing method, and data area dividing program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130830 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140212 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140218 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140509 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5545889 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |