[go: up one dir, main page]

JP2001283184A - Clustering device - Google Patents

Clustering device

Info

Publication number
JP2001283184A
JP2001283184A JP2000091863A JP2000091863A JP2001283184A JP 2001283184 A JP2001283184 A JP 2001283184A JP 2000091863 A JP2000091863 A JP 2000091863A JP 2000091863 A JP2000091863 A JP 2000091863A JP 2001283184 A JP2001283184 A JP 2001283184A
Authority
JP
Japan
Prior art keywords
cluster
clustering
data
input data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000091863A
Other languages
Japanese (ja)
Inventor
Hiroaki Nakamitsu
廣晃 仲光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000091863A priority Critical patent/JP2001283184A/en
Publication of JP2001283184A publication Critical patent/JP2001283184A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 簡単な構成と手順で、クラスタリングにおけ
るデータの動的変化に対応することができるクラスタリ
ング装置を提供する。 【解決手段】 入力データを、クラスタを用いて分類す
るクラスタリング装置において、クラスタを作成するク
ラスタ作成装置1と、クラスタ作成装置により作成され
たクラスタを用いて、入力データのクラスタリングを実
行するクラスタリング実行装置2と、クラスタリング実
行装置のクラスタリング結果を監視して誤分類された入
力データを識別するクラスタリング結果監視装置3と、
誤分類された入力データを蓄積する蓄積手段8とを設
け、蓄積手段に一定数以上のデータが蓄積された場合
に、このデータを基に、クラスタ作成装置が新たなクラ
スタを作成するように構成している。入力データの動的
変化に対応してクラスタを修正し、誤分類を抑えること
ができる。
(57) [Problem] To provide a clustering device capable of responding to a dynamic change of data in clustering with a simple configuration and a simple procedure. SOLUTION: In a clustering apparatus for classifying input data using clusters, a cluster creation apparatus 1 for creating a cluster, and a clustering execution apparatus for executing clustering of input data using clusters created by the cluster creation apparatus 2, a clustering result monitoring device 3 that monitors the clustering result of the clustering execution device and identifies input data that has been incorrectly classified;
A storage means for storing misclassified input data, wherein when a predetermined number or more of data is stored in the storage means, the cluster creating apparatus creates a new cluster based on the data; are doing. The cluster can be corrected in response to the dynamic change of the input data, and erroneous classification can be suppressed.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、多数のデータをそ
の類似性からクラスに分類するクラスタリング装置に関
し、特に、入力データの動的変化に適切に対応できるよ
うにしたものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a clustering apparatus for classifying a large number of data into classes based on their similarity, and more particularly to a clustering apparatus capable of appropriately coping with dynamic changes in input data.

【0002】[0002]

【従来の技術】従来、クラスタリング手法として、さま
ざまなものが提案されている。図6には、最も一般的な
クラスタリング装置の例を示している。
2. Description of the Related Art Conventionally, various clustering methods have been proposed. FIG. 6 shows an example of the most common clustering device.

【0003】ここで、100は学習のためのプロトタイプ
データ群を示し、102、103は、プロトタイプデータ群の
個々のデータを初期クラスタとみなしたクラスタA、ク
ラスタBを示し、104は、クラスタA102とクラスタB10
3との距離を示し、105はクラスタA102とクラスタB103
とを統合したクラスタCを示す。200は、プロトタイプ
データから作成されたクラスタ結果を示し、201、202は
最終的に作成されたクラスタY、クラスタZを示す。30
0は、クラスタを用いたクラスタリング装置を示し、301
は201とまったく同型のクラスタY、302は202とまった
く同型のクラスタZを示し、303は、クラスタリングの
対象である入力Xを示し、304はクラスタが存在する空
間上の入力X303のポイントを示す。
Here, 100 denotes a prototype data group for learning, 102 and 103 denote clusters A and B, each of which is regarded as an initial cluster, and 104 denotes a cluster A102. Cluster B10
105 indicates the distance to cluster 105, and clusters A102 and B103
Is shown in the cluster C. 200 indicates a cluster result created from the prototype data, and 201 and 202 indicate the finally created cluster Y and cluster Z. 30
0 indicates a clustering device using a cluster, and 301
Denotes a cluster Y exactly the same as 201, 302 denotes a cluster Z exactly the same as 202, 303 denotes an input X to be clustered, and 304 denotes a point of the input X303 in the space where the cluster exists.

【0004】この装置では、まず、クラスタリング装置
に必要なクラスタを作成する。これは以下の作業により
求められる。
In this device, first, a cluster required for a clustering device is created. This is determined by the following work.

【0005】学習のためのプロトタイプデータ群100か
ら、最も距離の近いクラスタを探し、その結果、クラス
タA102とクラスタB103とが選ばれたとすると、この2
つを統合してクラスタC105とし、クラスタA、Bは削
除する。この時クラスタC105は、クラスタA102とクラ
スタB103との値を両方ともを持つ。次に、また同様に
プロトタイプデータ群100から、最も距離の近いクラス
タを探し、それらを統合する、という一連の作業を繰り
返す。この時、全クラスタ数が1になった場合や、最も
距離の近いクラスタ同士の距離が、ある一定値より大き
かった場合は、作業を終了する。
[0005] If the closest cluster is searched from the prototype data group 100 for learning, and the cluster A 102 and the cluster B 103 are selected as a result, this cluster 2
The two are integrated into cluster C105, and clusters A and B are deleted. At this time, the cluster C105 has both the values of the cluster A102 and the cluster B103. Next, similarly, a series of operations of searching for the closest cluster from the prototype data group 100 and integrating them are repeated. At this time, when the number of all clusters becomes 1, or when the distance between the closest clusters is larger than a certain value, the operation is terminated.

【0006】この一連の作業により、プロトタイプデー
タから作成されたクラスタ結果200が求められ、最終的
に統合されたクラスタがクラスタY201、クラスタZ202
となる。
[0006] By this series of operations, a cluster result 200 created from the prototype data is obtained, and finally the integrated cluster is a cluster Y201 and a cluster Z202.
Becomes

【0007】これら最終的に統合されたクラスタを用
い、実際のクラスタリングを行うのがクラスタを用いた
クラスタリング装置300である。このクラスタを用いた
クラスタリング装置300に入力X303が入力された時、入
力X303がクラスタY301内に含まれる時、入力X303
は、クラスタY301にクラスタリングされたという結果
となる。
The clustering device 300 using the clusters performs the actual clustering using the finally integrated clusters. When the input X303 is input to the clustering apparatus 300 using this cluster, when the input X303 is included in the cluster Y301, the input X303
Is clustered into the cluster Y301.

【0008】また、クラスタリングに自己組織化マップ
(SOM:Self-Oraganization Map、詳しくは、T.Koho
nen,"Self-Oraganization and Associative Memory",T
hirdEdition, Springer-Verlag,Berlin,1989に記載さ
れている。)と呼ばれるニューラルネットワークを用い
る手法も知られている(特開平7−234853号)。
この方法では、プロトタイプデータをSOMに入力し
て、SOMを形成するニューロンを学習し、学習したニ
ューロンをクラスタに分類する。クラスタが形成された
後、SOMに入力データを与えると、その入力に近い値
を持つニューロンが決定され、入力データがクラスタリ
ングされる。
Further, a self-organizing map (SOM: Self-Oraganization Map, more specifically, T. Koho
nen, "Self-Oraganization and Associate Memory", T
hirdEdition, Springer-Verlag, Berlin, 1989. ) Is also known (Japanese Patent Laid-Open No. 7-234853).
In this method, prototype data is input to the SOM, the neurons forming the SOM are learned, and the learned neurons are classified into clusters. When input data is given to the SOM after the cluster is formed, a neuron having a value close to the input is determined, and the input data is clustered.

【0009】[0009]

【発明が解決しようとする課題】しかし、前述のような
クラスタリング手法では、プロトタイプデータを用いて
クラスタを形成しているので、プロトタイプデータにの
み偏ったクラスタが形成される。そのため、実際にこれ
らのクラスタを用いて実データのクラスタリングを行っ
た時、入力データの動的な変化に対応できない、と云う
問題点がある。
However, in the clustering method as described above, since clusters are formed using prototype data, clusters are formed only in prototype data. Therefore, there is a problem that when actual data is clustered using these clusters, it is not possible to cope with dynamic changes in input data.

【0010】つまり、新たなクラスに属すべきデータ
が、時間の経過とともに生じた場合などに、従来の方法
では、全く対応ができず、いずれかのクラスタに誤分類
されることになる。
In other words, when data to belong to a new class occurs with the passage of time, the conventional method cannot deal with the data at all and is erroneously classified into one of the clusters.

【0011】この誤分類を防ぐためには、従来の方式で
は、プロトタイプデータも含めて、すべてのデータを用
いてクラスタリングし直す必要があり、大きな作業負担
が強いられる。データを新たに追加した場合にクラスタ
の修正を行う方法が、特開平5−205058号に開示
されているが、これは、新たなデータを追加したことが
既知でなければならず、かつ外部からデータの追加によ
るクラスタの修正を実行することを知らせる必要があ
り、追加するデータを自動的に集めたり、クラスタを自
動的に修正することはできない。
In order to prevent this erroneous classification, in the conventional method, it is necessary to perform clustering again using all data including the prototype data, and a large work load is imposed. A method of correcting a cluster when data is newly added is disclosed in Japanese Patent Application Laid-Open No. H5-205058. However, it is necessary that it is known that new data is added, It is necessary to notify that the cluster is to be modified by adding data, and it is not possible to automatically collect additional data or modify the cluster automatically.

【0012】本発明は、こうした従来の問題点を解決す
るものであり、簡単な構成と手順で、クラスタリングに
おけるデータの動的変化に対応することができるクラス
タリング装置を提供することを目的としている。
An object of the present invention is to solve such a conventional problem, and an object of the present invention is to provide a clustering apparatus capable of responding to a dynamic change of data in clustering with a simple configuration and procedure.

【0013】[0013]

【課題を解決するための手段】そこで、本発明では、入
力データを、クラスタを用いて分類するクラスタリング
装置において、クラスタを作成するクラスタ作成装置
と、クラスタ作成装置により作成されたクラスタを用い
て、入力データのクラスタリングを実行するクラスタリ
ング実行装置と、クラスタリング実行装置のクラスタリ
ング結果を監視して誤分類された入力データを識別する
クラスタリング結果監視装置と、誤分類された入力デー
タを蓄積する蓄積手段とを設け、蓄積手段に一定数以上
のデータが蓄積された場合に、このデータを基に、クラ
スタ作成装置が新たなクラスタを作成するように構成し
ている。
Therefore, according to the present invention, in a clustering apparatus for classifying input data using clusters, a cluster creating apparatus for creating clusters and a cluster created by the cluster creating apparatus are used. A clustering execution device that performs clustering of input data, a clustering result monitoring device that monitors a clustering result of the clustering execution device to identify misclassified input data, and a storage unit that accumulates misclassified input data. When a certain number or more of data is accumulated in the accumulation means, the cluster creating apparatus creates a new cluster based on the data.

【0014】そのため、入力データの動的変化に対応し
てクラスタを修正し、誤分類を抑えることができる。
Therefore, it is possible to correct the cluster in response to the dynamic change of the input data, thereby suppressing erroneous classification.

【0015】[0015]

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を用いて説明する。なお、本発明はこれら実施
の形態に何等限定されるものではなく、その要旨を逸脱
しない範囲において種々なる態様で実施し得る。
Embodiments of the present invention will be described below with reference to the drawings. The present invention is not limited to these embodiments at all, and can be implemented in various modes without departing from the gist thereof.

【0016】(第1の実施形態)第1の実施形態のクラ
スタリング装置は、図1に示すように、プロトタイプデ
ータを管理するプロトタイプデータDB4と、プロトタ
イプデータを用いてクラスタ5を作成するクラスタ作成
装置1と、作成されたクラスタ5を用いて入力データ6
をクラスタリングするクラスタリング実行装置2と、ク
ラスタリング実行装置2のクラスタリング結果7を監視
するクラスタリング結果監視装置3と、クラスタリング
結果監視装置3によって誤分類と判断されたデータを管
理する誤分類入力データDB8とを備えている。
(First Embodiment) As shown in FIG. 1, a clustering apparatus according to a first embodiment includes a prototype data DB 4 for managing prototype data, and a cluster creating apparatus for creating a cluster 5 using the prototype data. 1 and input data 6 using the created cluster 5
, A clustering result monitoring device 3 that monitors a clustering result 7 of the clustering execution device 2, and a misclassification input data DB8 that manages data determined to be misclassified by the clustering result monitoring device 3. Have.

【0017】この装置では、クラスタ作成装置1が、プ
ロトタイプデータDB4を用いてクラスタ5を生成す
る。クラスタリング実行装置2は、生成されたクラスタ
5を用いて、入力された入力データ6をクラスタリング
し、クラスタリング結果7を出力する。クラスタリング
結果監視装置3は、出力されたクラスタリング結果7を
監視し、入力データ6のクラスタリング結果7に含まれ
る誤差が、ある一定値以上の値であり、明らかに誤分類
であると判断した時、その入力データ6を誤分類入力デ
ータDB8に追加し、誤分類入力データDB8に溜まっ
たデータの数をカウントする。この誤分類入力データD
B8内のデータがある一定数を超えた時、クラスタ作成
装置1に、この誤分類入力データDB8を用いて、クラ
スタを作成するように指示する。
In this apparatus, the cluster creating apparatus 1 generates a cluster 5 using the prototype data DB 4. The clustering execution device 2 uses the generated cluster 5 to cluster the input data 6 that has been input, and outputs a clustering result 7. The clustering result monitoring device 3 monitors the output clustering result 7 and, when it determines that the error included in the clustering result 7 of the input data 6 is a certain value or more and is clearly misclassified, The input data 6 is added to the misclassified input data DB8, and the number of data accumulated in the misclassified input data DB8 is counted. This misclassified input data D
When the data in B8 exceeds a certain number, the cluster creation device 1 is instructed to create a cluster using the misclassified input data DB8.

【0018】各装置の動作をさらに詳しく説明する。ま
ず、クラスタ作成装置1は、クラスタ5が作成されてい
ない時と、クラスタリング結果監視装置3からクラスタ
の作成を指示された時に動作する。
The operation of each device will be described in more detail. First, the cluster creation device 1 operates when the cluster 5 is not created and when the clustering result monitoring device 3 instructs creation of a cluster.

【0019】クラスタ5が作成されていない時は、プロ
トタイプデータDB4内のプロトタイプデータ群の個々
のデータを初期クラスタと見なし、その中から、最も距
離の近いクラスタを探す。この距離は図5の式1によっ
て求める。この時求められた2つのクラスタを統合し新
たなクラスタとする。統合されたクラスタは削除し、ま
た新たに作られたクラスタは、統合により削除されたク
ラスタの値をすべて持つ。同様にまたプロトタイプデー
タDBから、最も距離の近いクラスタを探し、それらを
統合する、という一連の作業を繰り返す。この時、全ク
ラスタ数が1になった場合や、最も距離の近いクラスタ
同士の距離が、ある一定値より大きかった場合は、作業
を終了する。
When the cluster 5 has not been created, the individual data of the prototype data group in the prototype data DB 4 is regarded as the initial cluster, and the closest cluster is searched therefrom. This distance is obtained by Expression 1 in FIG. The two clusters obtained at this time are integrated to form a new cluster. The merged cluster is deleted, and the newly created cluster has all the values of the cluster deleted by the merge. Similarly, a series of operations of searching for the closest cluster from the prototype data DB and integrating them are repeated. At this time, when the number of all clusters becomes 1, or when the distance between the closest clusters is larger than a certain value, the operation is terminated.

【0020】この一連の作業により、プロトタイプデー
タ4から作成されたクラスタ5を作成する。
Through this series of operations, a cluster 5 created from the prototype data 4 is created.

【0021】次に、クラスタリング結果監視装置3から
クラスタ作成の指示を受けた時は、誤分類入力データD
B8を用い、クラスタ5を作成するのと同じ動作で、ク
ラスタを作成する。この時、作成されたクラスタで、ク
ラスタ内に含まれる値の数が一定以上のものを新たなク
ラスタとしてクラスタ5に加える。最後に、誤分類入力
データDBをクリアする。
Next, when an instruction to create a cluster is received from the clustering result monitoring device 3, the misclassified input data D
Using B8, a cluster is created in the same operation as creating cluster 5. At this time, the created cluster in which the number of values included in the cluster is equal to or more than a certain value is added to the cluster 5 as a new cluster. Finally, the misclassification input data DB is cleared.

【0022】次に、クラスタリング実行装置2の動作に
ついて説明する。クラスタ作成装置1により作成された
クラスタ5を用いて、入力された入力データ6と、距離
の最も近いクラスタを選択する。この距離の計算は、図
5の式1によって求める。この時、選択されたクラスタ
と、誤差を表す、計算された距離とをクラスタリング結
果7として出力する。
Next, the operation of the clustering execution device 2 will be described. Using the cluster 5 created by the cluster creation device 1, the cluster with the closest distance to the input data 6 is selected. The calculation of this distance is obtained by Expression 1 in FIG. At this time, the selected cluster and the calculated distance representing the error are output as the clustering result 7.

【0023】クラスタリング結果監視装置3は、出力さ
れたクラスタリング結果7に含まれる誤差、即ち、計算
された距離が、ある一定値以上の値である時、誤分類入
力データDB8に入力データ6を追加しその数をカウン
トし、この誤分類入力データDB8内のデータがある一
定数を超えた時、クラスタ作成装置1にこの誤分類入力
データDB8を用いて、クラスタを作成するように指示
する。
The clustering result monitoring device 3 adds the input data 6 to the misclassified input data DB 8 when the error included in the output clustering result 7, that is, the calculated distance is a certain value or more. The number is counted, and when the data in the misclassified input data DB8 exceeds a certain number, the cluster creation device 1 is instructed to create a cluster using the misclassified input data DB8.

【0024】以上のように、この実施形態のクラスタリ
ング装置では、稼動中にもクラスタの自動作成が可能で
あり、入力データの動的な変化に対応して自動的にクラ
スタを作成することができる。そのため、入力データの
動的な変化に起因する誤分類の発生が迅速に抑えられ
る。また、この装置では、クラスタの再作成が、実デー
タのクラスタリングの過程で誤分類データとして自動収
集されたデータのみを用いて行われるため、少ない負担
でクラスタの修正を実行することができる。
As described above, the clustering apparatus of this embodiment can automatically create clusters during operation, and can automatically create clusters in response to dynamic changes in input data. . Therefore, the occurrence of misclassification due to a dynamic change in input data can be quickly suppressed. Further, in this device, since the cluster is re-created using only the data automatically collected as the misclassified data in the process of clustering the actual data, the cluster can be corrected with a small burden.

【0025】(第2の実施形態)第2の実施形態のクラ
スタリング装置は、自己組織化マップ(以下、SOMと
云う)を利用してクラスタを作成する。
(Second Embodiment) The clustering apparatus of the second embodiment creates a cluster using a self-organizing map (hereinafter, referred to as SOM).

【0026】この装置は、図2に示すように、第1の実
施形態と同様、プロトタイプデータDB4、クラスタ作
成装置1、クラスタリング実行装置2、クラスタリング
結果監視装置3及び誤分類入力データDB8から成り、
クラスタ作成装置1は、プロトタイプデータを入力する
データ入力手段11と、SOM9を作成するSOM作成手
段12と、SOM9を用いてクラスタを生成するクラスタ
生成手段13とを備え、また、クラスタリング結果監視装
置3は、クラスタリング実行装置2のクラスタリング結
果7を監視するクラスタリング結果監視手段31と、誤分
類入力データDB8のデータを用いてSOM10を作成す
るSOM修正手段32とを備えている。
As shown in FIG. 2, this apparatus comprises a prototype data DB4, a cluster creation apparatus 1, a clustering execution apparatus 2, a clustering result monitoring apparatus 3, and a misclassification input data DB8, as in the first embodiment.
The cluster creation device 1 includes a data input unit 11 for inputting prototype data, an SOM creation unit 12 for creating an SOM 9, and a cluster creation unit 13 for creating a cluster using the SOM 9, and a clustering result monitoring device 3. Has a clustering result monitoring means 31 for monitoring the clustering result 7 of the clustering execution device 2 and an SOM correction means 32 for creating the SOM 10 using the data of the misclassified input data DB8.

【0027】この装置では、クラスタ作成装置1のデー
タ入力手段11がプロトタイプデータDB4からデータを
入力し、このデータを用いてSOM作成手段12がSOM
9を作成し、クラスタ生成手段13が、SOM9を用いて
クラスタ5を生成する。クラスタリング実行装置2は、
生成されたクラスタ5を用いて入力された入力データ6
をクラスタリングし、クラスタリング結果7を出力す
る。クラスタリング結果監視装置3のクラスタリング結
果監視手段31は、出力されたクラスタリング結果7に含
まれる誤差が、ある一定値以上の値であり、明らかに誤
分類であると判断した時、誤分類入力データDB8に入
力データ6を追加し、その数をカウントする。
In this apparatus, the data input means 11 of the cluster creation apparatus 1 inputs data from the prototype data DB 4, and the SOM creation means 12 uses this data to
9 and the cluster generating means 13 generates the cluster 5 using the SOM 9. The clustering execution device 2
Input data 6 input using the generated cluster 5
Are clustered, and a clustering result 7 is output. When the clustering result monitoring means 31 of the clustering result monitoring device 3 determines that the error included in the output clustering result 7 is a certain value or more and is clearly misclassified, the misclassification input data DB 8 , And counts the number.

【0028】誤分類入力データDB8内のデータがある
一定数を超えた時、SOM修正手段32は、誤分類入力デ
ータDB8のデータを入力として新たなSOM10を作成
し、クラスタ作成手段13にSOM10を用いたクラスタ作
成を指示する。これを受けて、クラスタ作成手段13は、
SOM10を用いてクラスタを作成し、既に作成されてい
るクラスタ5に追加する。
When the data in the misclassified input data DB8 exceeds a certain number, the SOM correcting means 32 creates a new SOM10 by using the data of the misclassified input data DB8 as an input, and stores the SOM10 in the cluster creating means 13. Instruct the creation of the used cluster. In response to this, the cluster creating means 13
A cluster is created using the SOM 10 and added to the already created cluster 5.

【0029】次に、各部の動作についてさらに詳しく説
明する。まず、SOM作成手段12の動作について説明す
る。
Next, the operation of each section will be described in more detail. First, the operation of the SOM creating means 12 will be described.

【0030】SOMは、図4に示すように、2次元上に
配置されたニューロン402から形成され、各ニューロン
は、参照ベクトル403と呼ばれる入力と同じ次元のベク
トルを持つ。
As shown in FIG. 4, the SOM is formed from neurons 402 arranged two-dimensionally, and each neuron has a vector called the reference vector 403 and having the same dimension as the input.

【0031】SOM作成手段12は、図3のフローチャー
トに示す手順でSOMを作成する。 ステップA1:学習回数Tを0にセットし、 ステップA2:図4のように2次元上に配置したニュー
ロンを作成し、各ニューロンに対し、入力と同じ次元の
参照ベクトルを乱数で与える。
The SOM creating means 12 creates an SOM according to the procedure shown in the flowchart of FIG. Step A1: The number of learning times T is set to 0. Step A2: A neuron arranged two-dimensionally as shown in FIG. 4 is created, and a reference vector of the same dimension as the input is given to each neuron by random numbers.

【0032】ステップA3:データ入力手段11がプロト
タイプデータDB4からランダムでデータを一つ取り出
す。
Step A3: The data input means 11 takes out one piece of data at random from the prototype data DB4.

【0033】ステップA4:このデータに対して、図5
の式(2)を満たす参照ベクトルを持つニューロンCを
決定する。
Step A4: For this data, FIG.
A neuron C having a reference vector satisfying the expression (2) is determined.

【0034】ステップA5:ニューロンCの近傍に位置
するニューロンの参照ベクトルを、図5の式(3)に従
って更新する。
Step A5: The reference vector of the neuron located near the neuron C is updated according to the equation (3) in FIG.

【0035】ステップA6:学習回数Tが規定した回数
に達した場合には、 ステップA8:終了する。
Step A6: When the number of learning times T reaches the specified number, step A8: ends.

【0036】ステップA6において、学習回数Tが規定
回数に達していない場合には、 ステップA7:学習回数Tの値を一つ増やし、ステップ
A2に戻る。
In step A6, if the number of times of learning T has not reached the specified number of times, step A7: the value of the number of times of learning T is increased by one, and the process returns to step A2.

【0037】次に、クラスタ生成手段13は、クラスタ5
が作成されていない時と、SOM修正手段32からクラス
タの作成の指示を受けた時に動作する。
Next, the cluster generation means 13 generates the cluster 5
This operation is performed when is not created and when an instruction to create a cluster is received from the SOM correcting unit 32.

【0038】まず、クラスタ5が作成されていない時、
SOM9を用いてクラスタ5を作成する。SOM9の各
ニューロンに対し、図5の式(4)を満たす参照ベクト
ルを持つニューロンを選択し、選択されたニューロンを
初期クラスタと見なす。その中から、最も距離の近いク
ラスタを探す。この距離は図5の式(1)によって求め
る。この時求められた2つのクラスタを統合し新たなク
ラスタとする。統合されたクラスタは削除し、また新た
に作られたクラスタは、統合により削除されたクラスタ
の値をすべて持つ。同様にまた、最も距離の近いクラス
タを探し、それらを統合する、という一連の作業を繰り
返す。この時、全クラスタ数が1になった場合や、最も
距離の近いクラスタ同士の距離が、ある一定値より大き
かった場合は、作業を終了する。
First, when the cluster 5 has not been created,
The cluster 5 is created using the SOM 9. For each neuron of SOM9, a neuron having a reference vector satisfying equation (4) in FIG. 5 is selected, and the selected neuron is regarded as an initial cluster. From among them, the closest cluster is searched. This distance is obtained by equation (1) in FIG. The two clusters obtained at this time are integrated to form a new cluster. The merged cluster is deleted, and the newly created cluster has all the values of the cluster deleted by the merge. Similarly, a series of operations of searching for the closest clusters and integrating them are repeated. At this time, when the number of all clusters becomes 1, or when the distance between the closest clusters is larger than a certain value, the operation is terminated.

【0039】また、SOM修正手段32からクラスタの作
成の伝達を受けた時も同様に、SOM10を用いてクラス
タを作成し、クラスタ5に追加をする。
Similarly, when a cluster creation message is received from the SOM correction means 32, a cluster is created using the SOM 10 and added to the cluster 5.

【0040】クラスタリング実行装置2は、第1の実施
形態と同様、クラスタ5を用いて入力データ6をクラス
タリングし、クラスタリング結果7を出力する。クラス
タリング結果監視手段31は、出力されたクラスタリング
結果7に含まれる誤差が、ある一定値以上の値であり、
明らかに誤分類であると判断した時、誤分類入力データ
DB8に入力データ6を追加し、その数をカウントす
る。
The clustering execution device 2 clusters the input data 6 using the cluster 5 and outputs a clustering result 7 as in the first embodiment. The clustering result monitoring means 31 determines that the error included in the output clustering result 7 is a value equal to or more than a certain value,
When it is determined that the classification is misclassified, the input data 6 is added to the misclassification input data DB 8 and the number thereof is counted.

【0041】この誤分類入力データDB8内のデータが
ある一定数を超えた時、SOM修正手段32は、誤分類入
力データDB8のデータを入力として、図3のフローチ
ャートに従って、マップの大きさがSOM9の縦または
横のニューロンの数と等しい、小さいSOM10を作成す
る。そして、誤分類入力データDB8をクリアし、クラ
スタ作成手段13にクラスタの作成を指示する。クラスタ
作成手段13は、前述するように、SOM10を用いてクラ
スタを作成し、作成済みのクラスタ5に追加する。
When the data in the misclassified input data DB8 exceeds a certain number, the SOM correcting means 32 takes the data of the misclassified input data DB8 as an input and sets the size of the map to SOM9 according to the flowchart of FIG. Create a small SOM10 equal to the number of vertical or horizontal neurons. Then, the erroneous classification input data DB 8 is cleared, and the cluster creation means 13 is instructed to create a cluster. The cluster creating means 13 creates a cluster using the SOM 10 and adds it to the created cluster 5 as described above.

【0042】以上のように、この実施形態のクラスタリ
ング装置では、SOMを用いてクラスタリングを行って
いるため、既存のSOMをそのまま適用することがで
き、さらに新たにクラスタを作成する際に非常に小さい
SOMを用いるので処理速度も高く、その実用的効果は
大きい。また、この新たなクラスタの作成には、実デー
タのクラスタリングの過程で誤分類データとして自動収
集されたものが使用されるため、この新たなクラスタの
作成により、入力データの動的な変化に対応することが
できる。
As described above, in the clustering apparatus of this embodiment, since the clustering is performed using the SOM, the existing SOM can be applied as it is, and when a new cluster is created, the cluster is very small. Since the SOM is used, the processing speed is high, and the practical effect is great. In addition, since this new cluster is created using data automatically collected as misclassified data in the process of clustering actual data, this new cluster can be used to respond to dynamic changes in input data. can do.

【0043】[0043]

【発明の効果】以上の説明から明らかなように、本発明
のクラスタリング装置は、入力データの動的な変化に対
応して、新たなクラスタを速やかに作成することがで
き、入力データの動的な変化に起因する誤分類の発生を
抑えることが可能である。
As is clear from the above description, the clustering apparatus of the present invention can quickly create a new cluster in response to a dynamic change of input data, It is possible to suppress the occurrence of misclassification due to a significant change.

【0044】また、この新たなクラスタの作成は、クラ
スタリングを実行したときに、誤分類データとして自動
収集されたデータだけを用いて行われるため、その作成
負担は少なくて済む。
Further, the creation of this new cluster is performed using only data automatically collected as misclassified data when the clustering is performed, so that the creation burden is reduced.

【0045】また、誤分類されたデータからクラスタを
直接作成する手段を持つ装置では、装置稼動中にもクラ
スタを自動で作成することが可能であり、入力データの
動的な変化に素早く対応できるという有利な効果が得ら
れる。
In an apparatus having means for directly creating a cluster from misclassified data, it is possible to automatically create a cluster even while the apparatus is operating, and it is possible to quickly respond to dynamic changes in input data. The advantageous effect described above can be obtained.

【0046】また、SOMを用いてクラスタリングする
装置では、既存のSOMをそのまま適用することがで
き、また、新たにクラスタを作成する際には非常に小さ
いSOMを用いるので処理速度も高いという有効な効果
が得られる。
In an apparatus that performs clustering using SOM, an existing SOM can be applied as it is, and when a new cluster is created, an extremely small SOM is used, so that the processing speed is high. The effect is obtained.

【0047】このことにより、本発明は、入力データが
時間的に変化するものをクラスタリングする装置に適用
して効果を発揮することができ、例えば、時間的に変化
する生徒の学習結果を入力データとして生徒を分類する
学習システムのクラスタリング装置や、インターネット
のホームページにアクセスする視聴者の嗜好性を調査す
るクラスタリング装置などに用いた場合に、極めて有効
である。
As a result, the present invention can be effectively applied to an apparatus for clustering data whose input data changes with time. For example, the learning result of a student who changes with time can be used as input data. This is extremely effective when used in a clustering device of a learning system for classifying students, or a clustering device for examining the taste of viewers accessing an Internet homepage.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態におけるクラスタリン
グ装置の構成を表すブロック図、
FIG. 1 is a block diagram illustrating a configuration of a clustering device according to a first embodiment of the present invention;

【図2】本発明の第2の実施形態におけるクラスタリン
グ装置の構成を示すブロック図、
FIG. 2 is a block diagram showing a configuration of a clustering device according to a second embodiment of the present invention;

【図3】第2の実施形態においてSOM作成の手順を示
すフローチャート、
FIG. 3 is a flowchart illustrating a procedure for creating an SOM according to the second embodiment;

【図4】SOMを視覚的に示す図、FIG. 4 is a diagram showing SOM visually.

【図5】数式を示す図、FIG. 5 is a diagram showing mathematical formulas;

【図6】従来のクラスタリング装置の一例を示す図であ
る。
FIG. 6 is a diagram illustrating an example of a conventional clustering device.

【符号の説明】[Explanation of symbols]

1 クラスタ作成装置 2 クラスタリング実行装置 3 クラスタリング結果監視装置 4 プロトタイプデータDB 5 クラスタ 6 入力データ 7 クラスタリング結果 8 誤分類入力データDB 9、10 SOM 11 データ入力手段 12 SOM作成手段 13 クラスタ生成手段 31 クラスタリング結果監視手段 32 SOM修正手段 100 プロトタイプデータ群 102 クラスタA 103 クラスタB 104 距離 105 クラスタC 200 プロトタイプデータから作成されたクラスタ結果 201 クラスタY 202 クラスタZ 300 クラスタを用いたクラスタリング装置 301 クラスタY 302 クラスタZ 303 入力X 304 入力Xのポイント 401 SOM 402 ニューロン 403 参照ベクトル DESCRIPTION OF SYMBOLS 1 Cluster creation apparatus 2 Clustering execution apparatus 3 Clustering result monitoring apparatus 4 Prototype data DB 5 Cluster 6 Input data 7 Clustering result 8 Misclassification input data DB 9, 10 SOM 11 Data input means 12 SOM creation means 13 Cluster generation means 31 Clustering result Monitoring means 32 SOM correction means 100 Prototype data group 102 Cluster A 103 Cluster B 104 Distance 105 Cluster C 200 Cluster result created from prototype data 201 Cluster Y 202 Cluster Z 300 Clustering device using cluster 301 Cluster Y 302 Cluster Z 303 Input X 304 Input X point 401 SOM 402 Neuron 403 Reference vector

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 入力データを、クラスタを用いて分類す
るクラスタリング装置であって、 前記クラスタを作成するクラスタ作成装置と、 前記クラスタ作成装置により作成されたクラスタを用い
て、入力データのクラスタリングを実行するクラスタリ
ング実行装置と、 前記クラスタリング実行装置のクラスタリング結果を監
視して誤分類された入力データを識別するクラスタリン
グ結果監視装置と、 誤分類された前記入力データを蓄積する蓄積手段とを備
え、 前記蓄積手段に一定数以上のデータが蓄積された場合
に、前記データを基に、前記クラスタ作成装置が新たな
クラスタを作成することを特徴とするクラスタリング装
置。
1. A clustering apparatus for classifying input data by using a cluster, comprising: a cluster creation apparatus for creating the cluster; and clustering of the input data using the cluster created by the cluster creation apparatus. A clustering execution device, a clustering result monitoring device that monitors a clustering result of the clustering execution device to identify misclassified input data, and a storage unit that accumulates the misclassified input data. A clustering apparatus, wherein when a predetermined number or more of data is accumulated in the means, the cluster creating apparatus creates a new cluster based on the data.
【請求項2】 前記クラスタ作成装置は、前記蓄積手段
に一定数以上のデータが蓄積された場合に、前記データ
を用いて新たなクラスタを自動的に作成し、既に作成し
たクラスタに追加することを特徴とする請求項1に記載
のクラスタリング装置。
2. The method according to claim 1, wherein when a predetermined number or more of data is stored in the storage unit, the cluster generating apparatus automatically generates a new cluster using the data and adds the new cluster to the already generated cluster. The clustering device according to claim 1, wherein:
【請求項3】 前記クラスタリング結果に、クラスタリ
ングの誤差のデータが含まれることを特徴とする請求項
1に記載のクラスタリング装置。
3. The clustering apparatus according to claim 1, wherein the clustering result includes clustering error data.
【請求項4】 前記クラスタ作成装置は、プロトタイプ
データを入力として自己組織化マップを生成する自己組
織化マップ生成手段と、生成された前記自己組織化マッ
プを区分しクラスタを形成するクラスタ形成手段とを備
えることを特徴とする請求項1に記載のクラスタリング
装置。
4. A self-organizing map generating means for generating a self-organizing map by using prototype data as input, and a cluster forming means for partitioning the generated self-organizing map to form a cluster. The clustering apparatus according to claim 1, further comprising:
【請求項5】 前記クラスタリング結果監視装置は、ク
ラスタリング結果を監視するクラスタリング結果監視手
段と、前記蓄積手段に一定数以上のデータが蓄積された
場合に、前記データを入力として自己組織化マップを生
成する自己組織化マップ修正手段とを備え、前記クラス
タ作成装置のクラスタ形成手段は、前記自己組織化マッ
プ修正手段が自己組織化マップを生成した場合、その自
己組織化マップを区分してクラスタを作成し、既に作成
したクラスタに追加することを特徴とする請求項4に記
載のクラスタリング装置。
5. A clustering result monitoring device, comprising: a clustering result monitoring unit for monitoring a clustering result; and when a predetermined number or more of data is accumulated in the accumulation unit, a self-organizing map is generated by using the data as an input. The self-organizing map modifying means, wherein the cluster forming means of the cluster creating apparatus creates a cluster by dividing the self-organizing map when the self-organizing map modifying means generates the self-organizing map. The clustering apparatus according to claim 4, wherein the clustering apparatus adds the cluster to an already created cluster.
JP2000091863A 2000-03-29 2000-03-29 Clustering device Pending JP2001283184A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000091863A JP2001283184A (en) 2000-03-29 2000-03-29 Clustering device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000091863A JP2001283184A (en) 2000-03-29 2000-03-29 Clustering device

Publications (1)

Publication Number Publication Date
JP2001283184A true JP2001283184A (en) 2001-10-12

Family

ID=18607278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000091863A Pending JP2001283184A (en) 2000-03-29 2000-03-29 Clustering device

Country Status (1)

Country Link
JP (1) JP2001283184A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182808A (en) * 2003-12-15 2005-07-07 Microsoft Corp Dynamic content clustering
JP2005531059A (en) * 2002-06-24 2005-10-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A method of comparing different initial cluster sets to determine the best initial set for clustering of TV show sets
JP2008181556A (en) * 2008-03-24 2008-08-07 Glory Ltd Feature extraction method
US7574036B2 (en) 2003-03-24 2009-08-11 Fujifilm Corporation Apparatus, program, and recording medium for learning data to form a self-organizing map comprised of reference vectors corresponding to features of an image and used for determining objects in an image
JP2014507716A (en) * 2011-01-25 2014-03-27 アリババ・グループ・ホールディング・リミテッド Identify classified misplacements
JP2021071956A (en) * 2019-10-31 2021-05-06 キヤノンマーケティングジャパン株式会社 Information processing apparatus, control method, and program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531059A (en) * 2002-06-24 2005-10-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A method of comparing different initial cluster sets to determine the best initial set for clustering of TV show sets
US7574036B2 (en) 2003-03-24 2009-08-11 Fujifilm Corporation Apparatus, program, and recording medium for learning data to form a self-organizing map comprised of reference vectors corresponding to features of an image and used for determining objects in an image
JP2005182808A (en) * 2003-12-15 2005-07-07 Microsoft Corp Dynamic content clustering
JP2008181556A (en) * 2008-03-24 2008-08-07 Glory Ltd Feature extraction method
JP2014507716A (en) * 2011-01-25 2014-03-27 アリババ・グループ・ホールディング・リミテッド Identify classified misplacements
JP2021071956A (en) * 2019-10-31 2021-05-06 キヤノンマーケティングジャパン株式会社 Information processing apparatus, control method, and program
JP7477744B2 (en) 2019-10-31 2024-05-02 キヤノンマーケティングジャパン株式会社 Information processing device, control method, and program

Similar Documents

Publication Publication Date Title
US5870729A (en) Self-organizing neural network for pattern classification
Thongkam et al. Support vector machine for outlier detection in breast cancer survivability prediction
Tsymbal et al. Bagging and boosting with dynamic integration of classifiers
JP2021135993A (en) Text recognition method and text recognition device, electronic equipment, storage medium
JP6973197B2 (en) Dataset validation device, dataset validation method, and dataset validation program
CN115034220A (en) Abnormal log detection method and device, electronic equipment and storage medium
US11182267B2 (en) Methods and systems to determine baseline event-type distributions of event sources and detect changes in behavior of event sources
CN111783997A (en) Data processing method, device and equipment
CN106980900A (en) A kind of characteristic processing method and equipment
JP2001283184A (en) Clustering device
US20040030786A1 (en) Method and system for eliminating redundant rules from a rule set
JPS6360920B2 (en)
US20240420000A1 (en) Quantum circuit optimization method, device, equipment and storage medium
JP4121061B2 (en) Class identification device and class identification method
JP2007213441A (en) Multivariable decision tree construction system, multivariable decision tree construction method and program for constructing multivariable decision tree
CN110163194B (en) Image processing method, device and storage medium
US6009194A (en) Methods, systems and computer program products for analyzing information in forms using cell adjacency relationships
JP2020187616A (en) Plant monitoring model creation device, plant monitoring model creation method, and plant monitoring model creation program
CN111488400A (en) Data classification method, device and computer readable storage medium
CN113792247A (en) Method, apparatus, device and medium for generating functional flow chart based on code characteristics
JP2000067068A (en) System for automatically classifying document and method therefor
Berthold et al. Tolerating missing values in a fuzzy environment
CN120147043B (en) Accounting voucher generation method, device and medium based on document block traversal
JP2680419B2 (en) Character recognition device
EP4336420A1 (en) Training data generating program, training data generation method, and information processing apparatus