JPH0440580A - 階層型ニューラルネットワークの中間層の素子数の決定方法 - Google Patents
階層型ニューラルネットワークの中間層の素子数の決定方法Info
- Publication number
- JPH0440580A JPH0440580A JP2147484A JP14748490A JPH0440580A JP H0440580 A JPH0440580 A JP H0440580A JP 2147484 A JP2147484 A JP 2147484A JP 14748490 A JP14748490 A JP 14748490A JP H0440580 A JPH0440580 A JP H0440580A
- Authority
- JP
- Japan
- Prior art keywords
- elements
- layer
- intermediate layer
- neural network
- cru1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
この発明は、階層型ニューラルネットワークの設計方法
に関し、特に、その中間層の素子数(ユニット数)の決
定方法に関する。
に関し、特に、その中間層の素子数(ユニット数)の決
定方法に関する。
(従来の技術)
階層型ニューラルネットワークは、その学習法としてR
1m61hartによりパックプロパゲーション法が提
案されて以来、その有用性が非常に注目され、種々の分
野への応用が期待されている。階層型ニューラルネット
ワークは大きく分けて入力層、中間層、出力層の3つの
層に分類される。入力層、出力層は1層であり、それら
を構成する素子数はネットワークが応用される対象によ
りおのずと決まる。しかし、中間層(1層、複数層のい
ずれでもよい)の素子数は任意に設定できるが、この素
子数を最適に決めることは困難であり、従来は経験的、
あるいは試行錯誤で決めていた。中間層の素子数が少な
すぎると、ネットワークの学習が収束しない、精度が十
分にでない等の問題点がある。
1m61hartによりパックプロパゲーション法が提
案されて以来、その有用性が非常に注目され、種々の分
野への応用が期待されている。階層型ニューラルネット
ワークは大きく分けて入力層、中間層、出力層の3つの
層に分類される。入力層、出力層は1層であり、それら
を構成する素子数はネットワークが応用される対象によ
りおのずと決まる。しかし、中間層(1層、複数層のい
ずれでもよい)の素子数は任意に設定できるが、この素
子数を最適に決めることは困難であり、従来は経験的、
あるいは試行錯誤で決めていた。中間層の素子数が少な
すぎると、ネットワークの学習が収束しない、精度が十
分にでない等の問題点がある。
逆に、中間層の素子数が多すぎると、学習時間が長くな
る、オーバ学習になり未学習入力データに対して精度が
不十分になる等の問題点がある。
る、オーバ学習になり未学習入力データに対して精度が
不十分になる等の問題点がある。
そのため、Rumelhartは改良型パックプロバゲ
ージョン法(D、E、Rumelhart; Lear
ning and Generalization:
The Role of Minimal Netwo
rks、 ATRWorkshop on Neura
l Networks and Parallel D
istributed Processing、 19
88)も提案している。これは通常のバックプロパゲー
ション法と同様にネットワークの複雑さを変化させる方
法である。通常のバックプロパゲーション法では、ネッ
トワークの出力層の各素子の出力値と、望ましい値(教
師データ)との誤差を評価関数とし、その評価関数によ
り求められる評価値が減少するように学習を行なう。改
良型バックプロパゲーション法では、この評価関数にさ
らにネットワークの複雑さを表わす関数関数を加えた、
次式に示す新評価関数Co5tに基づいて誤差とネット
ワークの複雑さを同時に減少させるように学習を行なう
。
ージョン法(D、E、Rumelhart; Lear
ning and Generalization:
The Role of Minimal Netwo
rks、 ATRWorkshop on Neura
l Networks and Parallel D
istributed Processing、 19
88)も提案している。これは通常のバックプロパゲー
ション法と同様にネットワークの複雑さを変化させる方
法である。通常のバックプロパゲーション法では、ネッ
トワークの出力層の各素子の出力値と、望ましい値(教
師データ)との誤差を評価関数とし、その評価関数によ
り求められる評価値が減少するように学習を行なう。改
良型バックプロパゲーション法では、この評価関数にさ
らにネットワークの複雑さを表わす関数関数を加えた、
次式に示す新評価関数Co5tに基づいて誤差とネット
ワークの複雑さを同時に減少させるように学習を行なう
。
Co5t=λXE+(1−λ)X Complexit
y −(1)ここで、 λ: 重み係数、 E:前述の誤差、 Complexity:ネットワークの複雑さを表わす
評価関数であり、これは次式で定義される。
y −(1)ここで、 λ: 重み係数、 E:前述の誤差、 Complexity:ネットワークの複雑さを表わす
評価関数であり、これは次式で定義される。
Complexity+= Cweight+ Cun
itl( 二こで、 Wij:素子Jから素子iへの結合の重み、Wkj:素
子jから素子にへの結合の重み、Cweight:接続
数による複信1さ、Cun1t:素子数による複雑さを
表わしている。
itl( 二こで、 Wij:素子Jから素子iへの結合の重み、Wkj:素
子jから素子にへの結合の重み、Cweight:接続
数による複信1さ、Cun1t:素子数による複雑さを
表わしている。
なお、Complexityはネットワiり全体に対す
る評価関数である。
る評価関数である。
このように、この改良型バックプロパゲーション法は、
素子の必要性、接続の必要性も評価関数に含めたことに
特徴がある。そのため、中間層の必要性も学習により決
定できる。しかしながら、評価関数が誤差のみでないた
め、評価関数の極小値が必ずしも誤差の極小値と一致せ
ず、この方法では必ずしも最適の結合の重みが求められ
るとは限らない。
素子の必要性、接続の必要性も評価関数に含めたことに
特徴がある。そのため、中間層の必要性も学習により決
定できる。しかしながら、評価関数が誤差のみでないた
め、評価関数の極小値が必ずしも誤差の極小値と一致せ
ず、この方法では必ずしも最適の結合の重みが求められ
るとは限らない。
また、ニューラルネットワークの学習法の他の従来例と
して、米国特許部3,950. 733号、第4,04
4,243号、第4..326,259号に記載のRe
5tricted Coulomb Energy(R
CE )に着目した方法がある。この方法では、最初は
RCEは存在しない6 次に、学習データをそのベクタ
ーが示す点として認識する。ここで、その点がどのRC
Eにも含まれない新しい点である場合は、その点にその
学習データの属するクラスを示す新しいRCEを作成す
る。その際、RCEの大きさは他のRCEを含まない最
大に設定する。その点がすでに存在する同じクラスのR
CEに含まれる場合は何もしない。その点がすでに存在
する異なるクラスのRCEに含まれる場合は、そのRC
Eの大きさを、この点が含まれない大きさに縮小する。
して、米国特許部3,950. 733号、第4,04
4,243号、第4..326,259号に記載のRe
5tricted Coulomb Energy(R
CE )に着目した方法がある。この方法では、最初は
RCEは存在しない6 次に、学習データをそのベクタ
ーが示す点として認識する。ここで、その点がどのRC
Eにも含まれない新しい点である場合は、その点にその
学習データの属するクラスを示す新しいRCEを作成す
る。その際、RCEの大きさは他のRCEを含まない最
大に設定する。その点がすでに存在する同じクラスのR
CEに含まれる場合は何もしない。その点がすでに存在
する異なるクラスのRCEに含まれる場合は、そのRC
Eの大きさを、この点が含まれない大きさに縮小する。
この方法では、RECの素子数は学習により決定される
ので、RECの素子数をあらかじめ決めておく必要がな
い。しかしながら、RCE方法は中間層の素子と出力層
の素子の結合関係を限定した方法であり、−船釣な階層
構造のニューラルネットワークではない。
ので、RECの素子数をあらかじめ決めておく必要がな
い。しかしながら、RCE方法は中間層の素子と出力層
の素子の結合関係を限定した方法であり、−船釣な階層
構造のニューラルネットワークではない。
(発明が解決しようとする課題)
このように従来は階層型ニューラルネットワークにおい
て中間層の素子数を理論的に最適関数に決定する方法は
なかった。
て中間層の素子数を理論的に最適関数に決定する方法は
なかった。
従ってこの発明の目的は、階層型ニューラルネットワー
クの中間層の各素子の存在の必要性を表わす評価関数を
提供することである。この発明の他の目的は、この評価
関数に基づき階層型ニューラルネットワークの中間層の
素子数を適切に決定する方法を提供することである。
クの中間層の各素子の存在の必要性を表わす評価関数を
提供することである。この発明の他の目的は、この評価
関数に基づき階層型ニューラルネットワークの中間層の
素子数を適切に決定する方法を提供することである。
[発明の構成]
(課題を解決するための手段)
この発明による階層型ニューラルネットワークの中間層
の素子数の決定方法は、前段の層から中間層の1つの素
子への結合の重みを第1の評価関数に変換する手順と、
この中間層の1つの素子から後段の層への結合の重みを
第2の評価関数に変換する手順と、これら第1及び第2
の評価関数の組み合せによりこの中間層の1つの素子の
必要性を評価する手順とを具備する。
の素子数の決定方法は、前段の層から中間層の1つの素
子への結合の重みを第1の評価関数に変換する手順と、
この中間層の1つの素子から後段の層への結合の重みを
第2の評価関数に変換する手順と、これら第1及び第2
の評価関数の組み合せによりこの中間層の1つの素子の
必要性を評価する手順とを具備する。
(作用)
この発明によれば、中間層の各素子毎の必要性を評価し
ているので、階層型ニューラルネットワークの中間層の
素子数の最適値が求められ、ニューラルネットワークを
妥当な時間で学習させ必要十分な精度が得られるととも
に、未学習データに対する精度が向上し、学習が収束し
ない場合でも、ネットワークの評価が可能となる。
ているので、階層型ニューラルネットワークの中間層の
素子数の最適値が求められ、ニューラルネットワークを
妥当な時間で学習させ必要十分な精度が得られるととも
に、未学習データに対する精度が向上し、学習が収束し
ない場合でも、ネットワークの評価が可能となる。
(実施例)
以下図面を参照してこの発明による階層型ニューラルネ
ットワークの中間層の素子数の決定方法の実施例を説明
する。第1図は実施例により素子数が決定される階層型
ニューラルネットワークの一例を示す図である。ここで
は、説明の簡単化のために中間層が1層からなる3層構
造の階層型ニューラルネットワークを示すが、本発明は
階層型であればよく、中間層が複数層からなる4層以上
のニューラルネットワークにも適用可能である。
ットワークの中間層の素子数の決定方法の実施例を説明
する。第1図は実施例により素子数が決定される階層型
ニューラルネットワークの一例を示す図である。ここで
は、説明の簡単化のために中間層が1層からなる3層構
造の階層型ニューラルネットワークを示すが、本発明は
階層型であればよく、中間層が複数層からなる4層以上
のニューラルネットワークにも適用可能である。
第1図は、 3層構造のニューラルネットワークを健康
診断システムにおける糖尿病の判定に適用した場合の例
を示す。ニューラルネットワークへの入力データとなる
検査結果項目は、空腹時血糖値、糖負荷試験における1
時間後の血糖値、および2時間後の血糖値の3つである
。このため、入力層10は3つの素子(ユニット、また
はニューロンとも呼ばれる)からなり、3つの検査結果
項目は0〜1の値になるように、それぞれ200,30
0.250で除算されて正規化されて入力層10の3つ
の素子にそれぞれ入力される。ニューラルネットワーク
の出力データとなる判定結果項目はB、 BF、
C,G、 Dの5つである。このため、出力層30は
これらの判定結果項目にそれぞれ対応する5つの素子か
らなる。このように、入力層と出力層の素子数はネット
ワークの使用目的に応じて原則的に一義的に決まる。中
間層20は隠れ層ともいわれ、入力データパターンを出
力データパターンに変換するために必要な層であり、そ
の素子数は理論的に決める方法はなく、経験的に決めて
いる。この実施例では、次のような各素子毎の評価関数
を用いて中間層の素子数を決めている。
診断システムにおける糖尿病の判定に適用した場合の例
を示す。ニューラルネットワークへの入力データとなる
検査結果項目は、空腹時血糖値、糖負荷試験における1
時間後の血糖値、および2時間後の血糖値の3つである
。このため、入力層10は3つの素子(ユニット、また
はニューロンとも呼ばれる)からなり、3つの検査結果
項目は0〜1の値になるように、それぞれ200,30
0.250で除算されて正規化されて入力層10の3つ
の素子にそれぞれ入力される。ニューラルネットワーク
の出力データとなる判定結果項目はB、 BF、
C,G、 Dの5つである。このため、出力層30は
これらの判定結果項目にそれぞれ対応する5つの素子か
らなる。このように、入力層と出力層の素子数はネット
ワークの使用目的に応じて原則的に一義的に決まる。中
間層20は隠れ層ともいわれ、入力データパターンを出
力データパターンに変換するために必要な層であり、そ
の素子数は理論的に決める方法はなく、経験的に決めて
いる。この実施例では、次のような各素子毎の評価関数
を用いて中間層の素子数を決めている。
中間層の各素子lについての評価値CRri、CRしi
を次のような評価関数により定義する。
を次のような評価関数により定義する。
j】十ΣWk、12
Iく
二こで、
CRri: 中間層の素子iの入力の結合の重みの評
価値、 CRti: 中間層の素子jの出力の結合の重みの評
価値、 Wij: 前段の層(3層の場合は入力層)の素子Jか
ら中間層の素子lへの結合の重み、Wkj 前段の
層(3層の場合は入力層)の素子jから中間層の素子に
への結合の重み、Whi: 中間層の素子Jから後段の
層(3層の場合は出力層)の素子りへの結合の重み、W
hk + 中間層の素子kがら後段の層(3層の場合
は出力層)の素子りへの結合の重み、i、 k:
中間層の素子の番号1、): 前段の層(3層の場合は
入力層)の素子の番号、 h :後段の層(3層の場合は出力層)の素子の番号
である。
価値、 CRti: 中間層の素子jの出力の結合の重みの評
価値、 Wij: 前段の層(3層の場合は入力層)の素子Jか
ら中間層の素子lへの結合の重み、Wkj 前段の
層(3層の場合は入力層)の素子jから中間層の素子に
への結合の重み、Whi: 中間層の素子Jから後段の
層(3層の場合は出力層)の素子りへの結合の重み、W
hk + 中間層の素子kがら後段の層(3層の場合
は出力層)の素子りへの結合の重み、i、 k:
中間層の素子の番号1、): 前段の層(3層の場合は
入力層)の素子の番号、 h :後段の層(3層の場合は出力層)の素子の番号
である。
各評価関数の意味を説明する。先ず、CRriにおいて
、ΣWk、i2は入力層のある素子jがら中間層l( の全素子への結合の重みの二乗和であり、Wij2は素
子Jから中間層の素子λへの結合の重みの二乗である。
、ΣWk、i2は入力層のある素子jがら中間層l( の全素子への結合の重みの二乗和であり、Wij2は素
子Jから中間層の素子λへの結合の重みの二乗である。
したがって、
■+ΣWk、i2
1く
は素子Jから出ている全部の結合の重みに対する素子I
への結合の重みの割合(二乗)をO〜1に正規化した値
である。例えば、Wi、i=Qの場合には(5)式も0
になる。Wi、iが大きく、かつ素子jから中間層に出
ている他の結合の重みが0に近い場合は(5)式は1に
近づく。結合の重み(相対値)は大きいほど、その繋が
りが太きいと考えてよいから、 (5)式は素子jと中
間層の全素子に対する繋がりのうち、素子iとの繋がり
の強さの割合をO〜1で表現したものである。言い換え
れば、 (5)式は素子jに対する素子iの必要性の評
価関数である。そして、CRriは(5)式を入力層の
全素子についての合計であるから、CRriは入力層に
対する素子iの必要性を表わす評価関数である。なお、
CRriは0〜(入力素子数)の値をとる。
への結合の重みの割合(二乗)をO〜1に正規化した値
である。例えば、Wi、i=Qの場合には(5)式も0
になる。Wi、iが大きく、かつ素子jから中間層に出
ている他の結合の重みが0に近い場合は(5)式は1に
近づく。結合の重み(相対値)は大きいほど、その繋が
りが太きいと考えてよいから、 (5)式は素子jと中
間層の全素子に対する繋がりのうち、素子iとの繋がり
の強さの割合をO〜1で表現したものである。言い換え
れば、 (5)式は素子jに対する素子iの必要性の評
価関数である。そして、CRriは(5)式を入力層の
全素子についての合計であるから、CRriは入力層に
対する素子iの必要性を表わす評価関数である。なお、
CRriは0〜(入力素子数)の値をとる。
同様に、
子についての合計であるから、CRtiは素子iと出力
層の繋がりの強さを表わす評価値である。なお、CRt
iはO〜(出力素子数)の値をとる。
層の繋がりの強さを表わす評価値である。なお、CRt
iはO〜(出力素子数)の値をとる。
次に、評価値CRr i、 CRt iを用いた中間
層の素子の評価について説明する。2つの評価値を組み
合わせた新しい評価値CRu1を次のように定義する。
層の素子の評価について説明する。2つの評価値を組み
合わせた新しい評価値CRu1を次のように定義する。
CRu1=CRri+CRti −−−(7)第1
図のニューラルネットワークにおいて中間層の素子数を
50個とした場合の学習後の評価値CRr i、CRt
iをCRu1の大きい順に第1表に示す。
図のニューラルネットワークにおいて中間層の素子数を
50個とした場合の学習後の評価値CRr i、CRt
iをCRu1の大きい順に第1表に示す。
は出力層の素子りと中間層の全素子に対する繋がりのう
ち、素子iとの繋がりの強さの割合を0〜1で表現した
ものである。言い換えれば、 (6)式は素子りに対す
る素子iの必要性の評価関数である。そして、CRti
は(6)式を出力層の全素この学習後のネットワークに
、実際の検査データ3697個を入力し、中間層の素子
数の一部を不活性化した場合に、最大値を示した出力素
子の個数を第2表に示す。
ち、素子iとの繋がりの強さの割合を0〜1で表現した
ものである。言い換えれば、 (6)式は素子りに対す
る素子iの必要性の評価関数である。そして、CRti
は(6)式を出力層の全素この学習後のネットワークに
、実際の検査データ3697個を入力し、中間層の素子
数の一部を不活性化した場合に、最大値を示した出力素
子の個数を第2表に示す。
第2表
テスト1は学習したネットワークに対するテストである
。 テスト2〜11はそれぞれ中間層の素子の1部を不
活性化したネットワークに対するテストである。例えば
、テスト2は素子30を不活性化し、残りの49素子の
みによるネットワークに対するテストである。素子30
を不活性化するためには、素子30の出力を入力に関係
な(常時0にすれば良い。
。 テスト2〜11はそれぞれ中間層の素子の1部を不
活性化したネットワークに対するテストである。例えば
、テスト2は素子30を不活性化し、残りの49素子の
みによるネットワークに対するテストである。素子30
を不活性化するためには、素子30の出力を入力に関係
な(常時0にすれば良い。
中間層の素子の一部を不活性化した場合の結果が、テス
ト1の結果とほぼ同じであれば、その不活性化した素子
の価値(必要性)が低いことになる。逆に、テスト1の
結果との違いが太きければ、その不活性化した素子の価
値(必要性)が高いことになる。ここで、テストlとの
差異(二乗誤差)Esを以下のように定義する。
ト1の結果とほぼ同じであれば、その不活性化した素子
の価値(必要性)が低いことになる。逆に、テスト1の
結果との違いが太きければ、その不活性化した素子の価
値(必要性)が高いことになる。ここで、テストlとの
差異(二乗誤差)Esを以下のように定義する。
また、不活性化した素子のCRu1の合計をMCRuと
すると、MCRuは下記により求められる。
すると、MCRuは下記により求められる。
MCRu=ΣCRu1 −(9)+4−
ユニで、 iは不活性化した素子の番号である。
各テストごとに求めたMCRu、Esを第3表に示す。
第3表
また、その横軸をMCRu、縦軸をlogE sとした
グラフを第2図に示す。この相関係数rは0. 803
である。これから明らかなように、MCRIJとEsに
は強い相関がある。したがって、MCRuの大きい素子
は必要性が高く、小さい素子は必要性が低いと見なせる
。
グラフを第2図に示す。この相関係数rは0. 803
である。これから明らかなように、MCRIJとEsに
は強い相関がある。したがって、MCRuの大きい素子
は必要性が高く、小さい素子は必要性が低いと見なせる
。
次に、このような評価関数を用いた実施例による素子数
の決定方法を第3図を参照して説明する。
の決定方法を第3図を参照して説明する。
ステップ#10で入力層と出力層の素子数を使用目的に
応じて決め、中間層の素子数を仮に決める。
応じて決め、中間層の素子数を仮に決める。
ステップ#12でニューラルネットワークに学習を行な
わせる。学習は教師データと出力データとの誤差が所定
値以下になるまで行なってもよいし、あるいは誤差には
無関係に所定回数だけ行なってもよい。ステップ#14
で中間層の全素子について、 (3)式、 (4)式、
及び(7)式により評価値CRr i、 CRt i
、 CRu iを求める。CRu1で評価すればよい
が、CRu1は前段、及び後段の層(3層の場合は入力
層、及び出力層)の素子数、教師データにより異なるの
で、ここでは、CRu1の最大値で正規化した下記の評
価値を定義する。
わせる。学習は教師データと出力データとの誤差が所定
値以下になるまで行なってもよいし、あるいは誤差には
無関係に所定回数だけ行なってもよい。ステップ#14
で中間層の全素子について、 (3)式、 (4)式、
及び(7)式により評価値CRr i、 CRt i
、 CRu iを求める。CRu1で評価すればよい
が、CRu1は前段、及び後段の層(3層の場合は入力
層、及び出力層)の素子数、教師データにより異なるの
で、ここでは、CRu1の最大値で正規化した下記の評
価値を定義する。
%CRu i −CRu i X 100÷(CRui
の最大値)・・・(10) CRr、 CRtを統合して評価する方法は種々考え
られるが、ここでは%CRu1を使って評価する。
の最大値)・・・(10) CRr、 CRtを統合して評価する方法は種々考え
られるが、ここでは%CRu1を使って評価する。
前述したように、CRu1が小さい素子は、その必要性
が低い。そのため、CRu1が小さい素子を削除したネ
ットワーク構成でも、その加力はほぼ同じと考えられる
。また、全ての素子のCRu1が大きい場合は、そのネ
ットワークは冗長性が少ないと考えられる。したがって
、ステップ#16で%CRu1の最小値、min (%
CRu1)が下限の定数LLMT以下であるか否か判定
する。m1n(%CRu i ) <L LMTの場合
は、ステップ#18でその素子1を削除、すなわちネッ
トワークの構成から取り除く。そして、ステップ#12
でこの素子iが削除された新しいネットワークを再度学
習させる。
が低い。そのため、CRu1が小さい素子を削除したネ
ットワーク構成でも、その加力はほぼ同じと考えられる
。また、全ての素子のCRu1が大きい場合は、そのネ
ットワークは冗長性が少ないと考えられる。したがって
、ステップ#16で%CRu1の最小値、min (%
CRu1)が下限の定数LLMT以下であるか否か判定
する。m1n(%CRu i ) <L LMTの場合
は、ステップ#18でその素子1を削除、すなわちネッ
トワークの構成から取り除く。そして、ステップ#12
でこの素子iが削除された新しいネットワークを再度学
習させる。
min (%CRu1)≧LLMTの場合は、ステップ
#20で%CRu1の最小値m i n (%CRu1
)が上限の定数ULMT以上であるか否か判定する。
#20で%CRu1の最小値m i n (%CRu1
)が上限の定数ULMT以上であるか否か判定する。
min (%CRu i ) >U LMTの場合は、
ステップ#22で中間層に素子を1個追加する。そして
、ステップ#12でこの素子が追加された新しいネット
ワークを再度学習させる。
ステップ#22で中間層に素子を1個追加する。そして
、ステップ#12でこの素子が追加された新しいネット
ワークを再度学習させる。
LLMT≦min (%CRu i ) <U LMT
の場合は、中間層の素子数が適正な素子数であると見な
せる。この場合、誤差に応じて2種類の処理があるので
、ステップ#24で誤差が所定値以下であるか否か判定
する。誤差が所定値以下である場合は学習も終了してお
り、規模も適性であるからニューラルネットワークが完
成したことになるので、動作は終了する。誤差が所定値
以下でない場合は、規模は適性であるが学習が不十分で
あるので、ステップ#12に戻り、ニューラルネットワ
ークは変更しないで、学習を継続する。
の場合は、中間層の素子数が適正な素子数であると見な
せる。この場合、誤差に応じて2種類の処理があるので
、ステップ#24で誤差が所定値以下であるか否か判定
する。誤差が所定値以下である場合は学習も終了してお
り、規模も適性であるからニューラルネットワークが完
成したことになるので、動作は終了する。誤差が所定値
以下でない場合は、規模は適性であるが学習が不十分で
あるので、ステップ#12に戻り、ニューラルネットワ
ークは変更しないで、学習を継続する。
以上説明したように、この実施例によれば、前段の層の
素子に対する中間層の各素子の必要性、および後段の層
に対する中間層の各素子の必要性を基に各素子の必要性
を判断しているので、中間層の素子数を適切に決定する
ことができるので、その応用分野に適した規模のニュー
ラルネットワークを構成することができる。
素子に対する中間層の各素子の必要性、および後段の層
に対する中間層の各素子の必要性を基に各素子の必要性
を判断しているので、中間層の素子数を適切に決定する
ことができるので、その応用分野に適した規模のニュー
ラルネットワークを構成することができる。
この発明は上述した実施例に限定されず、種々変形可能
であり、以下に変形例を説明する。CRu1を下記の式
で定義しても良い。
であり、以下に変形例を説明する。CRu1を下記の式
で定義しても良い。
あるいは、
CRu i =CRr i XCRt 1C
Rr i、 CRt iを組み合わせたCRu1を用
いて評価を行なう代わりに、CRri、あるいはCRt
i単独で評価してもよい。同様に、CRr i、 C
Rt iの別の組み合わせで評価してもよい。例えば、
(1)CRr i、CRt iが共に小さい場合は、そ
の素子は不要と見なす。(2)全てのCRr i、CR
t iが大きい場合は、素子数が不足と見なす。さらに
、CRri、CRtiに重み付けして組み合わせてもよ
い。
Rr i、 CRt iを組み合わせたCRu1を用
いて評価を行なう代わりに、CRri、あるいはCRt
i単独で評価してもよい。同様に、CRr i、 C
Rt iの別の組み合わせで評価してもよい。例えば、
(1)CRr i、CRt iが共に小さい場合は、そ
の素子は不要と見なす。(2)全てのCRr i、CR
t iが大きい場合は、素子数が不足と見なす。さらに
、CRri、CRtiに重み付けして組み合わせてもよ
い。
また、これらの判定結果の論理和、論理積によって評価
してもよい。評価の判定はmin (%CRu1)で行
なったが、%CRu1のN個の合計〈1.LMTか否か
判定し、イエスの場合にはN個の素子を削除するように
してもよい。%CRu1の定義は(10)式の代わりに
、 %CRu1=CRuiX100+ (全素子のCRu1
の平均値)で定義してもよい。
してもよい。評価の判定はmin (%CRu1)で行
なったが、%CRu1のN個の合計〈1.LMTか否か
判定し、イエスの場合にはN個の素子を削除するように
してもよい。%CRu1の定義は(10)式の代わりに
、 %CRu1=CRuiX100+ (全素子のCRu1
の平均値)で定義してもよい。
さらに、実施例は実システムの使用中に素子数を決定す
るとして説明したが、この発明をニューラルネットワー
クのシミュレーションのみに適用し、その結果により実
システムの中間層の素子数を決定し、実システムの素子
数は固定にしてもよい。
るとして説明したが、この発明をニューラルネットワー
クのシミュレーションのみに適用し、その結果により実
システムの中間層の素子数を決定し、実システムの素子
数は固定にしてもよい。
また、評価関数CRr i、CRt iを下記の式によ
り定義してもよい。
り定義してもよい。
は1サイクルの学習を終了するごとに、各評価関数CR
r i、CRt i、CRu1を求め、 これらを表示
するようにしてもよい。この場合、学習の途中で、操作
者がこれらの表示を見ながら、操作者の判断で中間層の
素子数を変更するようにしてもよい。
r i、CRt i、CRu1を求め、 これらを表示
するようにしてもよい。この場合、学習の途中で、操作
者がこれらの表示を見ながら、操作者の判断で中間層の
素子数を変更するようにしてもよい。
表示データの種類としては、絶対値、最低値、最大値に
対する%、平均値に対する%等がある。また、表示方法
は、数値で表示してもよいし、ニューラルネットワーク
における誤差グラフと同様に、横軸を学習回数、あるい
は学習サイクルに、縦軸をCRr i、 CRt i
、CRu1とした、 グラフを表示してもよ1八 さら
に、表示するCRr i、CRt i、CRu1は全素
子であってもよいし、一部の素子についてのみでもよい
。
対する%、平均値に対する%等がある。また、表示方法
は、数値で表示してもよいし、ニューラルネットワーク
における誤差グラフと同様に、横軸を学習回数、あるい
は学習サイクルに、縦軸をCRr i、 CRt i
、CRu1とした、 グラフを表示してもよ1八 さら
に、表示するCRr i、CRt i、CRu1は全素
子であってもよいし、一部の素子についてのみでもよい
。
「発明の効果コ
以」二説明したようにこの発明によれば、中間層の各素
子毎の必要性を評価しているので、階層型ニューラルネ
ットワークの中間層の素子数の最適値が求められ、ニュ
ーラルネットワークを妥当な時間で学習させ必要十分な
精度が得られるとともに、未学習データに対する精度が
向上し、学習が収束しない場合でも、ネットワークの評
価が可能となる。
子毎の必要性を評価しているので、階層型ニューラルネ
ットワークの中間層の素子数の最適値が求められ、ニュ
ーラルネットワークを妥当な時間で学習させ必要十分な
精度が得られるとともに、未学習データに対する精度が
向上し、学習が収束しない場合でも、ネットワークの評
価が可能となる。
第1図はこの発明の実施例が適用される階層型ニューラ
ルネットワークの一例のブロック図、第2図は誤差の変
化と評価関数との相関関係を示す図、第3図は実施例の
動作を説明するための図である。 10・・・入力層、 20・・・中間層、 30・・・
出力層。 出願人代理人 弁理士 鈴江武彦 一羽〜 入力層10 出7’]層30 2〜 ノ[) 図
ルネットワークの一例のブロック図、第2図は誤差の変
化と評価関数との相関関係を示す図、第3図は実施例の
動作を説明するための図である。 10・・・入力層、 20・・・中間層、 30・・・
出力層。 出願人代理人 弁理士 鈴江武彦 一羽〜 入力層10 出7’]層30 2〜 ノ[) 図
Claims (1)
- 入力層、中間層、出力層を有する階層型のニューラル
ネットワークにおいて、前段の層から中間層の1つの素
子への結合の重みを第1の評価関数により第1の評価値
に変換する手順と、前記中間層の1つの素子から後段の
層への結合の重みを第2の評価関数により第2の評価値
に変換する手順と、前記第1及び第2の評価値の組み合
せにより前記中間層の1つの素子の必要性を評価する手
順とを具備することを特徴とする階層型ニューラルネッ
トワークの中間層の素子数の決定方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2147484A JPH0440580A (ja) | 1990-06-07 | 1990-06-07 | 階層型ニューラルネットワークの中間層の素子数の決定方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2147484A JPH0440580A (ja) | 1990-06-07 | 1990-06-07 | 階層型ニューラルネットワークの中間層の素子数の決定方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0440580A true JPH0440580A (ja) | 1992-02-10 |
Family
ID=15431438
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2147484A Pending JPH0440580A (ja) | 1990-06-07 | 1990-06-07 | 階層型ニューラルネットワークの中間層の素子数の決定方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0440580A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7437526B2 (en) | 1996-06-28 | 2008-10-14 | Sony Corporation | Information processing method and apparatus having data locations accessible by different devices in accordance with different permissions |
-
1990
- 1990-06-07 JP JP2147484A patent/JPH0440580A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7437526B2 (en) | 1996-06-28 | 2008-10-14 | Sony Corporation | Information processing method and apparatus having data locations accessible by different devices in accordance with different permissions |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Tu et al. | Use of a neural network as a predictive instrument for length of stay in the intensive care unit following cardiac surgery | |
| Mukherjee | Self-organizing neural network for identification of natural modes | |
| JPH05151188A (ja) | エキスパートシステム機能を備えたニユーラルネツトワーク | |
| US5819242A (en) | Fuzzy-neural network system and a learning method therein | |
| CN109829057A (zh) | 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 | |
| Hashem et al. | Approximating a function and its derivatives using MSE-optimal linear combinations of trained feedforward neural networks | |
| CN109102393A (zh) | 训练和使用关系网络嵌入模型的方法及装置 | |
| CN114117333B (zh) | 用于异常检测的对抗重构网络设计、训练方法及检测方法 | |
| Sinha et al. | Artificial neural network for measuring organizational effectiveness | |
| Ennett et al. | Weight-elimination neural networks applied to coronary surgery mortality prediction | |
| JPH0440580A (ja) | 階層型ニューラルネットワークの中間層の素子数の決定方法 | |
| Vanbrackle et al. | A study of the average run length characteristics of the National Notifiable Diseases Surveillance System | |
| US5740322A (en) | Fuzzy-neural network system | |
| Tontini et al. | RBF fuzzy-ARTMAP: A new fuzzy neural network for robust on-line learning and identification of patterns | |
| JP2540654B2 (ja) | ニュ―ラルネットワ―クの学習装置 | |
| Faghri et al. | Artificial Neural Network–Based Approach to Modeling Trip Production | |
| JPH04337406A (ja) | 鋼板の表面等級判別方法 | |
| JP3287738B2 (ja) | 関係関数探索装置 | |
| Bollé et al. | Parallel dynamics of fully connected Q-Ising neural networks | |
| Takane | Nonlinear multivariate analysis by neural network models | |
| Loskiewicz-Buczak et al. | Aggregation of evidence by fuzzy set operations for vibration monitoring | |
| JP3236635B2 (ja) | ニューラルネットワークの学習方法 | |
| Bowles | Machine learns which features to select | |
| JPH06508948A (ja) | ニューラルネットワークにおける入力データの不確定性状態の処理方法 | |
| JP2813567B2 (ja) | 推論規則決定装置及び推論規則決定方法 |