JPH0440580A

JPH0440580A - 階層型ニューラルネットワークの中間層の素子数の決定方法

Info

Publication number: JPH0440580A
Application number: JP2147484A
Authority: JP
Inventors: Akinami Ohashi; 大橋　昭南
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-06-07
Filing date: 1990-06-07
Publication date: 1992-02-10

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）この発明は、階層型ニューラルネットワークの設計方法
に関し、特に、その中間層の素子数（ユニット数）の決
定方法に関する。

（従来の技術）階層型ニューラルネットワークは、その学習法としてＲ
１ｍ６１ｈａｒｔによりパックプロパゲーション法が提
案されて以来、その有用性が非常に注目され、種々の分
野への応用が期待されている。階層型ニューラルネット
ワークは大きく分けて入力層、中間層、出力層の３つの
層に分類される。入力層、出力層は１層であり、それら
を構成する素子数はネットワークが応用される対象によ
りおのずと決まる。しかし、中間層（１層、複数層のい
ずれでもよい）の素子数は任意に設定できるが、この素
子数を最適に決めることは困難であり、従来は経験的、
あるいは試行錯誤で決めていた。中間層の素子数が少な
すぎると、ネットワークの学習が収束しない、精度が十
分にでない等の問題点がある。

逆に、中間層の素子数が多すぎると、学習時間が長くな
る、オーバ学習になり未学習入力データに対して精度が
不十分になる等の問題点がある。

そのため、Ｒｕｍｅｌｈａｒｔは改良型パックプロバゲ
ージョン法（Ｄ、Ｅ、Ｒｕｍｅｌｈａｒｔ；　Ｌｅａｒ
ｎｉｎｇ　ａｎｄ　Ｇｅｎｅｒａｌｉｚａｔｉｏｎ：　
Ｔｈｅ　Ｒｏｌｅ　ｏｆ　Ｍｉｎｉｍａｌ　Ｎｅｔｗｏ
ｒｋｓ、　ＡＴＲＷｏｒｋｓｈｏｐ　ｏｎ　Ｎｅｕｒａ
ｌ　Ｎｅｔｗｏｒｋｓ　ａｎｄ　Ｐａｒａｌｌｅｌ　Ｄ
ｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ、　１９
８８）も提案している。これは通常のバックプロパゲー
ション法と同様にネットワークの複雑さを変化させる方
法である。通常のバックプロパゲーション法では、ネッ
トワークの出力層の各素子の出力値と、望ましい値（教
師データ）との誤差を評価関数とし、その評価関数によ
り求められる評価値が減少するように学習を行なう。改
良型バックプロパゲーション法では、この評価関数にさ
らにネットワークの複雑さを表わす関数関数を加えた、
次式に示す新評価関数Ｃｏ５ｔに基づいて誤差とネット
ワークの複雑さを同時に減少させるように学習を行なう
。

Ｃｏ５ｔ＝λＸＥ＋（１−λ）Ｘ　Ｃｏｍｐｌｅｘｉｔ
ｙ　　−（１）ここで、 λ：　重み係数、Ｅ：前述の誤差、Ｃｏｍｐｌｅｘｉｔｙ：ネットワークの複雑さを表わす
評価関数であり、これは次式で定義される。

Ｃｏｍｐｌｅｘｉｔｙ＋＝　Ｃｗｅｉｇｈｔ＋　Ｃｕｎ
ｉｔｌ（二こで、Ｗｉｊ：素子Ｊから素子ｉへの結合の重み、Ｗｋｊ：素
子ｊから素子にへの結合の重み、Ｃｗｅｉｇｈｔ：接続
数による複信１さ、Ｃｕｎ１ｔ：素子数による複雑さを
表わしている。

なお、Ｃｏｍｐｌｅｘｉｔｙはネットワｉり全体に対す
る評価関数である。

このように、この改良型バックプロパゲーション法は、
素子の必要性、接続の必要性も評価関数に含めたことに
特徴がある。そのため、中間層の必要性も学習により決
定できる。しかしながら、評価関数が誤差のみでないた
め、評価関数の極小値が必ずしも誤差の極小値と一致せ
ず、この方法では必ずしも最適の結合の重みが求められ
るとは限らない。

また、ニューラルネットワークの学習法の他の従来例と
して、米国特許部３，９５０．　７３３号、第４，０４
４，２４３号、第４．．３２６，２５９号に記載のＲｅ
５ｔｒｉｃｔｅｄ　Ｃｏｕｌｏｍｂ　Ｅｎｅｒｇｙ（Ｒ
ＣＥ　）に着目した方法がある。この方法では、最初は
ＲＣＥは存在しない６　次に、学習データをそのベクタ
ーが示す点として認識する。ここで、その点がどのＲＣ
Ｅにも含まれない新しい点である場合は、その点にその
学習データの属するクラスを示す新しいＲＣＥを作成す
る。その際、ＲＣＥの大きさは他のＲＣＥを含まない最
大に設定する。その点がすでに存在する同じクラスのＲ
ＣＥに含まれる場合は何もしない。その点がすでに存在
する異なるクラスのＲＣＥに含まれる場合は、そのＲＣ
Ｅの大きさを、この点が含まれない大きさに縮小する。

この方法では、ＲＥＣの素子数は学習により決定される
ので、ＲＥＣの素子数をあらかじめ決めておく必要がな
い。しかしながら、ＲＣＥ方法は中間層の素子と出力層
の素子の結合関係を限定した方法であり、−船釣な階層
構造のニューラルネットワークではない。

（発明が解決しようとする課題）このように従来は階層型ニューラルネットワークにおい
て中間層の素子数を理論的に最適関数に決定する方法は
なかった。

従ってこの発明の目的は、階層型ニューラルネットワー
クの中間層の各素子の存在の必要性を表わす評価関数を
提供することである。この発明の他の目的は、この評価
関数に基づき階層型ニューラルネットワークの中間層の
素子数を適切に決定する方法を提供することである。

［発明の構成］（課題を解決するための手段）この発明による階層型ニューラルネットワークの中間層
の素子数の決定方法は、前段の層から中間層の１つの素
子への結合の重みを第１の評価関数に変換する手順と、
この中間層の１つの素子から後段の層への結合の重みを
第２の評価関数に変換する手順と、これら第１及び第２
の評価関数の組み合せによりこの中間層の１つの素子の
必要性を評価する手順とを具備する。

（作用）この発明によれば、中間層の各素子毎の必要性を評価し
ているので、階層型ニューラルネットワークの中間層の
素子数の最適値が求められ、ニューラルネットワークを
妥当な時間で学習させ必要十分な精度が得られるととも
に、未学習データに対する精度が向上し、学習が収束し
ない場合でも、ネットワークの評価が可能となる。

（実施例）以下図面を参照してこの発明による階層型ニューラルネ
ットワークの中間層の素子数の決定方法の実施例を説明
する。第１図は実施例により素子数が決定される階層型
ニューラルネットワークの一例を示す図である。ここで
は、説明の簡単化のために中間層が１層からなる３層構
造の階層型ニューラルネットワークを示すが、本発明は
階層型であればよく、中間層が複数層からなる４層以上
のニューラルネットワークにも適用可能である。

第１図は、　３層構造のニューラルネットワークを健康
診断システムにおける糖尿病の判定に適用した場合の例
を示す。ニューラルネットワークへの入力データとなる
検査結果項目は、空腹時血糖値、糖負荷試験における１
時間後の血糖値、および２時間後の血糖値の３つである
。このため、入力層１０は３つの素子（ユニット、また
はニューロンとも呼ばれる）からなり、３つの検査結果
項目は０〜１の値になるように、それぞれ２００，３０
０．２５０で除算されて正規化されて入力層１０の３つ
の素子にそれぞれ入力される。ニューラルネットワーク
の出力データとなる判定結果項目はＢ、　　ＢＦ、　　
Ｃ，Ｇ、　　Ｄの５つである。このため、出力層３０は
これらの判定結果項目にそれぞれ対応する５つの素子か
らなる。このように、入力層と出力層の素子数はネット
ワークの使用目的に応じて原則的に一義的に決まる。中
間層２０は隠れ層ともいわれ、入力データパターンを出
力データパターンに変換するために必要な層であり、そ
の素子数は理論的に決める方法はなく、経験的に決めて
いる。この実施例では、次のような各素子毎の評価関数
を用いて中間層の素子数を決めている。

中間層の各素子ｌについての評価値ＣＲｒｉ、ＣＲしｉ
を次のような評価関数により定義する。

ｊ】十ΣＷｋ、１２Ｉく二こで、ＣＲｒｉ：　　中間層の素子ｉの入力の結合の重みの評
価値、ＣＲｔｉ：　　中間層の素子ｊの出力の結合の重みの評
価値、Ｗｉｊ：　前段の層（３層の場合は入力層）の素子Ｊか
ら中間層の素子ｌへの結合の重み、Ｗｋｊ　　　前段の
層（３層の場合は入力層）の素子ｊから中間層の素子に
への結合の重み、Ｗｈｉ：　中間層の素子Ｊから後段の
層（３層の場合は出力層）の素子りへの結合の重み、Ｗ
ｈｋ　　＋　中間層の素子ｋがら後段の層（３層の場合
は出力層）の素子りへの結合の重み、ｉ、　　ｋ：　　
中間層の素子の番号１、）：　前段の層（３層の場合は
入力層）の素子の番号、ｈ　　：後段の層（３層の場合は出力層）の素子の番号
である。

各評価関数の意味を説明する。先ず、ＣＲｒｉにおいて
、ΣＷｋ、ｉ２は入力層のある素子ｊがら中間層ｌ（の全素子への結合の重みの二乗和であり、Ｗｉｊ２は素
子Ｊから中間層の素子λへの結合の重みの二乗である。

　したがって、 ■＋ΣＷｋ、ｉ２１くは素子Ｊから出ている全部の結合の重みに対する素子Ｉ
への結合の重みの割合（二乗）をＯ〜１に正規化した値
である。例えば、Ｗｉ、ｉ＝Ｑの場合には（５）式も０
になる。Ｗｉ、ｉが大きく、かつ素子ｊから中間層に出
ている他の結合の重みが０に近い場合は（５）式は１に
近づく。結合の重み（相対値）は大きいほど、その繋が
りが太きいと考えてよいから、　（５）式は素子ｊと中
間層の全素子に対する繋がりのうち、素子ｉとの繋がり
の強さの割合をＯ〜１で表現したものである。言い換え
れば、　（５）式は素子ｊに対する素子ｉの必要性の評
価関数である。そして、ＣＲｒｉは（５）式を入力層の
全素子についての合計であるから、ＣＲｒｉは入力層に
対する素子ｉの必要性を表わす評価関数である。なお、
ＣＲｒｉは０〜（入力素子数）の値をとる。

同様に、子についての合計であるから、ＣＲｔｉは素子ｉと出力
層の繋がりの強さを表わす評価値である。なお、ＣＲｔ
ｉはＯ〜（出力素子数）の値をとる。

次に、評価値ＣＲｒ　ｉ、　　ＣＲｔ　ｉを用いた中間
層の素子の評価について説明する。２つの評価値を組み
合わせた新しい評価値ＣＲｕ１を次のように定義する。

ＣＲｕ１＝ＣＲｒｉ＋ＣＲｔｉ　　　−−−（７）第１
図のニューラルネットワークにおいて中間層の素子数を
５０個とした場合の学習後の評価値ＣＲｒ　ｉ、ＣＲｔ
　ｉをＣＲｕ１の大きい順に第１表に示す。

は出力層の素子りと中間層の全素子に対する繋がりのう
ち、素子ｉとの繋がりの強さの割合を０〜１で表現した
ものである。言い換えれば、　（６）式は素子りに対す
る素子ｉの必要性の評価関数である。そして、ＣＲｔｉ
は（６）式を出力層の全素この学習後のネットワークに
、実際の検査データ３６９７個を入力し、中間層の素子
数の一部を不活性化した場合に、最大値を示した出力素
子の個数を第２表に示す。

第２表テスト１は学習したネットワークに対するテストである
。　テスト２〜１１はそれぞれ中間層の素子の１部を不
活性化したネットワークに対するテストである。例えば
、テスト２は素子３０を不活性化し、残りの４９素子の
みによるネットワークに対するテストである。素子３０
を不活性化するためには、素子３０の出力を入力に関係
な（常時０にすれば良い。

中間層の素子の一部を不活性化した場合の結果が、テス
ト１の結果とほぼ同じであれば、その不活性化した素子
の価値（必要性）が低いことになる。逆に、テスト１の
結果との違いが太きければ、その不活性化した素子の価
値（必要性）が高いことになる。ここで、テストｌとの
差異（二乗誤差）Ｅｓを以下のように定義する。

また、不活性化した素子のＣＲｕ１の合計をＭＣＲｕと
すると、ＭＣＲｕは下記により求められる。

ＭＣＲｕ＝ΣＣＲｕ１　　　　−（９）＋４− ユニで、　ｉは不活性化した素子の番号である。

各テストごとに求めたＭＣＲｕ、Ｅｓを第３表に示す。

第３表また、その横軸をＭＣＲｕ、縦軸をｌｏｇＥ　ｓとした
グラフを第２図に示す。この相関係数ｒは０．　８０３
である。これから明らかなように、ＭＣＲＩＪとＥｓに
は強い相関がある。したがって、ＭＣＲｕの大きい素子
は必要性が高く、小さい素子は必要性が低いと見なせる
。

次に、このような評価関数を用いた実施例による素子数
の決定方法を第３図を参照して説明する。

ステップ＃１０で入力層と出力層の素子数を使用目的に
応じて決め、中間層の素子数を仮に決める。

ステップ＃１２でニューラルネットワークに学習を行な
わせる。学習は教師データと出力データとの誤差が所定
値以下になるまで行なってもよいし、あるいは誤差には
無関係に所定回数だけ行なってもよい。ステップ＃１４
で中間層の全素子について、　（３）式、　（４）式、
及び（７）式により評価値ＣＲｒ　ｉ、　　ＣＲｔ　ｉ
、　　ＣＲｕ　ｉを求める。ＣＲｕ１で評価すればよい
が、ＣＲｕ１は前段、及び後段の層（３層の場合は入力
層、及び出力層）の素子数、教師データにより異なるの
で、ここでは、ＣＲｕ１の最大値で正規化した下記の評
価値を定義する。

％ＣＲｕ　ｉ　−ＣＲｕ　ｉ　Ｘ　１００÷（ＣＲｕｉ
の最大値）・・・（１０）ＣＲｒ、　　ＣＲｔを統合して評価する方法は種々考え
られるが、ここでは％ＣＲｕ１を使って評価する。

前述したように、ＣＲｕ１が小さい素子は、その必要性
が低い。そのため、ＣＲｕ１が小さい素子を削除したネ
ットワーク構成でも、その加力はほぼ同じと考えられる
。また、全ての素子のＣＲｕ１が大きい場合は、そのネ
ットワークは冗長性が少ないと考えられる。したがって
、ステップ＃１６で％ＣＲｕ１の最小値、ｍｉｎ　（％
ＣＲｕ１）が下限の定数ＬＬＭＴ以下であるか否か判定
する。ｍ１ｎ（％ＣＲｕ　ｉ　）　＜Ｌ　ＬＭＴの場合
は、ステップ＃１８でその素子１を削除、すなわちネッ
トワークの構成から取り除く。そして、ステップ＃１２
でこの素子ｉが削除された新しいネットワークを再度学
習させる。

ｍｉｎ　（％ＣＲｕ１）≧ＬＬＭＴの場合は、ステップ
＃２０で％ＣＲｕ１の最小値ｍ　ｉ　ｎ　（％ＣＲｕ１
）が上限の定数ＵＬＭＴ以上であるか否か判定する。

ｍｉｎ　（％ＣＲｕ　ｉ　）　＞Ｕ　ＬＭＴの場合は、
ステップ＃２２で中間層に素子を１個追加する。そして
、ステップ＃１２でこの素子が追加された新しいネット
ワークを再度学習させる。

ＬＬＭＴ≦ｍｉｎ　（％ＣＲｕ　ｉ　）　＜Ｕ　ＬＭＴ
の場合は、中間層の素子数が適正な素子数であると見な
せる。この場合、誤差に応じて２種類の処理があるので
、ステップ＃２４で誤差が所定値以下であるか否か判定
する。誤差が所定値以下である場合は学習も終了してお
り、規模も適性であるからニューラルネットワークが完
成したことになるので、動作は終了する。誤差が所定値
以下でない場合は、規模は適性であるが学習が不十分で
あるので、ステップ＃１２に戻り、ニューラルネットワ
ークは変更しないで、学習を継続する。

以上説明したように、この実施例によれば、前段の層の
素子に対する中間層の各素子の必要性、および後段の層
に対する中間層の各素子の必要性を基に各素子の必要性
を判断しているので、中間層の素子数を適切に決定する
ことができるので、その応用分野に適した規模のニュー
ラルネットワークを構成することができる。

この発明は上述した実施例に限定されず、種々変形可能
であり、以下に変形例を説明する。ＣＲｕ１を下記の式
で定義しても良い。

あるいは、ＣＲｕ　　ｉ　　＝ＣＲｒ　　ｉ　　ＸＣＲｔ　　１Ｃ
Ｒｒ　ｉ、　　ＣＲｔ　ｉを組み合わせたＣＲｕ１を用
いて評価を行なう代わりに、ＣＲｒｉ、あるいはＣＲｔ
ｉ単独で評価してもよい。同様に、ＣＲｒ　ｉ、　　Ｃ
Ｒｔ　ｉの別の組み合わせで評価してもよい。例えば、
（１）ＣＲｒ　ｉ、ＣＲｔ　ｉが共に小さい場合は、そ
の素子は不要と見なす。（２）全てのＣＲｒ　ｉ、ＣＲ
ｔ　ｉが大きい場合は、素子数が不足と見なす。さらに
、ＣＲｒｉ、ＣＲｔｉに重み付けして組み合わせてもよ
い。

また、これらの判定結果の論理和、論理積によって評価
してもよい。評価の判定はｍｉｎ　（％ＣＲｕ１）で行
なったが、％ＣＲｕ１のＮ個の合計〈１．ＬＭＴか否か
判定し、イエスの場合にはＮ個の素子を削除するように
してもよい。％ＣＲｕ１の定義は（１０）式の代わりに
、％ＣＲｕ１＝ＣＲｕｉＸ１００＋　（全素子のＣＲｕ１
の平均値）で定義してもよい。

さらに、実施例は実システムの使用中に素子数を決定す
るとして説明したが、この発明をニューラルネットワー
クのシミュレーションのみに適用し、その結果により実
システムの中間層の素子数を決定し、実システムの素子
数は固定にしてもよい。

また、評価関数ＣＲｒ　ｉ、ＣＲｔ　ｉを下記の式によ
り定義してもよい。

は１サイクルの学習を終了するごとに、各評価関数ＣＲ
ｒ　ｉ、ＣＲｔ　ｉ、ＣＲｕ１を求め、　これらを表示
するようにしてもよい。この場合、学習の途中で、操作
者がこれらの表示を見ながら、操作者の判断で中間層の
素子数を変更するようにしてもよい。

表示データの種類としては、絶対値、最低値、最大値に
対する％、平均値に対する％等がある。また、表示方法
は、数値で表示してもよいし、ニューラルネットワーク
における誤差グラフと同様に、横軸を学習回数、あるい
は学習サイクルに、縦軸をＣＲｒ　ｉ、　　ＣＲｔ　ｉ
、ＣＲｕ１とした、　グラフを表示してもよ１八　さら
に、表示するＣＲｒ　ｉ、ＣＲｔ　ｉ、ＣＲｕ１は全素
子であってもよいし、一部の素子についてのみでもよい
。

「発明の効果コ以」二説明したようにこの発明によれば、中間層の各素
子毎の必要性を評価しているので、階層型ニューラルネ
ットワークの中間層の素子数の最適値が求められ、ニュ
ーラルネットワークを妥当な時間で学習させ必要十分な
精度が得られるとともに、未学習データに対する精度が
向上し、学習が収束しない場合でも、ネットワークの評
価が可能となる。

【図面の簡単な説明】

第１図はこの発明の実施例が適用される階層型ニューラ
ルネットワークの一例のブロック図、第２図は誤差の変
化と評価関数との相関関係を示す図、第３図は実施例の
動作を説明するための図である。１０・・・入力層、　２０・・・中間層、　３０・・・
出力層。出願人代理人　　弁理士　鈴江武彦一羽〜入力層１０出７’］層３０２〜ノ［）図

Claims

【特許請求の範囲】

　入力層、中間層、出力層を有する階層型のニューラル
ネットワークにおいて、前段の層から中間層の１つの素
子への結合の重みを第１の評価関数により第１の評価値
に変換する手順と、前記中間層の１つの素子から後段の
層への結合の重みを第２の評価関数により第２の評価値
に変換する手順と、前記第１及び第２の評価値の組み合
せにより前記中間層の１つの素子の必要性を評価する手
順とを具備することを特徴とする階層型ニューラルネッ
トワークの中間層の素子数の決定方法。