JP2019139554A

JP2019139554A - モデル学習装置、モデル学習方法、プログラム

Info

Publication number: JP2019139554A
Application number: JP2018022978A
Authority: JP
Inventors: 祐太河内; Yuta Kawachi; 悠馬小泉; Yuma Koizumi; 登原田; Noboru Harada
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2019-08-22
Anticipated expiration: 2038-02-13
Also published as: US20200401943A1; WO2019159915A1; JP6874708B2

Abstract

【課題】AUC最適化基準を用いたモデル学習により、3値に分類するモデルを学習するモデル学習技術を提供する。
【解決手段】正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習するモデル学習部とを含み、前記AUC値は、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から定義されるものである。
【選択図】図２

Description

本発明は、機械の動作音から故障を検知する等、観測データから異常を検知するために用いるモデルを学習するモデル学習技術に関する。

例えば、機械の故障を故障前に発見することや、故障後に素早く発見することは、業務の継続性の観点で重要である。これを省力化するための方法として、センサを用いて取得したデータ（以下、センサデータという）から、電気回路やプログラムにより、正常状態からの乖離である「異常」を発見する異常検知という技術分野が存在する。特に、マイクロフォン等のように、音を電気信号に変換するセンサを用いるものを異常音検知と呼ぶ。また、音以外の、例えば、温度、圧力、変位等の任意のセンサデータやネットワーク通信量のようなトラフィックデータを対象とする任意の異常検知ドメインについても、同様に異常検知を行うことができる。

異常検知に用いるモデルの学習には、大きく分けて、正常データのみを用いる教師なし学習と、非特許文献１や非特許文献２にあるAUC最適化のような、正常、異常双方のデータを用いる教師あり学習がある。いずれにしても、入力データを正常または異常に分類する2値分類器の学習である。

Akinori Fujino and Naonori Ueda, "A Semi-Supervised AUC Optimization Method with Generative Models", 2016 IEEE 16th International Conference on Data Mining (ICDM), IEEE, pp.883-888, 2016. Alan Herschtal and Bhavani Raskutti, "Optimising area under the ROC curve using gradient descent", ICML '04, Proceedings of the twenty-first international conference on Machine learning, ACM, 2004.

しかし、正常、異常の他に、例えば区別不能といった第3の出力を用意して、第3の出力が出力された場合には、入力データを人が目視で判定するなどの手法が適していることがある。このようなケースでは、正常データと異常データの特徴が似ているため、正常ラベルまたは異常ラベルがデータに付されているが、実際には区別が不能なものが混じっている。このようなデータが混じっている場合、教師あり学習では強引に正常、異常のいずれかに分類するモデルを学習しようとするため、現実とのミスマッチが生じ、検知性能に悪影響を与える。また、教師なし学習では3値に分類するよう学習することは可能であるが、この場合異常ラベルを付したデータ（異常データ）を用いることができないため、学習データ量が減り異常検知性能に悪影響を与える。

そこで本発明では、AUC最適化基準を用いたモデル学習により、3値に分類するモデルを学習するモデル学習技術を提供することを目的とする。

本発明の一態様は、正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習するモデル学習部とを含み、前記AUC値は、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から定義されるものである。

本発明の一態様は、正常時に観測されるデータから生成される正常データと異常時に観測されるデータから生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習するモデル学習部とを含み、前記AUC値は、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から定義されるものである。

本発明によれば、AUC最適化基準を用いたモデル学習により、3値に分類するモデルを学習することが可能となる。

2段ステップ関数とその近似関数の様子を示す図。モデル学習装置１００の構成の一例を示すブロック図。モデル学習装置１００の動作の一例を示すフローチャート。異常検知装置２００の構成の一例を示すブロック図。異常検知装置２００の動作の一例を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

AUC最適化基準を用いたモデル学習では、正常、異常を正しく判別できたか否かを0と1の2値で表現することができるステップ関数を用いる。そこで、本発明の実施の形態では、0と1の中間の定数を、区別不能を表す第3の状態を表すものとして導入する。具体的には、ステップ関数の代わりに、定義域と値域のずれた2つのステップ関数の最大値として定義される2段ステップ関数を用いる。この2段ステップ関数の構成に用いる最大値関数を微分可能な関数の近似と2段ステップ関数の構成に用いるステップ関数の近似という2つの近似を用いることにより、勾配法・劣勾配法等による連続最適化可能な関数によりAUC値を定義することで、3値分類を実現する。

＜技術的背景＞
以下の説明に登場する小文字の変数は、特記なき場合、スカラーまたは（縦）ベクトルを表すものとする。

パラメータψを持つモデルを学習するにあたり、異常データの集合X⁺={x_i ⁺| i∈[1, …, N⁺]}と正常データの集合X^-={x_j ^-| j∈[1, …, N^-]}を用意する。各集合の要素は特徴量ベクトル等の1サンプルに相当する。

要素数N=N⁺×N^-である異常データ集合X⁺と正常データ集合X^-の直積集合X={(x_i ⁺, x_j ^-)| i∈[1, …, N⁺], j∈[1, …, N^-]}を学習データ集合とする。このとき、（経験）AUC値は、次式により与えられる。

ただし、関数H(x)は、（ヘヴィサイド）ステップ関数である。つまり、関数H(x)は、引数xの値が0より大きいときは1を、小さいときは0を返す関数である。また、関数I(x; ψ)は、パラメータψを持つ、引数xに対応する異常度を返す関数である。なお、xに対する関数I(x; ψ)の値は、スカラー値であり、xの異常度ということもある。

式(1)は、任意の異常データと正常データのペアに対して、異常データの異常度が正常データの異常度より大きくなるモデルが好ましいことを表す。また、式(1)の値が最大になるのは、すべてのペアに対して異常データの異常度が正常データの異常度より大きい場合であり、そのとき、値は1となる。このAUC値を最大（つまり、最適）にするパラメータψを求める基準がAUC最適化基準である。

AUC最適化基準におけるステップ関数を、2段ステップ関数で置換することにより、3値分類を実現する。なお、同様にすれば、任意の数の分類も実現することができる。つまり、(n-1)段ステップ関数を用いれば、n値分類が可能となる。

以下、3値分類について説明する。例えば、幅2h(>0)、高さ0.5のステップを設ける2段ステップ関数T(x)は次式のようになる。

ただし、hはハイパーパラメータであり、あらかじめ値を決めておく。

一般に、h₁, h₂をそれぞれh₁>0, h₂>0を満たす実数、αを0<α<1を満たす実数として、次式のように2段ステップ関数T(x)を定義することができる。

つまり、2段ステップ関数T(x)は、x>h₁において値1、h₁>x>h₂において値α、h₂>xにおいて値0をとる関数であり、幅h₁+h₂、高さαのステップを設けた関数といえる。

式(1)の関数H(x)の代わりに、式(2)、式(3)の関数T(x)を用いてAUC値を次式のように定義する。

しかし、式(4)は、微分不可能であるため、勾配法等による最適化が困難になる。そこで、式(2)、式(3)で用いた最大値関数max(x, y)に対して、次式のような近似を行う。

もちろん、式(5)や式(5’)以外の近似を用いることもできる。つまり、最大値関数max(x, y)を近似する微分可能な関数であれば、どのような関数を用いてもよい。以下、最大値関数max(x, y)を近似する微分可能な関数をS(x)と表す。

以下、S(x)を式(5)の右辺の関数とし、このS(x)を用いた関数T(x)の近似（式(6)）を例に説明する。

ここでは、さらにステップ関数H(x)の近似関数を導入する。ステップ関数の近似法には様々なものが知られている（例えば、参考非特許文献１、参考非特許文献２）が、以下では、ランプ関数とソフトプラス関数を用いた近似法について説明する。
（参考非特許文献１：Charanpal Dhanjal, Romaric Gaudel and Stephan Clemencon, “AUC Optimisation and Collaborative Filtering”, arXiv preprint, arXiv:1508.06091, 2015.）
（参考非特許文献２：Stijn Vanderlooy and Eyke Hullermeier, “A critical analysis of variants of the AUC”, Machine Learning, Vol.72, Issue 3, pp.247-262, 2008.）

最大値を制約するランプ関数（の変形）ramp’(x)は、次式で与えられる。

また、ソフトプラス関数（の変形）softplus’(x)は、次式で与えられる。

式(7)の関数は異常度逆転に対して線形にコストを掛ける関数であり、式(8)の関数は微分可能な近似関数である。

式(8)のソフトプラス関数を用いると、式(6)は、次式のようになる。

また、勾配の大きさを制御するハイパーパラメータCを導入すると、式(9)は次式のようになる。

式(9)、式(10)の右辺の関数は、いずれも最大値が1ではなく、ln(e+√e)であるので、AUC値を算出する際にはこの値で除すことにより最大値が1になるように調整してもよい。図１に2段ステップ関数とその近似関数の様子を示す。

＜第一実施形態＞
（モデル学習装置１００）
以下、図２〜図３を参照してモデル学習装置１００を説明する。図２は、モデル学習装置１００の構成を示すブロック図である。図３は、モデル学習装置１００の動作を示すフローチャートである。図２に示すようにモデル学習装置１００は、前処理部１１０と、モデル学習部１２０と、記録部１９０を含む。記録部１９０は、モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。

以下、図３に従いモデル学習装置１００の動作について説明する。

Ｓ１１０において、前処理部１１０は、観測データから学習データを生成する。異常音検知を対象とする場合、観測データは、機械の正常動作音や異常動作音の音波形のような正常時に観測される音や異常時に観測される音である。このように、どのような分野を異常検知の対象としても、観測データは正常時に観測されるデータと異常時に観測されるデータの両方を含む。

また、観測データから生成される学習データは、一般にベクトルとして表現される。異常音検知を対象とする場合、観測データ、つまり正常時に観測される音や異常時に観測される音を適当なサンプリング周波数でＡＤ(アナログデジタル)変換し、量子化した波形データを生成する。このように量子化した波形データをそのまま１次元の値が時系列に並んだデータを学習データとしてもよいし、複数サンプルの連結、離散フーリエ変換、フィルタバンク処理等を用いて多次元に拡張する特徴抽出処理をしたものを学習データとしてもよいし、データの平均、分散を計算して値の取り幅を正規化する等の処理をしたものを学習データとしてもよい。異常音検知以外の分野を対象とする場合、例えば温湿度や電流値のように連続量に対しては、同様の処理を行えばよいし、例えば頻度やテキスト（文字、単語列等）のような離散量に対しては、数値や1-of-K表現を用いて特徴ベクトルを構成し同様の処理を行えばよい。

なお、正常時の観測データから生成される学習データを正常データ、異常時の観測データから生成される学習データを異常データという。異常データ集合をX⁺={x_i ⁺| i∈[1, …, N⁺]}、正常データ集合をX^-={x_j ^-| j∈[1, …, N^-]}とする。また、＜技術的背景＞で説明したように、異常データ集合X⁺と正常データ集合X^-の直積集合X={(x_i ⁺, x_j ^-)| i∈[1, …, N⁺], j∈[1, …, N^-]}を学習データ集合という。学習データ集合は正常データと異常データを用いて定義される集合である。

Ｓ１２０において、モデル学習部１２０は、Ｓ１１０で生成した正常データと異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習する。

ここで、AUC値とは、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から計算されるものであり、例えば、式(4)により計算される。

また、式(9)、式(10)のような関数T(x)の近似を用いてAUC値を計算してもよい。式(9)、式(10)の右辺に現れるハイパーパラメータh及びCは、所定の定数である。なお、h及びCの値は、本ステップと同様の学習をいくつかの候補値に対して行い、AUC最適化基準などに基づき選択した値としてもよいし、経験的に優れていることが分かっている値としてもよい。

モデル学習部１２０がAUC値を用いてパラメータψ^{^}を学習する際、AUC最適化基準を用いて学習する。これにより、パラメータψを持つモデルについて、ψの最適値であるパラメータψ^{^}を求めることができる。その際、ハイパーパラメータh及びCの値を学習の途中段階で変更するようにしてもよい。例えば、勾配の大きさを制御するハイパーパラメータCを徐々に大きくすることにより、学習を進みやすくすることができる。

（異常検知装置２００）
以下、図４〜図５を参照して異常検知装置２００を説明する。図４は、異常検知装置２００の構成を示すブロック図である。図５は、異常検知装置２００の動作を示すフローチャートである。図４に示すように異常検知装置２００は、前処理部１１０と、異常度算出部２２０と、異常判定部２３０と、記録部１９０を含む。記録部１９０は、異常検知装置２００の処理に必要な情報を適宜記録する構成部である。例えば、モデル学習装置１００が生成したパラメータψ^{^}を記録しておく。

以下、図５に従い異常検知装置２００の動作について説明する。

Ｓ１１０において、前処理部１１０は、異常検知対象となる観測データから異常検知対象データを生成する。具体的には、モデル学習装置１００の前処理部１１０が学習データを生成するのと同一の方法により、異常検知対象データxを生成する。

Ｓ２２０において、異常度算出部２２０は、記録部１９０に記録してあるパラメータψ^{^}を用いて、Ｓ１１０で生成した異常検知対象データxから異常度を算出する。例えば、異常度I(x)は、I(x)=I(x;ψ^{^})と定義することができる。

Ｓ２３０において、異常判定部２３０は、Ｓ２２０で算出した異常度から、入力である、異常検知対象となる観測データが正常であるか、異常であるか、区別不能であるかを示す判定結果を生成する。例えば、あらかじめ決められた閾値a, b(a>b)を用いて、異常度が閾値a以上である（または閾値aより大きい）場合に異常を示す判定結果を生成し、異常度が閾値b以下である（または閾値bより小さい）場合に正常を示す判定結果を生成し、それ以外については、区別不能を示す判定結果を生成する。

なお、3値分類のための閾値の決定には、正常、区別不能、異常の3種類の少量データを別に用意しておき、その判別性能（多値分類に対するF1値等）を大きくするように2つの閾値を決めてもよい。また、異常検知に係る業務の要請に応じて手動で閾値を調整、決定するのでもよい。

区別不能を示す判定結果が生成された場合には、熟練者に通知することで人間にエスカレーションを行い、目視等による判断を行ってから判定結果を決定するようにしてもよい。

（変形例）
AUC最適化基準によるモデル学習は、正常データに対する異常度と異常データに対する異常度の差を最適化するようにモデル学習するものである。したがって、AUC最適化に類似するpAUC最適化（参考非特許文献３）やその他異常度の差を用いて定義される（AUC値に相当する）値を最適化する方法に対しても、＜技術的背景＞で説明した同様の置き換えを行うことで、モデル学習をすることができる。
（参考非特許文献３：Harikrishna Narasimhan and Shivani Agarwal, “A structural SVM based approach for optimizing partial AUC”, Proceeding of the 30th International Conference on Machine Learning, pp.516-524, 2013.）

本実施形態の発明によれば、AUC最適化基準を用いたモデル学習により、3値に分類するモデルを学習することが可能となる。正常、異常の2値分類モデルの学習基準であるAUC最適化基準を、区別不能を含む3値の分類に拡張することで、正常、異常の区別がつきにくいケースでその区別を人に委ねることが可能になる。その際、大規模な学習データとしては2種類のラベルが付されたデータ（つまり、異常データと正常データ）のみを準備すればよく、区別不能に対応する新しいラベルを付けるコストはほとんどかからない。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習するモデル学習部と
を含むモデル学習装置であって、
前記AUC値は、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から定義されるものである
モデル学習装置。
請求項１に記載のモデル学習装置であって、
X⁺={x_i ⁺| i∈[1, …, N⁺]}を異常データの集合、X^-={x_j ^-| j∈[1, …, N^-]}を正常データの集合、X={(x_i ⁺, x_j ^-)| i∈[1, …, N⁺], j∈[1, …, N^-]}を学習データ集合、N=N⁺×N^-、I(x; ψ)を、パラメータψを持つ、データxの異常度を返す関数とし、
h₁, h₂をそれぞれh₁>0, h₂>0を満たす実数、αを0<α<1を満たす実数とし、
前記2段ステップ関数T(x)、前記AUC値は、それぞれ次式により定義される
ことを特徴とするモデル学習装置。
請求項２に記載のモデル学習装置であって、
S(x, y)を最大値関数max(x, y)を近似する微分可能な関数とし、
前記2段ステップ関数T(x)は、次式により近似される
ことを特徴とするモデル学習装置。
請求項３に記載のモデル学習装置であって、
前記関数S(x, y)は、次式により定義される
ことを特徴とするモデル学習装置。
請求項３に記載のモデル学習装置であって、
前記関数S(x, y)は、次式により定義される
ことを特徴とするモデル学習装置。
正常時に観測されるデータから生成される正常データと異常時に観測されるデータから生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習するモデル学習部と
を含むモデル学習装置であって、
前記AUC値は、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から定義されるものである
モデル学習装置。
モデル学習装置が、正常時に観測される音から生成される正常データと異常時に観測される音から生成される異常データを用いて定義される学習データ集合を用いて、所定のAUC値を用いた基準に基づいて、モデルのパラメータψ^{^}を学習するモデル学習ステップと
を含むモデル学習方法であって、
前記AUC値は、2段ステップ関数T(x)を用いて正常データの異常度と異常データの異常度の差から定義されるものである
モデル学習方法。
請求項１ないし６のいずれか１項に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。