JP2019159654A

JP2019159654A - 時系列情報の学習システム、方法およびニューラルネットワークモデル

Info

Publication number: JP2019159654A
Application number: JP2018044134A
Authority: JP
Inventors: 遼一高島; Ryoichi Takashima; 勝李; Sheng Li; 恒河井; Hisashi Kawai
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2019-09-19
Anticipated expiration: 2038-03-12
Also published as: JP7070894B2

Abstract

【課題】第１のモデルの構造を変えることなく、第１のモデルの認識率を、より構造が複雑な第２のモデルの認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。【解決手段】学習システム１０は、第１のモデル２３と第１のモデルよりも構造が複雑な第２のモデル１３と、第１のモデルを生徒モデルとし、第２のモデルを教師モデルとし、ナレッジディスティレーションを用いて第１のモデルを学習する第１のモデル学習部とを備える。学習部は、第１および第２のモデルから出力された、複数のフレームデータを含む第１の時系列データに対応するラベル系列候補群のそれぞれの確率を評価し、評価結果に基づいて、第１のモデルを学習させる。【選択図】図２

Description

本発明は時系列で入力された情報を、ニューラルネットワークを用いて認識する技術に関する。詳しくは、時系列情報を処理するシステムで利用されるニューラルネットワークのモデルを学習する技術、および、その学習によって得られたニューラルネットワークのモデルに関する。

音声情報や動画像情報などは、時間的な変化を伴う情報であり、時間の経過とともに連続的に入力される情報である。

人が発声した音声や各種の音源から音声情報を取得し、音声情報を認識する音声認識システムがある。音声認識システムは発話された音声波形を分析し、音響モデル、発音辞書、言語モデルと呼ばれるデータベースと照合することで、発話内容(文章)を出力するものである。

従来の音響モデルとして、DNN-HMMモデルがある。DNN-HMMはニューラルネットワークベースの音声認識として主流の方法である。DNN-HMMモデルは、ある時刻の音声特徴量に対してどのラベル（例えば音素）の確率が高いかをモデル化したDNN (deep neural networks：ディープニューラルネットワーク)と、ラベルの時間変化をモデル化したHMM (Hidden Markov Model:隠れマルコフモデル)の２つのモデルで表現している。

End-to-endモデルはDNN-HMMより後に提案されたモデルである。End-to-endモデルでは音響モデルをDNN-HMMのように２つのモデルに分けずに、１個のモデルで表現する方式である。End-to-endモデルはDNN-HMMと比べて、HMMを用いないため、音声認識処理が単純かつ高速であるという利点がある。End-to-endモデルの例としてはCTC (Connectionist Temporal Classification)やAttentionモデルが存在する。以降、End-to-endモデルについて、CTC音響モデルを例に説明する。

上述した認識技術の関連技術として、ナレッジディスティレーション（KD : Knowledge distillation）とよばれるDNN学習方法がある。ナレッジディスティレーションは、学習済みの複雑かつ高性能なモデルの情報を単純かつ低性能なモデルに写すのに使われる手法である。例えば、高性能ではあるが、構造が複雑であり、システムに適用することが困難なモデルと、構造は単純であるが、性能が低いモデルが存在する場合を考える。ナレッジディスティレーションでは前者を教師モデル、後者を生徒モデルと定義し、教師モデルの出力を正解ラベルの代わりに用いて生徒モデルを学習させる。これにより、教師モデルの知識を生徒モデルに伝搬させることができる。

下記特許文献１および特許文献２においては、CTCを用いた音声認識装置が開示されている。

下記非特許文献１においては、CTCに関する技術が開示されている。また、下記非特許文献２においては、ナレッジディスティレーションに関する技術が開示されている。

特開２０１７−１６１３１号公報特開２０１７−４０９１９号公報

Alex Graves, Santiago Fernandez, Faustino Gomez, and Jurgen Schmidhuber, "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks", ICML2006, pp. 369-376, 2006 Geoffrey Hinton, Oriol Vinyals, and Jeff Dean, "Distilling the knowledge in a neural network", in NIPS Deep Learning and Representation Learning Workshop, 2014

CTCは時系列データを扱うため、RNN (Recurrent neural network：再帰型ニューラルネットワーク)を内部に持つ必要がある。RNNには過去の情報だけを考慮するUnidirectional RNNと、過去、未来両方の情報を用いるBidirectional RNNの２種類が存在する。Bidirectional RNNを用いた場合、音声認識率は高いが、未来の情報を用いるため、リアルタイム処理が困難である。Unidirectional RNNを用いればリアルタイム処理に適用可能となるが、音声認識率は低下する。

本発明は、学習対象であるモデルの構造を変えることなく、学習対象であるモデルの認識率を、より構造が複雑な教師モデルの認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。

上記課題を解決するため、本実施の形態の学習システムは以下のとおり構成される。本実施の形態の学習システムは、時系列情報を認識するシステムを構成するために、ニューラルネットワークを学習するシステムである。

本実施の形態の学習システムは、時系列情報を表現可能なニューラルネットワークを内部に有する第１のモデルと、時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第１のモデルよりも構造が複雑な第２のモデルと、前記第１のモデルを生徒モデルとし、前記第２のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第１のモデルを学習する第１のモデル学習部と、を備える。

前記第１のモデル学習部は、複数のフレームデータを含む第１の時系列データを前記第１のモデルに入力し、前記第１のモデルの第１の出力結果として、ラベル系列候補群のそれぞれの確率を得る第１の出力部と、前記複数のフレームデータを含む前記第１の時系列データを前記第２のモデルに入力し、前記第２のモデルの第２の出力結果として、ラベル系列候補群のそれぞれの確率を得る第２の出力部と、前記第１の出力結果と前記第２の出力結果との差を評価する評価部と、前記評価部における評価結果に基づいて、前記第１のモデルを学習させる第１のモデル学習部と、を備える。

第１のモデルは、本実施の形態の学習システムにおいて、拡張されたナレッジディスティレーションによって学習されている。つまり、フレームごとに出力された出力値の確率値ではなく、時系列で出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることに成功している。

したがって、第１のモデルは、教師モデルである第２のモデルと比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、第１のモデルは第２のモデルと比較すると構造が単純であるため、ハードウェアとして実装する場合には回路規模を小さくすることができる。また、第１のモデルは第２のモデルと比較すると構造が単純であるため、ソフトウェアとして実装する場合には、ＣＰＵ、メモリ等の資源に高い性能を要求しない。したがって、第１のモデルを実装する認識システムをスマートフォンやタブレットなどの端末でも利用することが可能である。

また、本実施の形態の時系列情報の学習システムにおいて、前記第１のモデルおよび前記第２のモデルはリカレントニューラルネットワークを内部に有するモデルを含む。

また、本実施の形態の時系列情報の学習システムにおいて、前記第１のモデルおよび前記第２のモデルはCTC(Connectionist Temporal Classification)モデルを含む。

また、本実施の形態の時系列情報の学習システムにおいて、前記第１のモデルは、Unidirectional-CTCモデルであり、前記第２のモデルはBidirectional-CTCモデルである。学習された第１のモデルであるUnidirectional-CTCモデルは、第２のモデルであるBidirectional-CTCモデルとは異なり未来の入力を必要としないため、リアルタイム性の高い処理を実現可能である。また、第１のモデルはハードウェアやソフトウェアの実装上有利である。

また、本実施の形態の時系列情報の学習システムにおいて、前記時系列情報は音声情報である。学習された第１のモデルにより、音声情報を高い認識率で認識可能である。また、構造が複雑な音響モデルを利用する場合と比べてリアルタイム性を向上させることができる。

また、本実施の形態は、上記の時系列情報の学習システムにおいて学習されたニューラルネットワークモデルも対象である。上記の時系列情報の学習システムにおいて学習されたニューラルネットワークモデルを利用した認識システムを構築することで、ハードウェアやソフトウェアに高い負荷を掛けることなく、高い精度の認識結果を得ることができる。

また、本実施の形態の学習方法は以下の工程を備える。本実施の形態の学習システムは、時系列情報を認識するシステムを構成するために、時系列情報を表現可能なニューラルネットワークを内部に有する第１のモデルを学習する学習方法である。

本実施の形態の学習システムは、（ａ）時系列情報を表現可能なニューラルネットワークを内部に有し、前記第１のモデルよりも構造が複雑な第２のモデルを、正解ラベルを用いて学習する第２のモデル学習工程と、（ｂ）前記第１のモデルを生徒モデルとし、前記第２のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第１のモデルを学習する第１のモデル学習工程と、を備える。

また、前記第１のモデル学習工程（ｂ）は、（ｂ−１）複数のフレームデータを含む第１の時系列データを前記第１のモデルに入力する工程と、（ｂ−２）前記複数のフレームデータを含む前記第１の時系列データを前記第２のモデルに入力する工程と、（ｂ−３）前記複数のフレームデータを含む前記第１の時系列データに対応して得られた前記第１のモデルの第１の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、（ｂ−４）前記複数のフレームデータを含む前記第１の時系列データに対応して得られた前記第２のモデルの第２の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、（ｂ−５）前記工程（ｂ−３）において得られた前記第１の出力結果と、前記工程（ｂ−４）において得られた前記第２の出力結果との差を評価する評価工程と、（ｂ−６）前記評価工程の評価結果に基づいて、前記第１のモデルを学習させる工程と、を含む。

本実施の形態の学習システムあるいは学習方法で学習される第１のモデルは、教師モデルである第２のモデルと比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、第１のモデルは第２のモデルと比較して構造が単純であるため、ハードウェアとして実装する場合であっても、ソフトウェアとして実装する場合であっても、コンピュータやデバイスに対する性能の要求を低くすることができる。また、第１のモデルは第２のモデルと比較して構造が単純であるため、第２のモデルを用いて認識処理を実行する場合と比較してリアルタイム性を向上させることができる。

本実施の形態に係る時系列情報処理システムにおける学習フェーズと認識フェーズの処理の流れを示す図である。本実施の形態に係る時系列情報処理システムが備える学習システムのブロック図である。正解ラベルによる、ニューラルネットワークの学習方法を示す図である。一般的なDNNの構造を示す図である。教師モデルが有するBidirectional-RNNを示す図である。ナレッジディスティレーションによるニューラルネットワークの学習方法を示す図である。生徒モデルが有するUnidirectional-RNNを示す図である。本実施の形態による拡張されたナレッジディスティレーションによる学習方法を示す図である。本実施の形態に係る時系列情報処理システムが備える認識システムのブロック図である。本実施の形態の学習効果を示す実験例を示す図である。

以下、添付の図面を参照しながら、本実施の形態に係る時系列情報処理システムについて説明する。本実施の形態に係る時系列情報処理システムは、時系列情報を入力して学習するとともに、時系列情報を入力し、時系列情報の認識結果を出力するシステムである。時系列情報は、時間の経過に伴って連続的に入力される情報である。時系列情報として、本実施の形態では音声情報を例に説明する。しかし、本実施の形態の時系列情報処理システムは、音声情報のみならず、他の時系列情報を認識するシステムとしても利用できる。例えば、他の時系列情報としては、時間の経過に伴って連続的に入力される動画像情報や、センシング情報などが挙げられる。

本実施の形態の時系列情報処理システムは、時系列情報を認識するためのモデルを学習する学習システムと、学習システムによって学習されたモデルを利用して、時系列情報を認識する認識システムとから構成されている。

以下の説明においては、時系列情報として音声情報を例として説明する。つまり、本実施の形態の時系列情報処理システムとして、音声情報を認識するための音響モデル２３を学習する学習システム１０と、学習システム１０によって学習された音響モデル２３を利用して、音声情報を認識する認識システム２０を例に説明する。

｛１．時系列情報処理システムにおける学習フェーズと認識フェーズの処理の流れ｝
図１は、本実施の形態に係る時系列情報処理システムの全体の流れを示す図である。本実施の形態の時系列情報処理システムは、学習フェーズと認識フェーズの２つのフェーズを有している。学習フェーズにおいては、学習システム１０において、音響モデル２３の学習が行われる。認識フェーズでは、認識システム２０において、学習された音響モデル２３を利用して音声情報の認識が行われる。学習システム１０と認識システム２０とは、同一のコンピュータや、デバイス上に実装されてもよいし、別のコンピュータやデバイス上に実装されてもよい。

図１に示すように、学習システム１０に入力された音声データは、特徴量計算部１１において特徴量が計算される。特徴量計算部１１において計算された音声データの特徴量は、フレームごとに音響モデル学習部１２に入力される。音響モデル学習部１２よって、音響モデル２３の学習が行われる。後で詳しく説明するが、音響モデル学習部１２は、既に学習されている音響モデル１３を教師モデルとして、音響モデル２３の学習を行う。音響モデル学習部１２は、教師モデルである音響モデル１３から出力された複数のラベル系列とその出力確率を教師として、音響モデル２３の学習を行う。

認識システム２０に入力された音声データは、特徴量計算部２１において特徴量が計算される。特徴量計算部２１において計算された音声データの特徴量は、フレームごとにデコーダ２２において分析される。デコーダ２２は、学習フェーズで学習された音響モデル２３、発音辞書２４および言語モデル２５を利用して、音声データの認識結果を出力する。

｛２．学習システムの構成｝
次に、図２〜図８を参照しながら、学習システムの構成と学習処理の方法について説明する。

図２は、学習システム１０の機能ブロック図である。学習システム１０は、図１でも示したように、特徴量計算部１１および音響モデル学習部１２を備えている。音響モデル学習部１２は、ラベル推定部１２１、ラベル推定部１２２、ラベル系列評価部１２３および学習部１２４を備えている。学習システム１０は、また、音響モデル１３および音響モデル２３を備えている。

特徴量計算部１１は、時系列情報として音声データを入力する。特徴量計算部１１は、音声データの波形を２０ｍｓ〜３０ｍｓのフレームデータに分解し、フレームごとの特徴量を抽出する。特徴量計算部１１は、従来から行われている方法によって音声データの特徴量を抽出する。特徴抽出方法としては例えば、メルフィルタバンク分析やメル周波数ケプストラム分析などが挙げられる。

＜２−１．音響モデル１３（教師モデル）によるラベル（音素）の出力＞
特徴量計算部１１において計算された各フレームの特徴量は、ラベル推定部１２１に入力される。ラベル推定部１２１は、入力されたフレームデータについて、音響モデル１３を用いてラベルごとの確率に変換する。

ラベルは、例えばa,iといった音素、あるいは仮名、文字、単語といった単位であらかじめ定義される。CTCモデルにおいては前記に加えて、他のどのラベルにも当てはまらないことを示す「ブランク(-)」のラベルもラベル集合に含まれる。本実施形態においては、音素、ノイズ、ブランクでラベルの集合を定義している。ラベル推定部１２１は、入力された各フレームに対して、前記ラベルそれぞれの確率値を出力する。

音響モデル１３は、本実施の形態においては、Bidirectional-CTCを用いている。Bidirectional-CTCは、時系列情報を扱うDNN(Deep neural network)の一種であるBidirectional-RNN (Recurrent neural network:リカレントニューラルネットワーク)を内部に有するCTC(Connectionist Temporal Classification)モデルである。CTCは、End-to-endモデルの一例である。CTCでは、長さの異なる入出力系列(本実施形態では音声フレーム系列とラベル系列)間の変換が可能なフレームワークである。CTCでは、フレーム毎に割り振られたラベルに対して、同一ラベルの削除と、ブランクラベル(−)の削除を行うことで、認識結果であるラベル系列を出力する。例えば７フレームの入力データに対して“a a - k - i -”と割り振られている場合、認識結果としては“aki”というラベル系列を出力する。

本実施の形態では、音響モデル１３として、End-to-endモデルを利用することを特徴としている。本実施の形態においては、音響モデル１３として、End-to-endモデルの一例であるCTCを用いているが、End-to-endモデルとしては他にAttentionモデルを用いることができる。

また、本実施の形態においては、音響モデル１３として、Bidirectional-RNNを内部に有するモデルを用いているが、その限りでは無く、時系列情報を扱えるニューラルネットワークであれば適用可能である。時系列情報を扱えるニューラルネットワークの例としては、Bidirectional-RNNの他にUnidirectional-RNN、Time-delay neural networkなどが挙げられる。また前述のRNNはLSTM (Long short term memory)のような類似モデルにも置き換え可能である。ただし、音響モデル１３は音響モデル２３よりも構造が複雑かつ高性能なモデルであることが本実施の形態の学習方法を利用した効果に繋がる。

音響モデル１３は、既に学習が完了している教師モデルである。教師モデルである音響モデル１３は、事前に、音声データと正解ラベル系列のセットからなる学習データを用いて学習されている。

音響モデル１３は、従来のCTCの学習方法に従って学習される。すなわち、学習データを入力して、正解の音素系列の確率が最大になるように学習する。確率の計算方法は従来のforward-backwardアルゴリズムが用いられる。また、モデルパラメータの更新には、誤差逆伝搬法が用いられる。

図３は、一般的なニューラルネットワークを正解ラベルを用いて学習する方法を示した図である。ニューラルネットワークの入力層に学習データ（本実施形態の例だと１フレームの音声データに相当）が入力される。そしてニューラルネットワークの計算結果として出力層から各ラベルの確率（確率分布）が出力される。このとき、学習データに対応するラベルの確率を１、他のラベルの確率を０とするベクトルを正解の確率分布として、二つの確率分布の距離が小さくなるようにニューラルネットワークを学習する。距離尺度としてはクロスエントロピーやユークリッド距離が使われる。

図４は一般的なDNN３３を示す図である。DNN３３は入力層と複数の中間層(隠れ層)、出力層を有する。図４の例では入力層３３１と４個の中間層３３２、３３３、３３４および３３５、そして出力層３３６を有している。ここでは図の簡単化のため一般的なDNN３３で例示するが、本実施形態の音響モデル１３においては前後フレーム間でも結合を持つRNNを使用している。

入力層３３１へは、特徴量計算部１１によって計算された、１フレーム分の特徴量ベクトルが入力される。すなわち、入力層のノード３３１（１）〜３３１（ｎ１）の数は、特徴量の次元数に相当する。

本実施の形態においては、中間層３３２は、ｎ２個のノード３３２（１）、３３２（２）・・・３３２（ｎ２）を、中間層３３３は、ｎ３個のノード３３３（１）、３３３（２）・・・３３３（ｎ３）を、中間層３３４は、ｎ４個のノード３３４（１）、３３４（２）・・・３３４（ｎ４）を、中間層３３５は、ｎ５個のノード３３５（１）、３３５（２）・・・３３５（ｎ５）を、有している。各中間層のノード数は、異なっていてもよい。また、各中間層のノード数は入力層と異なっていてもよい。

本実施の形態においては、出力層３３６は、各ラベルに対応したノードを含んでいる。出力層のノード数はラベルの数に相当する。

音声データに含まれるフレームデータの特徴量が、ｎ１次元のデータ（特徴量ベクトル）として入力層３３１（１）、３３１（２）・・・３３１（ｎ１）に入力される。上述したように、ここでは一般的なDNN３３を図を使って説明しているが、本実施の形態で利用されるBidirectional-CTCである音響モデル１３は、過去のフレームデータの情報および未来のフレームデータの情報を参照しながら、各中間層で演算を行い、出力層においてラベルごとの確率値を出力する。例えば、
ａ：０．１２
ｂ：０．０５
ｃ：０．０３
・・・
ｚ：０．０９
ブランク：０．０２
といったように、フレームデータがいずれのラベルに対応するかを示す確率値を算出する。

図５は、本実施形態において音響モデル１３が有する、Bidirectional-RNNの処理を示す。図５において、横軸は時間である。縦方向に並ぶ一系統のブロックがある時刻のBidirectional-RNNを示している。各時刻のBidirectional-RNNの各層は１つのブロックで示している。つまり、図５の各ブロックは、図４のように複数のノードからなるニューラルネットワークの各層を表している。

ある時間に入力層１３１に入力されたフレームデータは、中間層１３２、１３３・・・と伝播して出力層１３６から出力される。このとき、中間層１３２、１３３・・・では、図中で各ブロックから横方向に伸びた線で示されている通り、前後の時刻の中間層１３２、１３３・・・の出力も入力される。

図５で示す例では、時刻ｔ１においては、音素の候補がブランク（−）として出力されたことを示している。出力層１３６からは、ラベルごとの確率が出力されるが、その中でブランクの確率が一番高かったことを示している。

同様に、時時刻ｔ２では“a”が、時刻ｔ３では、ブランク（−）、時刻ｔ４では“ｋ”、時刻ｔ５では“ｉ”、時刻ｔ６ではブランク（−）が音素の候補として出力されていることを示している。

＜２−２．音響モデル２３（生徒モデル）によるラベル（音素）の出力＞
再び、図２を参照する。特徴量計算部１１において計算された特徴量は、また、ラベル推定部１２２に入力される。ラベル推定部１２２は、ラベル推定部１２１と同様、音声データに含まれる特徴量をフレームごとに入力し、音響モデル２３を用いて、フレームデータをラベルごとの確率に変換する。ラベル推定部１２２は、音声データに含まれるフレームデータを、ラベルごとの確率値として出力する。

ラベル推定部１２２もラベル推定部１２１と同様にラベルごとの確率値を出力する。ここでラベルの定義は、音響モデル１３、ラベル推定部１２１、音響モデル２３およびラベル推定部１２２において同じ定義である。

音響モデル２３は、音響モデル１３を教師モデルとして学習されるモデルである。生徒モデルである音響モデル２３は、音響モデル１３よりも構造の複雑度の小さいモデルである。ここで、構造が複雑なモデルとは、例えば、中間層（隠れ層）の数が多いモデルである。あるいは、構造が複雑なモデルとは、ノードの数の多いモデルである。また、構造が複雑なモデルとしては、他にもCNN (Convolution neural network)のように計算処理量の多い層を有するモデルや、リカレント構造を有するモデルなどがある。

生徒モデルである音響モデル２３は、正解ラベルを用いた学習は行われない。音響モデル２３は、音響モデル１３を教師モデルとしてナレッジディスティレーションにより学習される。

音響モデル２３は、本実施の形態においては、Unidirectional-CTCを用いている。Unidirectional-CTCは、Unidirectional-RNNを内部に有するCTCモデルである。音響モデル２３は音響モデル１３と同様、End-to-endモデルの一例であり、CTCの他にAttentionモデルを使用することができ、また内部のニューラルネットワークもRNN、LSTM、Time-delay neural networkなどに変更可能である。ただし、音響モデル２３は音響モデル１３よりも単純かつ性能の低いモデルであることが本実施の形態の学習方法を利用した効果に繋がる。

本実施の形態においては、教師モデルとしては前後の時間の情報を参照するリカレントニューラルネットワーク(Bidirectional-CTC)を用いるのに対して、生徒モデルとして過去の時間の情報を参照するリカレントニューラルネットワーク(Unidirectional)を用いている。したがって、教師モデルである音響モデル１３は、生徒モデルである音響モデル２３より構造が複雑なモデルである。ただし、これは音響モデル１３および音響モデル２３の一例である。本実施の形態においては、音響モデル１３および音響モデル２３は、時系列情報を表現可能なニューラルネットワークであること、つまり、End-to-endモデルのニューラルネットワークであることと、音響モデル１３に比べて構造が複雑でない音響モデル２３を利用すればよく、その他のモデルを利用してもよい。たとえば、音響モデル１３、２３ともに、Bidirectional-CTCを用い、音響モデル１３よりも構造が複雑でない音響モデル２３を利用してもよい。あるいは、音響モデル１３、２３ともに、Unidirectional-CTCを用い、音響モデル１３よりも構造が複雑でない音響モデル２３を利用してもよい。

生徒モデルである音響モデル２３は、教師モデルである音響モデル１３の認識能力を転移させることで学習を行う。例えば、生徒モデルは、比較的処理能力の小さいコンピュータやスマートフォンなどで利用させることを前提とした比較的構造の簡単なモデルである。正解モデルを利用して学習された構造の複雑な音響モデル１３の認識能力を、音響モデル２３に転移させることで、教師モデルの高い認識精度を転移させることができる。

図６は、一般的なフレーム単位のナレッジディスティレーションを説明する図である。生徒モデルの入力層に、１フレームの音声データが入力される。また、教師モデルの入力層にも、生徒モデルに入力されたフレームデータと同じフレームデータが入力される。

入力された１フレームの音声データは、それぞれ教師モデルと生徒モデルの中間層を伝搬し、出力層において、各ラベルの確率値として出力される。ナレッジディスティレーションによる学習方式では、それぞれのモデルから出力されるラベルごとの確率値（ラベルの確率分布）が近くなるように、生徒モデルを学習する。確率分布の近さを測る指標としては、クロスエントロピーやカルバックライブラーダイバージェンスが用いられる。従来のナレッジディスティレーションによる学習をそのままCTCの学習に用いる場合、音響モデル２３がフレームごとに出力するラベルの確率分布と音響モデル１３がフレームごとに出力する確率分布を用いて、フレームごとの確率分布が近くなるように音響モデル２３を学習することになる。つまり、従来のナレッジディスティレーションではフレーム独立な学習基準になっている。しかし、本実施の形態の学習システムにおいては、フレームごとの各ラベルの確率値を単純に評価するのではなく、新しい手法（拡張ナレッジディスティレーションと呼ぶ）により２つのモデルの差を評価する。この評価方法については後で詳しく説明する。

図７は音響モデル２３が有するUnidirectional-RNNを示す図である。図において、時間ｔ１においては、音素の候補がブランク（−）として出力されたことを示している。また、時間ｔ２では“ａ”、時間ｔ３では、ブランク（−）、時間ｔ４では“ｋ”、時間ｔ５では“ｉ”、時間ｔ６ではブランク（−）が音素の候補として出力されていることを示している。

＜２−３．拡張ナレッジディスティレーションによる学習処理＞
再び図２を参照する。ラベル系列評価部１２３は、ラベル推定部１２１が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部１２１は、教師モデル１３を用いて、フレームデータごとにラベルごとの確率値を出力する。具体的には、ラベル推定部１２１は、教師モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部１２３は、フレームごとに出力されたラベルごとの確率値を入力する。

図８は、ラベル系列評価部１２３が入力するラベルごとの確率値の例を示している。図９の右側が、教師モデルである音響モデル１３から出力されたラベルごとの確率値を示している。図の例では、時間ｔ１、ｔ２およびｔ３の各時間において、ラベルごとの確率値が示されている。時間ｔ１では、ラベル“ａ”の確率値が他のラベルの確率値よりも高く、時間ｔ１のフレームデータはラベル“a”である可能性が高いことを示している。同様に、時間ｔ２では、ラベル“ｋ”である可能性が高いことを示している。

再び図２を参照する。ラベル系列評価部１２３は、ラベル推定部１２２が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部１２２は、生徒モデル２３を用いて、フレームごとにラベルごとの確率値を出力する。具体的には、ラベル推定部１２２は、生徒モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部１２３は、フレームごとに出力されたラベルごとの確率値を入力する。

図８の左側が、生徒モデルである音響モデル２３から出力されたラベルごとの確率値を示している。図の例では、時間ｔ１、ｔ２およびｔ３の各時間において、ラベルごとの確率値が示されている。時間ｔ１では、音素“ａ”の確率値が他のラベルの確率値よりも高く、時間ｔ１のフレームデータはラベル“a”である可能性が高いことを示している。同様に、時間ｔ２では、ラベル“ｋ”である可能性が高いことを示している。

ラベル系列評価部１２３は、教師モデルである音響モデル１３が出力したラベルごとの確率値から、ラベル系列候補群の確率値を算出する。図８に示した例であれば、ラベル系列評価部１２３は、音響モデル１３が出力したラベルごとの確率値から、以下のラベル系列候補群の確率値を算出している。
aki : 0.5
akai : 0.004
ai : 0.03
・・・

全てのラベル系列を展開することは現実的に困難なため、ラベル系列評価部１２３は、例えば、確率値の高い上位１０個のラベル系列をラベル系列候補として採用する。

ラベル系列の確率値の算出方法は特に限定されるものではないが、その一例を示す。例えば、ラベル系列“aki”に対応する音声データは多くのパターンが存在する。たとえば、音声データが７フレームのフレームデータであると仮定すると、ラベル系列“aki”に対応する音声データは、
aakk--i
aa-kkki
akk--ii
akkii--
など多くのパターンが存在する。個々のラベル系列の確率値を、ラベルごとの確率値の乗算で表することにより、ラベル系列“aki”に対応する１つのパターン（例えば、aakk-i）の確率値を算出することができる。そこで、ラベル系列“aki”の確率値としては、個々のパターンの確率値の加算を用いることや、最も高い確率値が得られたパターンの確率値を採用するなどの方法が考えられる。

ラベル系列評価部１２３は、各ラベル系列“aki”、“akai”、“ai”などの確率値を算出すると、上述したように、例えば確率値の高い上位１０個のラベル系列を、ラベル系列候補として採用する。

ラベル系列評価部１２３は、生徒モデルである音響モデル２３が出力したラベルごとの確率値からも、同様に、ラベル系列候補群の確率値を算出する。図８に示した例であれば、ラベル系列評価部１２３は、音響モデル２３が出力したラベルごとの確率値から、以下のラベル系列候補群の確率値を算出している。
aki : 0.3
akai : 0.1
ai : 0.05
・・・

生徒モデルである音響モデル２３が出力したラベルごとの確率値から、ラベル系列候補群の確率値を算出する方法は、上述した教師モデルの場合と同様であるため、説明を省略する。

ラベル系列評価部１２３は、音響モデル１３および音響モデル２３について、それぞれラベル系列候補群の確率値（ラベル系列の確率分布）を算出すると、音響モデル１３および音響モデル２３について算出されたラベル系列の確率分布との距離を、損失関数を用いて算出する。損失関数としてはクロスエントロピーやカルバックライブラーダイバージェンスが挙げられる。本実施の形態において重要となるのは、音響モデル１３および音響モデル２３について算出されたフレームごとのラベルの確率値の差を評価するのではなく、音響モデル１３および音響モデル２３について算出されたラベル系列候補群の確率値の差を評価することである。

本実施の形態の時系列情報処理システム１で用いられる音響モデルは、End-to-endのモデルであり、時系列情報を表現可能なニューラルネットワークである。したがって、フレームごとに出力されたラベルごとの確率値を評価しても、学習の精度が上がらないことが発明者らによって確認された。そこで、フレームごとに出力されたラベルごとの確率値ではなく、シーケンスレベルで出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることができるのである。

ラベル系列評価部１２３において、ラベル系列候補群の確率分布の距離が計算されると、学習部１２４が、距離を最小化させるように音響モデル２３を学習する。学習には、従来から用いられている方法、例えば誤差逆伝播法が利用される。

｛３．認識システムの構成｝
図９は、本実施の形態に係る認識システム２０の構成である。認識システム２０は、特徴量算出部２１、デコーダ２２、音響モデル２３、発音辞書２４および言語モデル２５を備えている。

特徴量計算部２１は、時系列情報として音声データを入力する。特徴量計算部２１は、音声データの波形をフレームデータに分解し、フレームごとの特徴量を抽出する。特徴量計算部２１は、従来から行われている方法によって音声データの特徴量を抽出する。特徴抽出方法としては例えば、メルフィルタバンク分析やメル周波数ケプストラム分析などが挙げられるが、学習時に使用していた特徴量計算部１１と分析条件を合わせる必要がある。

特徴量計算部２１において算出されたフレームごとの特徴量はデコーダ２２に入力される。デコーダ２２は、上述した学習処理によって学習された音響モデル２３を備えている。デコーダ２２は、音声データの特徴量をフレームごとに音響モデル２３に入力し、フレームをラベルごとの確率値に変換する。本実施形態においてラベルは音素によって定義されているので、デコーダ２２は、音響モデル２３によって、音素ごとの確率値に変換することになる。

デコーダ２２は、音響モデル２３から得られた音素ごとの確率値を元に、発音辞書データベース２４と言語モデル２５を参照し最も確率の高い認識結果を出力する。発音辞書データベース２４は、単語と、それを構成する音素列からなる。たとえば“こんにちは”という単語に対しては、音素列/k/o/N/n/i/ch/i/w/a/が定義されている。

言語モデル２５は単語間のつながりをモデル化してものである。例えば“こんにちは”という単語に対して、次にどの単語が現れやすいかをモデル化している。言語モデル化方式としては、従来のn-gramやRNNモデルが挙げられる。デコーダ２２は、音響モデル２３から得られた確率値、発音辞書データベース２４、言語モデル２５が示す確率値を元に、最も確率の高い単語系列を音声認識結果として出力する。最も確率値の高い単語系列の探索方法としては、ビームサーチ法などが挙げられる。

このように認識システム２０では、学習システム１０で学習された音響モデル２３が利用される。上述したように、音響モデル２３は、本実施の形態の学習システム１０において、拡張されたナレッジディスティレーションによって学習されている。つまり、フレームごとに出力されたラベルごとの確率値ではなく、シーケンスレベルで出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることに成功している。したがって、教師モデルである音響モデル１３と比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、音響モデル２３は音響モデル１３と比較すると構造が単純であるため、ハードウェアとして実装する場合には回路規模を小さくすることができる。また、音響モデル２３は構造が単純であるため、ソフトウェアとして実装する場合には、ＣＰＵ、メモリ等の資源に高い性能を要求しない。したがって、本実施の形態の認識システム２０をスマートフォンやタブレットなどの端末でも利用することが可能である。また、音響モデル２３の構造が音響モデル１３と比較して単純であるため、リアルタイム性の向上を図ることができる。

このように本実施の形態の学習システム１０は、学習対象である音響モデル２３の構造を変えることなく、音響モデル２３の認識率を、より構造が複雑な教師モデルである音響モデル１３の認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。具体的には、Unidirectional RNNベースのCTC (Uni-CTC)の構造を変えることなく、認識率をBidirectional RNNベースのCTC (Bi-CTC)に近づけることで、リアルタイム性と音声認識率を両立したEnd-to-end音響モデルを得ることが可能である。

｛４．実験結果｝
図１０は、本実施の形態の学習方法による実験結果を示す図である。評価データはWSJコーパスと呼ばれる英語音声データベースを用いている。特徴量は４０次元のメルフィルタバンク特徴量とその１次および２次デルタ特徴量を用いた（計１２０次元）。ラベルは７２種類の音素と２種類のノイズ、そしてブランクによって定義した。教師モデルにはBidirectional-LSTMを有するBidirectional-CTCを、生徒モデルにはUnidirectional-LSTMを有するUnidirectional-CTCを使用した。それぞれの中間層の数は３であり、各中間層のメモリセル数は５１２である。図の上段は、WSJコーパス内のtrain_si84と呼ばれる、１５時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は10.35%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は11.77％である。

これに対して、従来から行われているフレームレベルでのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は16.04%であり、通常の学習法より悪化した。一方、本実施の形態の学習方法であるシーケンスレベル（系列単位）でのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は10.83％となり、性能差が66.2％改善されたことが分かる。

図１０の下段は、WSJコーパス内のtrain_si284と呼ばれる、８１時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は8.70%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は10.37％である。

これに対して、従来から行われているフレームレベルでのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は12.71%であり、通常の学習法より悪化した。一方、本実施の形態の学習方法であるシーケンスレベル（系列単位）でのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は9.57％となり、性能差が47.9％改善されたことが分かる。

上記の実験結果は、教師モデルと生徒モデルがそれぞれ３層の中間層を有する例であるが、中間層の数やノード数を教師モデルと生徒モデルで統一する必要は無い。例えば教師モデルの中間層を４層、生徒モデルの中間層を２層というような条件であっても、同様の効果が期待できる。

なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１時系列情報処理システム
１０学習システム
１３教師モデル
２０認識システム
２３生徒モデル

Claims

時系列情報を認識するシステムを構成するために、ニューラルネットワークを学習するシステムであって、
時系列情報を表現可能なニューラルネットワークを内部に有する第１のモデルと、
時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第１のモデルよりも構造が複雑な第２のモデルと、
前記第１のモデルを生徒モデルとし、前記第２のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第１のモデルを学習する第１のモデル学習部と、
を備え、
前記第１のモデル学習部は、
複数のフレームデータを含む第１の時系列データを前記第１のモデルに入力し、前記第１のモデルの第１の出力結果として、ラベル系列候補群のそれぞれの確率を得る第１の出力部と、
前記複数のフレームデータを含む前記第１の時系列データを前記第２のモデルに入力し、前記第２のモデルの第２の出力結果として、ラベル系列候補群のそれぞれの確率を得る第２の出力部と、
前記第１の出力結果と前記第２の出力結果との差を評価する評価部と、
前記評価部における評価結果に基づいて、前記第１のモデルを学習させる第１のモデル学習部と、
を備える時系列情報の学習システム。
請求項１に記載の時系列情報の学習システムであって、
前記第１のモデルおよび前記第２のモデルはリカレントニューラルネットワークを内部に有するモデルを含む、時系列情報の学習システム。
請求項２に記載の時系列情報の学習システムであって、
前記第１のモデルおよび前記第２のモデルはCTC(Connectionist Temporal Classification)モデルを含む、時系列情報の学習システム。
請求項３に記載の時系列情報の学習システムであって、
前記第１のモデルは、Unidirectional-CTCモデルであり、前記第２のモデルはBidirectional-CTCモデルである、時系列情報の学習システム。
請求項１ないし請求項４のいずれかに記載の時系列情報の学習システムであって、
前記時系列情報は音声情報を含む、時系列情報の学習システム。
時系列情報を認識するシステムを構成するために、時系列情報を表現可能なニューラルネットワークを内部に有する第１のモデルを学習する学習方法であって、
（ａ）時系列情報を表現可能なニューラルネットワークを内部に有し、前記第１のモデルよりも構造が複雑な第２のモデルを、正解ラベルを用いて学習する第２のモデル学習工程と、
（ｂ）前記第１のモデルを生徒モデルとし、前記第２のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第１のモデルを学習する第１のモデル学習工程と、
を備え、
前記第１のモデル学習工程（ｂ）は、
（ｂ−１）複数のフレームデータを含む第１の時系列データを前記第１のモデルに入力する工程と、
（ｂ−２）前記複数のフレームデータを含む前記第１の時系列データを前記第２のモデルに入力する工程と、
（ｂ−３）前記複数のフレームデータを含む前記第１の時系列データに対応して得られた前記第１のモデルの第１の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
（ｂ−４）前記複数のフレームデータを含む前記第１の時系列データに対応して得られた前記第２のモデルの第２の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
（ｂ−５）前記工程（ｂ−３）において得られた前記第１の出力結果と、前記工程（ｂ−４）において得られた前記第２の出力結果との差を評価する評価工程と、
（ｂ−６）前記評価工程の評価結果に基づいて、前記第１のモデルを学習させる工程と、
を含む時系列情報の学習方法。