[go: up one dir, main page]

JP2019159654A - 時系列情報の学習システム、方法およびニューラルネットワークモデル - Google Patents

時系列情報の学習システム、方法およびニューラルネットワークモデル Download PDF

Info

Publication number
JP2019159654A
JP2019159654A JP2018044134A JP2018044134A JP2019159654A JP 2019159654 A JP2019159654 A JP 2019159654A JP 2018044134 A JP2018044134 A JP 2018044134A JP 2018044134 A JP2018044134 A JP 2018044134A JP 2019159654 A JP2019159654 A JP 2019159654A
Authority
JP
Japan
Prior art keywords
model
time
learning
label
series information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018044134A
Other languages
English (en)
Other versions
JP7070894B2 (ja
Inventor
遼一 高島
Ryoichi Takashima
遼一 高島
勝 李
Sheng Li
勝 李
恒 河井
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2018044134A priority Critical patent/JP7070894B2/ja
Publication of JP2019159654A publication Critical patent/JP2019159654A/ja
Application granted granted Critical
Publication of JP7070894B2 publication Critical patent/JP7070894B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】第1のモデルの構造を変えることなく、第1のモデルの認識率を、より構造が複雑な第2のモデルの認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。【解決手段】学習システム10は、第1のモデル23と第1のモデルよりも構造が複雑な第2のモデル13と、第1のモデルを生徒モデルとし、第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて第1のモデルを学習する第1のモデル学習部とを備える。学習部は、第1および第2のモデルから出力された、複数のフレームデータを含む第1の時系列データに対応するラベル系列候補群のそれぞれの確率を評価し、評価結果に基づいて、第1のモデルを学習させる。【選択図】図2

Description

本発明は時系列で入力された情報を、ニューラルネットワークを用いて認識する技術に関する。詳しくは、時系列情報を処理するシステムで利用されるニューラルネットワークのモデルを学習する技術、および、その学習によって得られたニューラルネットワークのモデルに関する。
音声情報や動画像情報などは、時間的な変化を伴う情報であり、時間の経過とともに連続的に入力される情報である。
人が発声した音声や各種の音源から音声情報を取得し、音声情報を認識する音声認識システムがある。音声認識システムは発話された音声波形を分析し、音響モデル、発音辞書、言語モデルと呼ばれるデータベースと照合することで、発話内容(文章)を出力するものである。
従来の音響モデルとして、DNN-HMMモデルがある。DNN-HMMはニューラルネットワークベースの音声認識として主流の方法である。DNN-HMMモデルは、ある時刻の音声特徴量に対してどのラベル(例えば音素)の確率が高いかをモデル化したDNN (deep neural networks:ディープニューラルネットワーク)と、ラベルの時間変化をモデル化したHMM (Hidden Markov Model:隠れマルコフモデル)の2つのモデルで表現している。
End-to-endモデルはDNN-HMMより後に提案されたモデルである。End-to-endモデルでは音響モデルをDNN-HMMのように2つのモデルに分けずに、1個のモデルで表現する方式である。End-to-endモデルはDNN-HMMと比べて、HMMを用いないため、音声認識処理が単純かつ高速であるという利点がある。End-to-endモデルの例としてはCTC (Connectionist Temporal Classification)やAttentionモデルが存在する。以降、End-to-endモデルについて、CTC音響モデルを例に説明する。
上述した認識技術の関連技術として、ナレッジディスティレーション(KD : Knowledge distillation)とよばれるDNN学習方法がある。ナレッジディスティレーションは、学習済みの複雑かつ高性能なモデルの情報を単純かつ低性能なモデルに写すのに使われる手法である。例えば、高性能ではあるが、構造が複雑であり、システムに適用することが困難なモデルと、構造は単純であるが、性能が低いモデルが存在する場合を考える。ナレッジディスティレーションでは前者を教師モデル、後者を生徒モデルと定義し、教師モデルの出力を正解ラベルの代わりに用いて生徒モデルを学習させる。これにより、教師モデルの知識を生徒モデルに伝搬させることができる。
下記特許文献1および特許文献2においては、CTCを用いた音声認識装置が開示されている。
下記非特許文献1においては、CTCに関する技術が開示されている。また、下記非特許文献2においては、ナレッジディスティレーションに関する技術が開示されている。
特開2017−16131号公報 特開2017−40919号公報
Alex Graves, Santiago Fernandez, Faustino Gomez, and Jurgen Schmidhuber, "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks", ICML2006, pp. 369-376, 2006 Geoffrey Hinton, Oriol Vinyals, and Jeff Dean, "Distilling the knowledge in a neural network", in NIPS Deep Learning and Representation Learning Workshop, 2014
CTCは時系列データを扱うため、RNN (Recurrent neural network:再帰型ニューラルネットワーク)を内部に持つ必要がある。RNNには過去の情報だけを考慮するUnidirectional RNNと、過去、未来両方の情報を用いるBidirectional RNNの2種類が存在する。Bidirectional RNNを用いた場合、音声認識率は高いが、未来の情報を用いるため、リアルタイム処理が困難である。Unidirectional RNNを用いればリアルタイム処理に適用可能となるが、音声認識率は低下する。
本発明は、学習対象であるモデルの構造を変えることなく、学習対象であるモデルの認識率を、より構造が複雑な教師モデルの認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。
上記課題を解決するため、本実施の形態の学習システムは以下のとおり構成される。本実施の形態の学習システムは、時系列情報を認識するシステムを構成するために、ニューラルネットワークを学習するシステムである。
本実施の形態の学習システムは、時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルと、時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第1のモデルよりも構造が複雑な第2のモデルと、前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習部と、を備える。
前記第1のモデル学習部は、複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力し、前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る第1の出力部と、前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力し、前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る第2の出力部と、前記第1の出力結果と前記第2の出力結果との差を評価する評価部と、前記評価部における評価結果に基づいて、前記第1のモデルを学習させる第1のモデル学習部と、を備える。
第1のモデルは、本実施の形態の学習システムにおいて、拡張されたナレッジディスティレーションによって学習されている。つまり、フレームごとに出力された出力値の確率値ではなく、時系列で出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることに成功している。
したがって、第1のモデルは、教師モデルである第2のモデルと比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、第1のモデルは第2のモデルと比較すると構造が単純であるため、ハードウェアとして実装する場合には回路規模を小さくすることができる。また、第1のモデルは第2のモデルと比較すると構造が単純であるため、ソフトウェアとして実装する場合には、CPU、メモリ等の資源に高い性能を要求しない。したがって、第1のモデルを実装する認識システムをスマートフォンやタブレットなどの端末でも利用することが可能である。
また、本実施の形態の時系列情報の学習システムにおいて、前記第1のモデルおよび前記第2のモデルはリカレントニューラルネットワークを内部に有するモデルを含む。
また、本実施の形態の時系列情報の学習システムにおいて、前記第1のモデルおよび前記第2のモデルはCTC(Connectionist Temporal Classification)モデルを含む。
また、本実施の形態の時系列情報の学習システムにおいて、前記第1のモデルは、Unidirectional-CTCモデルであり、前記第2のモデルはBidirectional-CTCモデルである。学習された第1のモデルであるUnidirectional-CTCモデルは、第2のモデルであるBidirectional-CTCモデルとは異なり未来の入力を必要としないため、リアルタイム性の高い処理を実現可能である。また、第1のモデルはハードウェアやソフトウェアの実装上有利である。
また、本実施の形態の時系列情報の学習システムにおいて、前記時系列情報は音声情報である。学習された第1のモデルにより、音声情報を高い認識率で認識可能である。また、構造が複雑な音響モデルを利用する場合と比べてリアルタイム性を向上させることができる。
また、本実施の形態は、上記の時系列情報の学習システムにおいて学習されたニューラルネットワークモデルも対象である。上記の時系列情報の学習システムにおいて学習されたニューラルネットワークモデルを利用した認識システムを構築することで、ハードウェアやソフトウェアに高い負荷を掛けることなく、高い精度の認識結果を得ることができる。
また、本実施の形態の学習方法は以下の工程を備える。本実施の形態の学習システムは、時系列情報を認識するシステムを構成するために、時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルを学習する学習方法である。
本実施の形態の学習システムは、(a)時系列情報を表現可能なニューラルネットワークを内部に有し、前記第1のモデルよりも構造が複雑な第2のモデルを、正解ラベルを用いて学習する第2のモデル学習工程と、(b)前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習工程と、を備える。
また、前記第1のモデル学習工程(b)は、(b−1)複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力する工程と、(b−2)前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力する工程と、(b−3)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、(b−4)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、(b−5)前記工程(b−3)において得られた前記第1の出力結果と、前記工程(b−4)において得られた前記第2の出力結果との差を評価する評価工程と、(b−6)前記評価工程の評価結果に基づいて、前記第1のモデルを学習させる工程と、を含む。
本実施の形態の学習システムあるいは学習方法で学習される第1のモデルは、教師モデルである第2のモデルと比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、第1のモデルは第2のモデルと比較して構造が単純であるため、ハードウェアとして実装する場合であっても、ソフトウェアとして実装する場合であっても、コンピュータやデバイスに対する性能の要求を低くすることができる。また、第1のモデルは第2のモデルと比較して構造が単純であるため、第2のモデルを用いて認識処理を実行する場合と比較してリアルタイム性を向上させることができる。
本実施の形態に係る時系列情報処理システムにおける学習フェーズと認識フェーズの処理の流れを示す図である。 本実施の形態に係る時系列情報処理システムが備える学習システムのブロック図である。 正解ラベルによる、ニューラルネットワークの学習方法を示す図である。 一般的なDNNの構造を示す図である。 教師モデルが有するBidirectional-RNNを示す図である。 ナレッジディスティレーションによるニューラルネットワークの学習方法を示す図である。 生徒モデルが有するUnidirectional-RNNを示す図である。 本実施の形態による拡張されたナレッジディスティレーションによる学習方法を示す図である。 本実施の形態に係る時系列情報処理システムが備える認識システムのブロック図である。 本実施の形態の学習効果を示す実験例を示す図である。
以下、添付の図面を参照しながら、本実施の形態に係る時系列情報処理システムについて説明する。本実施の形態に係る時系列情報処理システムは、時系列情報を入力して学習するとともに、時系列情報を入力し、時系列情報の認識結果を出力するシステムである。時系列情報は、時間の経過に伴って連続的に入力される情報である。時系列情報として、本実施の形態では音声情報を例に説明する。しかし、本実施の形態の時系列情報処理システムは、音声情報のみならず、他の時系列情報を認識するシステムとしても利用できる。例えば、他の時系列情報としては、時間の経過に伴って連続的に入力される動画像情報や、センシング情報などが挙げられる。
本実施の形態の時系列情報処理システムは、時系列情報を認識するためのモデルを学習する学習システムと、学習システムによって学習されたモデルを利用して、時系列情報を認識する認識システムとから構成されている。
以下の説明においては、時系列情報として音声情報を例として説明する。つまり、本実施の形態の時系列情報処理システムとして、音声情報を認識するための音響モデル23を学習する学習システム10と、学習システム10によって学習された音響モデル23を利用して、音声情報を認識する認識システム20を例に説明する。
{1.時系列情報処理システムにおける学習フェーズと認識フェーズの処理の流れ}
図1は、本実施の形態に係る時系列情報処理システムの全体の流れを示す図である。本実施の形態の時系列情報処理システムは、学習フェーズと認識フェーズの2つのフェーズを有している。学習フェーズにおいては、学習システム10において、音響モデル23の学習が行われる。認識フェーズでは、認識システム20において、学習された音響モデル23を利用して音声情報の認識が行われる。学習システム10と認識システム20とは、同一のコンピュータや、デバイス上に実装されてもよいし、別のコンピュータやデバイス上に実装されてもよい。
図1に示すように、学習システム10に入力された音声データは、特徴量計算部11において特徴量が計算される。特徴量計算部11において計算された音声データの特徴量は、フレームごとに音響モデル学習部12に入力される。音響モデル学習部12よって、音響モデル23の学習が行われる。後で詳しく説明するが、音響モデル学習部12は、既に学習されている音響モデル13を教師モデルとして、音響モデル23の学習を行う。音響モデル学習部12は、教師モデルである音響モデル13から出力された複数のラベル系列とその出力確率を教師として、音響モデル23の学習を行う。
認識システム20に入力された音声データは、特徴量計算部21において特徴量が計算される。特徴量計算部21において計算された音声データの特徴量は、フレームごとにデコーダ22において分析される。デコーダ22は、学習フェーズで学習された音響モデル23、発音辞書24および言語モデル25を利用して、音声データの認識結果を出力する。
{2.学習システムの構成}
次に、図2〜図8を参照しながら、学習システムの構成と学習処理の方法について説明する。
図2は、学習システム10の機能ブロック図である。学習システム10は、図1でも示したように、特徴量計算部11および音響モデル学習部12を備えている。音響モデル学習部12は、ラベル推定部121、ラベル推定部122、ラベル系列評価部123および学習部124を備えている。学習システム10は、また、音響モデル13および音響モデル23を備えている。
特徴量計算部11は、時系列情報として音声データを入力する。特徴量計算部11は、音声データの波形を20ms〜30msのフレームデータに分解し、フレームごとの特徴量を抽出する。特徴量計算部11は、従来から行われている方法によって音声データの特徴量を抽出する。特徴抽出方法としては例えば、メルフィルタバンク分析やメル周波数ケプストラム分析などが挙げられる。
<2−1.音響モデル13(教師モデル)によるラベル(音素)の出力>
特徴量計算部11において計算された各フレームの特徴量は、ラベル推定部121に入力される。ラベル推定部121は、入力されたフレームデータについて、音響モデル13を用いてラベルごとの確率に変換する。
ラベルは、例えばa,iといった音素、あるいは仮名、文字、単語といった単位であらかじめ定義される。CTCモデルにおいては前記に加えて、他のどのラベルにも当てはまらないことを示す「ブランク(-)」のラベルもラベル集合に含まれる。本実施形態においては、音素、ノイズ、ブランクでラベルの集合を定義している。ラベル推定部121は、入力された各フレームに対して、前記ラベルそれぞれの確率値を出力する。
音響モデル13は、本実施の形態においては、Bidirectional-CTCを用いている。Bidirectional-CTCは、時系列情報を扱うDNN(Deep neural network)の一種であるBidirectional-RNN (Recurrent neural network:リカレントニューラルネットワーク)を内部に有するCTC(Connectionist Temporal Classification)モデルである。CTCは、End-to-endモデルの一例である。CTCでは、長さの異なる入出力系列(本実施形態では音声フレーム系列とラベル系列)間の変換が可能なフレームワークである。CTCでは、フレーム毎に割り振られたラベルに対して、同一ラベルの削除と、ブランクラベル(−)の削除を行うことで、認識結果であるラベル系列を出力する。例えば7フレームの入力データに対して“a a - k - i -”と割り振られている場合、認識結果としては“aki”というラベル系列を出力する。
本実施の形態では、音響モデル13として、End-to-endモデルを利用することを特徴としている。本実施の形態においては、音響モデル13として、End-to-endモデルの一例であるCTCを用いているが、End-to-endモデルとしては他にAttentionモデルを用いることができる。
また、本実施の形態においては、音響モデル13として、Bidirectional-RNNを内部に有するモデルを用いているが、その限りでは無く、時系列情報を扱えるニューラルネットワークであれば適用可能である。時系列情報を扱えるニューラルネットワークの例としては、Bidirectional-RNNの他にUnidirectional-RNN、Time-delay neural networkなどが挙げられる。また前述のRNNはLSTM (Long short term memory)のような類似モデルにも置き換え可能である。ただし、音響モデル13は音響モデル23よりも構造が複雑かつ高性能なモデルであることが本実施の形態の学習方法を利用した効果に繋がる。
音響モデル13は、既に学習が完了している教師モデルである。教師モデルである音響モデル13は、事前に、音声データと正解ラベル系列のセットからなる学習データを用いて学習されている。
音響モデル13は、従来のCTCの学習方法に従って学習される。すなわち、学習データを入力して、正解の音素系列の確率が最大になるように学習する。確率の計算方法は従来のforward-backwardアルゴリズムが用いられる。また、モデルパラメータの更新には、誤差逆伝搬法が用いられる。
図3は、一般的なニューラルネットワークを正解ラベルを用いて学習する方法を示した図である。ニューラルネットワークの入力層に学習データ(本実施形態の例だと1フレームの音声データに相当)が入力される。そしてニューラルネットワークの計算結果として出力層から各ラベルの確率(確率分布)が出力される。このとき、学習データに対応するラベルの確率を1、他のラベルの確率を0とするベクトルを正解の確率分布として、二つの確率分布の距離が小さくなるようにニューラルネットワークを学習する。距離尺度としてはクロスエントロピーやユークリッド距離が使われる。
図4は一般的なDNN33を示す図である。DNN33は入力層と複数の中間層(隠れ層)、出力層を有する。図4の例では入力層331と4個の中間層332、333、334および335、そして出力層336を有している。ここでは図の簡単化のため一般的なDNN33で例示するが、本実施形態の音響モデル13においては前後フレーム間でも結合を持つRNNを使用している。
入力層331へは、特徴量計算部11によって計算された、1フレーム分の特徴量ベクトルが入力される。すなわち、入力層のノード331(1)〜331(n1)の数は、特徴量の次元数に相当する。
本実施の形態においては、中間層332は、n2個のノード332(1)、332(2)・・・332(n2)を、中間層333は、n3個のノード333(1)、333(2)・・・333(n3)を、中間層334は、n4個のノード334(1)、334(2)・・・334(n4)を、中間層335は、n5個のノード335(1)、335(2)・・・335(n5)を、有している。各中間層のノード数は、異なっていてもよい。また、各中間層のノード数は入力層と異なっていてもよい。
本実施の形態においては、出力層336は、各ラベルに対応したノードを含んでいる。出力層のノード数はラベルの数に相当する。
音声データに含まれるフレームデータの特徴量が、n1次元のデータ(特徴量ベクトル)として入力層331(1)、331(2)・・・331(n1)に入力される。上述したように、ここでは一般的なDNN33を図を使って説明しているが、本実施の形態で利用されるBidirectional-CTCである音響モデル13は、過去のフレームデータの情報および未来のフレームデータの情報を参照しながら、各中間層で演算を行い、出力層においてラベルごとの確率値を出力する。例えば、
a:0.12
b:0.05
c:0.03
・・・
z:0.09
ブランク:0.02
といったように、フレームデータがいずれのラベルに対応するかを示す確率値を算出する。
図5は、本実施形態において音響モデル13が有する、Bidirectional-RNNの処理を示す。図5において、横軸は時間である。縦方向に並ぶ一系統のブロックがある時刻のBidirectional-RNNを示している。各時刻のBidirectional-RNNの各層は1つのブロックで示している。つまり、図5の各ブロックは、図4のように複数のノードからなるニューラルネットワークの各層を表している。
ある時間に入力層131に入力されたフレームデータは、中間層132、133・・・と伝播して出力層136から出力される。このとき、中間層132、133・・・では、図中で各ブロックから横方向に伸びた線で示されている通り、前後の時刻の中間層132、133・・・の出力も入力される。
図5で示す例では、時刻t1においては、音素の候補がブランク(−)として出力されたことを示している。出力層136からは、ラベルごとの確率が出力されるが、その中でブランクの確率が一番高かったことを示している。
同様に、時時刻t2では“a”が、時刻t3では、ブランク(−)、時刻t4では“k”、時刻t5では“i”、時刻t6ではブランク(−)が音素の候補として出力されていることを示している。
<2−2.音響モデル23(生徒モデル)によるラベル(音素)の出力>
再び、図2を参照する。特徴量計算部11において計算された特徴量は、また、ラベル推定部122に入力される。ラベル推定部122は、ラベル推定部121と同様、音声データに含まれる特徴量をフレームごとに入力し、音響モデル23を用いて、フレームデータをラベルごとの確率に変換する。ラベル推定部122は、音声データに含まれるフレームデータを、ラベルごとの確率値として出力する。
ラベル推定部122もラベル推定部121と同様にラベルごとの確率値を出力する。ここでラベルの定義は、音響モデル13、ラベル推定部121、音響モデル23およびラベル推定部122において同じ定義である。
音響モデル23は、音響モデル13を教師モデルとして学習されるモデルである。生徒モデルである音響モデル23は、音響モデル13よりも構造の複雑度の小さいモデルである。ここで、構造が複雑なモデルとは、例えば、中間層(隠れ層)の数が多いモデルである。あるいは、構造が複雑なモデルとは、ノードの数の多いモデルである。また、構造が複雑なモデルとしては、他にもCNN (Convolution neural network)のように計算処理量の多い層を有するモデルや、リカレント構造を有するモデルなどがある。
生徒モデルである音響モデル23は、正解ラベルを用いた学習は行われない。音響モデル23は、音響モデル13を教師モデルとしてナレッジディスティレーションにより学習される。
音響モデル23は、本実施の形態においては、Unidirectional-CTCを用いている。Unidirectional-CTCは、Unidirectional-RNNを内部に有するCTCモデルである。音響モデル23は音響モデル13と同様、End-to-endモデルの一例であり、CTCの他にAttentionモデルを使用することができ、また内部のニューラルネットワークもRNN、LSTM、Time-delay neural networkなどに変更可能である。ただし、音響モデル23は音響モデル13よりも単純かつ性能の低いモデルであることが本実施の形態の学習方法を利用した効果に繋がる。
本実施の形態においては、教師モデルとしては前後の時間の情報を参照するリカレントニューラルネットワーク(Bidirectional-CTC)を用いるのに対して、生徒モデルとして過去の時間の情報を参照するリカレントニューラルネットワーク(Unidirectional)を用いている。したがって、教師モデルである音響モデル13は、生徒モデルである音響モデル23より構造が複雑なモデルである。ただし、これは音響モデル13および音響モデル23の一例である。本実施の形態においては、音響モデル13および音響モデル23は、時系列情報を表現可能なニューラルネットワークであること、つまり、End-to-endモデルのニューラルネットワークであることと、音響モデル13に比べて構造が複雑でない音響モデル23を利用すればよく、その他のモデルを利用してもよい。たとえば、音響モデル13、23ともに、Bidirectional-CTCを用い、音響モデル13よりも構造が複雑でない音響モデル23を利用してもよい。あるいは、音響モデル13、23ともに、Unidirectional-CTCを用い、音響モデル13よりも構造が複雑でない音響モデル23を利用してもよい。
生徒モデルである音響モデル23は、教師モデルである音響モデル13の認識能力を転移させることで学習を行う。例えば、生徒モデルは、比較的処理能力の小さいコンピュータやスマートフォンなどで利用させることを前提とした比較的構造の簡単なモデルである。正解モデルを利用して学習された構造の複雑な音響モデル13の認識能力を、音響モデル23に転移させることで、教師モデルの高い認識精度を転移させることができる。
図6は、一般的なフレーム単位のナレッジディスティレーションを説明する図である。生徒モデルの入力層に、1フレームの音声データが入力される。また、教師モデルの入力層にも、生徒モデルに入力されたフレームデータと同じフレームデータが入力される。
入力された1フレームの音声データは、それぞれ教師モデルと生徒モデルの中間層を伝搬し、出力層において、各ラベルの確率値として出力される。ナレッジディスティレーションによる学習方式では、それぞれのモデルから出力されるラベルごとの確率値(ラベルの確率分布)が近くなるように、生徒モデルを学習する。確率分布の近さを測る指標としては、クロスエントロピーやカルバックライブラーダイバージェンスが用いられる。従来のナレッジディスティレーションによる学習をそのままCTCの学習に用いる場合、音響モデル23がフレームごとに出力するラベルの確率分布と音響モデル13がフレームごとに出力する確率分布を用いて、フレームごとの確率分布が近くなるように音響モデル23を学習することになる。つまり、従来のナレッジディスティレーションではフレーム独立な学習基準になっている。しかし、本実施の形態の学習システムにおいては、フレームごとの各ラベルの確率値を単純に評価するのではなく、新しい手法(拡張ナレッジディスティレーションと呼ぶ)により2つのモデルの差を評価する。この評価方法については後で詳しく説明する。
図7は音響モデル23が有するUnidirectional-RNNを示す図である。図において、時間t1においては、音素の候補がブランク(−)として出力されたことを示している。また、時間t2では“a”、時間t3では、ブランク(−)、時間t4では“k”、時間t5では“i”、時間t6ではブランク(−)が音素の候補として出力されていることを示している。
<2−3.拡張ナレッジディスティレーションによる学習処理>
再び図2を参照する。ラベル系列評価部123は、ラベル推定部121が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部121は、教師モデル13を用いて、フレームデータごとにラベルごとの確率値を出力する。具体的には、ラベル推定部121は、教師モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部123は、フレームごとに出力されたラベルごとの確率値を入力する。
図8は、ラベル系列評価部123が入力するラベルごとの確率値の例を示している。図9の右側が、教師モデルである音響モデル13から出力されたラベルごとの確率値を示している。図の例では、時間t1、t2およびt3の各時間において、ラベルごとの確率値が示されている。時間t1では、ラベル“a”の確率値が他のラベルの確率値よりも高く、時間t1のフレームデータはラベル“a”である可能性が高いことを示している。同様に、時間t2では、ラベル“k”である可能性が高いことを示している。
再び図2を参照する。ラベル系列評価部123は、ラベル推定部122が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部122は、生徒モデル23を用いて、フレームごとにラベルごとの確率値を出力する。具体的には、ラベル推定部122は、生徒モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部123は、フレームごとに出力されたラベルごとの確率値を入力する。
図8の左側が、生徒モデルである音響モデル23から出力されたラベルごとの確率値を示している。図の例では、時間t1、t2およびt3の各時間において、ラベルごとの確率値が示されている。時間t1では、音素“a”の確率値が他のラベルの確率値よりも高く、時間t1のフレームデータはラベル“a”である可能性が高いことを示している。同様に、時間t2では、ラベル“k”である可能性が高いことを示している。
ラベル系列評価部123は、教師モデルである音響モデル13が出力したラベルごとの確率値から、ラベル系列候補群の確率値を算出する。図8に示した例であれば、ラベル系列評価部123は、音響モデル13が出力したラベルごとの確率値から、以下のラベル系列候補群の確率値を算出している。
aki : 0.5
akai : 0.004
ai : 0.03
・・・
全てのラベル系列を展開することは現実的に困難なため、ラベル系列評価部123は、例えば、確率値の高い上位10個のラベル系列をラベル系列候補として採用する。
ラベル系列の確率値の算出方法は特に限定されるものではないが、その一例を示す。例えば、ラベル系列“aki”に対応する音声データは多くのパターンが存在する。たとえば、音声データが7フレームのフレームデータであると仮定すると、ラベル系列“aki”に対応する音声データは、
aakk--i
aa-kkki
akk--ii
akkii--
など多くのパターンが存在する。個々のラベル系列の確率値を、ラベルごとの確率値の乗算で表することにより、ラベル系列“aki”に対応する1つのパターン(例えば、aakk-i)の確率値を算出することができる。そこで、ラベル系列“aki”の確率値としては、個々のパターンの確率値の加算を用いることや、最も高い確率値が得られたパターンの確率値を採用するなどの方法が考えられる。
ラベル系列評価部123は、各ラベル系列“aki”、“akai”、“ai”などの確率値を算出すると、上述したように、例えば確率値の高い上位10個のラベル系列を、ラベル系列候補として採用する。
ラベル系列評価部123は、生徒モデルである音響モデル23が出力したラベルごとの確率値からも、同様に、ラベル系列候補群の確率値を算出する。図8に示した例であれば、ラベル系列評価部123は、音響モデル23が出力したラベルごとの確率値から、以下のラベル系列候補群の確率値を算出している。
aki : 0.3
akai : 0.1
ai : 0.05
・・・
生徒モデルである音響モデル23が出力したラベルごとの確率値から、ラベル系列候補群の確率値を算出する方法は、上述した教師モデルの場合と同様であるため、説明を省略する。
ラベル系列評価部123は、音響モデル13および音響モデル23について、それぞれラベル系列候補群の確率値(ラベル系列の確率分布)を算出すると、音響モデル13および音響モデル23について算出されたラベル系列の確率分布との距離を、損失関数を用いて算出する。損失関数としてはクロスエントロピーやカルバックライブラーダイバージェンスが挙げられる。本実施の形態において重要となるのは、音響モデル13および音響モデル23について算出されたフレームごとのラベルの確率値の差を評価するのではなく、音響モデル13および音響モデル23について算出されたラベル系列候補群の確率値の差を評価することである。
本実施の形態の時系列情報処理システム1で用いられる音響モデルは、End-to-endのモデルであり、時系列情報を表現可能なニューラルネットワークである。したがって、フレームごとに出力されたラベルごとの確率値を評価しても、学習の精度が上がらないことが発明者らによって確認された。そこで、フレームごとに出力されたラベルごとの確率値ではなく、シーケンスレベルで出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることができるのである。
ラベル系列評価部123において、ラベル系列候補群の確率分布の距離が計算されると、学習部124が、距離を最小化させるように音響モデル23を学習する。学習には、従来から用いられている方法、例えば誤差逆伝播法が利用される。
{3.認識システムの構成}
図9は、本実施の形態に係る認識システム20の構成である。認識システム20は、特徴量算出部21、デコーダ22、音響モデル23、発音辞書24および言語モデル25を備えている。
特徴量計算部21は、時系列情報として音声データを入力する。特徴量計算部21は、音声データの波形をフレームデータに分解し、フレームごとの特徴量を抽出する。特徴量計算部21は、従来から行われている方法によって音声データの特徴量を抽出する。特徴抽出方法としては例えば、メルフィルタバンク分析やメル周波数ケプストラム分析などが挙げられるが、学習時に使用していた特徴量計算部11と分析条件を合わせる必要がある。
特徴量計算部21において算出されたフレームごとの特徴量はデコーダ22に入力される。デコーダ22は、上述した学習処理によって学習された音響モデル23を備えている。デコーダ22は、音声データの特徴量をフレームごとに音響モデル23に入力し、フレームをラベルごとの確率値に変換する。本実施形態においてラベルは音素によって定義されているので、デコーダ22は、音響モデル23によって、音素ごとの確率値に変換することになる。
デコーダ22は、音響モデル23から得られた音素ごとの確率値を元に、発音辞書データベース24と言語モデル25を参照し最も確率の高い認識結果を出力する。発音辞書データベース24は、単語と、それを構成する音素列からなる。たとえば“こんにちは”という単語に対しては、音素列/k/o/N/n/i/ch/i/w/a/が定義されている。
言語モデル25は単語間のつながりをモデル化してものである。例えば“こんにちは”という単語に対して、次にどの単語が現れやすいかをモデル化している。言語モデル化方式としては、従来のn-gramやRNNモデルが挙げられる。デコーダ22は、音響モデル23から得られた確率値、発音辞書データベース24、言語モデル25が示す確率値を元に、最も確率の高い単語系列を音声認識結果として出力する。最も確率値の高い単語系列の探索方法としては、ビームサーチ法などが挙げられる。
このように認識システム20では、学習システム10で学習された音響モデル23が利用される。上述したように、音響モデル23は、本実施の形態の学習システム10において、拡張されたナレッジディスティレーションによって学習されている。つまり、フレームごとに出力されたラベルごとの確率値ではなく、シーケンスレベルで出力されたラベル系列候補群の確率値を評価することで、学習の精度を上げることに成功している。したがって、教師モデルである音響モデル13と比べると構造は単純であるモデルでありながら、高い認識精度を保持している。また、音響モデル23は音響モデル13と比較すると構造が単純であるため、ハードウェアとして実装する場合には回路規模を小さくすることができる。また、音響モデル23は構造が単純であるため、ソフトウェアとして実装する場合には、CPU、メモリ等の資源に高い性能を要求しない。したがって、本実施の形態の認識システム20をスマートフォンやタブレットなどの端末でも利用することが可能である。また、音響モデル23の構造が音響モデル13と比較して単純であるため、リアルタイム性の向上を図ることができる。
このように本実施の形態の学習システム10は、学習対象である音響モデル23の構造を変えることなく、音響モデル23の認識率を、より構造が複雑な教師モデルである音響モデル13の認識率に近づけることで、リアルタイム性と音声認識率を両立したモデルを得ることを課題とする。具体的には、Unidirectional RNNベースのCTC (Uni-CTC)の構造を変えることなく、認識率をBidirectional RNNベースのCTC (Bi-CTC)に近づけることで、リアルタイム性と音声認識率を両立したEnd-to-end音響モデルを得ることが可能である。
{4.実験結果}
図10は、本実施の形態の学習方法による実験結果を示す図である。評価データはWSJコーパスと呼ばれる英語音声データベースを用いている。特徴量は40次元のメルフィルタバンク特徴量とその1次および2次デルタ特徴量を用いた(計120次元)。ラベルは72種類の音素と2種類のノイズ、そしてブランクによって定義した。教師モデルにはBidirectional-LSTMを有するBidirectional-CTCを、生徒モデルにはUnidirectional-LSTMを有するUnidirectional-CTCを使用した。それぞれの中間層の数は3であり、各中間層のメモリセル数は512である。図の上段は、WSJコーパス内のtrain_si84と呼ばれる、15時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は10.35%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は11.77%である。
これに対して、従来から行われているフレームレベルでのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は16.04%であり、通常の学習法より悪化した。一方、本実施の形態の学習方法であるシーケンスレベル(系列単位)でのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は10.83%となり、性能差が66.2%改善されたことが分かる。
図10の下段は、WSJコーパス内のtrain_si284と呼ばれる、81時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は8.70%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は10.37%である。
これに対して、従来から行われているフレームレベルでのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は12.71%であり、通常の学習法より悪化した。一方、本実施の形態の学習方法であるシーケンスレベル(系列単位)でのナレッジディスティレーションにより学習させた生徒モデルの単語誤り率は9.57%となり、性能差が47.9%改善されたことが分かる。
上記の実験結果は、教師モデルと生徒モデルがそれぞれ3層の中間層を有する例であるが、中間層の数やノード数を教師モデルと生徒モデルで統一する必要は無い。例えば教師モデルの中間層を4層、生徒モデルの中間層を2層というような条件であっても、同様の効果が期待できる。
なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。
1 時系列情報処理システム
10 学習システム
13 教師モデル
20 認識システム
23 生徒モデル

Claims (6)

  1. 時系列情報を認識するシステムを構成するために、ニューラルネットワークを学習するシステムであって、
    時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルと、
    時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第1のモデルよりも構造が複雑な第2のモデルと、
    前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習部と、
    を備え、
    前記第1のモデル学習部は、
    複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力し、前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る第1の出力部と、
    前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力し、前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る第2の出力部と、
    前記第1の出力結果と前記第2の出力結果との差を評価する評価部と、
    前記評価部における評価結果に基づいて、前記第1のモデルを学習させる第1のモデル学習部と、
    を備える時系列情報の学習システム。
  2. 請求項1に記載の時系列情報の学習システムであって、
    前記第1のモデルおよび前記第2のモデルはリカレントニューラルネットワークを内部に有するモデルを含む、時系列情報の学習システム。
  3. 請求項2に記載の時系列情報の学習システムであって、
    前記第1のモデルおよび前記第2のモデルはCTC(Connectionist Temporal Classification)モデルを含む、時系列情報の学習システム。
  4. 請求項3に記載の時系列情報の学習システムであって、
    前記第1のモデルは、Unidirectional-CTCモデルであり、前記第2のモデルはBidirectional-CTCモデルである、時系列情報の学習システム。
  5. 請求項1ないし請求項4のいずれかに記載の時系列情報の学習システムであって、
    前記時系列情報は音声情報を含む、時系列情報の学習システム。
  6. 時系列情報を認識するシステムを構成するために、時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルを学習する学習方法であって、
    (a)時系列情報を表現可能なニューラルネットワークを内部に有し、前記第1のモデルよりも構造が複雑な第2のモデルを、正解ラベルを用いて学習する第2のモデル学習工程と、
    (b)前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習工程と、
    を備え、
    前記第1のモデル学習工程(b)は、
    (b−1)複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力する工程と、
    (b−2)前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力する工程と、
    (b−3)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
    (b−4)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
    (b−5)前記工程(b−3)において得られた前記第1の出力結果と、前記工程(b−4)において得られた前記第2の出力結果との差を評価する評価工程と、
    (b−6)前記評価工程の評価結果に基づいて、前記第1のモデルを学習させる工程と、
    を含む時系列情報の学習方法。
JP2018044134A 2018-03-12 2018-03-12 時系列情報の学習システム、方法およびニューラルネットワークモデル Active JP7070894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018044134A JP7070894B2 (ja) 2018-03-12 2018-03-12 時系列情報の学習システム、方法およびニューラルネットワークモデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018044134A JP7070894B2 (ja) 2018-03-12 2018-03-12 時系列情報の学習システム、方法およびニューラルネットワークモデル

Publications (2)

Publication Number Publication Date
JP2019159654A true JP2019159654A (ja) 2019-09-19
JP7070894B2 JP7070894B2 (ja) 2022-05-18

Family

ID=67996428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018044134A Active JP7070894B2 (ja) 2018-03-12 2018-03-12 時系列情報の学習システム、方法およびニューラルネットワークモデル

Country Status (1)

Country Link
JP (1) JP7070894B2 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079574A (zh) * 2019-11-29 2020-04-28 支付宝(杭州)信息技术有限公司 一种训练神经网络的方法及系统
CN111191722A (zh) * 2019-12-30 2020-05-22 支付宝(杭州)信息技术有限公司 通过计算机训练预测模型的方法及装置
CN112422870A (zh) * 2020-11-12 2021-02-26 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
JP2021074321A (ja) * 2019-11-11 2021-05-20 富士フイルム株式会社 学習装置、学習方法および学習済みモデル
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
JP2021140749A (ja) * 2020-03-09 2021-09-16 コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法
KR20210113939A (ko) * 2020-03-09 2021-09-17 한국과학기술원 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법
JPWO2021220658A1 (ja) * 2020-04-30 2021-11-04
JPWO2022113338A1 (ja) * 2020-11-30 2022-06-02
WO2022113340A1 (ja) * 2020-11-30 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2022121515A1 (en) * 2020-12-11 2022-06-16 International Business Machines Corporation Mixup data augmentation for knowledge distillation framework
KR102445226B1 (ko) * 2021-10-20 2022-09-20 (주)뤼이드 지식 추적을 위한 모델 경량화 방법
KR20230056584A (ko) * 2021-10-20 2023-04-27 (주)뤼이드 지식 추적을 위한 모델 경량화 방법
JP2023545604A (ja) * 2020-09-24 2023-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション ストリーミングrnnトランスデューサの精度
JP2024515713A (ja) * 2021-04-23 2024-04-10 グーグル エルエルシー 非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善
CN119339880A (zh) * 2024-12-24 2025-01-21 中国人民解放军海军青岛特勤疗养中心 一种骨关节康复训练优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017531255A (ja) * 2014-09-12 2017-10-19 マイクロソフト コーポレーションMicrosoft Corporation 出力分布による生徒dnnの学習
WO2017213055A1 (ja) * 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017531255A (ja) * 2014-09-12 2017-10-19 マイクロソフト コーポレーションMicrosoft Corporation 出力分布による生徒dnnの学習
WO2017213055A1 (ja) * 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021074321A (ja) * 2019-11-11 2021-05-20 富士フイルム株式会社 学習装置、学習方法および学習済みモデル
US12062446B2 (en) 2019-11-11 2024-08-13 Fujifilm Corporation Learning device, learning method, and learned model
JP7292184B2 (ja) 2019-11-11 2023-06-16 富士フイルム株式会社 学習装置、学習方法および学習済みモデル
CN111079574B (zh) * 2019-11-29 2022-08-02 支付宝(杭州)信息技术有限公司 一种训练神经网络的方法及系统
CN111079574A (zh) * 2019-11-29 2020-04-28 支付宝(杭州)信息技术有限公司 一种训练神经网络的方法及系统
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
CN111191722A (zh) * 2019-12-30 2020-05-22 支付宝(杭州)信息技术有限公司 通过计算机训练预测模型的方法及装置
CN111191722B (zh) * 2019-12-30 2022-08-09 支付宝(杭州)信息技术有限公司 通过计算机训练预测模型的方法及装置
KR102781636B1 (ko) 2020-03-09 2025-03-18 한국과학기술원 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법
JP2021140749A (ja) * 2020-03-09 2021-09-16 コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法
KR20210113939A (ko) * 2020-03-09 2021-09-17 한국과학기술원 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법
JP7283774B2 (ja) 2020-03-09 2023-05-30 コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法、並びにコンピュータプログラム
JPWO2021220658A1 (ja) * 2020-04-30 2021-11-04
CN115428013A (zh) * 2020-04-30 2022-12-02 索尼集团公司 信息处理装置和程序
US12530865B2 (en) 2020-04-30 2026-01-20 Sony Group Corporation Information processing device and program
JP7586172B2 (ja) 2020-04-30 2024-11-19 ソニーグループ株式会社 情報処理装置およびプログラム
WO2021220658A1 (ja) * 2020-04-30 2021-11-04 ソニーグループ株式会社 情報処理装置およびプログラム
JP2023545604A (ja) * 2020-09-24 2023-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション ストリーミングrnnトランスデューサの精度
CN112422870A (zh) * 2020-11-12 2021-02-26 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
CN112422870B (zh) * 2020-11-12 2021-09-17 复旦大学 一种基于知识蒸馏的深度学习视频插帧方法
JP7529041B2 (ja) 2020-11-30 2024-08-06 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JPWO2022113338A1 (ja) * 2020-11-30 2022-06-02
WO2022113340A1 (ja) * 2020-11-30 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JPWO2022113340A1 (ja) * 2020-11-30 2022-06-02
WO2022113338A1 (ja) * 2020-11-30 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP7529040B2 (ja) 2020-11-30 2024-08-06 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
GB2617035A (en) * 2020-12-11 2023-09-27 Ibm Mixup data augmentation for knowledge distillation framework
WO2022121515A1 (en) * 2020-12-11 2022-06-16 International Business Machines Corporation Mixup data augmentation for knowledge distillation framework
US12541691B2 (en) 2020-12-11 2026-02-03 International Business Machines Corporation Mixup data augmentation for knowledge distillation framework
JP2024515713A (ja) * 2021-04-23 2024-04-10 グーグル エルエルシー 非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善
JP7749694B2 (ja) 2021-04-23 2025-10-06 グーグル エルエルシー 非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善
KR102701590B1 (ko) 2021-10-20 2024-09-02 (주)뤼이드 지식 추적을 위한 모델 경량화 방법
KR102445226B1 (ko) * 2021-10-20 2022-09-20 (주)뤼이드 지식 추적을 위한 모델 경량화 방법
KR20230056584A (ko) * 2021-10-20 2023-04-27 (주)뤼이드 지식 추적을 위한 모델 경량화 방법
CN119339880A (zh) * 2024-12-24 2025-01-21 中国人民解放军海军青岛特勤疗养中心 一种骨关节康复训练优化方法

Also Published As

Publication number Publication date
JP7070894B2 (ja) 2022-05-18

Similar Documents

Publication Publication Date Title
JP7070894B2 (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
EP3966813B1 (en) Online verification of custom wake word
Dahl et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition
US10249294B2 (en) Speech recognition system and method
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
Deng et al. Machine learning paradigms for speech recognition: An overview
JP7590520B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
CN108492820A (zh) 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN108536670B (zh) 输出语句生成装置、方法和程序
Liu et al. Graph-based semi-supervised learning for phone and segment classification.
JP7418991B2 (ja) 音声認識方法及び装置
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
WO2021109856A1 (zh) 一种针对认知障碍的语音识别系统
KR20240089276A (ko) 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝
Bhatta et al. Nepali speech recognition using CNN, GRU and CTC
Soltau et al. Reducing the computational complexity for whole word models
Vetráb et al. Aggregation strategies of Wav2vec 2.0 embeddings for computational paralinguistic tasks
Anindya et al. Development of indonesian speech recognition with deep neural network for robotic command
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
Zhou et al. Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis
Manjunath et al. Development of multilingual phone recognition system for Indian languages
Santos et al. Automatic Speech Recognition: Comparisons Between Convolutional Neural Networks, Hidden Markov Model and Hybrid Architecture
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180403

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220425

R150 Certificate of patent or registration of utility model

Ref document number: 7070894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250