JP2019159654A - 時系列情報の学習システム、方法およびニューラルネットワークモデル - Google Patents
時系列情報の学習システム、方法およびニューラルネットワークモデル Download PDFInfo
- Publication number
- JP2019159654A JP2019159654A JP2018044134A JP2018044134A JP2019159654A JP 2019159654 A JP2019159654 A JP 2019159654A JP 2018044134 A JP2018044134 A JP 2018044134A JP 2018044134 A JP2018044134 A JP 2018044134A JP 2019159654 A JP2019159654 A JP 2019159654A
- Authority
- JP
- Japan
- Prior art keywords
- model
- time
- learning
- label
- series information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
図1は、本実施の形態に係る時系列情報処理システムの全体の流れを示す図である。本実施の形態の時系列情報処理システムは、学習フェーズと認識フェーズの2つのフェーズを有している。学習フェーズにおいては、学習システム10において、音響モデル23の学習が行われる。認識フェーズでは、認識システム20において、学習された音響モデル23を利用して音声情報の認識が行われる。学習システム10と認識システム20とは、同一のコンピュータや、デバイス上に実装されてもよいし、別のコンピュータやデバイス上に実装されてもよい。
次に、図2〜図8を参照しながら、学習システムの構成と学習処理の方法について説明する。
特徴量計算部11において計算された各フレームの特徴量は、ラベル推定部121に入力される。ラベル推定部121は、入力されたフレームデータについて、音響モデル13を用いてラベルごとの確率に変換する。
a:0.12
b:0.05
c:0.03
・・・
z:0.09
ブランク:0.02
といったように、フレームデータがいずれのラベルに対応するかを示す確率値を算出する。
再び、図2を参照する。特徴量計算部11において計算された特徴量は、また、ラベル推定部122に入力される。ラベル推定部122は、ラベル推定部121と同様、音声データに含まれる特徴量をフレームごとに入力し、音響モデル23を用いて、フレームデータをラベルごとの確率に変換する。ラベル推定部122は、音声データに含まれるフレームデータを、ラベルごとの確率値として出力する。
再び図2を参照する。ラベル系列評価部123は、ラベル推定部121が出力するフレームデータのラベルごとの確率値を入力する。上述したように、ラベル推定部121は、教師モデル13を用いて、フレームデータごとにラベルごとの確率値を出力する。具体的には、ラベル推定部121は、教師モデルを用いて、ラベルごとの確率値を出力する。ラベル系列評価部123は、フレームごとに出力されたラベルごとの確率値を入力する。
aki : 0.5
akai : 0.004
ai : 0.03
・・・
aakk--i
aa-kkki
akk--ii
akkii--
など多くのパターンが存在する。個々のラベル系列の確率値を、ラベルごとの確率値の乗算で表することにより、ラベル系列“aki”に対応する1つのパターン(例えば、aakk-i)の確率値を算出することができる。そこで、ラベル系列“aki”の確率値としては、個々のパターンの確率値の加算を用いることや、最も高い確率値が得られたパターンの確率値を採用するなどの方法が考えられる。
aki : 0.3
akai : 0.1
ai : 0.05
・・・
図9は、本実施の形態に係る認識システム20の構成である。認識システム20は、特徴量算出部21、デコーダ22、音響モデル23、発音辞書24および言語モデル25を備えている。
図10は、本実施の形態の学習方法による実験結果を示す図である。評価データはWSJコーパスと呼ばれる英語音声データベースを用いている。特徴量は40次元のメルフィルタバンク特徴量とその1次および2次デルタ特徴量を用いた(計120次元)。ラベルは72種類の音素と2種類のノイズ、そしてブランクによって定義した。教師モデルにはBidirectional-LSTMを有するBidirectional-CTCを、生徒モデルにはUnidirectional-LSTMを有するUnidirectional-CTCを使用した。それぞれの中間層の数は3であり、各中間層のメモリセル数は512である。図の上段は、WSJコーパス内のtrain_si84と呼ばれる、15時間の学習データを用いて学習させたときの実験結果である。正解ラベルを用いて通常の学習法で学習させた教師モデル(Bidirectional-CTC)の単語誤り率は10.35%である。正解ラベルを用いて通常の学習法で学習させた生徒モデル(Unidirectional-CTC)の単語誤り率は11.77%である。
10 学習システム
13 教師モデル
20 認識システム
23 生徒モデル
Claims (6)
- 時系列情報を認識するシステムを構成するために、ニューラルネットワークを学習するシステムであって、
時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルと、
時系列情報を表現可能なニューラルネットワークを内部に有し、正解ラベルによって学習された、前記第1のモデルよりも構造が複雑な第2のモデルと、
前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習部と、
を備え、
前記第1のモデル学習部は、
複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力し、前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る第1の出力部と、
前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力し、前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る第2の出力部と、
前記第1の出力結果と前記第2の出力結果との差を評価する評価部と、
前記評価部における評価結果に基づいて、前記第1のモデルを学習させる第1のモデル学習部と、
を備える時系列情報の学習システム。 - 請求項1に記載の時系列情報の学習システムであって、
前記第1のモデルおよび前記第2のモデルはリカレントニューラルネットワークを内部に有するモデルを含む、時系列情報の学習システム。 - 請求項2に記載の時系列情報の学習システムであって、
前記第1のモデルおよび前記第2のモデルはCTC(Connectionist Temporal Classification)モデルを含む、時系列情報の学習システム。 - 請求項3に記載の時系列情報の学習システムであって、
前記第1のモデルは、Unidirectional-CTCモデルであり、前記第2のモデルはBidirectional-CTCモデルである、時系列情報の学習システム。 - 請求項1ないし請求項4のいずれかに記載の時系列情報の学習システムであって、
前記時系列情報は音声情報を含む、時系列情報の学習システム。 - 時系列情報を認識するシステムを構成するために、時系列情報を表現可能なニューラルネットワークを内部に有する第1のモデルを学習する学習方法であって、
(a)時系列情報を表現可能なニューラルネットワークを内部に有し、前記第1のモデルよりも構造が複雑な第2のモデルを、正解ラベルを用いて学習する第2のモデル学習工程と、
(b)前記第1のモデルを生徒モデルとし、前記第2のモデルを教師モデルとし、ナレッジディスティレーションを用いて前記第1のモデルを学習する第1のモデル学習工程と、
を備え、
前記第1のモデル学習工程(b)は、
(b−1)複数のフレームデータを含む第1の時系列データを前記第1のモデルに入力する工程と、
(b−2)前記複数のフレームデータを含む前記第1の時系列データを前記第2のモデルに入力する工程と、
(b−3)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第1のモデルの第1の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
(b−4)前記複数のフレームデータを含む前記第1の時系列データに対応して得られた前記第2のモデルの第2の出力結果として、ラベル系列候補群のそれぞれの確率を得る工程と、
(b−5)前記工程(b−3)において得られた前記第1の出力結果と、前記工程(b−4)において得られた前記第2の出力結果との差を評価する評価工程と、
(b−6)前記評価工程の評価結果に基づいて、前記第1のモデルを学習させる工程と、
を含む時系列情報の学習方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018044134A JP7070894B2 (ja) | 2018-03-12 | 2018-03-12 | 時系列情報の学習システム、方法およびニューラルネットワークモデル |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018044134A JP7070894B2 (ja) | 2018-03-12 | 2018-03-12 | 時系列情報の学習システム、方法およびニューラルネットワークモデル |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019159654A true JP2019159654A (ja) | 2019-09-19 |
| JP7070894B2 JP7070894B2 (ja) | 2022-05-18 |
Family
ID=67996428
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018044134A Active JP7070894B2 (ja) | 2018-03-12 | 2018-03-12 | 時系列情報の学習システム、方法およびニューラルネットワークモデル |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7070894B2 (ja) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111079574A (zh) * | 2019-11-29 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种训练神经网络的方法及系统 |
| CN111191722A (zh) * | 2019-12-30 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | 通过计算机训练预测模型的方法及装置 |
| CN112422870A (zh) * | 2020-11-12 | 2021-02-26 | 复旦大学 | 一种基于知识蒸馏的深度学习视频插帧方法 |
| JP2021074321A (ja) * | 2019-11-11 | 2021-05-20 | 富士フイルム株式会社 | 学習装置、学習方法および学習済みモデル |
| JP2021096813A (ja) * | 2019-12-18 | 2021-06-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | データ処理方法及び装置 |
| JP2021140749A (ja) * | 2020-03-09 | 2021-09-16 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法 |
| KR20210113939A (ko) * | 2020-03-09 | 2021-09-17 | 한국과학기술원 | 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법 |
| JPWO2021220658A1 (ja) * | 2020-04-30 | 2021-11-04 | ||
| JPWO2022113338A1 (ja) * | 2020-11-30 | 2022-06-02 | ||
| WO2022113340A1 (ja) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
| WO2022121515A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Mixup data augmentation for knowledge distillation framework |
| KR102445226B1 (ko) * | 2021-10-20 | 2022-09-20 | (주)뤼이드 | 지식 추적을 위한 모델 경량화 방법 |
| KR20230056584A (ko) * | 2021-10-20 | 2023-04-27 | (주)뤼이드 | 지식 추적을 위한 모델 경량화 방법 |
| JP2023545604A (ja) * | 2020-09-24 | 2023-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ストリーミングrnnトランスデューサの精度 |
| JP2024515713A (ja) * | 2021-04-23 | 2024-04-10 | グーグル エルエルシー | 非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善 |
| CN119339880A (zh) * | 2024-12-24 | 2025-01-21 | 中国人民解放军海军青岛特勤疗养中心 | 一种骨关节康复训练优化方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017531255A (ja) * | 2014-09-12 | 2017-10-19 | マイクロソフト コーポレーションMicrosoft Corporation | 出力分布による生徒dnnの学習 |
| WO2017213055A1 (ja) * | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
-
2018
- 2018-03-12 JP JP2018044134A patent/JP7070894B2/ja active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017531255A (ja) * | 2014-09-12 | 2017-10-19 | マイクロソフト コーポレーションMicrosoft Corporation | 出力分布による生徒dnnの学習 |
| WO2017213055A1 (ja) * | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
Cited By (35)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021074321A (ja) * | 2019-11-11 | 2021-05-20 | 富士フイルム株式会社 | 学習装置、学習方法および学習済みモデル |
| US12062446B2 (en) | 2019-11-11 | 2024-08-13 | Fujifilm Corporation | Learning device, learning method, and learned model |
| JP7292184B2 (ja) | 2019-11-11 | 2023-06-16 | 富士フイルム株式会社 | 学習装置、学習方法および学習済みモデル |
| CN111079574B (zh) * | 2019-11-29 | 2022-08-02 | 支付宝(杭州)信息技术有限公司 | 一种训练神经网络的方法及系统 |
| CN111079574A (zh) * | 2019-11-29 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种训练神经网络的方法及系统 |
| JP2021096813A (ja) * | 2019-12-18 | 2021-06-24 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | データ処理方法及び装置 |
| CN111191722A (zh) * | 2019-12-30 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | 通过计算机训练预测模型的方法及装置 |
| CN111191722B (zh) * | 2019-12-30 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 通过计算机训练预测模型的方法及装置 |
| KR102781636B1 (ko) | 2020-03-09 | 2025-03-18 | 한국과학기술원 | 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법 |
| JP2021140749A (ja) * | 2020-03-09 | 2021-09-16 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法 |
| KR20210113939A (ko) * | 2020-03-09 | 2021-09-17 | 한국과학기술원 | 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법 |
| JP7283774B2 (ja) | 2020-03-09 | 2023-05-30 | コリア アドバンスド インスティチュート オブ サイエンス アンド テクノロジィ | 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法、並びにコンピュータプログラム |
| JPWO2021220658A1 (ja) * | 2020-04-30 | 2021-11-04 | ||
| CN115428013A (zh) * | 2020-04-30 | 2022-12-02 | 索尼集团公司 | 信息处理装置和程序 |
| US12530865B2 (en) | 2020-04-30 | 2026-01-20 | Sony Group Corporation | Information processing device and program |
| JP7586172B2 (ja) | 2020-04-30 | 2024-11-19 | ソニーグループ株式会社 | 情報処理装置およびプログラム |
| WO2021220658A1 (ja) * | 2020-04-30 | 2021-11-04 | ソニーグループ株式会社 | 情報処理装置およびプログラム |
| JP2023545604A (ja) * | 2020-09-24 | 2023-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ストリーミングrnnトランスデューサの精度 |
| CN112422870A (zh) * | 2020-11-12 | 2021-02-26 | 复旦大学 | 一种基于知识蒸馏的深度学习视频插帧方法 |
| CN112422870B (zh) * | 2020-11-12 | 2021-09-17 | 复旦大学 | 一种基于知识蒸馏的深度学习视频插帧方法 |
| JP7529041B2 (ja) | 2020-11-30 | 2024-08-06 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
| JPWO2022113338A1 (ja) * | 2020-11-30 | 2022-06-02 | ||
| WO2022113340A1 (ja) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
| JPWO2022113340A1 (ja) * | 2020-11-30 | 2022-06-02 | ||
| WO2022113338A1 (ja) * | 2020-11-30 | 2022-06-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
| JP7529040B2 (ja) | 2020-11-30 | 2024-08-06 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
| GB2617035A (en) * | 2020-12-11 | 2023-09-27 | Ibm | Mixup data augmentation for knowledge distillation framework |
| WO2022121515A1 (en) * | 2020-12-11 | 2022-06-16 | International Business Machines Corporation | Mixup data augmentation for knowledge distillation framework |
| US12541691B2 (en) | 2020-12-11 | 2026-02-03 | International Business Machines Corporation | Mixup data augmentation for knowledge distillation framework |
| JP2024515713A (ja) * | 2021-04-23 | 2024-04-10 | グーグル エルエルシー | 非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善 |
| JP7749694B2 (ja) | 2021-04-23 | 2025-10-06 | グーグル エルエルシー | 非ストリーミングモデル蒸留によるストリーミング自動音声認識の改善 |
| KR102701590B1 (ko) | 2021-10-20 | 2024-09-02 | (주)뤼이드 | 지식 추적을 위한 모델 경량화 방법 |
| KR102445226B1 (ko) * | 2021-10-20 | 2022-09-20 | (주)뤼이드 | 지식 추적을 위한 모델 경량화 방법 |
| KR20230056584A (ko) * | 2021-10-20 | 2023-04-27 | (주)뤼이드 | 지식 추적을 위한 모델 경량화 방법 |
| CN119339880A (zh) * | 2024-12-24 | 2025-01-21 | 中国人民解放军海军青岛特勤疗养中心 | 一种骨关节康复训练优化方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7070894B2 (ja) | 2022-05-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7070894B2 (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
| EP3966813B1 (en) | Online verification of custom wake word | |
| Dahl et al. | Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition | |
| US10249294B2 (en) | Speech recognition system and method | |
| CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
| Deng et al. | Machine learning paradigms for speech recognition: An overview | |
| JP7590520B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
| CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
| CN108492820A (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
| CN108536670B (zh) | 输出语句生成装置、方法和程序 | |
| Liu et al. | Graph-based semi-supervised learning for phone and segment classification. | |
| JP7418991B2 (ja) | 音声認識方法及び装置 | |
| CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
| CN104538028A (zh) | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 | |
| WO2021109856A1 (zh) | 一种针对认知障碍的语音识别系统 | |
| KR20240089276A (ko) | 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝 | |
| Bhatta et al. | Nepali speech recognition using CNN, GRU and CTC | |
| Soltau et al. | Reducing the computational complexity for whole word models | |
| Vetráb et al. | Aggregation strategies of Wav2vec 2.0 embeddings for computational paralinguistic tasks | |
| Anindya et al. | Development of indonesian speech recognition with deep neural network for robotic command | |
| Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
| Zhou et al. | Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis | |
| Manjunath et al. | Development of multilingual phone recognition system for Indian languages | |
| Santos et al. | Automatic Speech Recognition: Comparisons Between Convolutional Neural Networks, Hidden Markov Model and Hybrid Architecture | |
| CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180403 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220119 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220125 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220309 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220329 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220425 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7070894 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |