JP2017090660A - 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム - Google Patents
音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP2017090660A JP2017090660A JP2015220304A JP2015220304A JP2017090660A JP 2017090660 A JP2017090660 A JP 2017090660A JP 2015220304 A JP2015220304 A JP 2015220304A JP 2015220304 A JP2015220304 A JP 2015220304A JP 2017090660 A JP2017090660 A JP 2017090660A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data
- acoustic model
- native
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】学習データ記憶部14は、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する。音響モデル学習部15は、学習データを用いて音響モデルを学習し、音響モデル記憶部16に記憶する。
【選択図】図5
Description
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 非ネイティブ性抽出部
12 音響特徴量抽出部
13 学習データ生成部
14 学習データ記憶部
15 音響モデル学習部
16 音響モデル記憶部
20 言語モデル記憶部
21 特徴量結合部
22 音声認識部
Claims (7)
- 学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と上記学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、上記学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データを記憶する学習データ記憶部と、
上記学習データを用いて音響モデルを学習する音響モデル学習部と、
を含む音響モデル学習装置。 - 請求項1に記載の音響モデル学習装置であって、
上記学習用音声データから上記非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、
上記学習用音声データから上記音響特徴量を抽出する音響特徴量抽出部と、
上記非ネイティブ特徴量と上記音響特徴量とを結合して上記学習用入力特徴量を生成し、その学習用入力特徴量と上記書き起こしデータとを関連付けて上記学習データを生成する学習データ生成部と、
をさらに含む音響モデル学習装置。 - 請求項1または2に記載の音響モデル学習装置であって、
上記非ネイティブ特徴量は、言語判別モデルによる言語判別結果のスコア、ネイティブ向け音響モデルによる評価結果のスコア、もしくはネイティブ向け音声認識による認識結果の信頼度のいずれかである、
音響モデル学習装置。 - 請求項1から3のいずれかに記載の音響モデル学習装置により生成した音響モデルを記憶する音響モデル記憶部と、
入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出部と、
上記入力音声データから音響特徴量を抽出する音響特徴量抽出部と、
上記非ネイティブ特徴量と上記音響特徴量とを結合した認識用入力特徴量を上記音響モデルへ入力して上記入力音声データの音声認識結果を得る音声認識部と、
を含む音声認識装置。 - 学習データ記憶部に、学習用音声データから抽出した話者の非ネイティブ性を表す非ネイティブ特徴量と上記学習用音声データから抽出した音響特徴量とを結合した学習用入力特徴量と、上記学習用音声データの発話内容を表す書き起こしデータとが関連付けられた学習データが記憶されており、
音響モデル学習部が、上記学習データを用いて音響モデルを学習する音響モデル学習ステップを含む、
音響モデル学習方法。 - 音響モデル記憶部に、請求項5に記載の音響モデル学習方法により生成した音響モデルが記憶されており、
非ネイティブ性抽出部が、入力音声データから話者の非ネイティブ性を表す非ネイティブ特徴量を抽出する非ネイティブ性抽出ステップと、
音響特徴量抽出部が、上記入力音声データから音響特徴量を抽出する音響特徴量抽出ステップと、
音声認識部が、上記非ネイティブ特徴量と上記音響特徴量とを結合した認識用入力特徴量を上記音響モデルへ入力して上記入力音声データの音声認識結果を得る音声認識ステップと、
を含む音声認識方法。 - 請求項1から3のいずれかに記載の音響モデル学習装置の各部もしくは請求項4に記載の音声認識装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015220304A JP6546070B2 (ja) | 2015-11-10 | 2015-11-10 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015220304A JP6546070B2 (ja) | 2015-11-10 | 2015-11-10 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017090660A true JP2017090660A (ja) | 2017-05-25 |
| JP6546070B2 JP6546070B2 (ja) | 2019-07-17 |
Family
ID=58768369
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015220304A Active JP6546070B2 (ja) | 2015-11-10 | 2015-11-10 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6546070B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020030286A (ja) * | 2018-08-21 | 2020-02-27 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
| JP2020057129A (ja) * | 2018-10-01 | 2020-04-09 | Kddi株式会社 | 言語識別モデルを用いた発音評価プログラム、装置及び方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10133693A (ja) * | 1996-10-28 | 1998-05-22 | Nec Corp | 音声認識装置 |
| JP2002082688A (ja) * | 2000-09-05 | 2002-03-22 | Mitsubishi Electric Corp | 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 |
| JP2003022087A (ja) * | 2001-03-07 | 2003-01-24 | Sony Internatl Europ Gmbh | 音声認識方法 |
| JP2005292770A (ja) * | 2004-03-10 | 2005-10-20 | Advanced Telecommunication Research Institute International | 音響モデル生成装置及び音声認識装置 |
-
2015
- 2015-11-10 JP JP2015220304A patent/JP6546070B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10133693A (ja) * | 1996-10-28 | 1998-05-22 | Nec Corp | 音声認識装置 |
| JP2002082688A (ja) * | 2000-09-05 | 2002-03-22 | Mitsubishi Electric Corp | 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 |
| JP2003022087A (ja) * | 2001-03-07 | 2003-01-24 | Sony Internatl Europ Gmbh | 音声認識方法 |
| JP2005292770A (ja) * | 2004-03-10 | 2005-10-20 | Advanced Telecommunication Research Institute International | 音響モデル生成装置及び音声認識装置 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020030286A (ja) * | 2018-08-21 | 2020-02-27 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
| JP2020057129A (ja) * | 2018-10-01 | 2020-04-09 | Kddi株式会社 | 言語識別モデルを用いた発音評価プログラム、装置及び方法 |
| JP7064413B2 (ja) | 2018-10-01 | 2022-05-10 | Kddi株式会社 | 言語識別モデルを用いた発音評価プログラム、装置及び方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6546070B2 (ja) | 2019-07-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11664020B2 (en) | Speech recognition method and apparatus | |
| CN113470662B (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
| US12142271B2 (en) | Cross-device voiceprint recognition | |
| CN103221996B (zh) | 用于验证说话人的口令建模的设备和方法、以及说话人验证系统 | |
| CN106463113B (zh) | 在语音辨识中预测发音 | |
| CN110706714B (zh) | 说话者模型制作系统 | |
| US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
| CN108885870A (zh) | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 | |
| US9905224B2 (en) | System and method for automatic language model generation | |
| JP6189818B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム | |
| CN116778967B (zh) | 基于预训练模型的多模态情感识别方法及装置 | |
| JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
| JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
| JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
| JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
| KR20150049449A (ko) | 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 | |
| JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 | |
| TWI731921B (zh) | 語音識別方法及裝置 | |
| KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
| JP6006674B2 (ja) | 音響モデル選択装置とその方法とプログラム | |
| JP6965846B2 (ja) | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム | |
| JP2012118441A (ja) | 音響モデル作成方法とその装置とプログラム | |
| JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
| JP5088314B2 (ja) | 音声応答装置、及びプログラム | |
| WO2024218877A1 (ja) | 音声合成方法、音声合成装置及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171211 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181127 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190121 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190618 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190620 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6546070 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |