JP2018128500A - 形成装置、形成方法および形成プログラム - Google Patents
形成装置、形成方法および形成プログラム Download PDFInfo
- Publication number
- JP2018128500A JP2018128500A JP2017019449A JP2017019449A JP2018128500A JP 2018128500 A JP2018128500 A JP 2018128500A JP 2017019449 A JP2017019449 A JP 2017019449A JP 2017019449 A JP2017019449 A JP 2017019449A JP 2018128500 A JP2018128500 A JP 2018128500A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic signal
- target
- unit
- beamformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
まず、図1を参照して、本実施形態に係る形成装置の概略構成を説明する。図1に示すように、本実施形態に係る形成装置1は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と出力部12と通信制御部13と、記憶部14と、制御部15とを備える。形成装置1は、後述する形成処理を実行して、音声認識に最適に目的音声の音声強調を行ったビームを形成する。
次に、図4を参照して、形成装置1の形成処理について説明する。図4は、形成装置1の形成処理手順を示すフローチャートである。図4のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。
上記実施形態に係る形成装置1を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたM=6個のマイクで収録した場合について、実験を行った。ここで、学習率αは6×103とした。また、ビームフォーマwfの初期値は、上記式(4)に示す尤度関数を最大化するように求めた値とした。また、上記式(21)に示すビームフォーマwfの更新式の反復回数は30回とした。
上記実施形態に係る形成装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、形成装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の形成処理を実行する形成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の形成プログラムを情報処理装置に実行させることにより、情報処理装置を形成装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の形成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、形成装置1は、観測信号を入力とし、強調音声を出力する形成処理サービスを提供するサーバ装置として実装される。この場合、形成装置1は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の形成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、形成装置1と同様の機能を実現する形成プログラムを実行するコンピュータの一例を説明する。
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15a 取得部
15b 時間周波数分析部
15c 推定部
15d 音声強調部
15e 音声認識部
15f 最適化部
Claims (5)
- 音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、
周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、
を備えることを特徴とする形成装置。 - さらに、前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いてビームフォーマを算出する推定部を備え、
前記音声強調部は、算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち該目的音声の音響信号を強調した強調音声の音響信号を算出することを特徴とする請求項1に記載の形成装置。 - 前記最適化部は、一部の周波数について、または、ベクトルの一部の成分について、前記ビームフォーマを最適化することを特徴とする請求項1または2に記載の形成装置。
- 形成装置で実行される形成方法であって、
音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得工程と、
周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調工程と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識工程と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化工程と、
を含むことを特徴とする形成方法。 - 音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得ステップと、
周波数ごとに音響信号のビームを形成するための所定のビームフォーマを用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調ステップと、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識ステップと、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化ステップと、
をコンピュータに実行させることを特徴とする形成プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017019449A JP6711765B2 (ja) | 2017-02-06 | 2017-02-06 | 形成装置、形成方法および形成プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017019449A JP6711765B2 (ja) | 2017-02-06 | 2017-02-06 | 形成装置、形成方法および形成プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018128500A true JP2018128500A (ja) | 2018-08-16 |
| JP6711765B2 JP6711765B2 (ja) | 2020-06-17 |
Family
ID=63172697
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017019449A Active JP6711765B2 (ja) | 2017-02-06 | 2017-02-06 | 形成装置、形成方法および形成プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6711765B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020141160A (ja) * | 2019-02-26 | 2020-09-03 | 国立大学法人 筑波大学 | 音情報処理装置及びプログラム |
| CN112216298A (zh) * | 2019-07-12 | 2021-01-12 | 大众问问(北京)信息科技有限公司 | 双麦克风阵列声源定向方法、装置及设备 |
| JPWO2021255925A1 (ja) * | 2020-06-19 | 2021-12-23 | ||
| JP2025000790A (ja) * | 2019-03-10 | 2025-01-07 | カードーム テクノロジー リミテッド | キューのクラスター化を使用した音声強化 |
-
2017
- 2017-02-06 JP JP2017019449A patent/JP6711765B2/ja active Active
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020141160A (ja) * | 2019-02-26 | 2020-09-03 | 国立大学法人 筑波大学 | 音情報処理装置及びプログラム |
| JP7182168B2 (ja) | 2019-02-26 | 2022-12-02 | 国立大学法人 筑波大学 | 音情報処理装置及びプログラム |
| JP2025000790A (ja) * | 2019-03-10 | 2025-01-07 | カードーム テクノロジー リミテッド | キューのクラスター化を使用した音声強化 |
| CN112216298A (zh) * | 2019-07-12 | 2021-01-12 | 大众问问(北京)信息科技有限公司 | 双麦克风阵列声源定向方法、装置及设备 |
| CN112216298B (zh) * | 2019-07-12 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 双麦克风阵列声源定向方法、装置及设备 |
| JPWO2021255925A1 (ja) * | 2020-06-19 | 2021-12-23 | ||
| WO2021255925A1 (ja) * | 2020-06-19 | 2021-12-23 | 日本電信電話株式会社 | 目的音信号生成装置、目的音信号生成方法、プログラム |
| JP7428251B2 (ja) | 2020-06-19 | 2024-02-06 | 日本電信電話株式会社 | 目的音信号生成装置、目的音信号生成方法、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6711765B2 (ja) | 2020-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11763834B2 (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
| Drude et al. | NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing | |
| JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
| EP3078020B1 (en) | Method and apparatus for speech recognition using neural networks with speaker adaptation | |
| US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
| US12254250B2 (en) | Mask estimation device, mask estimation method, and mask estimation program | |
| JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
| JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
| JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
| CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
| CN115699170B (zh) | 文本回声消除 | |
| JP2018141922A (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
| JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
| JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
| WO2022123742A1 (ja) | 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム | |
| JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
| JP2021157145A (ja) | 推論器および推論器の学習方法 | |
| JP2021033466A (ja) | 符号化装置、復号装置、パラメータ学習装置、およびプログラム | |
| US12482479B2 (en) | Acoustic signal enhancement apparatus, method and program | |
| WO2023013081A1 (ja) | 学習装置、推定装置、学習方法及び学習プログラム | |
| US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
| JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
| WO2025046906A1 (ja) | 信号処理装置及び信号処理方法 | |
| WO2020035998A1 (ja) | 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム | |
| JPWO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181210 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191017 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191212 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200528 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6711765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |