JP2019035862A - 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム - Google Patents
入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム Download PDFInfo
- Publication number
- JP2019035862A JP2019035862A JP2017157322A JP2017157322A JP2019035862A JP 2019035862 A JP2019035862 A JP 2019035862A JP 2017157322 A JP2017157322 A JP 2017157322A JP 2017157322 A JP2017157322 A JP 2017157322A JP 2019035862 A JP2019035862 A JP 2019035862A
- Authority
- JP
- Japan
- Prior art keywords
- input
- mask
- sound
- processing function
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
(参考非特許文献1:ITU-T Recommendation P.862,”Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”, 2001.)
(参考非特許文献2:C.H.Taal, R.C.Hendriks, R.Heusdens, and J.Jensen, “An Algorithm for Intelligibility Prediction of Time-Frequency Weighted Noisy Speech”, IEEE Transactions on Audio, Speech and Language Processing, Vol.19, pp.2125-2136, 2011.)
PESQやSTOIのような評価値は、時間周波数マスク(やそのパラメータ)の推定値とラベルデータとの誤差(式(12)参照)のように微分することはできない。そこで、ここでは、従来のように直接時間周波数マスク(またはそのパラメータ)を推定する非線形射影のアプローチではなく、観測信号を得た下で評価値を最大化する時間周波数マスクの事後確率分布(またはそのパラメータ)を推定する。この事後確率分布が満たすべき性質を目的関数として記述し、この目的関数を用いて、DNN(DNNパラメータΘΜ)を学習する。
《目的関数Tarの導出》
本発明の実施の形態で最大化する対象となる評価値には、PESQやSTOIのような音声強調の出力信号S^ω,τから計算できる評価値がある。また、MOS値のように主観評価を行った結果やよい悪いを示す二値のように計算以外の方法で出力信号S^ω,τから得ることができる評価値であってもよい。さらに、例えば音声認識向けに音源強調を最適化したいのであれば、音声認識の結果が正解か否かの二値を評価値としてもよい。
以下、式(26)の目的関数Tarを用いて、時間周波数マスクGτが評価値を最大化する事後確率p(Gτ|xτ,ΘΜ)の分布パラメータを出力とするDNNのパラメータΘΜを学習するためのアルゴリズムについて説明する。
まず、p(Gτ|xτ,ΘΜ)をDNNのパラメータΘΜで微分可能な分布として表現し、p(Gτ|xτ,ΘΜ)の分布パラメータをニューラルネットワークで推定、出力する。
代表的な評価値であるPESQやSTOIは、音源強調の性能だけでなく観測信号のSNRや雑音の種類によっても値が変動してしまう。そこで、上述のDNN(式(26)の目的関数Tarを用いたDNN)により学習したパラメータΘΜから求めた時間周波数マスクを用いて音源強調した出力音の評価値と、従来のMMSE(minimum mean squared error)基準を用いたDNNにより学習したパラメータΘΜから求めた時間周波数マスクを用いて音源強調した出力音(非特許文献1)の評価値を比較することで得られる評価値(以下、比較報酬という)を計算する。
ここでは、<技術的背景>で説明した内容に基づいて構成した音源強調学習装置について説明する。
(参考非特許文献3:F.Seide, G.Li, X.Chen and D.Yu, “Feature engineering in context-dependent deep neural networks for conversational speech transcription”, In Proc. IEEE Automatic Speech Recognition and Understanding Workshop(ASRU), pp. 24-29, 2011.)
(参考非特許文献4:D.Kingma and J.Ba, “Adam: A Method for Stochastic Optimization”, In Proc. of the 3rd International Conference for Learning Representations(ICLR), pp.1-15, 2015.)
ここでは、第一実施形態の音源強調学習装置が生成したDNNパラメータを用いた音源強調装置について説明する。
第一実施形態では、音源強調のためのDNN-RL学習について説明したが、<技術的背景>で説明した枠組み、つまり、DNN-RLパラメータΘΜの学習(最適化)を式(15)のような事後確率分布p(Gτ|xτ,ΘΜ)を出力とするDNN-RLにより定式化する枠組みは、一般に音のマスク処理(フィルタリング)に関しても適用することができる。
第一実施形態における報酬係数の計算では、DNN-MMSEパラメータΘMMSE iniを用いて得られる時間周波数マスク処理によるDNN-MMSE時間領域出力信号の評価値も用いる比較報酬に基づいて計算した。
第三実施形態や第四実施形態では、入力音に対するマスク(フィルタ)による処理を対象にしたNNの学習について説明したが、より一般に入力データに対する所定の処理関数による処理を対象としたNNの学習について、<技術的背景>で説明した枠組みを適用した例を説明する。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (10)
- 入力音に基づく入力ベクトルxτ(τ∈{1,…,Τ})を入力とした場合にマスクGτ(τ∈{1,…,Τ})が生成される生成確率をモデル化した事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づき、N個の入力音(Nは1以上τ以下の整数)に基づく入力ベクトルxNからN個のマスクGNを生成するマスク生成部と、
前記マスクGNを用いて、前記N個の入力音から、前記N個の入力音をマスク処理したN個の出力音を生成するマスク処理部と、
前記N個の出力音に対する、前記マスクGNの報酬係数を得る報酬係数取得部と、
前記報酬係数と、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づく前記入力ベクトルxNを入力とした場合にマスクGNが生成される生成確率q(GN|xN)とを用いて、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})を更新する更新部と
を含む入力音マスク処理学習装置であって、
前記報酬係数は、前記出力音の評価値と、前記入力音が入力された場合に生成した前記マスクGNの確からしさである確信度から定まる
ことを特徴とする入力音マスク処理学習装置。 - 請求項1に記載の入力音マスク処理学習装置であって、
前記報酬係数は、前記出力音の評価値と前記確信度の積であり、
前記更新部は、前記報酬係数と、前記生成確率q(GN|xN)の積を用いて、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})を更新する
ことを特徴とする入力音マスク処理学習装置。 - 請求項1または2に記載の入力音マスク処理学習装置であって、
前記生成確率q(GN|xN)は、
前記出力音の評価値が正の値であるときは、その値が大きくなるように変動し、
前記出力音の評価値が負の値であるときは、その値が小さくなるように変動し、
前記確信度が相対的に低いときの値の変動は、前記確信度が相対的に高いときの値の変動に比して小さくなる
ことを特徴とする入力音マスク処理学習装置。 - 請求項1ないし3のいずれか1項に記載の入力音マスク処理学習装置であって、
前記生成確率q(GN|xN)は、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})の対数の和である
ことを特徴とする入力音マスク処理学習装置。 - 請求項1に記載の入力音マスク処理学習装置であって、
前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})は、パラメータΘΜを用いて、p(Gτ|xτ,ΘΜ)(τ∈{1,…,Τ})と表現され、
前記評価値は、パラメータΘΜで微分することができない
ことを特徴とする入力音マスク処理学習装置。 - 請求項1ないし5のいずれか1項に記載の入力音マスク処理学習装置であって、
さらに、
前記N個の入力音から、N個の比較出力音を生成する比較出力音生成部と
を含み、
前記報酬係数は、前記出力音の評価値と前記比較出力音の評価値との差と、前記確信度から定まる
ことを特徴とする入力音マスク処理学習装置。 - 入力データに基づく入力ベクトルxτ(τ∈{1,…,Τ})を入力とした場合に処理関数Gτ(τ∈{1,…,Τ})が生成される生成確率をモデル化した事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づき、N個の入力データ(Nは1以上τ以下の整数)に基づく入力ベクトルxNからN個の処理関数GNを生成する処理関数生成部と、
前記処理関数GNを用いて、前記N個の入力データから、前記N個の入力データを処理関数により処理したN個の出力データを生成する処理関数適用部と、
前記N個の出力データに対する、前記処理関数GNの報酬係数を得る報酬係数取得部と、
前記報酬係数と、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づく前記入力ベクトルxNを入力とした場合に処理関数GNが生成される生成確率q(GN|xN)とを用いて、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})を更新する更新部と
を含む入力データ処理関数学習装置であって、
前記報酬係数は、前記出力データの評価値と、前記入力データが入力された場合に生成した前記処理関数GNの確からしさである確信度から定まる
ことを特徴とする入力データ処理関数学習装置。 - 入力音マスク処理学習装置が、入力音に基づく入力ベクトルxτ(τ∈{1,…,Τ})を入力とした場合にマスクGτ(τ∈{1,…,Τ})が生成される生成確率をモデル化した事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づき、N個の入力音(Nは1以上τ以下の整数)に基づく入力ベクトルxNからN個のマスクGNを生成するマスク生成ステップと、
前記入力音マスク処理学習装置が、前記マスクGNを用いて、前記N個の入力音から、前記N個の入力音をマスク処理したN個の出力音を生成するマスク処理ステップと、
前記入力音マスク処理学習装置が、前記N個の出力音に対する、前記マスクGNの報酬係数を得る報酬係数取得ステップと、
前記入力音マスク処理学習装置が、前記報酬係数と、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づく前記入力ベクトルxNを入力とした場合にマスクGNが生成される生成確率q(GN|xN)とを用いて、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})を更新する更新ステップと
を含む入力音マスク処理学習方法であって、
前記報酬係数は、前記出力音の評価値と、前記入力音が入力された場合に生成した前記マスクGNの確からしさである確信度から定まる
ことを特徴とする入力音マスク処理学習方法。 - 入力データ処理関数学習装置が、入力データに基づく入力ベクトルxτ(τ∈{1,…,Τ})を入力とした場合に処理関数Gτ(τ∈{1,…,Τ})が生成される生成確率をモデル化した事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づき、N個の入力データ(Nは1以上τ以下の整数)に基づく入力ベクトルxNからN個の処理関数GNを生成する処理関数生成ステップと、
前記入力データ処理関数学習装置が、前記処理関数GNを用いて、前記N個の入力データから、前記N個の入力データを処理関数により処理したN個の出力データを生成する処理関数適用ステップと、
前記入力データ処理関数学習装置が、前記N個の出力データに対する、前記処理関数GNの報酬係数を得る報酬係数取得ステップと、
前記入力データ処理関数学習装置が、前記報酬係数と、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})に基づく前記入力ベクトルxNを入力とした場合に処理関数GNが生成される生成確率q(GN|xN)とを用いて、前記事後確率分布p(Gτ|xτ)(τ∈{1,…,Τ})を更新する更新ステップと
を含む入力データ処理関数学習方法であって、
前記報酬係数は、前記出力データの評価値と、前記入力データが入力された場合に生成した前記処理関数GNの確からしさである確信度から定まる
ことを特徴とする入力データ処理関数学習方法。 - 請求項1ないし6のいずれか1項に記載の入力音マスク処理学習装置または請求項7に記載の入力データ処理関数学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017157322A JP6721165B2 (ja) | 2017-08-17 | 2017-08-17 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017157322A JP6721165B2 (ja) | 2017-08-17 | 2017-08-17 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019035862A true JP2019035862A (ja) | 2019-03-07 |
| JP6721165B2 JP6721165B2 (ja) | 2020-07-08 |
Family
ID=65637362
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017157322A Active JP6721165B2 (ja) | 2017-08-17 | 2017-08-17 | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6721165B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113377331A (zh) * | 2021-07-05 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及存储介质 |
| CN113807403A (zh) * | 2021-08-23 | 2021-12-17 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
| CN114220449A (zh) * | 2021-12-24 | 2022-03-22 | 瓴盛科技有限公司 | 一种语音信号降噪处理方法、装置和计算机可读介质 |
| JP2022528720A (ja) * | 2019-04-11 | 2022-06-15 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
| JP2013186383A (ja) * | 2012-03-09 | 2013-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
| US20140328487A1 (en) * | 2013-05-02 | 2014-11-06 | Sony Corporation | Sound signal processing apparatus, sound signal processing method, and program |
-
2017
- 2017-08-17 JP JP2017157322A patent/JP6721165B2/ja active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009210888A (ja) * | 2008-03-05 | 2009-09-17 | Univ Of Tokyo | 音信号の分離方法 |
| US20110058685A1 (en) * | 2008-03-05 | 2011-03-10 | The University Of Tokyo | Method of separating sound signal |
| JP2013186383A (ja) * | 2012-03-09 | 2013-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置、音源分離方法、およびプログラム |
| US20140328487A1 (en) * | 2013-05-02 | 2014-11-06 | Sony Corporation | Sound signal processing apparatus, sound signal processing method, and program |
| JP2014219467A (ja) * | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
Non-Patent Citations (2)
| Title |
|---|
| GAURAV NAITHANI ET AL.: "Low-latency sound source separation using deep neural networks", 2016 IEEE GLOBAL CONFERENCE ON SIGNAL AND INFORMATION PROCESSING (GLOBALSIP), JPN6020018799, 7 December 2016 (2016-12-07), pages 272 - 276, ISSN: 0004277559 * |
| 小泉 悠馬, 外3名: "聴感評点を向上させるためのDNN音源強調関数のブラックボックス最適化", 日本音響学会2017年秋季研究発表会講演論文集CD-ROM, JPN6020018798, 11 September 2017 (2017-09-11), pages 511 - 514, ISSN: 0004277558 * |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022528720A (ja) * | 2019-04-11 | 2022-06-15 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
| JP7383725B2 (ja) | 2019-04-11 | 2023-11-20 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | オーディオデコーダ、フィルタの特性を定義する値のセットを決定するための装置、復号されたオーディオ表現を提供するための方法、フィルタの特性を定義する値のセットを決定するための方法、およびコンピュータプログラム |
| US12444425B2 (en) | 2019-04-11 | 2025-10-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
| CN113377331A (zh) * | 2021-07-05 | 2021-09-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频数据处理方法、装置、设备及存储介质 |
| CN113807403A (zh) * | 2021-08-23 | 2021-12-17 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
| CN113807403B (zh) * | 2021-08-23 | 2023-06-16 | 网易(杭州)网络有限公司 | 模型训练的方法、装置、计算机设备及存储介质 |
| CN114220449A (zh) * | 2021-12-24 | 2022-03-22 | 瓴盛科技有限公司 | 一种语音信号降噪处理方法、装置和计算机可读介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6721165B2 (ja) | 2020-07-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111161752B (zh) | 回声消除方法和装置 | |
| JP6234060B2 (ja) | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム | |
| JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
| JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
| CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
| JP2012155339A (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
| JP4316583B2 (ja) | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム | |
| JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
| CN113990343B (zh) | 语音降噪模型的训练方法和装置及语音降噪方法和装置 | |
| JP6563874B2 (ja) | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム | |
| JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
| Jannu et al. | Weibull and nakagami speech priors based regularized nmf with adaptive wiener filter for speech enhancement | |
| Dash et al. | Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction | |
| US20070010291A1 (en) | Multi-sensory speech enhancement using synthesized sensor signal | |
| JP5191500B2 (ja) | 雑音抑圧フィルタ算出方法と、その装置と、プログラム | |
| Ueda et al. | Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization | |
| JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
| WO2025007866A1 (zh) | 语音增强方法、装置、电子设备及存储介质 | |
| WO2021217750A1 (zh) | 消除语音交互中信道差异的方法及系统、电子设备及介质 | |
| JP6000094B2 (ja) | 話者適応化装置、話者適応化方法、プログラム | |
| Llombart et al. | Speech enhancement with wide residual networks in reverberant environments | |
| JP5562451B1 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
| Talbi et al. | A new speech enhancement technique based on stationary bionic wavelet transform and MMSE estimate of spectral amplitude | |
| Lemercier et al. | Wind noise reduction with a diffusion-based stochastic regeneration model | |
| WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170817 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190807 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200519 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200610 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6721165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |