JP2018141924A - 声道スペクトル推定装置、方法、及びプログラム - Google Patents
声道スペクトル推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018141924A JP2018141924A JP2017037402A JP2017037402A JP2018141924A JP 2018141924 A JP2018141924 A JP 2018141924A JP 2017037402 A JP2017037402 A JP 2017037402A JP 2017037402 A JP2017037402 A JP 2017037402A JP 2018141924 A JP2018141924 A JP 2018141924A
- Authority
- JP
- Japan
- Prior art keywords
- formant
- time
- coupling coefficient
- vocal tract
- frequencies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
本発明の実施の形態では、スペクトルテンプレートの線形結合による従来の声道スペクトログラム表現の代わりに、フォルマント周波数セットとフォルマント周波数セットのテンプレートを考え、それらの線形結合による各時刻のフォルマント周波数セットおよびフォルマント周波数セットの表現を内部にもつ新しい声道スペクトログラム表現を提案し、観測音声スペクトログラムから各テンプレートと各時刻におけるそれらの結合係数を推定する分析アルゴリズムを提案する。具体的には、スペクトル包絡の各ピークをGauss 分布関数で近似した混合Gauss 関数モデル(Gaussian Mixture Model; GMM)を考え、各Gauss 関数のピーク周波数と重みをテンプレートの線形結合で表すモデルを構築し、このスペクトル包絡モデルを観測音声スペクトルにできるだけフィットするようにフォルマント周波数セットおよびフォルマント周波数セットのテンプレートとそれらの結合係数を推定する最適化アルゴリズムを提案する。
母音の種類や質はフォルマント周波数セットによって特徴付けられる。図2からも分かるように、発話中フォルマント周波数は連続的に時間変化する傾向にある。これは発声器官の物理的制約による。また、通常の発話で使用する母音の種類は限られているため、各時刻のフォルマント周波数セットは各母音に対応した有限個のテンプレートの凸結合で表せると仮定することができる。これは、各時刻のフォルマント周波数セットを各列ベクトルとした行列を二つの行列積で表現することに相当する。以後、これをフォルマント周波数行列積表現と呼ぶ。以下では、以上のフォルマント周波数行列積表現を組み込んだ声道スペクトログラムモデルを構築する。
の個数、
はそれぞれi 番目のGauss 関数の平均、分散、重みである。また、
は
に2 を乗じているのは、
とするためである。なお、
のときは
である。よって、式(3) の条件では
である。従って、β(t) は時刻t におけるスペクトルのスケールを表す。
フォルマント強度を
とする。前述の議論に従い、
を
についても同様に、フォルマント分散
を用いて
が推定すべき未知パラメータである。ここでいずれの変数も非負でなければならない点に注意が必要である。
が滑らかな関数となることを保証するため、時刻tj を中心に局在する滑らかな非負関数(Gauss 関数やHanning関数など)
を用い
を
の代わりに
を推定すべきパラメータとすることもできる。ただし、
とする。
<最適化問題の定式化>
観測スペクトログラムを
とし、
と
ができるだけ近くなるように未知パラメータ
を求めるための最適化アルゴリズムについて述べる。ここでは
と
の近さは例えばI ダイバージェンス
は上記未知パラメータの集合とする。また、
が小さくなりすぎなくする目的で
のときに最小となる。以下では、
を式(9) で表現する場合を考える(
をデルタ関数
に置き換えれば
を変数とする場合と等価である)。以上より、最適化問題は以下となる。
を
に関して最小化したい目的関数とすると、
を満たす関数
を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、
と
を交互に繰り返すことで、目的関数
の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。
まず、負の対数関数は凸関数よりJensen の不等式より、
は
を満たす非負の変数で、等号は
は
を満たす非負の変数で、等号は
は非負の変数で、等号は
は
を満たす非負の変数で、等号は
は
を満たす非負の変数で、等号は
の補助関数としての要件を満たす。ただし、
は補助変数
の集合である。また、
はパラメータ
にも補助変数
にも依らない定数項をまとめたものである。
以上の補助関数
を用いて各パラメータの更新式を導くことができる。
の更新式
は式(7) の条件を満たす必要があるので、ラグランジアン
の偏微分を
の更新式
は式(11)の条件を満たす必要があるが、ここでは無制約下で
を最小化する
を求めたのちに正規化する方法をとることとする。
の偏微分を
を最小化する
は
を更新した後、
の更新式
を得る。
の更新式
を得る。
の更新式
補助関数法に基づく以上の最適化アルゴリズムは以下の1.〜3.のようにまとめられる。
を初期設定する。
次に、本発明の実施の形態に係る声道スペクトル推定装置の構成について説明する。図5に示すように、本発明の実施の形態に係る声道スペクトル推定装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この声道スペクトル推定装置100は、機能的には図5に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
の各々に初期値を設定する。
に基づいて、上記式(46)〜式(50)に従って、補助変数
を更新する。
と、初期値である、又は前回更新したパラメータ
とに基づいて、上記式(51)〜式(57)に従って、パラメータ
を更新する。
次に、本発明の実施の形態に係る声道スペクトル推定装置100の作用について説明する。まず、入力部10において音声信号の時系列データを受け付けると、声道スペクトル推定装置100は、図6に示すパラメータ推定処理ルーチンを実行する。
の各々に初期値を設定する。
に基づいて、上記式(46)〜式(50)に従って、補助変数
を更新する。
と、初期値である、又は前回更新したパラメータ
とに基づいて、上記式(51)〜式(57)に従って、パラメータ
を更新する。
を出力部90から出力して、パラメータ推定処理ルーチンを終了する。
図7、9 に示す
に対し、本発明の実施の形態に係る手法により推定した
を図8、10に示す。テンプレート数はK = 10 とした。
のフォルマント周波数軌跡を適切に推定できていることが確認できた。
20 演算部
24 時間周波数展開部
36 パラメータ推定部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 声道スペクトル推定装置
Claims (7)
- 音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、
前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定するパラメータ推定部と、
を含む声道スペクトル推定装置。 - 前記規準は、前記Gauss分布関数の各々についての、K個のフォルマント周波数のセットに対するフォルマント強度の大きさに関するペナルティ項を更に含む請求項1記載の声道スペクトル推定装置。
- 前記パラメータ推定部は、
前記規準の上界関数である補助関数を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
を含む請求項1又は2記載の声道スペクトル推定装置。 - 時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力し、
パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定する
声道スペクトル推定方法。 - 前記規準は、前記Gauss分布関数の各々についての、K個のフォルマント周波数のセットに対するフォルマント強度の大きさに関するペナルティ項を更に含む請求項4記載の声道スペクトル推定方法。
- 前記パラメータ推定部が推定することでは、
パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる
ことを含む請求項4又は5記載の声道スペクトル推定方法。 - 請求項1〜請求項3の何れか1項に記載の声道スペクトル推定装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017037402A JP6689769B2 (ja) | 2017-02-28 | 2017-02-28 | 声道スペクトル推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017037402A JP6689769B2 (ja) | 2017-02-28 | 2017-02-28 | 声道スペクトル推定装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018141924A true JP2018141924A (ja) | 2018-09-13 |
| JP6689769B2 JP6689769B2 (ja) | 2020-04-28 |
Family
ID=63528126
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017037402A Active JP6689769B2 (ja) | 2017-02-28 | 2017-02-28 | 声道スペクトル推定装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6689769B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109783932A (zh) * | 2019-01-14 | 2019-05-21 | 哈尔滨工程大学 | 一种结合最优观测时间窗口的强耦合数据同化方法 |
-
2017
- 2017-02-28 JP JP2017037402A patent/JP6689769B2/ja active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109783932A (zh) * | 2019-01-14 | 2019-05-21 | 哈尔滨工程大学 | 一种结合最优观测时间窗口的强耦合数据同化方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6689769B2 (ja) | 2020-04-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
| Markel et al. | Linear prediction of speech | |
| US20200357381A1 (en) | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product | |
| US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
| EP2431967B1 (en) | Voice conversion device and method | |
| KR100919223B1 (ko) | 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 | |
| JP5846043B2 (ja) | 音声処理装置 | |
| US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
| US8438014B2 (en) | Separating speech waveforms into periodic and aperiodic components, using artificial waveform generated from pitch marks | |
| Sanand et al. | VTLN using analytically determined linear-transformation on conventional MFCC | |
| US20230360631A1 (en) | Voice conversion device, voice conversion method, and voice conversion program | |
| JP6689769B2 (ja) | 声道スペクトル推定装置、方法、及びプログラム | |
| Mokhtari et al. | Iterative Optimal Preemphasis for Improved Glottal-Flow Estimation by Iterative Adaptive Inverse Filtering. | |
| EP3242295B1 (en) | A signal processor | |
| JP2011150232A (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
| JP6764843B2 (ja) | 信号解析装置、方法、及びプログラム | |
| JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
| JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
| Ullah et al. | Advanced transient noise reduction in speech signals via semi-supervised signal fusion | |
| JP6420781B2 (ja) | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム | |
| JP5318042B2 (ja) | 信号解析装置、信号解析方法及び信号解析プログラム | |
| JP4958241B2 (ja) | 信号処理装置、信号処理方法、信号処理プログラムおよび記録媒体 | |
| Akagiri et al. | Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis | |
| Eyben et al. | A frequency-weighted post-filtering transform for compensation of the over-smoothing effect in HMM-based speech synthesis | |
| Lammert et al. | On instantaneous vocal tract length estimation from formant frequencies |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190219 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191212 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200107 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200220 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200331 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200408 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6689769 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |