[go: up one dir, main page]

JP2018141924A - 声道スペクトル推定装置、方法、及びプログラム - Google Patents

声道スペクトル推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018141924A
JP2018141924A JP2017037402A JP2017037402A JP2018141924A JP 2018141924 A JP2018141924 A JP 2018141924A JP 2017037402 A JP2017037402 A JP 2017037402A JP 2017037402 A JP2017037402 A JP 2017037402A JP 2018141924 A JP2018141924 A JP 2018141924A
Authority
JP
Japan
Prior art keywords
formant
time
coupling coefficient
vocal tract
frequencies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017037402A
Other languages
English (en)
Other versions
JP6689769B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
ユンハン ゾウ
Yoon-Heung Zou
ユンハン ゾウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017037402A priority Critical patent/JP6689769B2/ja
Publication of JP2018141924A publication Critical patent/JP2018141924A/ja
Application granted granted Critical
Publication of JP6689769B2 publication Critical patent/JP6689769B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音声信号から声道スペクトルを精度よく推定することができる。【解決手段】時間周波数展開部24が、音声信号の時系列データを入力として、観測スペクトログラムを出力する。パラメータ推定部36が、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、K個のフォルマント周波数のセットに対するフォルマント強度と結合係数で表し、分散を、K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の混合Gauss関数モデルと、観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、K個のフォルマント周波数のセット及び各時刻の結合係数と、フォルマント強度と、フォルマント分散及び各時刻の結合係数とを推定する。【選択図】図5

Description

本発明は、声道スペクトル推定装置、方法、及びプログラムに係り、特に、音声信号から声道スペクトルを推定する声道スペクトル推定装置、方法、及びプログラムに関する。
音声のソースフィルタ理論(図1)によればスペクトル包絡は声道の共振特性(声道スペクトル)に対応しており、声質や音韻などに関する情報を豊富に含んでいる。通常発話では母音や音素の種類は限られていることから、各時刻の声道スペクトルを有限個のテンプレートの非負結合で近似できると仮定すると、声道スペクトログラムを二つの非負値行列の積で表現することができる。非負値行列を二つの非負値行列の積で近似することを非負値行列因子分解(Non-negative Matrix Factorization; NMF) といい、声道スペクトログラムのNMF による行列積表現はいくつかの応用場面において有用である。以下に二つの例を挙げる。
まず、この表現により声道スペクトログラムを時間に依存しない話者の声質に関する因子と時間依存する発話内容や発話スタイルに関する因子とに分解することができるため、後者の因子を固定したまま前者の因子のみを変換してスペクトログラムを再構成することで、音声の発話内容を変えずに声質のみを変えることができる(非特許文献1、2)。このような技術を声質変換という。
もう一つは、音声分析合成のための声道スペクトル推定への応用である。音声合成や音声変換をはじめ音声処理全般において、音声信号から声道スペクトルを推定する技術は多くの場面で用いられている。短区間ごとの音声信号を周期デルタ関数(パルス列)を入力とした線形時不変系の出力としてモデル化できるとすれば、この線形系の入力とインパルス応答がそれぞれ声帯音源信号と声道特性に対応する。この仮定は、周波数領域では周期デルタ関数で表される声帯音源スペクトルと声道スペクトルの積で音声スペクトルが表されることに相当する。従って、音声スペクトルは声道スペクトルを周期的に(基本周波数間隔で)サンプリングしたもの、と見なすことができる。代表的な声道スペクトル推定方法の一つとして広く知られるSTRAIGHT は、音声信号を基本周期の幅で切り出し、その切り出し信号のスペクトルを声道スペクトルの推定値とする方法である。これは周波数領域では、各調波成分のピークを滑らかに補間したものを声道スペクトルと見なしていることに相当する。しかしこの方法によって得られる声道スペクトル推定値は、定常な音声が対象であっても切り出しフレームのオフセットに依存して周期的に時間変化することが知られる。これは各調波成分が互いに干渉し合うからであり、調波成分間の干渉に起因するこの変動成分を除くよう改良された手法も提案されている。しかし、前述のとおり音声スペクトルは声道スペクトルを基本周波数(F0) 間隔でサンプリングしたものと見なせるため、音声のF0 が高いときほど声道スペクトル推定の手がかりは少なくなる。このことは、フレームごとに独立な処理に本質的な限界があることを示唆している。一方で、通常発話では母音や音素の種類は限られていることから、類似した声道スペクトルが複数の異なる時刻で現れることも手がかりとなる。複数のフレームが共通の声道スペクトルを持つと仮定できそれらのフレームでF0 が異なれば、実際に観測可能な声道スペクトルのサンプル点が単一のフレームの場合よりも増えるため、原理的には声道スペクトルの「超解像」推定が可能になる。この考え方に基づき、音声スペクトログラムの中の基本周波数成分や高調波成分にのみ適合するようにNMF を行うことで複数フレームの音声スペクトルを手がかりに高精度に声道スペクトルを推定する手法が提案されている(非特許文献3)。
R. Takashima、 R. Aihara、 T. Takiguchi、 and Y. Ariki、 "Exemplar-based voice conversion usin sparse representation in noisy environments、" IEICE Transactions on Information and Systems、 vol. E96-A、 no. 10、pp. 1946-1953、 2013. Z. Wu、 T. Virtanen、 T. Kinnunen、 E.S. Chng、 and H. Li、"Exemplar-based voice conversion using non-negative spectrogram deconvolution、" Proc. 8th ISCA Speech Synthesis Workshop、 pp. 201-206、 2013. 中村、 亀岡、 "非負値行列因子分解に基づく欠損データ補間による声道スペクトル推定法の検討、" 音講論(春)、3-P-33, 393-396, 2016.
以上のように、NMF による声道スペクトログラムの行列積表現は音声信号処理の各種重要課題に対し有用な解決を与えるポテンシャルを有している。しかしながら、この表現では声道スペクトルをテンプレートの線形結合で表現することしかできないため、図2 に示すような声道スペクトログラムに現れる連続的なピーク軌跡を表現することが難しい(図3)。この声道スペクトルに現れるいくつかのピークをフォルマントといい、それぞれの周波数は声道の共振周波数に対応しており、母音の種類や質を特徴付ける量と考えられている。
本発明では、上記事情を鑑みて成されたものであり、音声信号から声道スペクトルを精度よく推定することができる声道スペクトル推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る声道スペクトル推定装置は、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定するパラメータ推定部と、を含んで構成されている。
本発明に係る声道スペクトル推定方法は、時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力し、パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定する。
また、本発明のプログラムは、コンピュータを、上記の声道スペクトル推定装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の声道スペクトル推定装置、方法、及びプログラムによれば、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定することにより、音声信号から声道スペクトルを精度よく推定することができる。
ソースフィルタ理論を説明するための図である。 STRAIGHT 分析によって推定された声道スペクトログラムを示す図である。 推定された声道スペクトログラムを近似した非負値行列積を示す図である。 GMM によるスペクトル包絡の表現を示す図である。 本発明の実施の形態に係る声道スペクトル推定装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る声道スペクトル推定装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。 STRAIGHT 分析によって推定された声道スペクトログラムを示す図である。 図7の声道スペクトログラムに対し、本実施の形態に係る手法により推定した推定結果を示す図である。 STRAIGHT 分析によって推定された声道スペクトログラムを示す図である。 図9の声道スペクトログラムに対し、本実施の形態に係る手法により推定した推定結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本実施の形態の概要>
本発明の実施の形態では、スペクトルテンプレートの線形結合による従来の声道スペクトログラム表現の代わりに、フォルマント周波数セットとフォルマント周波数セットのテンプレートを考え、それらの線形結合による各時刻のフォルマント周波数セットおよびフォルマント周波数セットの表現を内部にもつ新しい声道スペクトログラム表現を提案し、観測音声スペクトログラムから各テンプレートと各時刻におけるそれらの結合係数を推定する分析アルゴリズムを提案する。具体的には、スペクトル包絡の各ピークをGauss 分布関数で近似した混合Gauss 関数モデル(Gaussian Mixture Model; GMM)を考え、各Gauss 関数のピーク周波数と重みをテンプレートの線形結合で表すモデルを構築し、このスペクトル包絡モデルを観測音声スペクトルにできるだけフィットするようにフォルマント周波数セットおよびフォルマント周波数セットのテンプレートとそれらの結合係数を推定する最適化アルゴリズムを提案する。
<声道スペクトログラムモデル>
母音の種類や質はフォルマント周波数セットによって特徴付けられる。図2からも分かるように、発話中フォルマント周波数は連続的に時間変化する傾向にある。これは発声器官の物理的制約による。また、通常の発話で使用する母音の種類は限られているため、各時刻のフォルマント周波数セットは各母音に対応した有限個のテンプレートの凸結合で表せると仮定することができる。これは、各時刻のフォルマント周波数セットを各列ベクトルとした行列を二つの行列積で表現することに相当する。以後、これをフォルマント周波数行列積表現と呼ぶ。以下では、以上のフォルマント周波数行列積表現を組み込んだ声道スペクトログラムモデルを構築する。
スペクトル包絡の各ピークをGauss 分布関数で近似した混合Gauss 関数モデル(Gaussian Mixture Model; GMM)F(ω,t)

を考える(図4)。ただし、ωは周波数、t は時刻、I +1 はGauss 関数

の個数、

はそれぞれi 番目のGauss 関数の平均、分散、重みである。また、

を満たすものとする。

に2 を乗じているのは、

とするためである。なお、

のときは

である。よって、式(3) の条件では

である。従って、β(t) は時刻t におけるスペクトルのスケールを表す。
k 番目の母音テンプレートのフォルマント周波数を

フォルマント強度を

とする。前述の議論に従い、


のようにK 個のフォルマント周波数セットおよびフォルマント強度セットのテンプレートの凸結合で表現する。ただし、

である。

についても同様に、フォルマント分散

を用いて
と表現する。以上の

が推定すべき未知パラメータである。ここでいずれの変数も非負でなければならない点に注意が必要である。
フォルマント周波数やフォルマント強度は通常連続的に時間変化する。そこで、

が滑らかな関数となることを保証するため、時刻tj を中心に局在する滑らかな非負関数(Gauss 関数やHanning関数など)

を用い

と表現し、

の代わりに

を推定すべきパラメータとすることもできる。ただし、


とする。
<補助関数法によるパラメータ推定アルゴリズム>
<最適化問題の定式化>
観測スペクトログラムを

とし、



ができるだけ近くなるように未知パラメータ

を求めるための最適化アルゴリズムについて述べる。ここでは



の近さは例えばI ダイバージェンス

で測ることができる。ただし、

は上記未知パラメータの集合とする。また、

が小さくなりすぎなくする目的で
のようなペナルティ関数(対称Dirichlet 分布の対数の負)を考える。対称Dirichlet 分布は変数がすべて等しいときに最大となるため、式(14) は

のときに最小となる。以下では、

を式(9) で表現する場合を考える(

をデルタ関数

に置き換えれば

を変数とする場合と等価である)。以上より、最適化問題は以下となる。
以上の最適化問題の停留点は射影勾配法などを使って探索することもできるが、ここでは、補助関数法の原理に基づき停留点への収束性が保証された最適化アルゴリズムを導出する。
<補助関数法>



に関して最小化したい目的関数とすると、

を満たす関数

を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、



を交互に繰り返すことで、目的関数

の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。
<補助関数の設計>
まず、負の対数関数は凸関数よりJensen の不等式より、
が言える。ただし、



を満たす非負の変数で、等号は
のとき成立する。同様に、
が言える。ただし、



を満たす非負の変数で、等号は
のとき成立する。次に、正の対数関数は凹関数より、
が言える。ただし、

は非負の変数で、等号は
のとき成立する。二次関数は凸関数のため再びJensen の不等式より
が言える。ただし、



を満たす非負の変数で、等号は
のとき成立する。最後に、逆数関数は凸関数のためJensen の不等式より
が言える。ただし、



を満たす非負の変数で、等号は
のとき成立する。
以上をまとめると、
が言え、右辺は

の補助関数としての要件を満たす。ただし、

は補助変数

の集合である。また、

はパラメータ

にも補助変数

にも依らない定数項をまとめたものである。
<パラメータ更新式>
以上の補助関数

を用いて各パラメータの更新式を導くことができる。
<wi,kの更新式>
より、

の更新式
を得る。
<ai,kの更新式>

は式(7) の条件を満たす必要があるので、ラグランジアン

の偏微分を
と置くことにより、

より、

の更新式
を得る。
<lj,kの更新式>

は式(11)の条件を満たす必要があるが、ここでは無制約下で

を最小化する

を求めたのちに正規化する方法をとることとする。

の偏微分を
と置くことにより、
を得る。よって、

を最小化する

となる。式(38) で

を更新した後、
により正規化する。
<ci,kの更新式>
より、

の更新式

を得る。
<dk(t)の更新式>
より、

の更新式

を得る。
<β(t)の更新式>
より、

の更新式
を得る。
<最適化アルゴリズム>
補助関数法に基づく以上の最適化アルゴリズムは以下の1.〜3.のようにまとめられる。
1.

を初期設定する。
2. 補助変数を更新する。




3. パラメータを更新する。




<本発明の実施の形態に係る声道スペクトル推定装置の構成>
次に、本発明の実施の形態に係る声道スペクトル推定装置の構成について説明する。図5に示すように、本発明の実施の形態に係る声道スペクトル推定装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この声道スペクトル推定装置100は、機能的には図5に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
入力部10は、音声信号の時系列データを受け付ける。
演算部20は、時間周波数展開部24と、パラメータ推定部36とを含んで構成されている。
時間周波数展開部24は、音声信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表す振幅スペクトログラム又はパワースペクトログラムである観測スペクトログラムYを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
パラメータ推定部36は、時間周波数展開部24により出力された観測スペクトログラムYに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数Gi(ω、t)で近似した混合Gauss関数モデルF(ω、t)であって、各ピークに対応するGauss分布関数Gi(ω、t)の各々に対し、平均μi(t)を、K個のフォルマント周波数のセットwi,1,・・・, wi,kと結合係数hk(t)で表し、重みαi(t)を、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと結合係数hk(t)で表し、分散σi 2(t)を、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,kと結合係数dk(t)で表したときの、各時刻の混合Gauss関数モデルF(ω、t)と、観測スペクトログラムY(ω、t)との誤差の大きさを表す、上記(15)式の規準を小さくするように、Gauss分布関数Gi(ω、t)の各々についての、K個のフォルマント周波数のセットwi,1,・・・, wi,k及び各時刻の結合係数hk(t)を表すためのパラメータlj,kと、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,k及び各時刻の結合係数hk(t)と、各時刻の重みβ(t)とを推定する。
具体的には、パラメータ推定部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、及び収束判定部46を備えている。
初期値設定部40は、未知パラメータ

の各々に初期値を設定する。
補助変数更新部42は、初期値である、又は前回更新したパラメータ

に基づいて、上記式(46)〜式(50)に従って、補助変数

を更新する。
パラメータ更新部44は、時間周波数展開部24により出力された観測スペクトログラムYと、補助変数更新部42によって更新された補助変数

と、初期値である、又は前回更新したパラメータ

とに基づいて、上記式(51)〜式(57)に従って、パラメータ

を更新する。
収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理とを繰り返させ、最終的に推定されたパラメータを、出力部90から出力する。
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記式(15)の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。
<本発明の実施の形態に係る声道スペクトル推定装置の作用>
次に、本発明の実施の形態に係る声道スペクトル推定装置100の作用について説明する。まず、入力部10において音声信号の時系列データを受け付けると、声道スペクトル推定装置100は、図6に示すパラメータ推定処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた音声信号の時系列データに基づいて、観測スペクトログラムYを計算する。
ステップS102では、未知パラメータ

の各々に初期値を設定する。
ステップS104では、初期値である、又は前回更新したパラメータ

に基づいて、上記式(46)〜式(50)に従って、補助変数

を更新する。
次に、ステップS106では、上記ステップS100で得られた観測スペクトログラムYと、補助変数更新部42によって更新された補助変数

と、初期値である、又は前回更新したパラメータ

とに基づいて、上記式(51)〜式(57)に従って、パラメータ

を更新する。
次に、ステップS108では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS110へ移行し、収束条件を満たしていない場合には、ステップS104へ移行し、ステップS104〜ステップS106の処理を繰り返す。
ステップS110では、上記ステップS106で最終的に更新されたパラメータ

を出力部90から出力して、パラメータ推定処理ルーチンを終了する。
<実験例>
図7、9 に示す

に対し、本発明の実施の形態に係る手法により推定した

を図8、10に示す。テンプレート数はK = 10 とした。

のフォルマント周波数軌跡を適切に推定できていることが確認できた。
以上説明したように、本発明の実施の形態に係る声道スペクトル推定装置によれば、各時刻のスペクトル包絡の各ピークをGauss分布関数Gi(ω、t)で近似した混合Gauss関数モデルF(ω、t)であって、各ピークに対応するGauss分布関数Gi(ω、t)の各々に対し、平均μi(t)を、K個のフォルマント周波数のセットwi,1,・・・, wi,kと結合係数hk(t)で表し、重みαi(t)を、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと結合係数hk(t)で表し、分散σi 2(t)を、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,kと結合係数dk(t)で表したときの、各時刻の混合Gauss関数モデルF(ω、t)と、観測スペクトログラムY(ω、t)との誤差の大きさを表す規準を小さくするように、Gauss分布関数Gi(ω、t)の各々についての、K個のフォルマント周波数のセットwi,1,・・・, wi,k及び各時刻の結合係数hk(t)を表すためのパラメータlj,kと、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,k及び各時刻の結合係数hk(t)と、各時刻の重みβ(t)とを推定することにより、音声信号から声道スペクトルを精度よく推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
24 時間周波数展開部
36 パラメータ推定部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 声道スペクトル推定装置

Claims (7)

  1. 音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、
    前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定するパラメータ推定部と、
    を含む声道スペクトル推定装置。
  2. 前記規準は、前記Gauss分布関数の各々についての、K個のフォルマント周波数のセットに対するフォルマント強度の大きさに関するペナルティ項を更に含む請求項1記載の声道スペクトル推定装置。
  3. 前記パラメータ推定部は、
    前記規準の上界関数である補助関数を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
    を含む請求項1又は2記載の声道スペクトル推定装置。
  4. 時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力し、
    パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定する
    声道スペクトル推定方法。
  5. 前記規準は、前記Gauss分布関数の各々についての、K個のフォルマント周波数のセットに対するフォルマント強度の大きさに関するペナルティ項を更に含む請求項4記載の声道スペクトル推定方法。
  6. 前記パラメータ推定部が推定することでは、
    パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを更新し、
    収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる
    ことを含む請求項4又は5記載の声道スペクトル推定方法。
  7. 請求項1〜請求項3の何れか1項に記載の声道スペクトル推定装置の各部としてコンピュータを機能させるためのプログラム。
JP2017037402A 2017-02-28 2017-02-28 声道スペクトル推定装置、方法、及びプログラム Active JP6689769B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017037402A JP6689769B2 (ja) 2017-02-28 2017-02-28 声道スペクトル推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017037402A JP6689769B2 (ja) 2017-02-28 2017-02-28 声道スペクトル推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018141924A true JP2018141924A (ja) 2018-09-13
JP6689769B2 JP6689769B2 (ja) 2020-04-28

Family

ID=63528126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017037402A Active JP6689769B2 (ja) 2017-02-28 2017-02-28 声道スペクトル推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6689769B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783932A (zh) * 2019-01-14 2019-05-21 哈尔滨工程大学 一种结合最优观测时间窗口的强耦合数据同化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783932A (zh) * 2019-01-14 2019-05-21 哈尔滨工程大学 一种结合最优观测时间窗口的强耦合数据同化方法

Also Published As

Publication number Publication date
JP6689769B2 (ja) 2020-04-28

Similar Documents

Publication Publication Date Title
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
Markel et al. Linear prediction of speech
US20200357381A1 (en) Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
EP2431967B1 (en) Voice conversion device and method
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
JP5846043B2 (ja) 音声処理装置
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US8438014B2 (en) Separating speech waveforms into periodic and aperiodic components, using artificial waveform generated from pitch marks
Sanand et al. VTLN using analytically determined linear-transformation on conventional MFCC
US20230360631A1 (en) Voice conversion device, voice conversion method, and voice conversion program
JP6689769B2 (ja) 声道スペクトル推定装置、方法、及びプログラム
Mokhtari et al. Iterative Optimal Preemphasis for Improved Glottal-Flow Estimation by Iterative Adaptive Inverse Filtering.
EP3242295B1 (en) A signal processor
JP2011150232A (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP6764843B2 (ja) 信号解析装置、方法、及びプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
Ullah et al. Advanced transient noise reduction in speech signals via semi-supervised signal fusion
JP6420781B2 (ja) 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム
JP5318042B2 (ja) 信号解析装置、信号解析方法及び信号解析プログラム
JP4958241B2 (ja) 信号処理装置、信号処理方法、信号処理プログラムおよび記録媒体
Akagiri et al. Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis
Eyben et al. A frequency-weighted post-filtering transform for compensation of the over-smoothing effect in HMM-based speech synthesis
Lammert et al. On instantaneous vocal tract length estimation from formant frequencies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200408

R150 Certificate of patent or registration of utility model

Ref document number: 6689769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350