[go: up one dir, main page]

JP2018141924A - Vocal tract spectrum estimation apparatus, method, and program - Google Patents

Vocal tract spectrum estimation apparatus, method, and program Download PDF

Info

Publication number
JP2018141924A
JP2018141924A JP2017037402A JP2017037402A JP2018141924A JP 2018141924 A JP2018141924 A JP 2018141924A JP 2017037402 A JP2017037402 A JP 2017037402A JP 2017037402 A JP2017037402 A JP 2017037402A JP 2018141924 A JP2018141924 A JP 2018141924A
Authority
JP
Japan
Prior art keywords
formant
time
coupling coefficient
vocal tract
frequencies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017037402A
Other languages
Japanese (ja)
Other versions
JP6689769B2 (en
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
ユンハン ゾウ
Yoon-Heung Zou
ユンハン ゾウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017037402A priority Critical patent/JP6689769B2/en
Publication of JP2018141924A publication Critical patent/JP2018141924A/en
Application granted granted Critical
Publication of JP6689769B2 publication Critical patent/JP6689769B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音声信号から声道スペクトルを精度よく推定することができる。【解決手段】時間周波数展開部24が、音声信号の時系列データを入力として、観測スペクトログラムを出力する。パラメータ推定部36が、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、K個のフォルマント周波数のセットに対するフォルマント強度と結合係数で表し、分散を、K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の混合Gauss関数モデルと、観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、K個のフォルマント周波数のセット及び各時刻の結合係数と、フォルマント強度と、フォルマント分散及び各時刻の結合係数とを推定する。【選択図】図5A vocal tract spectrum can be accurately estimated from a speech signal. A time-frequency expansion unit 24 receives time-series data of an audio signal and outputs an observation spectrogram. The parameter estimator 36 represents, for each of the Gaussian distribution functions corresponding to each peak, an average represented by a set of K formant frequencies and a coupling coefficient, and a weight combined with a formant intensity for the set of K formant frequencies. The criterion expressing the magnitude of the error between the mixed Gaussian function model at each time and the observed spectrogram when the variance is expressed in terms of formant variance and coupling coefficient for a set of K formant frequencies is reduced. Then, a set of K formant frequencies and a coupling coefficient at each time, a formant intensity, a formant dispersion, and a coupling coefficient at each time are estimated. [Selection] Figure 5

Description

本発明は、声道スペクトル推定装置、方法、及びプログラムに係り、特に、音声信号から声道スペクトルを推定する声道スペクトル推定装置、方法、及びプログラムに関する。   The present invention relates to a vocal tract spectrum estimation apparatus, method, and program, and more particularly, to a vocal tract spectrum estimation apparatus, method, and program for estimating a vocal tract spectrum from a speech signal.

音声のソースフィルタ理論(図1)によればスペクトル包絡は声道の共振特性(声道スペクトル)に対応しており、声質や音韻などに関する情報を豊富に含んでいる。通常発話では母音や音素の種類は限られていることから、各時刻の声道スペクトルを有限個のテンプレートの非負結合で近似できると仮定すると、声道スペクトログラムを二つの非負値行列の積で表現することができる。非負値行列を二つの非負値行列の積で近似することを非負値行列因子分解(Non-negative Matrix Factorization; NMF) といい、声道スペクトログラムのNMF による行列積表現はいくつかの応用場面において有用である。以下に二つの例を挙げる。   According to the speech source filter theory (FIG. 1), the spectrum envelope corresponds to the resonance characteristics of the vocal tract (the vocal tract spectrum) and contains a wealth of information relating to voice quality and phonology. Since there are only a limited number of vowels and phonemes in normal speech, assuming that the vocal tract spectrum at each time can be approximated by a non-negative combination of a finite number of templates, the vocal tract spectrogram is represented by the product of two non-negative matrices. can do. Approximating a non-negative matrix with the product of two non-negative matrices is called non-negative matrix factorization (NMF), and the matrix product representation of vocal tract spectrograms using NMF is useful in some applications. It is. Two examples are given below.

まず、この表現により声道スペクトログラムを時間に依存しない話者の声質に関する因子と時間依存する発話内容や発話スタイルに関する因子とに分解することができるため、後者の因子を固定したまま前者の因子のみを変換してスペクトログラムを再構成することで、音声の発話内容を変えずに声質のみを変えることができる(非特許文献1、2)。このような技術を声質変換という。   First of all, this expression allows the vocal tract spectrogram to be decomposed into a factor related to the voice quality of the speaker that does not depend on time and a factor related to the time-dependent speech content and speech style, so that only the former factor remains fixed. By reconstructing the spectrogram by converting, it is possible to change only the voice quality without changing the speech content (Non-Patent Documents 1 and 2). Such a technique is called voice conversion.

もう一つは、音声分析合成のための声道スペクトル推定への応用である。音声合成や音声変換をはじめ音声処理全般において、音声信号から声道スペクトルを推定する技術は多くの場面で用いられている。短区間ごとの音声信号を周期デルタ関数(パルス列)を入力とした線形時不変系の出力としてモデル化できるとすれば、この線形系の入力とインパルス応答がそれぞれ声帯音源信号と声道特性に対応する。この仮定は、周波数領域では周期デルタ関数で表される声帯音源スペクトルと声道スペクトルの積で音声スペクトルが表されることに相当する。従って、音声スペクトルは声道スペクトルを周期的に(基本周波数間隔で)サンプリングしたもの、と見なすことができる。代表的な声道スペクトル推定方法の一つとして広く知られるSTRAIGHT は、音声信号を基本周期の幅で切り出し、その切り出し信号のスペクトルを声道スペクトルの推定値とする方法である。これは周波数領域では、各調波成分のピークを滑らかに補間したものを声道スペクトルと見なしていることに相当する。しかしこの方法によって得られる声道スペクトル推定値は、定常な音声が対象であっても切り出しフレームのオフセットに依存して周期的に時間変化することが知られる。これは各調波成分が互いに干渉し合うからであり、調波成分間の干渉に起因するこの変動成分を除くよう改良された手法も提案されている。しかし、前述のとおり音声スペクトルは声道スペクトルを基本周波数(F0) 間隔でサンプリングしたものと見なせるため、音声のF0 が高いときほど声道スペクトル推定の手がかりは少なくなる。このことは、フレームごとに独立な処理に本質的な限界があることを示唆している。一方で、通常発話では母音や音素の種類は限られていることから、類似した声道スペクトルが複数の異なる時刻で現れることも手がかりとなる。複数のフレームが共通の声道スペクトルを持つと仮定できそれらのフレームでF0 が異なれば、実際に観測可能な声道スペクトルのサンプル点が単一のフレームの場合よりも増えるため、原理的には声道スペクトルの「超解像」推定が可能になる。この考え方に基づき、音声スペクトログラムの中の基本周波数成分や高調波成分にのみ適合するようにNMF を行うことで複数フレームの音声スペクトルを手がかりに高精度に声道スペクトルを推定する手法が提案されている(非特許文献3)。   The other is application to vocal tract spectrum estimation for speech analysis and synthesis. In general voice processing including voice synthesis and voice conversion, a technique for estimating a vocal tract spectrum from a voice signal is used in many scenes. If the speech signal for each short interval can be modeled as the output of a linear time-invariant system with a periodic delta function (pulse train) as input, the input and impulse response of this linear system correspond to the vocal cord source signal and vocal tract characteristics, respectively. To do. This assumption is equivalent to representing a speech spectrum in the frequency domain by the product of a vocal cord source spectrum and a vocal tract spectrum represented by a periodic delta function. Accordingly, the voice spectrum can be regarded as a sample of the vocal tract spectrum periodically (at a fundamental frequency interval). STRAIGHT, which is widely known as one of typical vocal tract spectrum estimation methods, is a method in which a speech signal is cut out with the width of the basic period, and the spectrum of the cut-out signal is used as an estimated value of the vocal tract spectrum. This corresponds to the fact that, in the frequency domain, a smooth interpolated peak of each harmonic component is regarded as a vocal tract spectrum. However, it is known that the vocal tract spectrum estimated value obtained by this method periodically changes with time depending on the offset of the cut-out frame even if stationary speech is the target. This is because each harmonic component interferes with each other, and an improved method has been proposed to eliminate this fluctuation component caused by interference between harmonic components. However, as described above, since the speech spectrum can be regarded as a sampling of the vocal tract spectrum at the fundamental frequency (F0) interval, the higher the speech F0, the fewer clues for estimating the vocal tract spectrum. This suggests that there is an essential limit to independent processing for each frame. On the other hand, since the types of vowels and phonemes are limited in normal utterances, a similar vocal tract spectrum appears at a plurality of different times. In principle, if multiple frames can be assumed to have a common vocal tract spectrum and if F0 is different in those frames, the actual observable vocal tract spectrum has more sample points than a single frame. Allows "super-resolution" estimation of the vocal tract spectrum. Based on this concept, a method has been proposed for estimating the vocal tract spectrum with high accuracy by using NMF to match only the fundamental frequency components and harmonic components in the speech spectrogram, and using the speech spectrum of multiple frames as a clue. (Non-patent Document 3).

R. Takashima、 R. Aihara、 T. Takiguchi、 and Y. Ariki、 “Exemplar-based voice conversion usin sparse representation in noisy environments、" IEICE Transactions on Information and Systems、 vol. E96-A、 no. 10、pp. 1946-1953、 2013.R. Takashima, R. Aihara, T. Takiguchi, and Y. Ariki, “Exemplar-based voice conversion usin sparse representation in noisy environments,” IEICE Transactions on Information and Systems, vol. E96-A, no. 10, pp. 1946-1953, 2013. Z. Wu、 T. Virtanen、 T. Kinnunen、 E.S. Chng、 and H. Li、“Exemplar-based voice conversion using non-negative spectrogram deconvolution、" Proc. 8th ISCA Speech Synthesis Workshop、 pp. 201-206、 2013.Z. Wu, T. Virtanen, T. Kinnunen, E.S.Chng, and H. Li, “Exemplar-based voice conversion using non-negative spectrogram deconvolution,” Proc. 8th ISCA Speech Synthesis Workshop, pp. 201-206, 2013. 中村、 亀岡、 "非負値行列因子分解に基づく欠損データ補間による声道スペクトル推定法の検討、" 音講論(春)、3-P-33, 393-396, 2016.Nakamura, Kameoka, “Examination of vocal tract spectrum estimation method by missing data interpolation based on non-negative matrix factorization,” Oncology (Spring), 3-P-33, 393-396, 2016.

以上のように、NMF による声道スペクトログラムの行列積表現は音声信号処理の各種重要課題に対し有用な解決を与えるポテンシャルを有している。しかしながら、この表現では声道スペクトルをテンプレートの線形結合で表現することしかできないため、図2 に示すような声道スペクトログラムに現れる連続的なピーク軌跡を表現することが難しい(図3)。この声道スペクトルに現れるいくつかのピークをフォルマントといい、それぞれの周波数は声道の共振周波数に対応しており、母音の種類や質を特徴付ける量と考えられている。   As described above, the matrix product representation of the vocal tract spectrogram by NMF has the potential to provide a useful solution to various important issues in speech signal processing. However, since this representation can only represent the vocal tract spectrum by linear combination of templates, it is difficult to represent a continuous peak locus appearing in the vocal tract spectrogram as shown in FIG. 2 (FIG. 3). Several peaks appearing in this vocal tract spectrum are called formants, and each frequency corresponds to the resonance frequency of the vocal tract and is considered to be a quantity characterizing the type and quality of the vowel.

本発明では、上記事情を鑑みて成されたものであり、音声信号から声道スペクトルを精度よく推定することができる声道スペクトル推定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a vocal tract spectrum estimation apparatus, method, and program capable of accurately estimating a vocal tract spectrum from a speech signal.

上記目的を達成するために、本発明に係る声道スペクトル推定装置は、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定するパラメータ推定部と、を含んで構成されている。   In order to achieve the above object, a vocal tract spectrum estimation device according to the present invention includes a time-frequency expansion unit that outputs time-series data of an audio signal and outputs an observation spectrogram representing a signal component at each time and each frequency. A mixed Gaussian function model in which each peak of the spectral envelope at each time is approximated by a Gaussian distribution function based on the observed spectrogram output by the time-frequency expansion unit, and each of the Gaussian distribution functions corresponding to each peak In contrast, the mean is represented by a set of K formant frequencies and coupling coefficients, the weight is represented by the formant intensity and the coupling coefficient for the set of K formant frequencies, and the variance is represented by the K formant frequencies. The mixed Ga at each time, expressed as formant dispersion and coupling coefficient for the set The set of K formant frequencies and the coupling coefficient at each time for each of the Gauss distribution functions, so as to reduce the criterion representing the magnitude of error between the ss function model and the observed spectrogram, and the K A parameter estimating unit that estimates formant intensity for a set of formant frequencies, and formant dispersion and a coupling coefficient at each time for a set of K formant frequencies.

本発明に係る声道スペクトル推定方法は、時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力し、パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定する。   In the vocal tract spectrum estimation method according to the present invention, the time-frequency expansion unit receives time-series data of a speech signal, outputs an observation spectrogram representing a signal component at each time and each frequency, and the parameter estimation unit A mixed Gaussian function model that approximates each peak of the spectral envelope at each time with a Gaussian distribution function based on the observed spectrogram output by the time-frequency expansion unit, and for each Gaussian distribution function corresponding to each peak , The mean is represented by a set of K formant frequencies and coupling coefficients, the weight is represented by the formant intensity and the coupling coefficient for the set of K formant frequencies, and the variance is represented for the set of K formant frequencies. The mixed Gauss at each time, expressed as formant dispersion and coupling coefficient The set of K formant frequencies and the coupling coefficient at each time for each of the Gaussian distribution functions and the K number of coefficients for each of the Gaussian distribution functions so as to reduce the criterion representing the magnitude of error between the numerical model and the observed spectrogram. The formant intensity for a set of formant frequencies, the formant variance and the coupling coefficient at each time for a set of K formant frequencies are estimated.

また、本発明のプログラムは、コンピュータを、上記の声道スペクトル推定装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said vocal tract spectrum estimation apparatus.

以上説明したように、本発明の声道スペクトル推定装置、方法、及びプログラムによれば、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定することにより、音声信号から声道スペクトルを精度よく推定することができる。   As described above, according to the vocal tract spectrum estimation apparatus, method, and program of the present invention, it is a mixed Gaussian function model that approximates each peak of the spectrum envelope at each time with a Gaussian distribution function, and corresponds to each peak. For each of the Gaussian distribution functions, the mean is represented by a set of K formant frequencies and a coupling coefficient, the weight is represented by the formant intensity and the coupling coefficient for the set of K formant frequencies, and the variance is The Gaussian distribution so as to reduce the criterion representing the magnitude of error between the mixed Gaussian function model at each time and the observed spectrogram when expressed by formant dispersion and coupling coefficient for a set of K formant frequencies. The set of K formant frequencies and each time for each of the functions Estimate the coupling coefficient, the formant intensity for the set of K formant frequencies, the formant variance for the set of K formant frequencies, and the coupling coefficient at each time to accurately estimate the vocal tract spectrum from the speech signal. can do.

ソースフィルタ理論を説明するための図である。It is a figure for demonstrating a source filter theory. STRAIGHT 分析によって推定された声道スペクトログラムを示す図である。It is a figure which shows the vocal tract spectrogram estimated by STRAIGHT analysis. 推定された声道スペクトログラムを近似した非負値行列積を示す図である。It is a figure which shows the nonnegative matrix product which approximated the estimated vocal tract spectrogram. GMM によるスペクトル包絡の表現を示す図である。It is a figure which shows the expression of the spectrum envelope by GMM. 本発明の実施の形態に係る声道スペクトル推定装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the vocal tract spectrum estimation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る声道スペクトル推定装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the parameter estimation processing routine in the vocal tract spectrum estimation apparatus which concerns on embodiment of this invention. STRAIGHT 分析によって推定された声道スペクトログラムを示す図である。It is a figure which shows the vocal tract spectrogram estimated by STRAIGHT analysis. 図7の声道スペクトログラムに対し、本実施の形態に係る手法により推定した推定結果を示す図である。It is a figure which shows the estimation result estimated with the method which concerns on this Embodiment with respect to the vocal tract spectrogram of FIG. STRAIGHT 分析によって推定された声道スペクトログラムを示す図である。It is a figure which shows the vocal tract spectrogram estimated by STRAIGHT analysis. 図9の声道スペクトログラムに対し、本実施の形態に係る手法により推定した推定結果を示す図である。It is a figure which shows the estimation result estimated with the method based on this Embodiment with respect to the vocal tract spectrogram of FIG.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本実施の形態の概要>
本発明の実施の形態では、スペクトルテンプレートの線形結合による従来の声道スペクトログラム表現の代わりに、フォルマント周波数セットとフォルマント周波数セットのテンプレートを考え、それらの線形結合による各時刻のフォルマント周波数セットおよびフォルマント周波数セットの表現を内部にもつ新しい声道スペクトログラム表現を提案し、観測音声スペクトログラムから各テンプレートと各時刻におけるそれらの結合係数を推定する分析アルゴリズムを提案する。具体的には、スペクトル包絡の各ピークをGauss 分布関数で近似した混合Gauss 関数モデル(Gaussian Mixture Model; GMM)を考え、各Gauss 関数のピーク周波数と重みをテンプレートの線形結合で表すモデルを構築し、このスペクトル包絡モデルを観測音声スペクトルにできるだけフィットするようにフォルマント周波数セットおよびフォルマント周波数セットのテンプレートとそれらの結合係数を推定する最適化アルゴリズムを提案する。
<Outline of the present embodiment>
In the embodiment of the present invention, instead of the conventional vocal tract spectrogram expression by linear combination of spectral templates, a formant frequency set and a formant frequency set template are considered, and the formant frequency set and formant frequency at each time by their linear combination are considered. A new vocal tract spectrogram representation with a set representation inside is proposed, and an analysis algorithm is proposed to estimate each template and their coupling coefficient at each time from the observed speech spectrogram. Specifically, we consider a mixed Gaussian function model (Gaussian Mixture Model; GMM) that approximates each peak of the spectral envelope with a Gaussian distribution function, and builds a model that expresses the peak frequency and weight of each Gaussian function as a linear combination of templates. We propose an optimization algorithm that estimates formant frequency sets and formant frequency set templates and their coupling coefficients to fit this spectral envelope model to the observed speech spectrum as much as possible.

<声道スペクトログラムモデル>
母音の種類や質はフォルマント周波数セットによって特徴付けられる。図2からも分かるように、発話中フォルマント周波数は連続的に時間変化する傾向にある。これは発声器官の物理的制約による。また、通常の発話で使用する母音の種類は限られているため、各時刻のフォルマント周波数セットは各母音に対応した有限個のテンプレートの凸結合で表せると仮定することができる。これは、各時刻のフォルマント周波数セットを各列ベクトルとした行列を二つの行列積で表現することに相当する。以後、これをフォルマント周波数行列積表現と呼ぶ。以下では、以上のフォルマント周波数行列積表現を組み込んだ声道スペクトログラムモデルを構築する。
<Vocal tract spectrogram model>
The type and quality of vowels is characterized by a formant frequency set. As can be seen from FIG. 2, the formant frequency during speech tends to continuously change over time. This is due to physical constraints of the vocal organs. Further, since the types of vowels used in normal utterances are limited, it can be assumed that the formant frequency set at each time can be expressed by a convex combination of a finite number of templates corresponding to each vowel. This is equivalent to expressing a matrix having each column vector as a formant frequency set at each time by two matrix products. Hereinafter, this is called formant frequency matrix product representation. In the following, a vocal tract spectrogram model incorporating the above formant frequency matrix product representation is constructed.

スペクトル包絡の各ピークをGauss 分布関数で近似した混合Gauss 関数モデル(Gaussian Mixture Model; GMM)F(ω,t)   A Gaussian Mixture Model (GMM) F (ω, t) that approximates each peak of the spectral envelope with a Gaussian distribution function



を考える(図4)。ただし、ωは周波数、t は時刻、I +1 はGauss 関数

の個数、

はそれぞれi 番目のGauss 関数の平均、分散、重みである。また、

(Fig. 4). Where ω is frequency, t is time, I +1 is Gaussian function

Number of

Are the mean, variance, and weight of the i-th Gaussian function, respectively. Also,

Is

を満たすものとする。

に2 を乗じているのは、

とするためである。なお、

のときは

である。よって、式(3) の条件では

である。従って、β(t) は時刻t におけるスペクトルのスケールを表す。
Shall be satisfied.

Is multiplied by 2.

This is because. In addition,

When

It is. Therefore, under the condition of Equation (3)

It is. Accordingly, β (t) represents the scale of the spectrum at time t 1.

k 番目の母音テンプレートのフォルマント周波数を

フォルマント強度を

とする。前述の議論に従い、

The formant frequency of the kth vowel template

Formant strength

And Following the previous discussion,

The



のようにK 個のフォルマント周波数セットおよびフォルマント強度セットのテンプレートの凸結合で表現する。ただし、 It is expressed as a convex combination of K formant frequency sets and formant intensity set templates. However,



である。

についても同様に、フォルマント分散

を用いて
It is.

Similarly for formant dispersion

Using

と表現する。以上の

が推定すべき未知パラメータである。ここでいずれの変数も非負でなければならない点に注意が必要である。
It expresses. More than

Is an unknown parameter to be estimated. Note that any variable must be non-negative.

フォルマント周波数やフォルマント強度は通常連続的に時間変化する。そこで、

が滑らかな関数となることを保証するため、時刻tj を中心に局在する滑らかな非負関数(Gauss 関数やHanning関数など)

を用い

The formant frequency and formant intensity usually change continuously over time. there,

Smooth non-negative functions centered around time t j (Gauss function, Hanning function, etc.) to ensure that becomes a smooth function

Using

The

と表現し、

の代わりに

を推定すべきパラメータとすることもできる。ただし、
Expressed as

Instead of

Can also be used as a parameter to be estimated. However,



とする。


And

<補助関数法によるパラメータ推定アルゴリズム>
<最適化問題の定式化>
観測スペクトログラムを

とし、



ができるだけ近くなるように未知パラメータ

を求めるための最適化アルゴリズムについて述べる。ここでは



の近さは例えばI ダイバージェンス
<Parameter estimation algorithm by auxiliary function method>
<Formulation of optimization problem>
Observation spectrogram

age,

When

Unknown parameters so that is as close as possible

An optimization algorithm for obtaining is described. here

When

For example, I divergence



で測ることができる。ただし、

は上記未知パラメータの集合とする。また、

が小さくなりすぎなくする目的で
It can be measured with. However,

Is the set of unknown parameters. Also,

For the purpose of avoiding becoming too small

のようなペナルティ関数(対称Dirichlet 分布の対数の負)を考える。対称Dirichlet 分布は変数がすべて等しいときに最大となるため、式(14) は

のときに最小となる。以下では、

を式(9) で表現する場合を考える(

をデルタ関数

に置き換えれば

を変数とする場合と等価である)。以上より、最適化問題は以下となる。
Consider the penalty function (logarithm negative of symmetric Dirichlet distribution). Since the symmetric Dirichlet distribution is maximized when all variables are equal, Equation (14) becomes

At the minimum. Below,

Consider the case where is expressed by equation (9) (

The delta function

If you replace

Is equivalent to a variable). From the above, the optimization problem is as follows.

以上の最適化問題の停留点は射影勾配法などを使って探索することもできるが、ここでは、補助関数法の原理に基づき停留点への収束性が保証された最適化アルゴリズムを導出する。   The stopping point of the above optimization problem can be searched by using a projection gradient method or the like, but here, an optimization algorithm in which convergence to the stopping point is guaranteed is derived based on the principle of the auxiliary function method.

<補助関数法>



に関して最小化したい目的関数とすると、

を満たす関数

を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、



を交互に繰り返すことで、目的関数

の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。
<Auxiliary function method>

The

The objective function we want to minimize with respect to

A function that satisfies

Is called an auxiliary function, and α is called an auxiliary variable. If you can design such an auxiliary function,

When

By alternately repeating the objective function

The stop point can be obtained. This optimization method is called an auxiliary function method.

<補助関数の設計>
まず、負の対数関数は凸関数よりJensen の不等式より、
<Auxiliary function design>
First, negative logarithmic functions are more convex than Jensen's inequalities

が言える。ただし、



を満たす非負の変数で、等号は
I can say. However,

Is

Is a non-negative variable that satisfies

のとき成立する。同様に、 This holds true. Similarly,

が言える。ただし、



を満たす非負の変数で、等号は
I can say. However,

Is

Is a non-negative variable that satisfies

のとき成立する。次に、正の対数関数は凹関数より、 This holds true. Second, the positive logarithmic function is

が言える。ただし、

は非負の変数で、等号は
I can say. However,

Is a non-negative variable and the equal sign is

のとき成立する。二次関数は凸関数のため再びJensen の不等式より This holds true. Since the quadratic function is a convex function, again from Jensen's inequality

が言える。ただし、



を満たす非負の変数で、等号は
I can say. However,

Is

Is a non-negative variable that satisfies

のとき成立する。最後に、逆数関数は凸関数のためJensen の不等式より This holds true. Finally, since the reciprocal function is a convex function, Jensen's inequality is

が言える。ただし、



を満たす非負の変数で、等号は
I can say. However,

Is

Is a non-negative variable that satisfies

のとき成立する。 This holds true.

以上をまとめると、   In summary,

が言え、右辺は

の補助関数としての要件を満たす。ただし、

は補助変数

の集合である。また、

はパラメータ

にも補助変数

にも依らない定数項をまとめたものである。
But the right side is

Satisfies the requirement as an auxiliary function. However,

Is an auxiliary variable

Is a set of Also,

Is a parameter

Also auxiliary variables

This is a summary of constant terms that do not depend on.

<パラメータ更新式>
以上の補助関数

を用いて各パラメータの更新式を導くことができる。
<Parameter update formula>
More auxiliary functions

Can be used to derive an update formula for each parameter.

<wi,kの更新式> <W i, k update formula>

より、

の更新式
Than,

Update formula

を得る。 Get.

<ai,kの更新式>

は式(7) の条件を満たす必要があるので、ラグランジアン

の偏微分を
<a i,k Nokoshinshiki_>

Since it is necessary to satisfy the condition of Equation (7), Lagrangian

The partial derivative of

と置くことにより、 By putting



より、

の更新式
Than,

Update formula

を得る。 Get.

<lj,kの更新式>

は式(11)の条件を満たす必要があるが、ここでは無制約下で

を最小化する

を求めたのちに正規化する方法をとることとする。

の偏微分を
<L j, k update formula>

It is necessary to satisfy the condition of equation (11).

Minimize

Let's take a normalization method after obtaining.

The partial derivative of

と置くことにより、 By putting

を得る。よって、

を最小化する

Get. Therefore,

Minimize

Is

となる。式(38) で

を更新した後、
It becomes. In equation (38)

After updating

により正規化する。 Normalize by

<ci,kの更新式> <C i, k update formula>

より、

の更新式
Than,

Update formula


を得る。

Get.

<dk(t)の更新式> <Update formula of d k (t)>

より、

の更新式
Than,

Update formula


を得る。

Get.

<β(t)の更新式> <Update formula of β (t)>

より、

の更新式
Than,

Update formula

を得る。 Get.

<最適化アルゴリズム>
補助関数法に基づく以上の最適化アルゴリズムは以下の1.〜3.のようにまとめられる。
<Optimization algorithm>
The above optimization algorithm based on the auxiliary function method is as follows. ~ 3. It can be summarized as follows.

1.

を初期設定する。
1.

Is initialized.

2. 補助変数を更新する。




2. Update the auxiliary variable.




3. パラメータを更新する。




3. Update the parameters.




<本発明の実施の形態に係る声道スペクトル推定装置の構成>
次に、本発明の実施の形態に係る声道スペクトル推定装置の構成について説明する。図5に示すように、本発明の実施の形態に係る声道スペクトル推定装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この声道スペクトル推定装置100は、機能的には図5に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
<Configuration of Vocal Tract Spectrum Estimation Device According to Embodiment of the Present Invention>
Next, the configuration of the vocal tract spectrum estimation apparatus according to the embodiment of the present invention will be described. As shown in FIG. 5, the vocal tract spectrum estimation apparatus 100 according to the embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a parameter estimation processing routine described later, It can comprise with the computer which includes. Functionally, the vocal tract spectrum estimation apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 90 as shown in FIG.

入力部10は、音声信号の時系列データを受け付ける。   The input unit 10 receives time-series data of an audio signal.

演算部20は、時間周波数展開部24と、パラメータ推定部36とを含んで構成されている。   The calculation unit 20 includes a time frequency expansion unit 24 and a parameter estimation unit 36.

時間周波数展開部24は、音声信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表す振幅スペクトログラム又はパワースペクトログラムである観測スペクトログラムYを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。   The time-frequency expansion unit 24 calculates an observation spectrogram Y that is an amplitude spectrogram or a power spectrogram representing a signal component of each frequency at each time based on the time-series data of the audio signal. In this embodiment, time frequency expansion such as short-time Fourier transform and wavelet transform is performed.

パラメータ推定部36は、時間周波数展開部24により出力された観測スペクトログラムYに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数Gi(ω、t)で近似した混合Gauss関数モデルF(ω、t)であって、各ピークに対応するGauss分布関数Gi(ω、t)の各々に対し、平均μi(t)を、K個のフォルマント周波数のセットwi,1,・・・, wi,kと結合係数hk(t)で表し、重みαi(t)を、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと結合係数hk(t)で表し、分散σi 2(t)を、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,kと結合係数dk(t)で表したときの、各時刻の混合Gauss関数モデルF(ω、t)と、観測スペクトログラムY(ω、t)との誤差の大きさを表す、上記(15)式の規準を小さくするように、Gauss分布関数Gi(ω、t)の各々についての、K個のフォルマント周波数のセットwi,1,・・・, wi,k及び各時刻の結合係数hk(t)を表すためのパラメータlj,kと、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,k及び各時刻の結合係数hk(t)と、各時刻の重みβ(t)とを推定する。 The parameter estimation unit 36, based on the observation spectrogram Y output by the time-frequency expansion unit 24, approximates each peak of the spectral envelope at each time with a Gaussian distribution function Gi (ω, t), and a mixed Gaussian function model F (ω T), for each of the Gaussian distribution functions G i (ω, t) corresponding to each peak, the average μ i (t) is a set of K formant frequencies w i, 1 ,. , w i, k and coupling coefficient h k (t), and weight α i (t) is expressed as formant intensity a i, 1 ,..., a i, k and coupling coefficient for a set of K formant frequencies. h k (t) and the variance σ i 2 (t) is represented by the formant variances c i, 1 ,..., c i, k and the coupling coefficient d k (t) for a set of K formant frequencies. The mixed Gaussian function model F (ω, t) at each time and Observation spectrogram Y (omega, t) represents the magnitude of the error between, so as to reduce the criteria above (15), for each of the Gauss distribution function G i (omega, t), K pieces of formant frequencies set w i, 1, ···, w i, parameters for representing a k and the time of the coupling coefficient hk (t) l j, k and, formant intensity for a set of K formant frequencies a i, 1 ,..., A i, k and the formant variances c i, 1 ,..., C i, k for a set of K formant frequencies and the coupling coefficient h k (t) at each time, and A weight β (t) is estimated.

具体的には、パラメータ推定部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、及び収束判定部46を備えている。   Specifically, the parameter estimation unit 36 includes an initial value setting unit 40, an auxiliary variable update unit 42, a parameter update unit 44, and a convergence determination unit 46.

初期値設定部40は、未知パラメータ

の各々に初期値を設定する。
The initial value setting unit 40 uses unknown parameters

An initial value is set for each of.

補助変数更新部42は、初期値である、又は前回更新したパラメータ

に基づいて、上記式(46)〜式(50)に従って、補助変数

を更新する。
The auxiliary variable update unit 42 is an initial value or a parameter updated last time.

On the basis of the above equation (46) to equation (50)

Update.

パラメータ更新部44は、時間周波数展開部24により出力された観測スペクトログラムYと、補助変数更新部42によって更新された補助変数

と、初期値である、又は前回更新したパラメータ

とに基づいて、上記式(51)〜式(57)に従って、パラメータ

を更新する。
The parameter update unit 44 includes the observation spectrogram Y output by the time frequency expansion unit 24 and the auxiliary variable updated by the auxiliary variable update unit 42.

And parameters that are initial values or updated last time

Based on the above, the parameters according to the above equations (51) to (57)

Update.

収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理とを繰り返させ、最終的に推定されたパラメータを、出力部90から出力する。   The convergence determination unit 46 determines whether or not the convergence condition is satisfied, and repeats the update process in the auxiliary variable update unit 42 and the update process in the parameter update unit 44 until the convergence condition is satisfied, and is finally estimated. The output parameters are output from the output unit 90.

収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記式(15)の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。   As the convergence condition, for example, the fact that the number of repetitions has reached the upper limit number can be used. Alternatively, as the convergence condition, it can be used that the difference between the value of the criterion of the above formula (15) and the value of the previous criterion is equal to or less than a predetermined threshold value.

<本発明の実施の形態に係る声道スペクトル推定装置の作用>
次に、本発明の実施の形態に係る声道スペクトル推定装置100の作用について説明する。まず、入力部10において音声信号の時系列データを受け付けると、声道スペクトル推定装置100は、図6に示すパラメータ推定処理ルーチンを実行する。
<Operation of Vocal Tract Spectrum Estimation Device According to Embodiment of the Present Invention>
Next, the operation of the vocal tract spectrum estimation apparatus 100 according to the embodiment of the present invention will be described. First, when time series data of a speech signal is received at the input unit 10, the vocal tract spectrum estimation apparatus 100 executes a parameter estimation processing routine shown in FIG.

まず、ステップS100では、入力部10において受け付けた音声信号の時系列データに基づいて、観測スペクトログラムYを計算する。   First, in step S100, an observation spectrogram Y is calculated based on the time series data of the audio signal received by the input unit 10.

ステップS102では、未知パラメータ

の各々に初期値を設定する。
In step S102, the unknown parameter

An initial value is set for each of.

ステップS104では、初期値である、又は前回更新したパラメータ

に基づいて、上記式(46)〜式(50)に従って、補助変数

を更新する。
In step S104, the parameter is an initial value or updated last time.

On the basis of the above equation (46) to equation (50)

Update.

次に、ステップS106では、上記ステップS100で得られた観測スペクトログラムYと、補助変数更新部42によって更新された補助変数

と、初期値である、又は前回更新したパラメータ

とに基づいて、上記式(51)〜式(57)に従って、パラメータ

を更新する。
Next, in step S106, the observation spectrogram Y obtained in step S100 and the auxiliary variable updated by the auxiliary variable update unit 42 are displayed.

And parameters that are initial values or updated last time

Based on the above, the parameters according to the above equations (51) to (57)

Update.

次に、ステップS108では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS110へ移行し、収束条件を満たしていない場合には、ステップS104へ移行し、ステップS104〜ステップS106の処理を繰り返す。   Next, in step S108, it is determined whether a convergence condition is satisfied. If the convergence condition is satisfied, the process proceeds to step S110. If the convergence condition is not satisfied, the process proceeds to step S104, and the processes in steps S104 to S106 are repeated.

ステップS110では、上記ステップS106で最終的に更新されたパラメータ

を出力部90から出力して、パラメータ推定処理ルーチンを終了する。
In step S110, the parameter finally updated in step S106 above.

Is output from the output unit 90, and the parameter estimation processing routine is terminated.

<実験例>
図7、9 に示す

に対し、本発明の実施の形態に係る手法により推定した

を図8、10に示す。テンプレート数はK = 10 とした。

のフォルマント周波数軌跡を適切に推定できていることが確認できた。
<Experimental example>
As shown in Figs.

In contrast, it was estimated by the method according to the embodiment of the present invention.

Are shown in FIGS. The number of templates was K = 10.

It was confirmed that the formant frequency trajectory was successfully estimated.

以上説明したように、本発明の実施の形態に係る声道スペクトル推定装置によれば、各時刻のスペクトル包絡の各ピークをGauss分布関数Gi(ω、t)で近似した混合Gauss関数モデルF(ω、t)であって、各ピークに対応するGauss分布関数Gi(ω、t)の各々に対し、平均μi(t)を、K個のフォルマント周波数のセットwi,1,・・・, wi,kと結合係数hk(t)で表し、重みαi(t)を、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと結合係数hk(t)で表し、分散σi 2(t)を、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,kと結合係数dk(t)で表したときの、各時刻の混合Gauss関数モデルF(ω、t)と、観測スペクトログラムY(ω、t)との誤差の大きさを表す規準を小さくするように、Gauss分布関数Gi(ω、t)の各々についての、K個のフォルマント周波数のセットwi,1,・・・, wi,k及び各時刻の結合係数hk(t)を表すためのパラメータlj,kと、K個のフォルマント周波数のセットに対するフォルマント強度ai,1,・・・, ai,kと、K個のフォルマント周波数のセットに対するフォルマント分散ci,1,・・・, ci,k及び各時刻の結合係数hk(t)と、各時刻の重みβ(t)とを推定することにより、音声信号から声道スペクトルを精度よく推定することができる。 As described above, according to the vocal tract spectrum estimation apparatus according to the embodiment of the present invention, the mixed Gaussian function model F () in which each peak of the spectrum envelope at each time is approximated by the Gaussian distribution function Gi (ω, t). ω, t), for each Gaussian distribution function G i (ω, t) corresponding to each peak, the average μ i (t) is the set of K formant frequencies w i, 1 ,. .., W i, k and coupling coefficient h k (t), weight α i (t) combined with formant strengths a i, 1 ,..., A i, k for a set of K formant frequencies Expressed by the coefficient h k (t), the variance σ i 2 (t) is expressed by the formant variances c i, 1 ,..., C i, k and the coupling coefficient d k (t) for a set of K formant frequencies. Mixed Gaussian function model F (ω, t) at each time and observation spectrolog Arm Y (ω, t) so as to reduce the criteria representative of the magnitude of the error between, Gauss distribution function G i (ω, t) for each of the set w i, 1 of the K formant frequencies, - · ·, w i, the parameters l j to represent k and the time of the coupling coefficient hk (t), and k, formant intensity a i, 1 for a set of K formant frequencies, ···, a i, k and, formant variance for a set of K formant frequencies c i, 1, ···, c i, and the coupling coefficient of k and the time h k (t), the weight beta (t) and an estimate of the time By doing so, the vocal tract spectrum can be accurately estimated from the audio signal.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。   In addition, since the order of the parameters to be updated is arbitrary, the order of the above embodiments is not limited.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

10 入力部
20 演算部
24 時間周波数展開部
36 パラメータ推定部
40 初期値設定部
42 補助変数更新部
44 パラメータ更新部
46 収束判定部
90 出力部
100 声道スペクトル推定装置
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 24 Time frequency expansion part 36 Parameter estimation part 40 Initial value setting part 42 Auxiliary variable update part 44 Parameter update part 46 Convergence determination part 90 Output part 100 Vocal tract spectrum estimation apparatus

Claims (7)

音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力する時間周波数展開部と、
前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定するパラメータ推定部と、
を含む声道スペクトル推定装置。
A time-frequency expansion unit that outputs time-series data of an audio signal and outputs an observation spectrogram representing a signal component at each time and each frequency;
A mixed Gaussian function model in which each peak of the spectral envelope at each time is approximated by a Gaussian distribution function based on the observation spectrogram output by the time-frequency expansion unit, and each Gaussian distribution function corresponding to each peak On the other hand, the mean is represented by a set of K formant frequencies and a coupling coefficient, the weight is represented by the formant intensity and the coupling coefficient for the set of K formant frequencies, and the variance is the set of the K formant frequencies. For each of the Gaussian distribution functions, the criterion representing the magnitude of error between the mixed Gaussian function model at each time and the observed spectrogram when expressed in terms of formant dispersion and coupling coefficient for Set of K formant frequencies and coupling coefficient at each time A formant intensity for the set of the K formant frequency, a parameter estimation unit that estimates the coupling coefficient of the formant dispersion and the time for the set of K formant frequencies,
A vocal tract spectrum estimation apparatus including:
前記規準は、前記Gauss分布関数の各々についての、K個のフォルマント周波数のセットに対するフォルマント強度の大きさに関するペナルティ項を更に含む請求項1記載の声道スペクトル推定装置。   The vocal tract spectrum estimation apparatus according to claim 1, wherein the criterion further includes a penalty term relating to a magnitude of formant intensity for a set of K formant frequencies for each of the Gauss distribution functions. 前記パラメータ推定部は、
前記規準の上界関数である補助関数を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
を含む請求項1又は2記載の声道スペクトル推定装置。
The parameter estimation unit includes:
For each of the Gaussian distribution functions, the set of K formant frequencies and the coupling coefficient at each time, and the set of K formant frequencies, so as to reduce the auxiliary function that is the upper bound function of the criterion. A parameter updater for updating the formant intensity, the formant dispersion for the set of K formant frequencies and the coupling coefficient at each time;
A convergence determination unit that repeats the update by the parameter update unit until a predetermined convergence condition is satisfied;
The vocal tract spectrum estimation apparatus according to claim 1, comprising:
時間周波数展開部が、音声信号の時系列データを入力として、各時刻及び各周波数の信号の成分を表す観測スペクトログラムを出力し、
パラメータ推定部が、前記時間周波数展開部により出力された前記観測スペクトログラムに基づいて、各時刻のスペクトル包絡の各ピークをGauss分布関数で近似した混合Gauss関数モデルであって、各ピークに対応するGauss分布関数の各々に対し、平均を、K個のフォルマント周波数のセットと結合係数で表し、重みを、前記K個のフォルマント周波数のセットに対するフォルマント強度と前記結合係数で表し、分散を、前記K個のフォルマント周波数のセットに対するフォルマント分散と結合係数で表したときの、各時刻の前記混合Gauss関数モデルと、前記観測スペクトログラムとの誤差の大きさを表す規準を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを推定する
声道スペクトル推定方法。
The time-frequency expansion unit receives the time-series data of the audio signal and outputs an observation spectrogram representing the signal components at each time and each frequency,
A parameter estimation unit is a mixed Gaussian function model in which each peak of a spectrum envelope at each time is approximated by a Gaussian distribution function based on the observation spectrogram output from the time-frequency expansion unit, and a Gaussian corresponding to each peak For each distribution function, the mean is represented by a set of K formant frequencies and coupling coefficients, the weight is represented by the formant intensity and the coupling coefficient for the set of K formant frequencies, and the variance is represented by the K pieces. Of the Gaussian distribution function so as to reduce the criterion representing the magnitude of the error between the mixed Gaussian function model at each time and the observed spectrogram when expressed in formant dispersion and coupling coefficient for a set of formant frequencies of A set of K formant frequencies for each Beauty and coupling coefficient at each time, and formant intensity for the set of the K formant frequencies, vocal tract spectrum estimation method for estimating the coupling coefficient of the formant dispersion and the time for the set of K formant frequencies.
前記規準は、前記Gauss分布関数の各々についての、K個のフォルマント周波数のセットに対するフォルマント強度の大きさに関するペナルティ項を更に含む請求項4記載の声道スペクトル推定方法。   5. The vocal tract spectrum estimation method according to claim 4, wherein the criterion further includes a penalty term relating to the magnitude of formant intensity with respect to a set of K formant frequencies for each of the Gauss distribution functions. 前記パラメータ推定部が推定することでは、
パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、前記Gauss分布関数の各々についての、前記K個のフォルマント周波数のセット及び各時刻の結合係数と、前記K個のフォルマント周波数のセットに対するフォルマント強度と、K個のフォルマント周波数のセットに対するフォルマント分散及び各時刻の結合係数とを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる
ことを含む請求項4又は5記載の声道スペクトル推定方法。
By the parameter estimation unit estimating,
A parameter updating unit reduces the auxiliary function, which is an upper bound function of the criterion, for each of the Gaussian distribution functions, the set of K formant frequencies and the coupling coefficient at each time, and the K Update the formant intensity for the set of formant frequencies, the formant variance for the set of K formant frequencies, and the coupling coefficient at each time,
6. The vocal tract spectrum estimation method according to claim 4, wherein the convergence determination unit includes repeating the update by the parameter update unit until a predetermined convergence condition is satisfied.
請求項1〜請求項3の何れか1項に記載の声道スペクトル推定装置の各部としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as each part of the vocal tract spectrum estimation apparatus of any one of Claims 1-3.
JP2017037402A 2017-02-28 2017-02-28 Vocal tract spectrum estimation device, method, and program Active JP6689769B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017037402A JP6689769B2 (en) 2017-02-28 2017-02-28 Vocal tract spectrum estimation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017037402A JP6689769B2 (en) 2017-02-28 2017-02-28 Vocal tract spectrum estimation device, method, and program

Publications (2)

Publication Number Publication Date
JP2018141924A true JP2018141924A (en) 2018-09-13
JP6689769B2 JP6689769B2 (en) 2020-04-28

Family

ID=63528126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017037402A Active JP6689769B2 (en) 2017-02-28 2017-02-28 Vocal tract spectrum estimation device, method, and program

Country Status (1)

Country Link
JP (1) JP6689769B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783932A (en) * 2019-01-14 2019-05-21 哈尔滨工程大学 A kind of close coupling data assimilation method of the optimal observation time window of combination

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783932A (en) * 2019-01-14 2019-05-21 哈尔滨工程大学 A kind of close coupling data assimilation method of the optimal observation time window of combination

Also Published As

Publication number Publication date
JP6689769B2 (en) 2020-04-28

Similar Documents

Publication Publication Date Title
JP5275612B2 (en) Periodic signal processing method, periodic signal conversion method, periodic signal processing apparatus, and periodic signal analysis method
Markel et al. Linear prediction of speech
US20200357381A1 (en) Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
EP2431967B1 (en) Voice conversion device and method
KR100919223B1 (en) The method and apparatus for speech recognition using uncertainty information in noise environment
JP5846043B2 (en) Audio processing device
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US8438014B2 (en) Separating speech waveforms into periodic and aperiodic components, using artificial waveform generated from pitch marks
Sanand et al. VTLN using analytically determined linear-transformation on conventional MFCC
US20230360631A1 (en) Voice conversion device, voice conversion method, and voice conversion program
JP6689769B2 (en) Vocal tract spectrum estimation device, method, and program
Mokhtari et al. Iterative Optimal Preemphasis for Improved Glottal-Flow Estimation by Iterative Adaptive Inverse Filtering.
EP3242295B1 (en) A signal processor
JP2011150232A (en) Lpc analysis device, lpc analysis method, speech analysis synthesis device, speech analysis synthesis method and program
JP6764843B2 (en) Signal analyzers, methods, and programs
JP4571871B2 (en) Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof
JP6564744B2 (en) Signal analysis apparatus, method, and program
Ullah et al. Advanced transient noise reduction in speech signals via semi-supervised signal fusion
JP6420781B2 (en) Vocal tract spectrum estimation apparatus, vocal tract spectrum estimation method, and program
JP5318042B2 (en) Signal analysis apparatus, signal analysis method, and signal analysis program
JP4958241B2 (en) Signal processing apparatus, signal processing method, signal processing program, and recording medium
Akagiri et al. Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis
Eyben et al. A frequency-weighted post-filtering transform for compensation of the over-smoothing effect in HMM-based speech synthesis
Lammert et al. On instantaneous vocal tract length estimation from formant frequencies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200408

R150 Certificate of patent or registration of utility model

Ref document number: 6689769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350