JP2007041012A - Voice quality conversion device and speech synthesis device - Google Patents
Voice quality conversion device and speech synthesis device Download PDFInfo
- Publication number
- JP2007041012A JP2007041012A JP2003392672A JP2003392672A JP2007041012A JP 2007041012 A JP2007041012 A JP 2007041012A JP 2003392672 A JP2003392672 A JP 2003392672A JP 2003392672 A JP2003392672 A JP 2003392672A JP 2007041012 A JP2007041012 A JP 2007041012A
- Authority
- JP
- Japan
- Prior art keywords
- voice quality
- conversion
- voice
- parameter
- quality conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
Description
本発明は音声の声質を変換する声質変換装置、及び声質可変な音声合成装置に関する。 The present invention relates to a voice quality conversion device that converts voice quality and a voice synthesis device that can change voice quality.
音声を人工的に生成する音声合成装置において合成音声の声質を変換する方法として特許文献1(特開平07−319495号公報),特許文献2(特開平08−152900号公報)に記載の技術が存在する。 As a method for converting the voice quality of synthesized speech in a speech synthesizer that artificially generates speech, there are techniques described in Patent Document 1 (Japanese Patent Laid-Open No. 07-319495) and Patent Document 2 (Japanese Patent Laid-Open No. 08-152900). Exists.
特許文献1に記載の技術では、複数話者の音声から得た合成単位データがデータベースにあらかじめ蓄積されている。音声合成に用いたい合成単位と声質とが指定されると、まず、指定された合成単位に最も近い合成単位データがデータベースから選択される。次に、その選択した合成単位データの話者の声質が指定された声質とどの程度異なるかチェックされ、所定の程度以上異なる場合には、指定声質に近くなるように合成単位データに対し声質変換が行われる。ここでは、選択した合成単位データの話者のコードブック(声質の特徴を表した情報)から、指定の声質にマッチする声質を持った話者のコードブックへコードブックマッピングを行うことにより、選択された合成単位データの声質を指定の声質に変換している。
In the technique described in
また、特許文献2に記載の技術では、デジタル音声データをアナログ音声信号に変換する際のサンプリング周波数を変換することにより合成音声の声質を変換している。さらに、出力される音声が適切になるように基本周波数や音韻継続時間などのいわゆる韻律情報(スペクトルパラメタ)をサンプリング周波数の変更に応じて適切に設定している。
しかしながら、前記従来の方法を用いた場合、声質変換の自由度が狭かったり、声質の調整が非常に困難であったりする。 However, when the conventional method is used, the degree of freedom of voice quality conversion is narrow or the voice quality is very difficult to adjust.
例えば特許文献1のように音声素片データベースを切り替える方法では、1種類の声質に対して1つの音声素片データベースが必要となり、さらに声質の連続的な変化を表現することができない。
For example, in the method of switching speech unit databases as in
また、例えば特許文献2のようにスペクトルパラメタを変換する方法では、「明るくかつ怒った声にする」などのように、複数の観点で声質変換を同時に行う場合、声質に破綻が起こらないように音声の品質を維持するのが困難である。
Further, for example, in the method of converting the spectral parameters as in
本発明による声質変換装置は、特徴パラメタ変換部と、声質変換制御部と、声質パラメタ調整部とを備える。特徴パラメタ変換部は、音声の音響的特徴を表す複数のパラメタ(音響特徴パラメタ列)に対して所定の変換処理を行う。声質変換制御部は、所望する声質に応じた変換指示を特徴パラメタ変換部に与える。特徴パラメタ変換部は、声質変換制御部からの変換指示に従って上記音響特徴パラメタ列に対する変換処理を行う。声質パラメタ調整部は、声質変換制御部からの変換指示に従った変換処理が上記音響特徴パラメタ列に対して行われたと仮定した場合における当該変換処理後の音響特徴パラメタ列の値が所定の範囲内に収まっているか否かを判断し、当該変換処理後の音響特徴パラメタ列のうち少なくとも1つのパラメタが上記所定の範囲を超えるときには、そのパラメタが上記所定の範囲内に収まるように声質変換制御部から特徴パラメタ変換部への変換指示を変更する。 The voice quality conversion apparatus according to the present invention includes a feature parameter conversion unit, a voice quality conversion control unit, and a voice quality parameter adjustment unit. The feature parameter conversion unit performs a predetermined conversion process on a plurality of parameters (acoustic feature parameter string) representing the acoustic features of the speech. The voice quality conversion control unit gives a conversion instruction according to the desired voice quality to the feature parameter conversion unit. The feature parameter conversion unit performs a conversion process on the acoustic feature parameter string in accordance with a conversion instruction from the voice quality conversion control unit. When the voice quality parameter adjustment unit assumes that the conversion process according to the conversion instruction from the voice quality conversion control unit is performed on the acoustic feature parameter string, the value of the acoustic feature parameter string after the conversion process is within a predetermined range. Voice quality conversion control so that the parameter falls within the predetermined range when at least one parameter of the converted acoustic feature parameter string exceeds the predetermined range. Change the conversion instruction from the section to the feature parameter conversion section.
本発明によれば、音質が良く自由度の高い声質変換が可能になり、かつ声質変換の調整を直感的に行うことができるようになる。 According to the present invention, it is possible to perform voice quality conversion with good sound quality and high flexibility, and it is possible to intuitively adjust voice quality conversion.
以下、本発明の実施の形態について、図を参照しながら説明する。なお、図面において同一または相当部分には同一の参照符号を付してその説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals, and the description thereof will not be repeated.
(実施の形態1)
図1は、本発明の実施の形態1による声質変換装置の構成であり、音声を分析した結果得られ、これをもとに再合成を行うことで元の音声波形が得られる音響特徴パラメタ列100を特徴パラメタ変換部101で変換し、変換済み音響特徴パラメタ列102を得ることができる。特徴パラメタ変換部101で行う変換処理の内容は声質変換制御部103によって指示され、声質変換パラメタ調整部104は、声質変換制御部103の指示する変換処理の内容が変形済み音響特徴パラメタ102に音質劣化を起こす場合を検知し、声質変換制御部103に働きかけて、音質劣化を起こさないように変換処理の内容を調整することができる。声質変換パラメタデータベース105は、特徴パラメタ変換部101が声質変換処理を行う際のテンプレートとなるデータを保持する。また、音声合成パラメタ限界値データベース106には、音響特徴パラメタ列について自然性を保った合成音声が得られるための限界条件(各音響特徴パラメタの限界値など)が格納されており、声質変換パラメタ調整部104は、音声合成パラメタ限界値データベース106に収められたデータを元に声質変換処理の内容の調整を行うこともできる。
(Embodiment 1)
FIG. 1 shows a configuration of a voice quality conversion apparatus according to
以下、本実施の形態において声質変換処理を行う際の処理の流れを具体的に示す。 Hereinafter, the flow of processing when performing voice quality conversion processing in the present embodiment will be specifically shown.
図2は、本実施の形態における声質変換装置の動作初期状態である。 FIG. 2 shows an initial operation state of the voice quality conversion apparatus according to the present embodiment.
声質変換制御部103は、1または複数の声質の各々に対応する声質変換パラメタ調整コントロールをユーザに提示する。声質変換パラメタ調整コントロールは、対応する声質の変換可能量に対応した移動可能範囲と、当該移動可能範囲内の任意の位置を指示可能なポインタとを有している。声質変換制御部103は、声質変換パラメタ調整コントロールのポインタをユーザに操作させることにより声質および変換量を指定させる。たとえば図2に示すように、声質変換制御部103は、変換可能な声質(ここでは、明るさ・暗さ・男性らしさ・早口の4つ)に対応する声質変換パラメタをそれぞれ0から10の範囲内で連続的に調整可能なスライダ(もしくはボリュームスイッチ等でもよい)をユーザに提示する。ユーザは各声質変換パラメタに対応するスライダを0から10の範囲内で動かすことにより変換したい声質および変換量を指定する。ここでは調整を加えない場合は0、調整の度合いが大きくなるにつれ10に近付くものとする。なお、図2では、明るさを「明」、暗さを「暗」、男性らしさを「男」、早口を「早」で示している。音響特徴パラメタ列100は、調整可能な音響特徴パラメタとして、各分析フレームごとに基本周波数(F0)、第一フォルマント周波数(F1)、第二フォルマント周波数(F2)、フレーム継続長(FR)、音源パワー(PW)の5つのパラメタを持つ。声質変換パラメタデータベース105は、声質変換制御部103の持つ声質変換パラメタの値を調整したとき(1増やしたとき)、それぞれの音響特徴パラメタ値に加えるべき値を保持している。図2では、声質変換制御部103上で全ての声質変換パラメタの設定値が0となっているため、出力の音響特徴パラメタ列102の内容は入力の音響特徴パラメタ列100と同一である。
The voice quality
図3は、声質変換制御部103で明るさの声質変換パラメタを5に、早口の声質変換パラメタを3に設定した状態での動作例を表す。入力の音響特徴パラメタ列100のある分析フレームに着目したとき、例えばこの分析フレームにおける音響特徴パラメタF0の値が300であったとすると、出力の音響特徴パラメタ列102における、対応する分析フレームでのF0の値は、明るさの声質変換パラメタを1増やすごとに+5となり、早口の声質変換パラメタを1増やすごとに+1となることが声質変換パラメタデータベース105から分かるので、300+5×(+5)+3×(+1)=328として求められる。他の音響特徴パラメタ値についても同様に計算を行えばよい。
FIG. 3 shows an operation example in a state where the voice quality
図4は、図3に示される状態の後、声質変換制御部103で暗さの声質変換パラメタを7に設定した結果を示す。声質変換パラメタデータベース105によれば、暗さの声質変換パラメタは明るさの声質変換パラメタと逆の内容になっているので、暗さの声質変換パラメタを増やそうとしたとき、明るさの声質変換パラメタが0より大きければ、暗さの声質変換パラメタを増やす代わりに明るさの声質変換パラメタをまず減らしてやることで同じ効果が得られる。図4の場合、図3で明るさの声質変換パラメタが5であった状態から暗さの声質変換パラメタが7に変更されたが、明るさの声質変換パラメタを0にすることで暗さの声質変換パラメタを5増やすのと同じ効果が得られるので、暗さの声質変換パラメタを7にする代わりに、明るさの声質変換パラメタを0に、暗さの声質変換パラメタを2にすればよい。このように、声質変換制御部103で指定された声質変換処理を、各声質変換パラメタの値が最小になるような組み合わせに声質変換パラメタ調整部104で調整することにより、ユーザにとって操作しやすい声質変換制御インタフェイスが実現される。
FIG. 4 shows the result of setting the darkness voice quality conversion parameter to 7 by the voice quality
さらに、音響特徴パラメタF0の値が350を超えると、音響特徴パラメタ列の再合成によって出力される合成音の音質が著しく劣化することが分かっているとする。図5は、明るさの声質変換パラメタが10に設定されており、その結果出力される音響特徴パラメタ列のある分析フレームでF0の値が350になっている状態を表す。 Furthermore, it is assumed that when the value of the acoustic feature parameter F0 exceeds 350, the sound quality of the synthesized sound output by re-synthesis of the acoustic feature parameter sequence is significantly deteriorated. FIG. 5 shows a state in which the voice quality conversion parameter for brightness is set to 10 and the value of F0 is 350 in an analysis frame having an acoustic feature parameter sequence output as a result.
図6は、図5の状態からさらに早口の声質変換パラメタ値を5に増やした状態を表す。早口の声質変換パラメタ値を5増やすと音響特徴パラメタF0の値が5増えるが、図5において音響特徴パラメタF0の値はある分析フレームで既に350となっているため、明るさの声質変換パラメタを1減らすことで音響特徴パラメタF0の値を350に収める。結果として、明るさの声質変換パラメタ値は9に、早口の声質変換パラメタ値は5になる。このように、声質変換パラメタ調整部104によって声質変換パラメタの値を自動的に調整することで、ユーザは各音響特徴パラメタの限界値を意識することなく、声質変換の操作を行うことができる。
FIG. 6 shows a state where the voice quality conversion parameter value of the quick mouth is further increased to 5 from the state of FIG. When the voice quality conversion parameter value of the fast mouth is increased by 5, the value of the acoustic feature parameter F0 increases by 5. However, since the value of the acoustic feature parameter F0 is already 350 in a certain analysis frame in FIG. By reducing the value by 1, the value of the acoustic feature parameter F0 is set to 350. As a result, the voice quality conversion parameter value for brightness is 9, and the voice quality conversion parameter value for early speech is 5. Thus, by automatically adjusting the value of the voice quality conversion parameter by the voice quality conversion
声質パラメタ調整部104は、声質変換制御部103からの変換指示に従った変換処理が音響特徴パラメタ列100に対して行われたと仮定した場合における当該変換処理後の音響特徴パラメタ列の値が所定の範囲内に収まっているか否かを判断し、当該変換処理後の音響特徴パラメタ列のうち少なくとも1つのパラメタが上記所定の範囲を超えるときには、そのパラメタが上記所定の範囲内に収まるように声質変換制御部103から特徴パラメタ変換部101への変換指示を変更する。
The voice quality
なお、音声合成パラメタ限界値データベース106に格納されている限界条件(たとえば、音響特徴パラメタF0の値が350を超えてはならないというような各音響特徴パラメタの限界値や、音響特徴パラメタF0と音響特徴パラメタF2の値を加算した結果は2000を越えてはならないというようなデータ)を声質変換パラメタ調整部104が必要に応じて参照するという構成を取っても良い。
Note that the limit condition stored in the speech synthesis parameter limit value database 106 (for example, the limit value of each acoustic feature parameter such that the value of the acoustic feature parameter F0 should not exceed 350, the acoustic feature parameter F0 and the acoustic The voice quality conversion
なお、特徴パラメタ変換部101によって音響特徴パラメタ列100に与えられる変化は全分析フレームに対して一律でなくてもよく、分析フレームごとに声質変換パラメタデータベース105の内容が変化するようになっていてもよい。
The change given to the acoustic
なお、声質変換パラメタ調整部104による声質変換パラメタ値の調整は、制約充足アルゴリズムを用いて自動的に行っても良い。制約充足アルゴリズムには、例えば参考文献1のIndigoアルゴリズムがある。図5と図6に示される声質変換パラメタの調整を行う制約条件の音響特徴パラメタF0に関する部分を、Indigoアルゴリズムの制約階層で記述すると以下のようになる。
Note that the voice quality conversion parameter value adjustment by the voice quality conversion
REQUIRED制約C1:出力F0≦350
REQUIRED制約C2:入力F0=300
REQUIRED制約C3:明るさ×5=t1
REQUIRED制約C4:暗さ×−5=t2
REQUIRED制約C5:男性らしさ×−3=t3
REQUIRED制約C6:早口×1=t4
REQUIRED制約C7:t1+t2=t5
REQUIRED制約C8:t3+t4=t6
REQUIRED制約C9:t5+t6=t7
REQUIRED制約C10:入力F0+t7=t8
REQUIRED制約C11:t8=出力F0
STRONG制約C12:早口=5
WEAK制約C13:男性らしさ=0
WEAK制約C14:暗さ=0
WEAK制約C15:明るさ=10
以上の制約条件を、制約グラフの形で表すと図7のようになる。なお、変数t1からt8は、制約充足の計算の途中結果を保持するための変数である。また、簡単のため省略したが、より望ましい結果を出すためには、各声質変換パラメタの値を0以上10以下の値に束縛するREQUIRED制約を設けてあることが望ましい。
REQUIRED constraint C1: Output F0 ≦ 350
REQUIRED constraint C2: input F0 = 300
REQUIRED constraint C3: Brightness × 5 = t1
REQUIRED constraint C4: darkness × −5 = t2
REQUIRED constraint C5: masculinity x-3 = t3
REQUIRED constraint C6: Hayaku × 1 = t4
REQUIRED constraint C7: t1 + t2 = t5
REQUIRED constraint C8: t3 + t4 = t6
REQUIRED constraint C9: t5 + t6 = t7
REQUIRED constraint C10: input F0 + t7 = t8
REQUIRED constraint C11: t8 = output F0
STRONG restriction C12: Hayato = 5
WEAK restriction C13: masculinity = 0
WEAK constraint C14: Darkness = 0
WEAK restriction C15: Brightness = 10
The above constraint conditions are represented in the form of a constraint graph as shown in FIG. Variables t1 to t8 are variables for holding intermediate results of constraint satisfaction calculation. Although omitted for simplicity, in order to obtain a more desirable result, it is desirable to provide a REQUIRED constraint that constrains the value of each voice quality conversion parameter to a value between 0 and 10.
以上の制約条件をIndigoアルゴリズムで解く場合の処理の概略を以下に示す。 An outline of processing when the above constraint conditions are solved by the Indigo algorithm is shown below.
初期状態:全ての変数の値域が[−∞,+∞]
C1追加:出力F0の値域が[−∞,350]になる
C2追加:入力F0の値域が[300,300]になる
C3〜C10追加:各変数の値域に変化無し
C11追加:t8の値域が[−∞,350]になる
C10を伝播してt7の値域が[−∞,50]になる
C12追加:早口の値域が[5,5]になる
C6を伝播してt4の値域が[5,5]になる
C13追加:男性らしさの値域が[0,0]になる
C5を伝播してt3の値域が[0,0]になる
C8を伝播してt6の値域が[5,5]になる
C9を伝播してt5の値域が[−∞,45]になる
C14追加:暗さの値域が[0,0]になる
C4を伝播してt2の値域が[0,0]になる
C7を伝播してt1の値域が[−∞,45]になる
C3を伝播して明るさの値域が[−∞,9]になる
C15追加:明るさの値域が[9,9]になる
<参考文献1>
A. Borning, R. Anderson, B. Freeman-Benson: The Indigo Algorithm, TR 96-05-01, Department of Computer Science and Engineering, University of Washington, July 1996
(実施の形態2)
本発明の実施の形態2による声質変換パラメタ調整コントロールの配置決定方法の一例を、図8を用いて説明する。
Initial state: The range of all variables is [−∞, + ∞]
C1 addition: The range of the output F0 becomes [−∞, 350] C2 addition: The range of the input F0 becomes [300, 300] C3 to C10 addition: No change in the range of each variable C11 addition: The range of t8 is [−∞, 350]
Propagation of C10 and the value range of t7 becomes [−∞, 50].
Propagation of C6 and the value range of t4 becomes [5,5] C13 addition: The value range of masculinity becomes [0,0]
Propagates C5 and the range of t3 becomes [0,0]
Propagates C8 and the range of t6 becomes [5,5]
Propagation of C9 and the value range of t5 becomes [−∞, 45] C14 addition: Darkness value range becomes [0, 0]
C4 is propagated and the range of t2 becomes [0,0]
Propagates C7 and the value range of t1 becomes [−∞, 45]
Propagation of C3 and brightness value range becomes [−∞, 9] C15 addition: Brightness value range becomes [9, 9] <
A. Borning, R. Anderson, B. Freeman-Benson: The Indigo Algorithm, TR 96-05-01, Department of Computer Science and Engineering, University of Washington, July 1996
(Embodiment 2)
An example of an arrangement determination method for voice quality conversion parameter adjustment control according to
声質変換パラメタデータベース105に収められる、各音響特徴パラメタの差分値のデータが図8のようになっているものとする。各声質変換パラメタが音響特徴パラメタに及ぼす変化の内容の近さを、声質変換パラメタデータベース105に収められる各音響特徴パラメタの差分値同士のユークリッド距離であると定義すると、それぞれの距離は表800のように計算できる。あとは、距離の近いものほど近くに配置されるように声質変換パラメタ調整コントロールの配置を行えばよい。表800では男性らしさと暗さの声質変換パラメタが最も近く、次に明るさと早口、その次に早口と暗さという結果になっているので、801に示されるような配置を行うことができる。
Assume that the difference value data of each acoustic feature parameter stored in the voice quality
このような配置を行い、さらに以下に示すような方法で声質変換パラメタの調整を行うことによって、ユーザは直感的に分かり易い方法で声質変換の操作を行うことができる。 By performing such an arrangement and further adjusting the voice quality conversion parameters by the method as described below, the user can perform the voice quality conversion operation in an intuitive and easily understandable manner.
STEP0:ある1つの声質変換パラメタの値が、ユーザにより変更される。たとえば図9の802a,802bに示すようにすべての声質パラメタが0の状態から明るさ(明)の声質変換パラメタが10に変更されたものとする。なお、ここでは入力された音響特徴パラメタの値や音響特徴パラメタの限界値等の条件は図5に示したのと同様であるものとする。 STEP 0: The value of a certain voice quality conversion parameter is changed by the user. For example, as shown in 802a and 802b of FIG. 9, it is assumed that the voice quality conversion parameter of brightness (bright) is changed to 10 from the state where all voice quality parameters are 0. Here, it is assumed that conditions such as the input acoustic feature parameter value and the limit value of the acoustic feature parameter are the same as those shown in FIG.
STEP1:声質変換パラメタiをあとXi増やすと、音響特徴パラメタもしくは音響特徴パラメタの値を元に計算できる特徴変数のうちいずれか1つがあらかじめ設定された値域を外れてしまうような数Xiを求める。これを全ての声質変換パラメタiについて計算する。たとえば、図9の802bのように明るさの声質変換パラメタが10に設定された場合には、早口(早)の声質変換パラメタを0より大きくすると音響特徴パラメタF0の値が限界値350を超えてしまい合成音の音質が劣化してしまう。したがって早口の声質変換パラメタについてのXiは0となる。
STEP 1: When the voice quality conversion parameter i is further increased by Xi, a number Xi is calculated such that any one of the acoustic feature parameters or feature variables that can be calculated based on the value of the acoustic feature parameter falls outside the preset value range. This is calculated for all voice quality conversion parameters i. For example, when the voice quality conversion parameter for brightness is set to 10 as in 802b of FIG. 9, the value of the acoustic feature parameter F0 exceeds the
STEP2:各声質変換パラメタiの現在の値をYiとして、Xi+Yiを声質変換パラメタiの声質変換パラメタ調整コントロールの最大値、0が最小値、Yiが現在値となるように声質変換パラメタ調整コントロールを再描画する。これを全ての声質変換パラメタiについて行う。上述の例の場合には図9の802bに示すように、早口の最大値=0、最小値=0、現在値=0となるように再描画する。なお、この状態(802b)で明るさの声質変換パラメタが10から9に下げられた場合には、上述のSTEP0〜2により、図9の802cに示すように早口の声質変換パラメタの最大値は0から5に上昇する。 STEP 2: The current value of each voice quality conversion parameter i is Yi, Xi + Yi is the maximum value of the voice quality conversion parameter adjustment control of the voice quality conversion parameter i, 0 is the minimum value, and voice quality conversion parameter adjustment control is performed so that Yi is the current value. Redraw. This is performed for all voice quality conversion parameters i. In the case of the above example, redrawing is performed so that the maximum value = 0, the minimum value = 0, and the current value = 0 as shown in 802b of FIG. If the brightness voice quality conversion parameter is lowered from 10 to 9 in this state (802b), the maximum value of the early voice quality conversion parameter is as shown by 802c in FIG. Increase from 0 to 5.
以上の方法によれば、ある声質変換パラメタの値が増やされたとき、音響特徴パラメタに加える変化の内容がそれと似通っている声質変換パラメタほど、どの音響特徴パラメタや音響特徴パラメタを元に計算される特徴変数の値もあらかじめ定められた値域を外れさせずに増加させられる余裕はなくなるので、STEP1におけるXiが小さくなり、結果STEP2の再描画で現在の設定値Yiが、設定可能な最大値に近付いているように描画できる。本実施例では、各音響特徴パラメタに与える変化の内容が近い声質変換パラメタ調整コントロールほど近くに配置されるようになっているので、ユーザには、ある声質変換パラメタ調整コントロールを操作すると、近くに配置されている声質変換パラメタ調整コントロールほど同じ方向につられて動き、遠くに配置されている声質変換パラメタ調整コントロールほど逆の方向につられて動くように提示される。したがって、ユーザはスライダ(声質変換パラメタコントロール)の操作によって声質がどのように変換されるのかを直感的に分かりやすくなる。また、声質変換パラメタの設定に連動して各声質変換パラメタの設定可能な最大値が自動的に変更されるため、ユーザは音声の品質を破綻させずに声質を変換するための各音響特徴パラメタの限界値を意識することなく、声質変換の操作を行うことができる。 According to the above method, when the value of a certain voice quality conversion parameter is increased, a voice quality conversion parameter whose content of change applied to the acoustic feature parameter is similar to that is calculated based on which acoustic feature parameter or acoustic feature parameter. Since there is no room for the value of the characteristic variable to be increased without deviating from the predetermined range, Xi in STEP1 is reduced, and the current setting value Yi is set to the maximum settable value by redrawing in STEP2. You can draw as you approach. In the present embodiment, since the content of the change given to each acoustic feature parameter is arranged closer to the voice quality conversion parameter adjustment control, when the user operates a certain voice quality conversion parameter adjustment control, the user is placed closer. The voice quality conversion parameter adjustment control that is displayed is moved in the same direction, and the voice quality conversion parameter adjustment control that is arranged farther is moved in the opposite direction. Therefore, the user can intuitively understand how the voice quality is converted by operating the slider (voice quality conversion parameter control). In addition, since the maximum value that can be set for each voice quality conversion parameter is automatically changed in conjunction with the voice quality conversion parameter setting, each acoustic feature parameter that allows the user to convert voice quality without breaking the voice quality Voice quality conversion operation can be performed without being aware of the limit value.
なお、ここではユーザによる声質変換パラメタの設定に連動して関連する声質変換パラメタの最大値を変化させる例を示したが、図9の802d〜802fに示すように声質変換パラメタの設定に連動して関連する声質変換パラメタを変化させるようにすることも可能である。たとえば図802eに示すように、明るさの声質変換パラメタを10に設定するとこれに連動して早口の声質変換パラメタも10に設定される。ただし、ここでは早口の声質変換パラメタのスライダを10の位置に移動させただけであり、早さの声質変換パラメタが10に設定されることに応じた音響特徴パラメタの変換は行われない。上述のとおり、明るさの声質パラメタを10に設定した場合において早口の声質パラメタを1以上に設定すると音響特徴パラメタF0の値が限界値350を超えてしまい合成音の音質が劣化してしまう。しかし図802eに示すように、明るさの声質変換パラメタが10に設定されるのに連動して早口の声質変換パラメタも10(最大値)に設定されるため、早さの声質変換パラメタの値をこれ以上増やすことはできない。この状態(802e)で明るさの声質変換パラメタが10から9に下げられた場合には、図9の802fに示すように早口の声質変換パラメタは10から5に下げられる。ただし、この場合も早口の声質変換パラメタのスライダを5の位置に移動させただけであり、早さの声質変換パラメタが5に設定されることに応じた音響特徴パラメタの変換は行われない。このように、声質変換パラメタの設定に連動して各声質変換パラメタの値が自動的に変更されるため、ユーザは音声の品質を破綻させずに声質を変換するための各音響特徴パラメタの限界値を意識することなく、声質変換の操作を行うことができる。
In this example, the maximum value of the related voice quality conversion parameter is changed in conjunction with the voice quality conversion parameter setting by the user. However, as shown in 802d to 802f in FIG. It is also possible to change related voice quality conversion parameters. For example, as shown in FIG. 802e, when the voice quality conversion parameter of brightness is set to 10, the quick voice quality conversion parameter is also set to 10 in conjunction with this. However, here, the quick voice quality conversion parameter slider is simply moved to the position of 10, and the conversion of the acoustic feature parameter is not performed in response to the quick voice quality conversion parameter being set to 10. As described above, when the voice quality parameter of brightness is set to 10, if the voice quality parameter of the fast mouth is set to 1 or more, the value of the acoustic feature parameter F0 exceeds the
(実施の形態3)
本発明の実施の形態3による声質変換パラメタ調整コントロールの配置決定方法の一例を、図10を用いて説明する。
(Embodiment 3)
An example of an arrangement determination method for voice quality conversion parameter adjustment control according to
上記実施の形態2に記載の方法と同様の方法で、声質変換パラメタデータベース105から表800が作成できる。表800を元に、各声質変換パラメタ調整コントロールの下限を一点にまとめ、さらに表800で互いの距離が近い声質変換パラメタほど声質変換パラメタ調整コントロール間の角度が小さくなるように配置したものを900に示す。
The table 800 can be created from the voice quality
このような配置を行い、さらに上記実施の形態2に記載の方法と同様の方法で声質変換パラメタの調整を行うと、901に示されるように、ある声質変換パラメタ調整コントロールの操作によって、他の声質変換パラメタ調整コントロールも同じ方向につられて動くように見える。これにより、ユーザにとって直感的に分かり易い声質変換インタフェイスを提供することが可能になる。 When such an arrangement is performed and the voice quality conversion parameter is adjusted by the same method as described in the second embodiment, another voice quality conversion parameter adjustment control is operated as shown in 901 by another operation. The voice quality conversion parameter adjustment control also appears to move in the same direction. This makes it possible to provide a voice quality conversion interface that is intuitively easy for the user to understand.
(実施の形態4)
本発明の実施の形態4による音声合成装置の構成を図11に示す。この装置は、テキスト情報を入力として様々な声質で音声合成を行うことが可能な声質可変音声合成装置である。
(Embodiment 4)
The configuration of a speech synthesizer according to Embodiment 4 of the present invention is shown in FIG. This device is a variable voice quality speech synthesizer capable of performing speech synthesis with various voice qualities by using text information as an input.
この構成では、音声合成データベース1000に収められた音声素片から、入力のテキスト情報1001に合致するデータを音声合成部1002が選び出し、それを元に音響特徴パラメタ列100を生成する。音響特徴パラメタ列100は上記実施の形態1、2、3に示される方法で変形され、変形済み音響特徴パラメタ列102が出力される。この変形済み音響特徴パラメタ列102を用いて波形生成部1003が合成音波形1004を生成し、スピーカ装置1005によって再生することで、ユーザが入力した任意のテキスト情報1001を、声質変換制御部103で指定された声質の合成音で再生することができる。
In this configuration, the
(実施の形態5)
本発明の実施の形態5による音声合成装置の構成を図12に示す。この装置は、様々な声質で音声合成を行うことが可能な声質可変音声合成装置である。この構成は、上記実施の形態4と同様の効果を別の構成で可能にする。この構成と上記実施の形態4の違いは、上記実施の形態4では声質変換パラメタ調整部104が音声合成部1002の出力した音響特徴パラメタ列を用いて出力音声の品質劣化を検出しているが、本実施例では音声合成データベース1000に収められたデータの一部または全部を用いて、この音声合成データベース1000を元に音声合成部1002が出力する音響特徴パラメタ列100に現れる音響特徴パラメタ値の傾向を予測し、声質変換パラメタの調整処理を行う点である。声質変換パラメタ調整部104は、例えば音声合成データベース1000から全ての音素の素片データを1つずつ選び出し、それらの素片データを声質変換パラメタ調整部104に従って変換した場合に出力音声の品質が劣化するかどうかを基準に、声質変換パラメタの調整処理を行えばよい。
(Embodiment 5)
FIG. 12 shows the configuration of a speech synthesizer according to
本実施の形態の上記実施の形態4に対する優位点は、本実施の形態では音声合成データベース1000を入れ替えない限りどのようなテキスト情報1001が入力されても、声質変換パラメタの調整処理の内容が同一で済むことである。ただし、テキスト情報1001の内容によって音響特徴パラメタ列100の内容が大きく異なる場合は、テキスト情報1001の内容によって出力音声の品質が劣化する場合が有り得る。
The advantage of the present embodiment over the fourth embodiment is that the content of the adjustment processing of the voice quality conversion parameter is the same regardless of what
なお、本実施の形態における音響特徴パラメタ列100は直接音声合成データベース1000から音声合成処理によって生成されるものでなくても良く、何らかの方法で生成された音響特徴パラメタ列100の声質が、音声合成データベース1000の内容と十分似ていれば同等の効果が得られる。
Note that the acoustic
(実施の形態6)
本発明の実施の形態6による音声合成装置の構成を図13に示す。この装置は、様々な声質で音声合成を行うことが可能な声質可変音声合成装置である。この構成は、上記実施の形態5と同様の効果が期待できる別の構成である。この構成と上記実施の形態5の違いは、上記実施の形態5では音声合成データベース1000の内容を声質変換パラメタ調整部104が直接参照していたのに対し、本実施の形態では音声合成データベース1000から、声質変換処理による品質劣化を検出するのに必要十分なデータのみをあらかじめ抽出した音声合成データベース特徴テーブル1200を持ち、これを元に声質変換パラメタの調整処理を行うことである。音声合成データベース特徴テーブル1200は、例えば音声合成データベース1000に収められた全データの中から、各音響特徴パラメタの上限値・下限値・平均値のみを抜き出して持っておけば、声質変換パラメタ調整部104は出力音声の品質劣化を検出するために必要十分なデータのみを高速に参照して声質変換パラメタの調整処理を行うことができる。
(Embodiment 6)
FIG. 13 shows the configuration of a speech synthesizer according to Embodiment 6 of the present invention. This device is a variable voice quality speech synthesizer capable of performing speech synthesis with various voice qualities. This configuration is another configuration in which the same effect as that of the fifth embodiment can be expected. The difference between this configuration and the fifth embodiment is that the voice quality conversion
なお、上記実施の形態5と同様に、本実施の形態においても音響特徴パラメタ列100は直接音声合成データベース1000から音声合成処理によって生成されるものでなくて良く、何らかの方法で生成された音響特徴パラメタ列100の声質が、音声合成データベース特徴テーブル1200の内容と十分合致していれば同等の効果が得られる。
As in the fifth embodiment, in this embodiment, the acoustic
(実施の形態7)
本発明の実施の形態7による音声合成装置の構成を図14に示す。この装置は、テキスト情報を入力として様々な声質で音声合成を行うことが可能な声質可変音声合成装置である。この構成では、音声合成部1002は、音声合成データベース1000に収められたデータを特徴パラメタ変換部101によって声質変換処理を行った後音声合成に使用することで、声質可変音声合成を実現する。声質変換パラメタ調整部104による声質変換パラメタの調整は、上記実施の形態5のように音声合成データベース1000を参照して行う。
(Embodiment 7)
FIG. 14 shows the configuration of a speech synthesizer according to Embodiment 7 of the present invention. This device is a variable voice quality speech synthesizer capable of performing speech synthesis with various voice qualities by using text information as an input. In this configuration, the
本実施の形態と、上記実施の形態5のどちらの構成を取るかは、実装の容易さを鑑みて選択すればよい。 Which configuration of the present embodiment or the fifth embodiment is taken may be selected in view of ease of mounting.
なお、声質変換パラメタ調整部104は、上記実施の形態6のように、出力される音声の品質劣化を検出するのに必要十分なデータを収めた音声合成データベース特徴テーブルを利用して声質変換パラメタの調整処理を行ってもよい。
Note that the voice quality conversion
(実施の形態8)
本発明の実施の形態8による声質変換装置の構成を図15に示す。この装置は、音声波形データを入力として、変換された音声波形データを出力する声質変換装置である。この構成では、入力された音声波形1400は音声分析部1401で分析され、分析結果の音響特徴パラメタ列100が声質変換パラメタ調整部104及び特徴パラメタ変換部101の入力となる。
(Embodiment 8)
FIG. 15 shows the configuration of a voice quality conversion apparatus according to the eighth embodiment of the present invention. This device is a voice quality conversion device that receives voice waveform data and outputs the converted voice waveform data. In this configuration, the
この構成によって、テキスト情報から生成する合成音のみならず、肉声の音声波形データにも、直感的に操作しやすいインタフェイスを通じて、品質劣化を防止しつつ声質変換処理を加えることが可能となる。 With this configuration, voice quality conversion processing can be applied to not only synthesized speech generated from text information but also to real voice waveform data through an interface that is intuitively easy to operate while preventing quality degradation.
(実施の形態9)
本発明の実施の形態9による声質変換装置の構成を図16に示す。この装置は、音声波形データを入力として、変換された音声波形データを出力する声質変換装置である。本実施の形態における構成と、上記実施の形態8における構成の違いは、声質変換パラメタ調整部が音響特徴パラメタ列100ではなく、波形特徴テーブル1500を参照して声質変換パラメタの調整処理を行う点である。波形特徴テーブル1500は、例えば音声波形1400を発声したのと同じ話者が事前に発声したサンプル音声を分析した結果から、声質変換処理による品質劣化を検出するのに必要十分なデータのみをあらかじめ抽出したものであり、例えばサンプル音声の分析結果の各音響特徴パラメタから、上限値・下限値・平均値のみを抜き出したものである。
(Embodiment 9)
FIG. 16 shows the configuration of a voice quality conversion apparatus according to
なお、波形特徴テーブル1500は複数あってもよく、例えば話者の年齢・性別などの属性によって、音声波形1400及び音響特徴パラメタ列100の特徴を最もよく表す波形特徴テーブル1500を選択して使用することもできる。
There may be a plurality of waveform feature tables 1500. For example, the waveform feature table 1500 that best represents the features of the
この構成によって、声質変換パラメタ調整部104は音響特徴パラメタ列100の入力に先行して声質変換パラメタの調整処理を行うことができるようになり、さらに音響特徴パラメタ列100の特徴をコンパクトに表す波形特徴テーブル1500の利用によって、声質変換パラメタの調整処理を高速に行うことが可能になる。
With this configuration, the voice quality conversion
本発明の声質変換装置は、合成音を利用するエージェントアプリケーションやテキスト読み上げアプリケーション、声質変換機能を利用する通信装置、音声の声質エディタ装置等として有用である。 The voice quality conversion apparatus of the present invention is useful as an agent application or a text-to-speech application that uses synthesized speech, a communication apparatus that uses a voice quality conversion function, a voice quality editor apparatus, or the like.
100 音響特徴パラメタ列
101 特徴パラメタ変換部
102 変換済み音響特徴パラメタ列
103 声質変換制御部
104 声質変換パラメタ調整部
105 声質変換パラメタデータベース
106 音声合成パラメタ限界値データベース
800 声質変換パラメタ間の相互距離表
801 声質変換制御部への、声質変換パラメタ調整コントロールの配置例
900 声質変換制御部への、声質変換パラメタ調整コントロールの配置例
901 声質変換制御部へ配置された声質変換パラメタ調整コントロールの動作例
1000 音声合成データベース
1001 テキスト情報
1002 音声合成部
1003 波形生成部
1004 合成音波形
1005 スピーカ装置
1200 音声合成データベース特徴テーブル
1400 音声波形
1401 音声分析部
t1〜t8 図7の制約グラフにおける、制約充足計算の途中結果を保持する変数
C1〜C15 図7の制約グラフにおける各制約条件
100 acoustic
Claims (16)
所望する声質に応じた変換指示を前記特徴パラメタ変換部に与える声質変換制御部と、
声質パラメタ調整部とを備え、
前記特徴パラメタ変換部は、
前記声質変換制御部からの変換指示に従って前記音響特徴パラメタ列に対する変換処理を行い、
前記声質パラメタ調整部は、
前記声質変換制御部からの変換指示に従った変換処理が前記音響特徴パラメタ列に対して行われたと仮定した場合における当該変換処理後の音響特徴パラメタ列の値が所定の範囲内に収まっているか否かを判断し、当該変換処理後の音響特徴パラメタ列のうち少なくとも1つのパラメタが前記所定の範囲を超えるときには、そのパラメタが前記所定の範囲内に収まるように前記声質変換制御部から前記特徴パラメタ変換部への変換指示を変更する、
ことを特徴とする声質変換装置。 A feature parameter conversion unit that performs a predetermined conversion process on a plurality of parameters (acoustic feature parameter string) representing acoustic features of speech;
A voice quality conversion control unit that gives a conversion instruction according to a desired voice quality to the feature parameter conversion unit;
A voice quality parameter adjustment unit,
The feature parameter converter is
According to the conversion instruction from the voice quality conversion control unit, performs a conversion process on the acoustic feature parameter sequence,
The voice quality parameter adjustment unit
If the conversion process according to the conversion instruction from the voice quality conversion control unit is assumed to have been performed on the acoustic feature parameter string, whether the value of the acoustic feature parameter string after the conversion process is within a predetermined range When at least one parameter in the acoustic feature parameter string after the conversion process exceeds the predetermined range, the voice quality conversion control unit makes the characteristic so that the parameter falls within the predetermined range. Change the conversion instructions to the parameter converter,
A voice quality conversion device characterized by that.
前記音響特徴パラメタ列について自然性を保った合成音声が得られるための限界条件を保持する音声合成パラメタ限界値データベースをさらに備え、
前記声質パラメタ調整部は、
前記音声合成パラメタ限界値データベースを参照して上記判断処理および変換指示の変更処理を行う、
ことを特徴とする声質変換装置。 In claim 1,
A speech synthesis parameter limit value database that holds limit conditions for obtaining a synthesized speech that maintains naturalness for the acoustic feature parameter sequence;
The voice quality parameter adjustment unit
Perform the determination process and the conversion instruction change process with reference to the speech synthesis parameter limit value database,
A voice quality conversion device characterized by that.
前記声質パラメタ調整部は、
制約充足アルゴリズムを用いて上記変換指示の変更処理を行う、
ことを特徴とする声質変換装置。 In claim 1,
The voice quality parameter adjustment unit
Change the conversion instruction using the constraint satisfaction algorithm.
A voice quality conversion device characterized by that.
変換可能な1または複数の声質の各々について、その声質の変換量と当該変換量の声質変換を行うために必要な音響特徴パラメタ列の変換量とを対応づけた声質変換パラメタデータベースをさらに備え、
前記声質変換制御部は、
変換可能な1または複数の声質をユーザに提示し、声質および当該声質の変換量をユーザに指定させ、ユーザにより指定された声質および変換量と前記声質変換パラメタデータベースとに基づいて前記特徴パラメタ変換部に変換指示を与える、
ことを特徴とする声質変換装置。 In claim 1,
For each of one or more convertible voice qualities, further comprising a voice quality conversion parameter database that associates the conversion amount of the voice quality with the conversion amount of the acoustic feature parameter sequence necessary for performing the voice conversion of the conversion amount,
The voice quality conversion control unit
Presenting one or more convertible voice qualities to the user, allowing the user to specify a voice quality and a conversion amount of the voice quality, and converting the feature parameter based on the voice quality and conversion amount specified by the user and the voice quality conversion parameter database Give conversion instructions to
A voice quality conversion device characterized by that.
前記声質変換制御部は、
前記1または複数の声質の各々に対応する声質変換パラメタ調整コントロールをユーザに提示し、
前記声質変換パラメタ調整コントロールは、
対応する声質の変換可能量に対応した移動可能範囲と、当該移動可能範囲内の任意の位置を指示可能なポインタとを有しており、
前記声質変換制御部は、
前記声質変換パラメタ調整コントロールのポインタをユーザに操作させることにより声質および変換量を指定させる、
ことを特徴とする声質変換装置。 In claim 4,
The voice quality conversion control unit
Presenting to the user voice quality conversion parameter adjustment controls corresponding to each of the one or more voice qualities;
The voice quality conversion parameter adjustment control is
A movable range corresponding to the convertible amount of the corresponding voice quality, and a pointer capable of indicating an arbitrary position within the movable range,
The voice quality conversion control unit
Allowing the user to specify the voice quality and the conversion amount by operating the pointer of the voice quality conversion parameter adjustment control;
A voice quality conversion device characterized by that.
前記声質変換パラメタ調整コントロールは、スライダもしくはボリュームスイッチの形状をしている、
ことを特徴とする声質変換装置。 In claim 5,
The voice quality conversion parameter adjustment control has the shape of a slider or a volume switch.
A voice quality conversion device characterized by that.
前記声質変換制御部は、
ある声質に対応する声質変換パラメタ調整コントロールのポインタがユーザにより操作されると、その操作に応じた声質の変換量に対応する音響特徴パラメタ列の変換量と他の声質に対応する音響特徴パラメタ列の変換量とに基づいて、当該他の声質に対応する声質変換パラメタ調整コントロールの移動可能範囲を変更する、
ことを特徴とする声質変換装置。 In claim 5,
The voice quality conversion control unit
When the pointer of the voice quality conversion parameter adjustment control corresponding to a certain voice quality is operated by the user, the conversion amount of the acoustic feature parameter string corresponding to the conversion volume of the voice quality corresponding to the operation and the acoustic feature parameter string corresponding to the other voice quality Change the movable range of the voice quality conversion parameter adjustment control corresponding to the other voice quality based on the conversion amount of
A voice quality conversion device characterized by that.
前記声質変換制御部は、
ある声質に対応する声質変換パラメタ調整コントロールのポインタがユーザにより操作されると、その操作に応じた声質の変換量に対応する音響特徴パラメタ列の変換量と他の声質に対応する音響特徴パラメタ列の変換量とに基づいて、当該他の声質に対応する声質変換パラメタ調整コントロールのポインタの位置を変更する、
ことを特徴とする声質変換装置。 In claim 5,
The voice quality conversion control unit
When the pointer of the voice quality conversion parameter adjustment control corresponding to a certain voice quality is operated by the user, the acoustic feature parameter string corresponding to the voice quality conversion amount corresponding to the operation and the acoustic feature parameter string corresponding to the other voice quality Change the pointer position of the voice quality conversion parameter adjustment control corresponding to the other voice quality based on the conversion amount of
A voice quality conversion device characterized by that.
前記声質変換パラメタ調整コントロールは、
各々の声質変換パラメタ調整コントロールの操作に応じて音響特徴パラメタ列に加えられる変化の内容が似通っているものほど近い位置にあるように配置されている、
ことを特徴とする声質変換装置。 In any one of claims 5 to 8,
The voice quality conversion parameter adjustment control is
In accordance with the operation of each voice quality conversion parameter adjustment control, it is arranged so that the content of the change added to the acoustic feature parameter sequence is closer to the similar one,
A voice quality conversion device characterized by that.
前記声質変換パラメタ調整コントロールは、
各々の声質変換パラメタ調整コントロールの操作に応じて音響特徴パラメタ列に加えられる変化の内容が似通っているものほどコントロール間の角度が小さくなるように配置されている、
ことを特徴とする声質変換装置。 In any one of claims 5 to 8,
The voice quality conversion parameter adjustment control is
It is arranged so that the angle between the controls becomes smaller as the content of the change added to the acoustic feature parameter sequence is similar according to the operation of each voice quality conversion parameter adjustment control,
A voice quality conversion device characterized by that.
テキスト情報を入力として音響特徴パラメタ列を出力する音声合成部とを備え、
前記声質変換装置の特徴パラメタ変換部は、前記音声合成部からの音響特徴パラメタに対して前記所定の変換処理を行う、
ことを特徴とする音声合成装置。 A voice quality conversion device according to claim 1;
A speech synthesizer that outputs text characteristic parameter strings as input text information,
The feature parameter conversion unit of the voice quality conversion device performs the predetermined conversion process on the acoustic feature parameter from the speech synthesis unit.
A speech synthesizer characterized by the above.
音声合成処理に用いられる音声合成データベースとを備え、
前記声質変換装置の声質変換パラメタ調整部は、前記声質変換制御部の指示通りの変換処理を行うと出力音声の品質劣化が起こることを、前記音声合成データベースを参照して検出する、
ことを特徴とする音声合成装置。 A voice quality conversion device according to claim 1;
A speech synthesis database used for speech synthesis processing,
The voice quality conversion parameter adjustment unit of the voice quality conversion device detects that the quality degradation of the output voice occurs when performing the conversion process as instructed by the voice quality conversion control unit with reference to the voice synthesis database,
A speech synthesizer characterized by the above.
音声合成処理に用いられる音声合成データベースに関する、出力音声に品質劣化を起こす変換処理を検出するための特徴的な情報を収めた音声合成データベース特徴テーブルとを備え、
前記声質変換装置の声質変換パラメタ調整部は、前記声質変換制御部の指示通りの変換処理を行うと出力音声の品質劣化が起こることを、前記音声合成データベース特徴テーブルを参照して検出する、
ことを特徴とする音声合成装置。 A voice quality conversion device according to claim 1;
A speech synthesis database feature table containing characteristic information for detecting a conversion process that causes quality degradation in the output speech related to the speech synthesis database used in the speech synthesis process;
The voice quality conversion parameter adjustment unit of the voice quality conversion device detects that the quality degradation of the output voice occurs when performing the conversion process as instructed by the voice quality conversion control unit with reference to the voice synthesis database feature table,
A speech synthesizer characterized by the above.
テキスト情報を入力として音響特徴パラメタ列を出力する音声合成装置と、
音声合成処理に用いられる音声合成データベースとを備え、
前記音声合成データベースに収められたデータを前記特徴パラメタ変換部で変換し、変換されたデータを使用して音声合成を行う、
ことを特徴とする音声合成装置。 A voice quality conversion device according to claim 1;
A speech synthesizer that outputs an acoustic feature parameter sequence as input of text information;
A speech synthesis database used for speech synthesis processing,
The data stored in the speech synthesis database is converted by the feature parameter conversion unit, and speech synthesis is performed using the converted data.
A speech synthesizer characterized by the above.
音声波形データを音響特徴パラメタ列に変換する音声分析部をさらに備え、
入力された音声波形データを前記音声分析部で音響特徴パラメタ列に変換し、前記特徴パラメタ変換部で変換して出力することで、音声波形データの声質変換処理を行う、
ことを特徴とする声質変換装置。 In claim 1,
A voice analysis unit for converting the voice waveform data into an acoustic feature parameter sequence;
The input voice waveform data is converted into an acoustic feature parameter string by the voice analysis unit, and converted by the feature parameter conversion unit and output, thereby performing voice quality conversion processing of the voice waveform data.
A voice quality conversion device characterized by that.
特定の声質を持つ音声波形データを変換すると出力音声に品質劣化を起こすような変換処理を検出するための、特徴的な情報を収めた1つないしは複数の波形特徴テーブルをさらに備え、
前記波形特徴テーブル内の、入力された音声波形データに対応する情報を用いて出力音声の品質劣化を検出する、
ことを特徴とする声質変換装置。
In claim 15,
One or more waveform feature tables containing characteristic information for detecting a conversion process that causes degradation of quality in output speech when speech waveform data having a specific voice quality is converted,
Detecting quality degradation of the output voice using information corresponding to the input voice waveform data in the waveform feature table;
A voice quality conversion device characterized by that.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003392672A JP2007041012A (en) | 2003-11-21 | 2003-11-21 | Voice quality conversion device and speech synthesis device |
| PCT/JP2004/017139 WO2005050624A1 (en) | 2003-11-21 | 2004-11-18 | Voice changer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003392672A JP2007041012A (en) | 2003-11-21 | 2003-11-21 | Voice quality conversion device and speech synthesis device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007041012A true JP2007041012A (en) | 2007-02-15 |
Family
ID=34616459
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003392672A Pending JP2007041012A (en) | 2003-11-21 | 2003-11-21 | Voice quality conversion device and speech synthesis device |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2007041012A (en) |
| WO (1) | WO2005050624A1 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015099363A (en) * | 2013-10-17 | 2015-05-28 | ヤマハ株式会社 | Voice processing apparatus |
| JP2017058411A (en) * | 2015-09-14 | 2017-03-23 | 株式会社東芝 | Speech synthesis device, speech synthesis method, and program |
| US10930264B2 (en) | 2016-03-15 | 2021-02-23 | Kabushiki Kaisha Toshiba | Voice quality preference learning device, voice quality preference learning method, and computer program product |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100644814B1 (en) | 2005-11-08 | 2006-11-14 | 한국전자통신연구원 | A method of generating a rhyme model for adjusting the utterance style and an apparatus and method for dialogue speech synthesis using the same |
| JP4817250B2 (en) * | 2006-08-31 | 2011-11-16 | 国立大学法人 奈良先端科学技術大学院大学 | Voice quality conversion model generation device and voice quality conversion system |
| CN102527039A (en) * | 2010-12-30 | 2012-07-04 | 德信互动科技(北京)有限公司 | Sound effect control device and method |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09230893A (en) * | 1996-02-22 | 1997-09-05 | N T T Data Tsushin Kk | Regular speech synthesis method and speech synthesis apparatus |
| JPH1097267A (en) * | 1996-09-24 | 1998-04-14 | Hitachi Ltd | Voice quality conversion method and apparatus |
| JPH11249679A (en) * | 1998-03-04 | 1999-09-17 | Ricoh Co Ltd | Speech synthesizer |
| JP3437472B2 (en) * | 1998-12-25 | 2003-08-18 | 松下電器産業株式会社 | Speech synthesis method and apparatus |
| JP4010761B2 (en) * | 1999-10-20 | 2007-11-21 | 株式会社日立国際電気 | How to edit video information |
| JP2002297176A (en) * | 2001-03-29 | 2002-10-11 | Sanyo Electric Co Ltd | Electronic book device |
| US8108509B2 (en) * | 2001-04-30 | 2012-01-31 | Sony Computer Entertainment America Llc | Altering network transmitted content data based upon user specified characteristics |
| JP3900892B2 (en) * | 2001-10-31 | 2007-04-04 | 松下電器産業株式会社 | Synthetic speech quality adjustment method and speech synthesizer |
-
2003
- 2003-11-21 JP JP2003392672A patent/JP2007041012A/en active Pending
-
2004
- 2004-11-18 WO PCT/JP2004/017139 patent/WO2005050624A1/en not_active Ceased
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015099363A (en) * | 2013-10-17 | 2015-05-28 | ヤマハ株式会社 | Voice processing apparatus |
| JP2017058411A (en) * | 2015-09-14 | 2017-03-23 | 株式会社東芝 | Speech synthesis device, speech synthesis method, and program |
| US10930264B2 (en) | 2016-03-15 | 2021-02-23 | Kabushiki Kaisha Toshiba | Voice quality preference learning device, voice quality preference learning method, and computer program product |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2005050624A1 (en) | 2005-06-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3913770B2 (en) | Speech synthesis apparatus and method | |
| CN1842702B (en) | Speech synthesis device and speech synthesis method | |
| US8073696B2 (en) | Voice synthesis device | |
| US8738381B2 (en) | Prosody generating devise, prosody generating method, and program | |
| KR101542005B1 (en) | Speech synthesis information editing apparatus | |
| JP2007108407A (en) | System and method of speech recognition, and program therefor | |
| JPH0632020B2 (en) | Speech synthesis method and apparatus | |
| JP2011186143A (en) | Speech synthesizer, speech synthesis method for learning user's behavior, and program | |
| JP2007041012A (en) | Voice quality conversion device and speech synthesis device | |
| JP6705142B2 (en) | Sound quality determination device and program | |
| JP3513071B2 (en) | Speech synthesis method and speech synthesis device | |
| JP6959901B2 (en) | Time series data generators, methods and programs | |
| US12014723B2 (en) | Information processing method, information processing device, and program | |
| US11437016B2 (en) | Information processing method, information processing device, and program | |
| WO2008056604A1 (en) | Sound collection system, sound collection method, and collection processing program | |
| JP2007271910A (en) | Synthetic speech generator | |
| JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
| JP3685648B2 (en) | Speech synthesis method, speech synthesizer, and telephone equipped with speech synthesizer | |
| JP5518621B2 (en) | Speech synthesizer and computer program | |
| JP2007148172A (en) | Voice quality control device and method, and program storage medium | |
| JPH07140996A (en) | Speech rule synthesizer | |
| JP2007025042A (en) | Speech synthesis apparatus and speech synthesis program | |
| JP2003005774A (en) | Speech synthesizer | |
| JP3503268B2 (en) | Tone parameter editing device | |
| KR20060027645A (en) | Emotion information tone conversion device and method |