JP2009133890A - Speech synthesis apparatus and method - Google Patents
Speech synthesis apparatus and method Download PDFInfo
- Publication number
- JP2009133890A JP2009133890A JP2007307578A JP2007307578A JP2009133890A JP 2009133890 A JP2009133890 A JP 2009133890A JP 2007307578 A JP2007307578 A JP 2007307578A JP 2007307578 A JP2007307578 A JP 2007307578A JP 2009133890 A JP2009133890 A JP 2009133890A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- segment
- unit
- speech unit
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、テキスト音声合成に関し、特に音韻記号列、ピッチ、音韻継続時間長などの情報から音声信号を生成する音声合成装置及びその方法に関する。 The present invention relates to text-to-speech synthesis, and more particularly to a speech synthesis apparatus and method for generating a speech signal from information such as phoneme symbol strings, pitches, and phoneme durations.
任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階から構成されるものである。 Artificially creating speech signals from arbitrary sentences is called “text-to-speech synthesis”. Text-to-speech synthesis is generally composed of three stages: a language processing unit, a prosody processing unit, and a speech synthesis unit.
入力されたテキストは、第1段階として言語処理部において形態素解析や構文解析などが行われる。次に、第2段階として韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。その後、最終段階として音声信号合成部で音韻系列・韻律情報から音声信号を合成することによりテキスト音声合成を実現している。 The input text is subjected to morphological analysis, syntax analysis, etc. in the language processing section as the first stage. Next, as a second step, the prosody processing unit performs accent and intonation processing, and outputs phoneme series / prosodic information (basic frequency, phoneme duration, power, etc.). After that, as a final step, the text signal synthesis is realized by synthesizing the voice signal from the phoneme sequence / prosodic information in the voice signal synthesis unit.
このような任意の音韻記号列を合成することができる合成器の原理は、母音をV、子音をCで表すと、CV、CVC、VCVなどの基本となる小さな音声単位の特徴パラメータ(音声素片)を記憶し、ピッチや継続時間長を制御して接続することにより音声を合成するものである。この方式では、記憶されている音声素片が合成音声の品質を大きく左右することになる。 The principle of a synthesizer capable of synthesizing such an arbitrary phoneme symbol string is as follows. When a vowel is represented by V and a consonant is represented by C, a characteristic parameter (speech element) of a basic small speech unit such as CV, CVC, VCV or the like. Is stored, and the voice is synthesized by controlling and connecting the pitch and duration. In this method, the stored speech segment greatly affects the quality of the synthesized speech.
このような音声合成方法の1つとして、入力された音韻系列・韻律情報を目標として、大量の音声素片から音声単位毎に複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数音声素片選択・融合型の音声合成方法がある(例えば、特許文献1参照)。 As one of such speech synthesis methods, a plurality of speech units are selected for each speech unit from a large number of speech units, with the target phoneme sequence / prosodic information as a target. There is a multi-speech unit selection / fusion type speech synthesis method in which new speech units are generated by merging and synthesizing speech by connecting them (for example, see Patent Document 1).
この複数音声素片選択・融合型の音声合成は、まず予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択する。音声素片選択方法としては、音声を合成することで生じる合成音声の歪みの度合いをコスト関数として定義し、コストが小さくなるように音声素片を選択する方法がある。 In this multi-speech unit selection / fusion type speech synthesis, a speech unit is first selected from a large number of pre-stored speech units based on the input phoneme sequence / prosodic information. As a speech unit selection method, there is a method in which the degree of distortion of synthesized speech generated by synthesizing speech is defined as a cost function and a speech unit is selected so as to reduce the cost.
例えば、目標とする音声と各音声素片との韻律・音韻環境などの差異を表す目標歪み、音声素片を接続することで生じる接続歪みをコストとして数値化する。このコストに基づいて音声合成に使用する音声素片を選択する。さらに、例えばピッチ波形を平均化する、選択された複数の音声素片のセントロイドを用いるなどの方法で融合する。これにより、音声素片の編集及び接続における音質の劣化を抑え、安定した合成音声を得ることができる。
上記のような複数音声素片選択・融合型の音声合成方法では、融合音声素片候補を選択するときに、合成音声として使用する音声素片との接続歪みを考慮しないで、予め音声素片の中から求められている、すなわち、実際には合成音声の音声素片として用いられない最適素片系列上の音声素片との接続歪みに基づいて融合音声素片候補を求めているため、生成された合成音声の接続部に不連続が生じてしまうという問題点がある。 In the multi-speech unit selection / fusion type speech synthesis method as described above, when selecting a fused speech unit candidate, a speech unit is not considered in advance without considering connection distortion with a speech unit used as synthesized speech. In other words, because the fusion speech unit candidate is obtained based on the connection distortion with the speech unit on the optimal unit sequence that is not actually used as the speech unit of the synthesized speech, There is a problem that discontinuity occurs in the connection portion of the generated synthesized speech.
そこで、本発明は、上記問題点に鑑み、複数音声素片選択・融合型の音声合成において、より自然で高音質な合成音声を生成することが出来る音声合成装置及びその方法を提供することを目的とする。 Therefore, in view of the above problems, the present invention provides a speech synthesizer and method for generating a more natural and high-quality synthesized speech in a multiple speech unit selection / fusion speech synthesis. Objective.
本発明は、音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択部と、前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成部と、前記第2音声素片の音素環境パラメータを算出するパラメータ算出部と、前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成部と、を有し、前記選択部は、前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定部と、前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出部と、前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出部と、前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出部と、前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択部と、を有する音声合成装置である。 The present invention divides a speech unit group, a storage unit storing phoneme environment parameters for each speech unit of the speech unit group, and a phoneme sequence corresponding to a target speech to be synthesized into synthesis units. For each of the plurality of segments obtained by the above, a selection unit that selects a plurality of first speech units from the speech unit group and a plurality of the first speech units are combined to form one second speech. Synthesis by connecting a generation unit that generates a segment, a parameter calculation unit that calculates a phoneme environment parameter of the second speech unit, and the second speech unit generated for each of the segments A segment setting unit configured to set, as the segment of interest, one segment for selecting the first speech segment from the segments. An extraction unit that extracts a plurality of speech units having the same characteristics as the phoneme of the target segment from the speech unit group as speech unit candidates, and uses each speech unit candidate of the target segment. A first cost calculation unit that calculates a target cost representing a distortion amount of the synthesized speech generated from the phoneme environment parameter of each speech unit candidate and the prosodic information of the target speech; Alternatively, each connection cost that represents the amount of distortion that occurs when the speech unit of an adjacent segment that is an adjacent segment and the speech unit candidate of the target segment are connected is calculated. ) When the adjacent segment is the second speech unit, from the phoneme environment parameter of the second speech unit and the phoneme environment parameter of each speech unit candidate Or (2) if the adjacent segment does not have the second speech segment, the phoneme environment parameter of the speech segment candidate corresponding to the segment of interest and the adjacent segment A second cost calculation unit that calculates the connection cost from the phoneme environment parameter of the speech unit candidate corresponding to the target speech unit, and the target cost and the connection cost among the plurality of speech unit candidates in the segment of interest. A speech unit selection unit that selects a plurality of speech unit candidates having a low total cost as the first speech unit.
また、本発明は、音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定部と、前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出部と、前記複数の第3音声素片を融合することによって第4音声素片を生成する生成部と、前記第4音声素片の音素環境パラメータを算出するパラメータ算出部と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出部と、前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出部と、前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択部と、前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成部と、を有する音声合成装置である。 The present invention also provides a speech unit group, a storage unit storing phoneme environment parameters for each speech unit of the speech unit group, and a phoneme sequence corresponding to a target speech to be synthesized in synthesis units. A segment setting unit for setting one segment as a target segment from among a plurality of segments obtained by dividing, and a plurality of speech units having the same characteristics as the phonemes of the target segment from the speech unit group Are extracted as a third speech unit, a generation unit that generates a fourth speech unit by fusing the plurality of third speech units, and a phoneme environment parameter of the fourth speech unit. A target cost representing a distortion amount of the synthesized speech generated using the parameter calculation unit to calculate, and the third speech unit and the fourth speech unit of the segment of interest, A third cost calculation unit for calculating each of the third speech unit and the fourth speech unit from the phoneme environment parameters and the prosody information of the target speech, and an adjacent segment that is adjacent to the target segment Each connection cost representing the amount of distortion generated when the third speech unit and the fourth speech unit of the segment and the third speech unit and the fourth speech unit of the segment of interest are connected. Is calculated from the phoneme environment parameters of the third speech unit and the fourth speech unit of the segment of interest and the phoneme environment parameters of the third speech unit and the fourth speech unit of the adjacent segment. The total cost of the target cost and the connection cost is low among the four cost calculation unit and the plurality of third speech units and the fourth speech unit in the segment of interest. A synthesized speech is generated by connecting a speech unit selection unit that selects a plurality of speech units as the fifth speech unit and the fifth speech unit generated for each of the segments. And a synthesis unit.
本発明によれば、融合音声素片との接続歪みを考慮しない場合と比べ音質の劣化の程度が減少し、より自然で高音質な合成音声を生成する音声合成方法を提供することが出来る。 According to the present invention, it is possible to provide a speech synthesizing method that generates a more natural and high-quality synthesized speech by reducing the degree of deterioration of the sound quality as compared with a case where connection distortion with a fusion speech unit is not taken into consideration.
本発明の実施形態におけるテキスト音声合成を行う音声合成装置について図面を参照して説明する。 A speech synthesizer that performs text-to-speech synthesis according to an embodiment of the present invention will be described with reference to the drawings.
(第1の実施形態)
本発明の第1の実施形態における音声合成装置について図1〜図14に基づいて説明する。
(First embodiment)
A speech synthesizer according to a first embodiment of the present invention will be described with reference to FIGS.
(1)音声合成装置の構成
図1は、本実施形態に係る音声合成装置の構成を示すブロック図である。
(1) Configuration of Speech Synthesizer FIG. 1 is a block diagram showing a configuration of a speech synthesizer according to this embodiment.
図1に示すように、音声合成装置は、テキスト入力部1、言語処理部2、韻律処理部3、音声合成部4、音声波形出力部5から構成される。
As shown in FIG. 1, the speech synthesizer includes a
各部の機能は、コンピュータに格納されたプログラムによっても実現できる。 The function of each part can also be realized by a program stored in a computer.
言語処理部2は、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部3へ送る。
The
韻律処理部3は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部4へ送る。
The
音声合成部4は、音韻系列及び韻律情報から音声波形を生成する。
The
音声波形出力部5は、こうして生成された音声波形を出力する。
The voice
(2)音声合成部4の構成
図2は、図1の音声合成部4の構成例を示すブロック図である。
(2) Configuration of
図2に示すように、音声合成部4は音声素片記憶部40、音素環境記憶部41、音韻系列・韻律情報入力部42、音声素片選択・融合部43、音声素片編集・接続部44により構成される。
As shown in FIG. 2, the
以下、各部40〜44の機能について詳しく説明する。 Hereinafter, the function of each part 40-44 is demonstrated in detail.
(3)音声素片記憶部40
音声素片記憶部40には大量の音声素片が蓄積されており、合成音声を生成するときに用いる音声の単位(合成単位)の音声素片が記憶されている。
(3) Speech
A large amount of speech units are accumulated in the speech
合成単位は、音素あるいは音素を分割したものの組み合わせである。例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり、これらが混在しているなど可変長であってもよい。なお、Vは母音、Cは子音を表す。 A synthesis unit is a phoneme or a combination of phonemes. For example, semiphonemes, phonemes (C, V), diphones (CV, VC, VV), triphones (CVC, VCV), syllables (CV, V), etc. There may be. V represents a vowel, and C represents a consonant.
また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。 In addition, the speech segment represents a waveform of a speech signal corresponding to a synthesis unit or a parameter series representing its characteristics.
音声素片記憶部40には、例えば音声素片が音素の場合には、図4に示すように、各音素の音声信号の波形が前記音素を識別するための音声素片番号と共に記憶されている。音声素片記憶部40に記憶されている各音声素片は、別途収集された多数の音声データに対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。
In the speech
(4)音素環境記憶部41
音素環境記憶部41には、音声素片記憶部40に記憶されている音声素片の音素環境パラメータが記憶されている。
(4) Phoneme
The phoneme
音声素片の音素環境パラメータとは、前記音声素片にとっての音素環境となる要因の組み合わせに対応する情報である。要因としては、例えば、前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。 The phoneme environment parameter of the speech segment is information corresponding to a combination of factors that become the phoneme environment for the speech segment. Factors include, for example, the phoneme name of the speech unit, the preceding phoneme, the succeeding phoneme, the succeeding phoneme, the fundamental frequency, the phoneme duration, power, the presence or absence of stress, the position from the accent core, the time from breathing, the utterance There are speed, feelings, etc.
音素環境記憶部41には、例えば音声素片が音素の場合には、図5に示すように、音声素片記憶部40に記憶されている各音素の音素環境パラメータが、前記音素の音声素片番号に対応付けて記憶されている。ここでは、音素環境パラメータとして、音素記号(音素名)、基本周波数、音韻時間継続長、音声素片両端におけるケプストラム係数が記憶されている。
In the phoneme
(5)音韻系列・韻律情報入力部42
音韻系列・韻律情報入力部42には、韻律処理部3から出力された目標音声の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部42に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。
(5) Phoneme sequence / prosodic
The phoneme sequence / prosodic
以下、音韻系列・韻律情報入力部42に入力される音韻系列と韻律情報を、それぞれ「入力音韻系列」、「入力韻律情報」と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。
Hereinafter, the phoneme sequence and the prosody information input to the phoneme sequence / prosodic
音韻系列・韻律情報入力部42には、例えば音声素片が音素の場合には、音韻の情報として、テキスト音声合成のために入力テキストの形態素解析・構文解析後、さらにアクセントやイントネーション処理を行って得られた韻律情報と音韻系列が入力される。入力韻律情報には、基本周波数及び音韻継続時間長が含まれていることとする。
In the phoneme sequence / prosodic
(6)音声素片選択・融合部43
次に、音声素片選択・融合部43について説明する。
(6) Speech unit selection /
Next, the speech element selection /
図3は、図2の音声素片選択・融合部43の構成例を示すブロック図である。
FIG. 3 is a block diagram illustrating a configuration example of the speech unit selection /
図3に示すように、音声素片選択・融合部43は、音声素片選択部430、音声素片融合部431、音素環境算出部432により構成される。
As shown in FIG. 3, the speech unit selection /
(6−1)音声素片選択部430
音声素片選択部430は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報と、音声素片の音素環境パラメータに含まれる韻律情報ないし、後述する音素環境算出部432で得られる融合された音声素片の音素環境パラメータとの歪みの度合いであるを歪み量を推定し、前記歪み量を最小化するように音声素片記憶部40に記憶されている音声素片の中から音声素片を選択する。
(6-1) Speech unit selection unit 430
The speech unit selection unit 430, for each of a plurality of segments obtained by dividing the input phoneme sequence by synthesis unit, prosody information included in the phoneme environment parameter of the speech unit or the phoneme described later. It is stored in the speech
歪み量としては、後述するコスト関数を用いることができるが、これに限定するものではない。 As the amount of distortion, a cost function described later can be used, but is not limited to this.
(6−2)音声素片融合部431
音声素片融合部431は、音声素片選択部430において選択された複数の音声素片を融合して、新たな音声素片を生成する。
(6-2) Speech unit fusion unit 431
The speech unit fusion unit 431 merges a plurality of speech units selected by the speech unit selection unit 430 to generate a new speech unit.
(6−3)音素環境算出部432
音素環境算出部432は、音声素片融合部431において融合された音声素片の音素環境パラメータを算出する。この操作をセグメント毎に行うことにより、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列が得られる。
(6-3) Phoneme environment calculation unit 432
The phoneme environment calculation unit 432 calculates the phoneme environment parameters of the speech units fused by the speech unit fusion unit 431. By performing this operation for each segment, a new speech segment sequence corresponding to the phoneme symbol sequence of the input phoneme sequence is obtained.
(7)音声素片編集・接続部44
音声素片編集・接続部44において、新たな音声素片の系列は、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
(7) Speech segment editing /
In the speech segment editing /
こうして生成された音声波形は図2の音声波形出力部5で出力される。
The speech waveform generated in this way is output by the speech
(8)音声素片選択・融合部43の処理の内容
次に、図6に基づいて音声素片選択・融合部43における処理の流れを説明する。ここでは、合成単位の音声素片は音素であるとする。図6は、音声素片選択・融合部43における処理の流れを示すフローチャートである。
(8) Processing Contents of Speech Unit Selection /
なお、本実施形態では、合成音声のセグメントの数をI個とし、文頭から文末へ向けて(すなわち、時系列にしたがって)、音声素片を融合していくものとする。 In the present embodiment, the number of segments of the synthesized speech is I, and speech units are merged from the beginning of the sentence toward the end of the sentence (that is, in time series).
また、ステップS4300、ステップS4310、ステップS4320及びステップS4330はI回繰り返され、I個のセグメントが1回ずつ注目セグメントとなるように処理を行う。以下、各ステップについて説明する。 Further, Step S4300, Step S4310, Step S4320, and Step S4330 are repeated I times, and processing is performed so that I segments become the target segment once. Hereinafter, each step will be described.
(9)ステップS4300
まず、ステップS4300では、後述するコスト関数に基づいて最適素片系列を求めていく。
(9) Step S4300
First, in step S4300, an optimum segment sequence is obtained based on a cost function described later.
(9−1)コスト関数
コスト関数は次のように定める。
(9-1) Cost function The cost function is determined as follows.
まず、音声素片を変形・接続して合成音声を生成するときに生ずる歪みの要因毎にサブコスト関数Cn(ui,ui−1,ti)(n:1,・・・,N,Nはサブコスト関数の数)を定める。ここで、tiは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t1,・・・,tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境パラメータ情報を表し、uiは音声素片記憶部40に記憶されている音声素片のうち、tiと同じ音韻の音声素片を表す。
First, sub-cost functions C n (u i, u i−1 , t i ) (n: 1,..., N for each factor of distortion generated when speech units are deformed and connected to generate synthesized speech. , N defines the number of sub-cost functions). Here, t i corresponds to the i-th segment when the target speech (target speech) corresponding to the input phoneme sequence and the input prosodic information is t = (t 1 ,..., T I ). The target phoneme environment parameter information of the partial speech unit is represented, and u i represents the speech unit having the same phoneme as t i among the speech units stored in the speech
サブコスト関数は、音声素片記憶部40に記憶されている音声素片を用いて合成音声を生成したときに生ずる前記合成音声の目標音声に対する歪み量を推定するためのコストを算出するためのものである。
The sub-cost function is used to calculate a cost for estimating the amount of distortion of the synthesized speech with respect to the target speech that occurs when the synthesized speech is generated using the speech units stored in the speech
前記コストを算出するために、ここでは、具体的には、前記音声素片を使用することによって生じる合成音声の目標音声に対する歪み量を推定する目標コストと、前記音声素片を他の音声素片と接続したときに生じる前記合成音声の目標音声に対する歪み量を推定する接続コストという2種類のサブコストを用いる。 In order to calculate the cost, here, specifically, a target cost for estimating a distortion amount of the synthesized speech generated by using the speech unit with respect to the target speech, and the speech unit is used as another speech unit. Two types of sub-costs are used which are connection costs for estimating the amount of distortion of the synthesized speech that occurs when connected to a piece with respect to the target speech.
「目標コスト」としては、音声素片記憶部40に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。
As the “target cost”, the fundamental frequency cost representing the difference (difference) between the fundamental frequency of the speech element stored in the speech
「接続コスト」としては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。 As the “connection cost”, a spectrum connection cost representing a difference (difference) in spectrum at the connection boundary is used.
具体的には、基本周波数コストは、
から算出する。ここで、viは音声素片記憶部40に記憶されている音声素片uiの音素環境パラメータを、fは音素環境パラメータviから基本周波数を取り出す関数を表す。
Calculate from Here, v i is the phoneme environment parameters of speech unit u i stored in the
また、音韻継続時間長コストは、
から算出する。ここで、gは音素環境パラメータviから音韻継続時間長を取り出す関数を表す。 Calculate from Here, g represents the function to extract phoneme duration from the phonetic environment parameter v i.
また、スペクトル接続コストは、2つの音声素片間のケプストラム距離:
から算出する。ここで、hは音声素片uiの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。 Calculate from Here, h represents a function for taking out a cepstrum coefficient of a connection boundary of the speech unit u i as a vector.
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する:
ここで、wnはサブコスト関数の重みを表す。本実施形態では、簡単のため、wnはすべて「1」とする。上記式(4)は、ある合成単位に、ある音声素片を当てはめた場合の前記音声素片の合成単位コストである。 Here, w n represents the weight of the sub cost function. In the present embodiment, for the sake of simplicity, all w n is set to "1". The above formula (4) is the synthesis unit cost of the speech unit when a speech unit is applied to a synthesis unit.
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、前記コストを算出するためのコスト関数を次式(5)に示すように定義する:
(9−2)最適素片系列
図6のステップS4300では、上記式(1)〜(5)に示したコスト関数を使って1セグメント当たり(すなわち、1合成単位当たり)1つの音声素片を用いて、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。
(9-2) Optimal Segment Sequence In step S4300 in FIG. 6, one speech segment is selected per segment (ie, per synthesis unit) using the cost functions shown in the above equations (1) to (5). By using this, a sequence of speech units having a minimum cost value calculated by the above equation (5) is obtained.
また、後述する音声素片融合部431で生成された融合音声素片が存在しないセグメントに対しては音声素片記憶部40中の音声素片の中から1つを用いて、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。
Further, for a segment for which there is no fused speech unit generated by the speech unit fusion unit 431 described later, one of the speech units in the speech
さらに、音声素片融合部431で生成された融合音声素片が存在するセグメントに対しては融合音声素片を用いて、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。 Furthermore, for the segment in which the fusion speech unit generated by the speech unit fusion unit 431 exists, the fusion speech unit is used, and the speech unit having the smallest cost value calculated by the above equation (5) is used. Find the series.
このコストが最小となる音声素片の組合せを「最適素片系列」と呼ぶこととする。すなわち、最適素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適素片系列中の各音声素片から算出された上記合成単位コストと式(5)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programing)を用いることでより効率的に行うことができる。 A combination of speech units that minimizes the cost is referred to as an “optimal unit sequence”. That is, each speech unit in the optimum unit sequence corresponds to each of a plurality of segments obtained by dividing the input phoneme sequence by a synthesis unit, and is calculated from each speech unit in the optimum unit sequence. The cost value calculated from the synthesis unit cost and the equation (5) is smaller than any other speech unit sequence. It should be noted that the search for the optimum unit sequence can be performed more efficiently by using dynamic programming (DP).
(9−3)具体例
例えば、図7に示すように、入力音韻系列が「ts・i・i・s・a・・・・」であるとする。この場合、合成単位は、音素「ts」、「i」、「i」、「s」、「a」、・・・のそれぞれに対応し、これら音素のそれぞれが1つのセグメントに対応する。
(9-3) Specific Example For example, as shown in FIG. 7, it is assumed that the input phoneme sequence is “ts · i · i · s · a ·. In this case, the synthesis unit corresponds to each of the phonemes “ts”, “i”, “i”, “s”, “a”,..., And each of these phonemes corresponds to one segment.
入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとする。すなわち、入力された音韻系列中の1番目の音素「ts」と2番目の音素「i」は既にステップS4320において音声素片融合され、それぞれステップS4330において融合した音声素片の音素環境パラメータが算出されている。 A segment corresponding to the third phoneme “i” in the input phoneme sequence is set as a target segment. That is, the first phoneme “ts” and the second phoneme “i” in the input phoneme sequence are already speech unit fused in step S4320, and the phoneme environment parameters of the speech units fused in step S4330 are calculated. Has been.
この場合、最適素片系列上の1番目の音素「ts」と2番目の「i」に対応する音声素片4301a、4301bは融合された音声素片となっており、音韻系列中の残りの3番目の音素「i」、4番目の音素「s」と5番目の音素「a」、・・・、では音声素片記憶部40からそれぞれ4301c、4301d、4301e、・・・が最適素片系列4301上の音声素片として選ばれている。
In this case,
この最適素片系列4301上の音声素片4301a、4301b、4301c、4301d、4301e、・・・からなる音声素片系列を用いると、上記合成単位コストと式(5)より算出されたコストが他のどの音声素片系列よりも小さな値となっている。
When a speech unit sequence consisting of
(10)ステップS4310
次に、ステップS4310に進み、ステップS4300で求めた最適素片系列を用いて、1セグメント当たり複数の音声素片を選ぶ。ここでは、I個のセグメントそれぞれに対し、M個の音声素片を選ぶこととして説明する。詳細を図8のフローチャートに示す。
(10) Step S4310
Next, proceeding to step S4310, a plurality of speech segments are selected per segment using the optimum segment sequence obtained at step S4300. Here, a description will be given assuming that M speech segments are selected for each of I segments. Details are shown in the flowchart of FIG.
ステップS4311では式(5)で算出されるコストの値に応じて順位付けし、ステップS4312において上位M個の音声素片を選択する。 In step S4311, ranking is performed according to the cost value calculated by equation (5), and in step S4312, the top M speech segments are selected.
例えば、図7と同様に図9では、入力音韻系列が「ts・i・i・s・a・・・・」であるとする。図9では、入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この3番目の音素「i」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片4313a、4313b、4313d、4313e、・・・を固定する。図7の最適系列中の音声素片と比較すると、音声素片4313aは融合音声素片4301aと、音声素片4313bは融合音声素片4301bと、音声素片4313dは音声素片4301dと、音声素片4313eは音声素片4301eと対応している。
For example, as in FIG. 7, in FIG. 9, it is assumed that the input phoneme sequence is “ts · i · i · s · a ·. FIG. 9 shows a case where a segment corresponding to the third phoneme “i” in the input phoneme sequence is set as a target segment, and a plurality of speech segments are obtained for this target segment. For segments other than the segment corresponding to the third phoneme “i”, the
この状態で、音声素片記憶部40に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のそれぞれについて、式(5)を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求めるときに、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。
In this state, among the speech elements stored in the speech
すなわち、下記のような手順となる。 That is, the procedure is as follows.
(手順1) 音声素片記憶部40に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のうちの1つを音声素片u3とする。音声素片u3の基本周波数f(v3)と、目標の基本周波数f(t3)とから、式(1)を用いて、基本周波数コストを算出する。
(Procedure 1) Among the speech elements stored in the speech
(手順2) 音声素片u3の音韻継続時間長g(v3)と、目標の音韻継続時間長g(t3)とから、式(2)を用いて、音韻継続時間長コストを算出する。 (Procedure 2) The phoneme duration cost is calculated from the phoneme duration g (v 3 ) of the speech unit u 3 and the target phoneme duration g (t 3 ) using Equation (2). To do.
(手順3) 音声素片u3のケプストラム係数h(u3)と、融合された音声素片4313b(u2)のケプストラム係数h(u2)とから、式(3)を用いて、第1のスペクトル接続コストを算出する。また、音声素片u3のケプストラム係数h(u3)と、融合された音声素片4313d(u4)のケプストラム係数h(u4)とから、式(3)を用いて、第2のスペクトル接続コストを算出する。
Since the (Step 3) cepstral coefficients of the speech unit u 3 h (u 3), and fused
(手順4) 上記手順1〜手順3で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片u3のコストを算出する。
(Procedure 4) A speech unit is calculated by calculating a weighted sum of the fundamental frequency cost, the phoneme duration time cost, and the first and second spectrum connection costs calculated by using each sub-cost function in the above-described
(手順5) 音声素片記憶部40に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ各音声素片について、上記手順1〜手順4に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う(図8のステップS4311)。そして、上位M個の音声素片を選択する(図8のステップS4312)。例えば、図9では、音声素片4314aが最も順位が高く、音声素片4314dが最も順位が低い。
(Procedure 5) For each speech unit having the same phoneme name (phoneme symbol) as the phoneme “i” of the segment of interest among the speech units stored in the speech
以上の手順1〜手順5をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、M個ずつの音声素片が得られる。
The
音素環境パラメータとして、音声素片の音韻とその基本周波数及び音韻継続長の情報として説明したが、これらに限定するものではなく、必要に応じて、音韻、基本周波数、音韻継続時間長、先行音素、後続音素、後々続音素、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発生速度、感情などの情報などを組み合わせて用いることが出来る。 The phoneme environment parameters have been described as information on the phoneme of the speech unit and its fundamental frequency and phoneme duration, but are not limited to these, and the phoneme, the fundamental frequency, the phoneme duration, the preceding phoneme, if necessary. , Subsequent phonemes, subsequent phonemes, power, presence / absence of stress, position from the accent core, time from breathing, generation speed, emotion, etc. can be used in combination.
(11)ステップS4320
次に、図6のステップS4320の処理について説明する。
(11) Step S4320
Next, the process of step S4320 in FIG. 6 will be described.
ステップS4320では、注目セグメントに対して、ステップS4310で求めたM個の音声素片から、セグメント毎に前記M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成する。有声音の波形には周期があるが、無声音の波形には周期がないため、このステップは音声素片が有声音である場合と無声音である場合とで別の処理を行う。 In step S4320, for the segment of interest, the M speech units are fused for each segment from the M speech units obtained in step S4310, and a new speech unit (fused speech unit) is created. Is generated. Although the waveform of voiced sound has a period, the waveform of unvoiced sound does not have a period, so this step performs different processing depending on whether the speech segment is voiced sound or unvoiced sound.
まず、有声音の場合について説明する。有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作り出す。ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すようなものを意味する。 First, the case of voiced sound will be described. In the case of voiced sound, a pitch waveform is extracted from the speech segment and fused at the level of the pitch waveform to create a new pitch waveform. A pitch waveform is a relatively short waveform that has a length up to several times the fundamental period of the speech and does not have a fundamental period, and whose spectrum represents the spectral envelope of the speech signal. means.
その抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪みが小さくなるようなピッチ波形を求める方法など様々なものがある。 As extraction methods, a pitch waveform is obtained by simply cutting out with a fundamental period synchronization window, a method of performing inverse discrete Fourier transform on a power spectrum envelope obtained by cepstrum analysis or PSE analysis, and an impulse response of a filter obtained by linear prediction analysis. There are various methods such as a method for obtaining, and a method for obtaining a pitch waveform that reduces distortion with respect to natural speech at the level of synthesized speech by a closed loop learning method.
本実施形態では、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する場合を例にとり、図10のフローチャートを参照して説明する。ここでは、複数のセグメントのうちの1つのセグメントについて、M個の音声素片を融合して1つの新たな音声素片を生成する場合の処理手順を説明する。 In the present embodiment, an example in which a pitch waveform is extracted using a method of cutting out with a basic period synchronization window will be described with reference to the flowchart of FIG. Here, a processing procedure in the case where one new speech unit is generated by fusing M speech units with respect to one segment among a plurality of segments will be described.
(11−1)ステップS4321
まず、ステップS4321において、M個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク(ピッチマーク)を付ける。
(11-1) Step S4321
First, in step S4321, a mark (pitch mark) is added to each speech waveform of the M speech units for each periodic interval.
図11(a)には、M個の音声素片のうちの1つの音声素片の音声波形4321aに対し、その周期間隔毎にピッチマーク4321bが付けられている場合を示している。
FIG. 11 (a) shows a case where pitch marks 4321b are attached to the
(11−2)ステップS4322
次に、ステップS4322では、図11(b)に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。
(11-2) Step S4322
Next, in step S4322, as shown in FIG. 11B, windowing is performed with the pitch mark as a reference to cut out the pitch waveform.
窓にはハニング窓4321cを用い、その窓長は基本周期の2倍とする。
A
そして、図11(c)に示すように、窓掛けされた波形4321dをピッチ波形として切り出す。M個の音声素片のそれぞれについて、図11に示すような処理(ステップS4322の処理)を施す。
Then, as shown in FIG. 11C, the
その結果、M個の音声素片それぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。 As a result, for each of the M speech units, a series of pitch waveforms composed of a plurality of pitch waveforms is obtained.
(11−3)ステップS4323
次に、ステップS4323に進み、前記セグメントのM個の音声素片のそれぞれのピッチ波形系列の中で、最もピッチ波形の数が多いものに合わせて、M個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、(ピッチ波形の数が少ないピッチ波形の系列については)ピッチ波形を複製して、ピッチ波形の数をそろえる。
(11-3) Step S4323
Next, proceeding to step S4323, the pitches in the series of all M pitch waveforms are matched to the one having the largest number of pitch waveforms among the pitch waveform series of the M speech units of the segment. The pitch waveforms are duplicated so that the number of pitch waveforms is the same (for a series of pitch waveforms with a small number of pitch waveforms).
図12(a)、(b)には、前記セグメントM個(例えば、ここでは3個)の音声素片d1〜d3のそれぞれから、ステップS4322で切り出されたピッチ波形の系列e1〜e3を示している。ピッチ波形の系列e1中のピッチ波形の数は7個、ピッチ波形の系列e2中のピッチ波形の数は5個、ピッチ波形の系列e3中のピッチ波形の数は6個であるので、ピッチ波形の系列e1〜e3のうち最もピッチ波形の数が多いものは、系列e1である。 FIGS. 12A and 12B show pitch waveform series e1 to e3 cut out in step S4322 from each of the M segment (for example, three in this case) speech segments d1 to d3. ing. Since the number of pitch waveforms in the pitch waveform series e1 is 7, the number of pitch waveforms in the pitch waveform series e2 is 5, and the number of pitch waveforms in the pitch waveform series e3 is 6, the pitch waveform. Among the series e1 to e3, the series e1 has the largest number of pitch waveforms.
従って、図12(c)には、この系列e1中のピッチ波形の数(例えば、ここでは、ピッチ波形の数は7個)に合わせて、他の系列e2、e3については、それぞれ、前記系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を7個にする様子を示している。 Therefore, in FIG. 12C, according to the number of pitch waveforms in the series e1 (for example, the number of pitch waveforms is 7 here), the other series e2 and e3 are respectively the series. A state is shown in which one of the inside pitch waveforms is copied to make the number of pitch waveforms seven.
その結果得られた、e2、e3のそれぞれに対応する新たなピッチ波形の系列がe2´、e3´である。 As a result, new pitch waveform series corresponding to e2 and e3 are e2 ′ and e3 ′, respectively.
(11−4)ステップS4324
次に、ステップS4324に進む。このステップでは、ピッチ波形毎に処理を行う。
(11-4) Step S4324
Next, it progresses to step S4324. In this step, processing is performed for each pitch waveform.
ステップS4324では、前記セグメントのM個のそれぞれの音声素片に対応するピッチ波形をその位置毎に平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。 In step S4324, the pitch waveforms corresponding to the M speech units of the segment are averaged for each position, and a new pitch waveform sequence is generated. The generated new pitch waveform sequence is used as a fused speech unit.
図12(d)に、1番目から7番目のピッチ波形をそれぞれ3つの音声素片で平均化し、7個の新たなピッチ波形からなる新たなピッチ波形の系列f1を生成している。例えば、系列e1の1番目のピッチ波形と、系列e2´の1番目のピッチ波形と、系列e3´の1番目のピッチ波形のセントロイドを求めて、それを新たな1番目のピッチ波形とする。新たなピッチ波形の系列f1の2番目〜7番目のピッチ波形についても同様である。ピッチ波形の系列f1が、上記「融合された音声素片」である。 In FIG. 12 (d), the first to seventh pitch waveforms are averaged by three speech segments, respectively, to generate a new pitch waveform series f1 composed of seven new pitch waveforms. For example, the centroid of the first pitch waveform of the series e1, the first pitch waveform of the series e2 ′, and the first pitch waveform of the series e3 ′ is obtained and set as a new first pitch waveform. . The same applies to the second to seventh pitch waveforms of the new pitch waveform series f1. The series f1 of pitch waveforms is the “fused speech segment”.
なお、M個の音声素片のうち最も多いピッチ波形を持つものに合わせたが、作成する合成音声素片のピッチマーク数に合わせてもよい。 In addition, although it matched with what has the most pitch waveform among M speech units, you may match with the number of pitch marks of the synthetic speech unit to produce.
また、ピッチ波形を融合する際、セントロイドを求めることにより融合したが、これに限るものではない。例えば、M個のピッチ波形の平均を求める、M個の音声素片を帯域分割して、各帯域で位相を揃えてから平均を求めるなどの方法であってもよい。 Further, when the pitch waveforms are merged, the centroids are merged, but the present invention is not limited to this. For example, a method may be used in which an average of M pitch waveforms is obtained, an M speech element is divided into bands, and an average is obtained after aligning phases in each band.
(11−5)無声音のセグメントの場合
一方、図6のステップS4320の処理において、無声音のセグメントの場合には、音声素片選択ステップS4310で前記セグメントのM個の音声素片のうち、前記M個の音声素片のそれぞれに付けられている順位が1位の音声素片をそのまま使用する。
(11-5) In the case of an unvoiced sound segment On the other hand, in the process of step S4320 in FIG. 6, in the case of an unvoiced sound segment, among the M speech elements of the segment in the speech element selection step S4310, the M The speech unit having the first rank assigned to each speech unit is used as it is.
(12)ステップS4330
次に、図6のステップS4330の処理について説明する。
(12) Step S4330
Next, the process of step S4330 in FIG. 6 will be described.
ステップS4330では、ステップS4320で求めた、融合された音声素片の音素環境パラメータを算出する。図6のステップS4330における処理の流れを、図13のフローチャートに示す。 In step S4330, the phoneme environment parameter of the fused speech unit obtained in step S4320 is calculated. The flow of processing in step S4330 in FIG. 6 is shown in the flowchart in FIG.
融合された音声素片の音素環境パラメータは図6のステップS4300において、最適素片系列を求めるときに用いられる。 The phoneme environment parameter of the fused speech unit is used when obtaining the optimum unit sequence in step S4300 in FIG.
そのため、ステップS4331において、融合された音声素片の基本周波数を求める。 Therefore, in step S4331, the fundamental frequency of the fused speech unit is obtained.
ステップS4332において、融合された音声素片の音韻時間継続長を求める。 In step S4332, the phoneme duration duration of the fused speech segment is obtained.
ステップS4333において、融合された音声素片の接続境界のケプストラム係数ベクトルを求めることにより融合された音声素片の音素環境パラメータとする。 In step S4333, the phoneme environment parameters of the fused speech units are obtained by obtaining the cepstrum coefficient vector of the connection boundary of the fused speech units.
ここでは、融合された音声素片の基本周波数、音韻時間継続長、接続境界のケプストラムを求めたが、これに限るものではない。コストの計算に必要な音素環境パラメータに応じて変更することもできる。 Here, the fundamental frequency, phoneme duration, and cepstrum of the connection boundary of the united speech unit are obtained, but the present invention is not limited to this. It can also be changed according to phoneme environment parameters required for cost calculation.
以上のようにして、入力音韻系列に対応する複数のセグメントのそれぞれについて、前記セグメントに対し選択されたM個の音声素片から、前記M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成すると、次に、図6の融合音声素片編集・接続ステップS4340へ進む。 As described above, for each of a plurality of segments corresponding to the input phoneme sequence, the M speech units are merged from the M speech units selected for the segment, and a new speech unit is obtained. If (the fused speech unit) is generated, the process proceeds to the fused speech unit editing / connection step S4340 in FIG.
(13)ステップS4340
ステップS4340では、音声素片編集・接続部44はステップS4320で求めた、セグメント毎に融合された音声素片を、入力韻律情報に従って変形し、接続することで(合成音声の)音声波形を生成する。
(13) Step S4340
In step S4340, the speech unit editing / connecting
ステップS4320で求めた融合された音声素片は、実際にはピッチ波形の形になっているので、前記融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。 Since the fused speech unit obtained in step S4320 is actually in the form of a pitch waveform, the fundamental frequency and the phoneme duration length of the fused speech unit are indicated in the input prosodic information. The speech waveform can be generated by superimposing the pitch waveform so as to be the basic frequency of the target speech and the phoneme duration of the target speech.
図14は、ステップS4340の処理を説明するための図である。図14では、音素「o」、「N」、「s」、「e」、「N」の各合成単位についてステップS4320で求めた、融合された音声素片を変形・接続して、「おんせん」という音声波形を生成する場合を示している。図14に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント(合成単位)毎に、融合された音声素片中の各ピッチ波形の基本周波数を変えたり(音の高さを変えたり)、ピッチ波形の数を増やしたり(時間長を変えたり)する。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。 FIG. 14 is a diagram for explaining the processing in step S4340. In FIG. 14, the fused speech segments obtained in step S4320 for each synthesis unit of phonemes “o”, “N”, “s”, “e”, and “N” are transformed and connected, 'Is generated. As shown in FIG. 14, according to the target fundamental frequency and the target phoneme duration length indicated in the input prosodic information, each pitch waveform in the united speech unit is segmented for each segment (synthesis unit). Change the basic frequency (change the pitch) or increase the number of pitch waveforms (change the time length). After that, synthesized speech is generated by connecting adjacent pitch waveforms within and between segments.
(14)サブコストの要件
なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、上記のような融合された音声素片の基本周波数や音韻継続時間長などを変更することにより生ずる前記合成音声の目標音声に対する歪みをできるだけ正確に推定(評価)するものであることが望ましい。そのような目標コストの一例である式(1)、式(2)から算出される目標コストは、前記歪み量を、目標音声の韻律情報と音声素片記憶部40に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。
(14) Sub-cost requirement The target cost is to change the basic frequency of the fused speech unit as described above or the phoneme duration length based on the input prosodic information in order to generate synthesized speech. It is desirable to estimate (evaluate) as accurately as possible the distortion of the synthesized speech caused by the above with respect to the target speech. The target cost calculated from the equations (1) and (2), which are examples of such a target cost, is obtained by calculating the distortion amount from the speech element stored in the prosodic information of the target speech and the speech
また、接続コストは、合成音声を生成するために上記のような融合された音声素片を接続することにより生ずる前記合成音声の目標音声に対する歪みをできるだけ正確に推定(評価)するものであることが望ましい。そのような接続コストの一例である、式(3)から算出される接続コストは、音声素片記憶部40に記憶されている音声素片と、もしくは、音声素片融合ステップS4320において融合された音声素片との接続境界のケプストラム係数の違いに基づき算出されるものである。
The connection cost is to estimate (evaluate) the distortion of the synthesized speech with respect to the target speech as accurately as possible as a result of connecting the fused speech segments as described above to generate the synthesized speech. Is desirable. The connection cost calculated from Expression (3), which is an example of such a connection cost, is fused with the speech unit stored in the speech
(15)効果
本実施形態に係る音声合成方法と、従来の複数音声素片選択・融合型の音声合成方法との違いを説明しつつ、本実施形態の効果を説明する。
(15) Effects The effects of this embodiment will be described while explaining the difference between the speech synthesis method according to the present embodiment and the conventional multiple speech unit selection / fusion speech synthesis method.
本実施形態に係る図3に示した音声合成装置では、音素環境算出部432があり、融合された音声素片の音素環境パラメータを用いて音声素片選択部430内での処理ステップS4300において最適素片系列を求め直す点と、ステップS4330において融合された音声素片の音素環境パラメータを求めるという点が、従来の音声合成装置(例えば、特許文献1参照)と異なる。 In the speech synthesizer shown in FIG. 3 according to this embodiment, there is a phoneme environment calculation unit 432, which is optimal in the processing step S4300 in the speech unit selection unit 430 using the phoneme environment parameters of the fused speech units. It differs from the conventional speech synthesizer (see, for example, Patent Document 1) in that the segment series is obtained again and the phoneme environment parameter of the speech unit fused in step S4330 is obtained.
本実施形態では、音声素片選択のときに、隣接するセグメントが既に音声素片選択され、融合された音声素片が存在している場合に融合された音声素片との接続歪みを考慮して音声素片を選択・融合することにより、接続部の不連続間を解消することにより高音質な音声素片を作り出すことができ、その結果、より自然でより高音質な合成音声を生成することができる。 In this embodiment, when selecting a speech unit, if adjacent segments have already been selected and a fused speech unit exists, the connection distortion with the fused speech unit is considered. By selecting and merging speech segments, it is possible to create speech segments with higher sound quality by eliminating discontinuities between connections, resulting in more natural and higher-quality synthesized speech. be able to.
(第2の実施形態)
次に、第2の実施形態に係る音声素片選択部430について図15に基づいて説明する。
(Second Embodiment)
Next, the speech element selection unit 430 according to the second embodiment will be described with reference to FIG.
図7の最適素片系列4301において、融合された音声素片が存在しているセグメントでは、最適素片系列上の音声素片として融合された音声素片を固定して用いていたが、これに限定されるものではない。そのため、この変更例として第2の実施形態を説明する。
In the
最適素片系列4301における上記合成単位コストと式(5)より算出されたコストを次のように算出する。
The synthesis unit cost in the
図15に示すように、最適素片系列上の音声素片が、融合された音声素片の有無に関わらず、音声素片記憶部40から上記合成単位コストと式(5)より算出されたコストが、最小となるように選択されている最適素片系列4302におけるコストより劣化した場合を考える。この場合には、各セグメントにおける接続コストの算出には最適素片系列4302を用いて算出する。
As shown in FIG. 15, the speech unit on the optimal unit sequence is calculated from the speech
これにより、第1の実施形態に比べ、より自然でより高音質な合成音声を安定して生成することができるのである。 As a result, compared to the first embodiment, it is possible to stably generate a synthesized speech with a more natural and higher sound quality.
(第3の実施形態)
次に、第3の実施形態に係る音声素片選択・融合部43について図16に基づいて説明する。
(Third embodiment)
Next, the speech element selection /
図6では、文頭から文末へ向けて(すなわち、時系列にしたがって)音声素片を融合していくものとしたが、これに限定されるものではない。そのため、この変更例として第3の実施形態を説明する。 In FIG. 6, the speech units are merged from the beginning of the sentence toward the end of the sentence (that is, according to the time series), but the present invention is not limited to this. Therefore, a third embodiment will be described as this modification.
合成音声生成時に、音韻系列中の特定の単語や文末部の合成音声の品質を特に向上したい場合に、上記特定の単語や文末部に対応するセグメントを先に融合することもできる。 When it is desired to particularly improve the quality of the synthesized speech of a specific word or sentence end part in the phoneme sequence at the time of synthetic speech generation, the segment corresponding to the specific word or sentence end part can be fused first.
図16は、本実施形態に係る音声素片選択・融合部43の処理を流すフローチャートである。
FIG. 16 is a flowchart showing the processing of the speech unit selection /
ステップS4350において、本実施形態の合成音声方法を使用するユーザにより設定された順序Oi(i:1,・・・,I,Iはセグメントの数)を設定する。Oiにはi=1から順に各セグメントに対応する1〜Iまでの番号が1つずつ付与されており、Oi番目のセグメントに対してステップS4300、ステップS4310、ステップS4320、ステップS4330における処理をした後、Oi+1番目のセグメントに対して同様の処理を繰り返していくものである。 In step S4350, the order O i (i: 1,..., I, I is the number of segments) set by the user who uses the synthesized speech method of the present embodiment is set. The O i are applied from i = 1 one by one number until 1~I for each segment in order, steps for O i th segment S4300, step S4310, step S4320, the processing in step S4330 Then, the same processing is repeated for the O i + 1th segment.
これにより、第1の実施形態に比べ、特定の単語や、文末部など、上記ユーザが特に合成音声の品質を向上させたいセグメントにおける音声素片選択の自由度が向上し、その結果、上記ユーザが所望するより自然でより高音質な合成音声を生成できる。 Thereby, compared to the first embodiment, the degree of freedom of speech segment selection in a segment in which the user particularly wants to improve the quality of synthesized speech, such as a specific word or the end of a sentence, is improved. As a result, the user Can generate synthesized speech with higher natural quality than desired.
(第4の実施形態)
次に、第4の実施形態に係る音声素片選択・融合部43について図17に基づいて説明する。
(Fourth embodiment)
Next, the speech element selection /
図6のステップS4310では、各セグメントに対しM個の音声素片を選択していくものとしたが、これに限定されるものではない。そのため、この変更例として第4の実施形態を説明する。 In step S4310 of FIG. 6, M speech units are selected for each segment, but the present invention is not limited to this. Therefore, the fourth embodiment will be described as this modification.
合成音声生成時に用いる音声素片を融合しないで、音声素片記憶部40に記憶されている音声素片の中からL(<M)個の音声素片を融合して生成された音声素片を用いることもできる。すなわち、あるセグメントの音韻と同じ音韻を持つ音声素片が、音声素片記憶部40にLi個あるとすると、1つのセグメントにつき、
個の音声素片が音声素片選択候補として存在していることになる。 This means that there are speech units as speech unit selection candidates.
図17は、図2の音声素片選択・融合部43における処理の流れを示すフローチャートである。
FIG. 17 is a flowchart showing the flow of processing in the speech unit selection /
ステップS4320において、m個の音声素片を融合し、ステップS4360においてm個の音声素片を融合することによって得られた音声素片の音素環境パラメータを算出する。これをM回繰り返し、1つのセグメントにおける音声素片候補を生成する。さらに、各セグメントにおいてステップS4320、ステップS4360を同様に繰り返す。 In step S4320, m speech elements are fused, and in step S4360, phoneme environment parameters of the speech elements obtained by fusing m speech elements are calculated. This is repeated M times to generate speech segment candidates in one segment. Further, step S4320 and step S4360 are similarly repeated in each segment.
次に、ステップS4300において、各セグメントの音声素片候補に対して最適素片系列の探索を行い、各セグメント毎に選択された音声素片が合成音声として用いられる。 Next, in step S4300, an optimal segment sequence is searched for speech segment candidates of each segment, and the speech segment selected for each segment is used as synthesized speech.
これにより、第1の実施形態と比べ、音声素片記憶部40に記憶されている音声素片の中からより良い品質の音声素片を生成することができ、より自然でより高音質な合成音声を生成できる。
As a result, compared to the first embodiment, it is possible to generate a speech unit of better quality from speech units stored in the speech
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
(Example of change)
Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage.
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
1 テキスト入力部
2 言語処理部
3 韻律処理部
4 音声合成部
5 音声波形出力部
40 音声素片記憶部
41 音素環境パラメータ記憶部
42 音韻系列・韻律情報入力部
43 音声素片選択・融合部
44 音声素片編集・接続部
DESCRIPTION OF
Claims (18)
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択部と、
前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成部と、
前記第2音声素片の音素環境パラメータを算出するパラメータ算出部と、
前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成部と、
を有し、
前記選択部は、
前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定部と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出部と、
前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出部と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出部と、
前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択部と、
を有する音声合成装置。 A storage unit storing phoneme environment parameters for each speech unit of the speech unit group and the speech unit group;
A selection unit for selecting a plurality of first speech units from the speech unit group for each of a plurality of segments obtained by dividing a phoneme sequence corresponding to a target speech to be synthesized by a synthesis unit;
A generating unit that generates one second speech unit by fusing the plurality of first speech units;
A parameter calculation unit for calculating a phoneme environment parameter of the second speech unit;
A synthesis unit that generates synthesized speech by connecting the second speech units generated for each of the segments;
Have
The selection unit includes:
A segment setting unit configured to set one segment for selecting the first speech segment from among the segments as a target segment;
An extraction unit that extracts a plurality of speech units having the same characteristics as the phoneme of the segment of interest from the speech unit group, as speech unit candidates;
A target cost representing a distortion amount of the synthesized speech generated using each speech unit candidate of the segment of interest is calculated from the phoneme environment parameter of each speech unit candidate and the prosodic information of the target speech. A first cost calculator that
Calculating each connection cost representing the amount of distortion that occurs when a speech unit of an adjacent segment, which is a segment adjacent before or after the target segment, and each speech unit candidate of the target segment are connected; (1) When the adjacent segment is the second speech unit, the connection cost is calculated from the phoneme environment parameter of the second speech unit and the phoneme environment parameter of each speech unit candidate. Or (2) if the adjacent segment does not have the second speech segment, the phoneme environment parameter of the speech segment candidate corresponding to the segment of interest and the corresponding to the adjacent segment A second cost calculating unit that calculates the connection cost from phoneme environment parameters of a speech unit candidate;
A speech unit selection unit that selects a plurality of speech unit candidates having a low total cost of the target cost and the connection cost as the first speech unit among the plurality of speech unit candidates in the segment of interest. When,
A speech synthesizer.
複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出部と、
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出部と、
前記セグメント毎に音声素片を選択するものであって、(1)前記第2音声素片を有するセグメントでは前記第2音声素片を選択し、または、(2)前記第2音声素片を有しないセグメントでは前記各音声素片候補から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択部と、
前記選択された前記第2音声素片、または、前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出部と、
を有し、
前記第1コスト算出部と前記第2コスト算出部は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項1記載の音声合成装置。 The selection unit includes:
A plurality of the segments as one group, a segment cost calculation unit that calculates a segment cost consisting of the total of the target cost and the connection cost for each segment;
A total cost calculation unit for calculating a total cost consisting of a total of segment costs of each segment;
A speech unit is selected for each segment, and (1) the second speech unit is selected in a segment having the second speech unit, or (2) the second speech unit is selected. In a segment that does not have, a segment selection unit that selects one speech unit that minimizes the total cost from each speech unit candidate;
A sequence calculation unit for obtaining an optimal unit sequence that is a sequence of the speech unit by associating the selected second speech unit or the speech unit with each segment;
Have
The first cost calculation unit and the second cost calculation unit respectively set the target segment and the adjacent segment for each segment on the optimal segment sequence.
The speech synthesizer according to claim 1.
前記接続コストを、前記音声素片の音素環境パラメータと前記最適素片系列上における前記隣接セグメントの前記音声素片候補の音素環境パラメータとを用いて算出する、
請求項2記載の音声合成装置。 The selection unit includes:
The connection cost is calculated using the phoneme environment parameter of the speech unit and the phoneme environment parameter of the speech unit candidate of the adjacent segment on the optimal unit sequence.
The speech synthesizer according to claim 2.
前記各セグメントに予め付与された順序に従って、前記第1音声素片を複数選択する、
請求項2記載の音声合成装置。 The selection unit includes:
A plurality of the first speech segments are selected according to the order given in advance to each segment.
The speech synthesizer according to claim 2.
請求項4記載の音声合成装置。 The order is given so that the segment of voiced sound is higher,
The speech synthesizer according to claim 4.
請求項4記載の音声合成装置。 The order is given according to the number of speech units included in the speech unit group.
The speech synthesizer according to claim 4.
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定部と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出部と、
前記複数の第3音声素片を融合することによって第4音声素片を生成する生成部と、
前記第4音声素片の音素環境パラメータを算出するパラメータ算出部と、
前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出部と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出部と、
前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択部と、
前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成部と、
を有する音声合成装置。 A storage unit storing phoneme environment parameters for each speech unit of the speech unit group and the speech unit group;
A segment setting unit that sets one segment as a target segment from each of a plurality of segments obtained by dividing a phoneme sequence corresponding to a target speech to be synthesized by a synthesis unit;
An extraction unit that extracts a plurality of speech units having the same characteristics as the phoneme of the segment of interest from the speech unit group as a third speech unit;
A generating unit that generates a fourth speech unit by fusing the plurality of third speech units;
A parameter calculation unit for calculating a phoneme environment parameter of the fourth speech unit;
A target cost representing a distortion amount of the synthesized speech generated using each of the third speech unit and the fourth speech unit of the segment of interest is set as the third speech unit and the fourth speech unit. A third cost calculating unit for calculating each of the phoneme environment parameters and the prosodic information of the target speech;
The third speech unit and the fourth speech unit of adjacent segments that are adjacent segments before or after the segment of interest, and the third speech unit and the fourth speech unit of the segment of interest. Respective connection costs representing distortion amounts generated when connected are the phoneme environment parameters of the third speech unit and the fourth speech unit of the segment of interest, the third speech unit of the adjacent segment, and the A fourth cost calculation unit for calculating from the phoneme environment parameter of the fourth speech unit;
Among the plurality of third speech units and the fourth speech unit in the segment of interest, a plurality of speech units having a low total cost of the target cost and the connection cost are used as the fifth speech unit. A speech segment selector to select;
A synthesis unit that generates synthesized speech by connecting the fifth speech units generated for each of the segments;
A speech synthesizer.
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出部と、
前記セグメント毎に音声素片を選択するものであって、前記各第3音声素片及び前記第4音声素片の中から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択部と、
前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出部と、
を有し、
前記第3コスト算出部と前記第4コスト算出部は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項7記載の音声合成装置。 A plurality of the segments as one group, a segment cost calculation unit that calculates a segment cost consisting of the total of the target cost and the connection cost for each segment;
A total cost calculation unit for calculating a total cost consisting of a total of segment costs of each segment;
A segment selection unit that selects a speech unit for each segment, and selects one speech unit that minimizes the total cost from the third speech unit and the fourth speech unit. When,
A sequence calculation unit for obtaining an optimal segment sequence that is a sequence of the speech units by associating the speech units with the segments;
Have
The third cost calculation unit and the fourth cost calculation unit respectively set the target segment and the adjacent segment for each segment on the optimal segment sequence.
The speech synthesizer according to claim 7.
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択機能と、
前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成機能と、
前記第2音声素片の音素環境パラメータを算出するパラメータ算出機能と、
前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成機能と、
を有し、
前記選択機能は、
前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定機能と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出機能と、
前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出機能と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出機能と、
前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択機能と、
をコンピュータによって実現する音声合成プログラム。 A storage function for storing a phoneme environment group and a phoneme environment parameter for each speech unit of the speech unit group;
A selection function for selecting a plurality of first speech segments from the speech segment group for each of a plurality of segments obtained by dividing a phoneme sequence corresponding to a target speech to be synthesized by a synthesis unit;
A generating function for generating one second speech unit by fusing the plurality of first speech units;
A parameter calculation function for calculating a phoneme environment parameter of the second speech unit;
A synthesis function for generating synthesized speech by connecting the second speech units generated for each of the segments;
Have
The selection function is:
A segment setting function for setting, as a target segment, one segment for selecting the first speech segment from the segments;
An extraction function for extracting a plurality of speech units having the same characteristics as the phoneme of the segment of interest from the speech unit group, as speech unit candidates;
A target cost representing a distortion amount of the synthesized speech generated using each speech unit candidate of the segment of interest is calculated from the phoneme environment parameter of each speech unit candidate and the prosodic information of the target speech. A first cost calculating function to
Calculating each connection cost representing the amount of distortion that occurs when a speech unit of an adjacent segment, which is a segment adjacent before or after the target segment, and each speech unit candidate of the target segment are connected; (1) When the adjacent segment is the second speech unit, the connection cost is calculated from the phoneme environment parameter of the second speech unit and the phoneme environment parameter of each speech unit candidate. Or (2) if the adjacent segment does not have the second speech segment, the phoneme environment parameter of the speech segment candidate corresponding to the segment of interest and the corresponding to the adjacent segment A second cost calculating function for calculating the connection cost from phoneme environment parameters of a speech unit candidate;
Speech unit selection function for selecting, as the first speech unit, a plurality of speech unit candidates having a low total cost of the target cost and the connection cost among the plurality of speech unit candidates in the segment of interest. When,
Is a speech synthesis program that implements a computer.
複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出機能と、
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出機能と、
前記セグメント毎に音声素片を選択するものであって、(1)前記第2音声素片を有するセグメントでは前記第2音声素片を選択し、または、(2)前記第2音声素片を有しないセグメントでは前記各音声素片候補から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択機能と、
前記選択された前記第2音声素片、または、前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出機能と、
を有し、
前記第1コスト算出機能と前記第2コスト算出機能は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項9記載の音声合成プログラム。 The selection function is:
A plurality of the segments as one group, a segment cost calculation function for calculating a segment cost consisting of a sum of the target cost and the connection cost for each segment;
A total cost calculation function for calculating a total cost consisting of a total of segment costs of each segment;
A speech unit is selected for each segment, and (1) the second speech unit is selected in a segment having the second speech unit, or (2) the second speech unit is selected. A segment selection function for selecting one speech unit that minimizes the total cost from the speech unit candidates in a segment that does not have,
A sequence calculation function for obtaining an optimal unit sequence that is a sequence of the speech unit by associating the selected second speech unit or the speech unit with each segment;
Have
The first cost calculation function and the second cost calculation function respectively set the target segment and the adjacent segment for each segment on the optimum segment sequence.
The speech synthesis program according to claim 9.
前記接続コストを、前記音声素片の音素環境パラメータと前記最適素片系列上における前記隣接セグメントの前記音声素片候補の音素環境パラメータとを用いて算出する、
請求項10記載の音声合成プログラム。 The selection function is:
The connection cost is calculated using the phoneme environment parameter of the speech unit and the phoneme environment parameter of the speech unit candidate of the adjacent segment on the optimal unit sequence.
The speech synthesis program according to claim 10.
前記各セグメントに予め付与された順序に従って、前記第1音声素片を複数選択する、
請求項10記載の音声合成プログラム。 The selection function is:
A plurality of the first speech segments are selected according to the order given in advance to each segment.
The speech synthesis program according to claim 10.
請求項12記載の音声合成プログラム。 The order is given so that the segment of voiced sound is higher,
The speech synthesis program according to claim 12.
請求項4記載の音声合成プログラム。 The order is given according to the number of speech units included in the speech unit group.
The speech synthesis program according to claim 4.
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定機能と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出機能と、
前記複数の第3音声素片を融合することによって第4音声素片を生成する生成機能と、
前記第4音声素片の音素環境パラメータを算出するパラメータ算出機能と、
前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出機能と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出機能と、
前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択機能と、
前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成機能と、
をコンピュータによって実現する音声合成プログラム。 A storage function for storing a phoneme environment group and a phoneme environment parameter for each speech unit of the speech unit group;
A segment setting function for setting one segment as a target segment from among a plurality of segments obtained by dividing a phoneme sequence corresponding to a target speech to be synthesized by a synthesis unit;
An extraction function for extracting a plurality of speech units having the same characteristics as the phoneme of the segment of interest from the speech unit group as a third speech unit;
A generation function for generating a fourth speech unit by fusing the plurality of third speech units;
A parameter calculation function for calculating a phoneme environment parameter of the fourth speech unit;
A target cost representing a distortion amount of the synthesized speech generated using each of the third speech unit and the fourth speech unit of the segment of interest is set as the third speech unit and the fourth speech unit. A third cost calculating function for calculating from each phoneme environment parameter and the prosody information of the target speech;
The third speech unit and the fourth speech unit of adjacent segments that are adjacent segments before or after the segment of interest, and the third speech unit and the fourth speech unit of the segment of interest. Respective connection costs representing distortion amounts generated when connected are the phoneme environment parameters of the third speech unit and the fourth speech unit of the segment of interest, the third speech unit of the adjacent segment, and the A fourth cost calculating function for calculating from a phoneme environment parameter of the fourth speech unit;
Among the plurality of third speech units and the fourth speech unit in the segment of interest, a plurality of speech units having a low total cost of the target cost and the connection cost are used as the fifth speech unit. A voice segment selection function to select;
A synthesis function for generating synthesized speech by connecting the fifth speech segments generated for each of the segments;
Is a speech synthesis program that implements a computer.
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出機能と、
前記セグメント毎に音声素片を選択するものであって、前記各第3音声素片及び前記第4音声素片の中から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択機能と、
前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出機能と、
を有し、
前記第3コスト算出機能と前記第4コスト算出機能は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項15記載の音声合成プログラム。 A plurality of the segments as one group, a segment cost calculation function for calculating a segment cost consisting of a sum of the target cost and the connection cost for each segment;
A total cost calculation function for calculating a total cost consisting of a total of segment costs of each segment;
A segment selection function for selecting a speech unit for each segment and selecting one speech unit that minimizes the total cost from the third speech unit and the fourth speech unit. When,
A sequence calculation function for obtaining an optimum segment sequence that is a sequence of the speech unit by associating the speech unit with each segment,
Have
The third cost calculation function and the fourth cost calculation function respectively set the target segment and the adjacent segment for each segment on the optimum segment sequence.
The speech synthesis program according to claim 15.
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択ステップと、
前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成ステップと、
前記第2音声素片の音素環境パラメータを算出するパラメータ算出ステップと、
前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成ステップと、
を有し、
前記選択ステップは、
前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定ステップと、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出ステップと、
前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出ステップと、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出ステップと、
前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択ステップと、
を有する音声合成方法。 A storage step of storing a phoneme group and a phoneme environment parameter for each phoneme of the phoneme group;
A selection step of selecting a plurality of first speech segments from the speech segment group for each of a plurality of segments obtained by dividing a phoneme sequence corresponding to a target speech to be synthesized by a synthesis unit;
Generating one second speech unit by fusing the plurality of first speech units;
A parameter calculating step of calculating a phoneme environment parameter of the second speech unit;
Generating a synthesized speech by connecting the second speech units generated for each of the segments; and
Have
The selection step includes
A segment setting step for setting, as a segment of interest, one segment for selecting the first speech segment from the segments;
Extracting a plurality of speech units having the same characteristics as the phoneme of the segment of interest from the speech unit group, as speech unit candidates;
A target cost representing a distortion amount of the synthesized speech generated using each speech unit candidate of the segment of interest is calculated from the phoneme environment parameter of each speech unit candidate and the prosodic information of the target speech. A first cost calculating step,
Calculating respective connection costs representing the amount of distortion generated when connecting speech segments of adjacent segments that are adjacent to the target segment before or after the target segment and the speech unit candidates of the target segment; (1) When the adjacent segment is the second speech unit, the connection cost is calculated from the phoneme environment parameter of the second speech unit and the phoneme environment parameter of each speech unit candidate. Or (2) if the adjacent segment does not have the second speech segment, the phoneme environment parameter of the speech segment candidate corresponding to the segment of interest and the corresponding to the adjacent segment A second cost calculating step of calculating the connection cost from a phoneme environment parameter of a speech segment candidate;
A speech unit selection step of selecting, as the first speech unit, a plurality of speech unit candidates having a low total cost of the target cost and the connection cost among the plurality of speech unit candidates in the segment of interest. When,
A speech synthesis method comprising:
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定ステップと、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出ステップと、
前記複数の第3音声素片を融合することによって第4音声素片を生成する生成ステップと、
前記第4音声素片の音素環境パラメータを算出するパラメータ算出ステップと、
前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出ステップと、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出ステップと、
前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択ステップと、
前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成ステップと、
を有する音声合成方法。 A storage step of storing a phoneme group and a phoneme environment parameter for each phoneme of the phoneme group;
A segment setting step for setting one segment as a target segment from each of a plurality of segments obtained by dividing a phoneme sequence corresponding to a target speech to be synthesized by a synthesis unit;
An extraction step of extracting a plurality of speech segments having the same characteristics as the phoneme of the segment of interest from the speech segment group as a third speech segment;
Generating a fourth speech unit by fusing the plurality of third speech units;
A parameter calculating step of calculating a phoneme environment parameter of the fourth speech unit;
A target cost representing a distortion amount of the synthesized speech generated using each of the third speech unit and the fourth speech unit of the segment of interest is set as the third speech unit and the fourth speech unit. A third cost calculating step for calculating each of the phoneme environment parameters and the prosodic information of the target speech;
The third speech unit and the fourth speech unit of adjacent segments that are adjacent segments before or after the segment of interest, and the third speech unit and the fourth speech unit of the segment of interest. Respective connection costs representing distortion amounts generated when connected are the phoneme environment parameters of the third speech unit and the fourth speech unit of the segment of interest, the third speech unit of the adjacent segment, and the A fourth cost calculating step for calculating from the phoneme environment parameter of the fourth speech unit;
Among the plurality of third speech units and the fourth speech unit in the segment of interest, a plurality of speech units having a low total cost of the target cost and the connection cost are used as the fifth speech unit. A speech segment selection step to select;
A synthesis step of generating synthesized speech by connecting the fifth speech segments generated for each of the segments;
A speech synthesis method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007307578A JP2009133890A (en) | 2007-11-28 | 2007-11-28 | Speech synthesis apparatus and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007307578A JP2009133890A (en) | 2007-11-28 | 2007-11-28 | Speech synthesis apparatus and method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009133890A true JP2009133890A (en) | 2009-06-18 |
Family
ID=40865852
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007307578A Pending JP2009133890A (en) | 2007-11-28 | 2007-11-28 | Speech synthesis apparatus and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009133890A (en) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011030424A1 (en) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | Voice synthesizing apparatus and program |
| JP2011107408A (en) * | 2009-11-17 | 2011-06-02 | Nippon Telegr & Teleph Corp <Ntt> | Voice synthesizer, method and program |
| JP2014062970A (en) * | 2012-09-20 | 2014-04-10 | Hitachi Ulsi Systems Co Ltd | Voice synthesis, device, and program |
| CN109859736A (en) * | 2019-01-23 | 2019-06-07 | 北京光年无限科技有限公司 | Phoneme synthesizing method and system |
| WO2021189984A1 (en) * | 2020-10-22 | 2021-09-30 | 平安科技(深圳)有限公司 | Speech synthesis method and apparatus, and device and computer-readable storage medium |
-
2007
- 2007-11-28 JP JP2007307578A patent/JP2009133890A/en active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011030424A1 (en) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | Voice synthesizing apparatus and program |
| JP2011107408A (en) * | 2009-11-17 | 2011-06-02 | Nippon Telegr & Teleph Corp <Ntt> | Voice synthesizer, method and program |
| JP2014062970A (en) * | 2012-09-20 | 2014-04-10 | Hitachi Ulsi Systems Co Ltd | Voice synthesis, device, and program |
| CN109859736A (en) * | 2019-01-23 | 2019-06-07 | 北京光年无限科技有限公司 | Phoneme synthesizing method and system |
| WO2021189984A1 (en) * | 2020-10-22 | 2021-09-30 | 平安科技(深圳)有限公司 | Speech synthesis method and apparatus, and device and computer-readable storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4469883B2 (en) | Speech synthesis method and apparatus | |
| JP4080989B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
| US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
| JP5024711B2 (en) | Singing voice synthesis parameter data estimation system | |
| JP5038995B2 (en) | Voice quality conversion apparatus and method, speech synthesis apparatus and method | |
| JP5159325B2 (en) | Voice processing apparatus and program thereof | |
| JP4406440B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
| JP4551803B2 (en) | Speech synthesizer and program thereof | |
| JPH10153998A (en) | Auxiliary information-based speech synthesis method, recording medium recording procedure for implementing the method, and apparatus for implementing the method | |
| JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
| JP2008033133A (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
| JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
| JP2009133890A (en) | Speech synthesis apparatus and method | |
| JP5930738B2 (en) | Speech synthesis apparatus and speech synthesis method | |
| JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP5328703B2 (en) | Prosody pattern generator | |
| JP5177135B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP4476855B2 (en) | Speech synthesis apparatus and method | |
| JP5106274B2 (en) | Audio processing apparatus, audio processing method, and program | |
| JP4034751B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP2006084854A (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| WO2011030424A1 (en) | Voice synthesizing apparatus and program | |
| JP3318290B2 (en) | Voice synthesis method and apparatus | |
| JPH10301599A (en) | Voice synthesizer |