JP2006030609A - Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program - Google Patents
Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program Download PDFInfo
- Publication number
- JP2006030609A JP2006030609A JP2004209634A JP2004209634A JP2006030609A JP 2006030609 A JP2006030609 A JP 2006030609A JP 2004209634 A JP2004209634 A JP 2004209634A JP 2004209634 A JP2004209634 A JP 2004209634A JP 2006030609 A JP2006030609 A JP 2006030609A
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech
- timbre
- information
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 118
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 112
- 230000002194 synthesizing effect Effects 0.000 title claims description 6
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 abstract description 18
- 238000000605 extraction Methods 0.000 abstract description 13
- 230000011218 segmentation Effects 0.000 abstract description 12
- 238000013075 data extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Abstract
Description
本発明は、入力音声を分析して音声合成装置へ与える音声合成データを生成する音声合成データ生成装置並びに音声合成データ生成プログラム、及び、該音声合成データ生成装置又は音声合成データ生成プログラムにより生成された音声合成データに基づいて音声合成を行う音声合成装置並びに音声合成プログラムに関する。 The present invention is generated by a speech synthesis data generation device, a speech synthesis data generation program, and a speech synthesis data generation device or a speech synthesis data generation program that analyze input speech and generate speech synthesis data to be given to the speech synthesizer. The present invention relates to a speech synthesizer and a speech synthesis program for performing speech synthesis based on the synthesized speech data.
図5は、一般的な音声合成システムの構成を示す図である。
図5において、51は文字列入力部、52は入力文字列に応じた音声合成データを生成する音声合成データ生成部、53は音声合成データに基づいて音声を合成する音声合成部、54は合成音声出力部である。
ここで、音声合成部53に入力する「音声合成データ」としては、音素記号、音素の長さ(時間長)、韻律情報(ピッチ、音量の変化の情報)、声質の情報(合成音声辞書の選択、あるいは、合成方式に対応する声質パラメータ;例えば、第1フォルマントの周波数など)が一般的である。これらは、任意に入力可能で、適切な音声合成データを作成、入力することにより、自然な音声合成が可能となる。
しかし、前処理として、この音声合成データを作成するには、一般的に、文字列(日本語の場合は、かな漢字交じりの文字列。他の言語だと、例えば、英語ならばアルファベット文字列、韓国語ならばハングル文字列など。あるいは、「ピッチを上げる」などの特別な記号を付加した文字列。)を入力(「入力文字列」)し、それを装置内部で定められた規則(構文解析、記号の解析などを経て、音素の長さや、韻律データなどを生成するための規則)に従って、上記の音声合成データを生成している。
FIG. 5 is a diagram showing a configuration of a general speech synthesis system.
In FIG. 5, 51 is a character string input unit, 52 is a speech synthesis data generation unit that generates speech synthesis data corresponding to the input character string, 53 is a speech synthesis unit that synthesizes speech based on the speech synthesis data, and 54 is a synthesis. An audio output unit.
Here, the “speech synthesis data” input to the
However, in order to create this speech synthesis data as pre-processing, generally, a character string (a character string mixed with Kana-Kanji in Japanese. For other languages, for example, an English character string in English, In Korean, you can input Korean character strings, etc. (or character strings with special symbols such as “increase pitch”) (“input string”), and use the rules (syntax Through the analysis and symbol analysis, the speech synthesis data is generated according to the phoneme length and the rules for generating the prosodic data.
また、特許文献1には、楽譜から文字列と高さ、強さ及び長さデータからなる参照データを作成し、該参照データを用いて、実際の歌音声のセグメンテーションを行い、音声合成用データを生成する歌音声合成データの作成装置が記載されている。
しかしながら、上述した従来方法による音声合成装置への入力音声合成データ生成方法では、「規則」に従ってデータを生成するために、その規則からはずれたような発声(主に、韻律の変化や音素の長さ)の合成音声(例えば、同じ「おはよー」でも、いろいろな発声方法があり、そのことが人間らしさ、自然さ、個性を表現している。)を出力させるような「入力文字列」の生成は困難(ユーザーが自分で韻律記号=ピッチを上げる等を付加するタイプの入力ではある程度は可能)、あるいは不可能(韻律記号の入力できないタイプのもの)であった。もちろん、直接「音声合成データ」を作成するのも、困難であることはいうまでもない。 However, in the method for generating input speech synthesis data to the speech synthesizer according to the conventional method described above, in order to generate data according to the “rules”, utterances that deviate from the rules (mainly prosodic changes and phoneme lengths). ”) (For example, the same“ Ohayo ”has various utterance methods that express humanity, naturalness, and personality). It was difficult to generate (to some extent by the user's input that adds prosodic symbols = pitch increase, etc.) or impossible (those that cannot input prosodic symbols). Of course, it is of course difficult to directly create “speech synthesis data”.
実際の音声の多彩な表現を示す例として、図6及び図7を示す。両図とも、「おはよー」としゃべり方を指定せずに別の話者が発声したときの、(A)音声波形、(B)ピッチ、(C)音量を示している。
このような表現の違いや声質の変化を音声合成にて再現することが求められている。
FIG. 6 and FIG. 7 are shown as examples showing various expressions of actual speech. Both figures show (A) speech waveform, (B) pitch, and (C) volume when another speaker utters without specifying how to speak “Ohayo”.
It is required to reproduce such differences in expression and changes in voice quality by speech synthesis.
このような事情を鑑みて、本発明は、自然な合成音声を発声することができる音声合成データを容易に作成することができる音声合成データ生成装置並びに音声合成データ生成プログラム、及び、該音声合成データ生成装置又は音声合成データ生成プログラムで生成された音声合成データに基づいて音声を合成する音声合成装置並びに音声合成プログラムを提供することを目的としている。 In view of such circumstances, the present invention provides a speech synthesis data generation apparatus, a speech synthesis data generation program, and the speech synthesis that can easily create speech synthesis data that can utter natural synthesized speech. It is an object of the present invention to provide a speech synthesizer and a speech synthesis program for synthesizing speech based on speech synthesis data generated by a data generation device or a speech synthesis data generation program.
上記目的を達成するために、本発明の音声合成データ生成装置及び音声合成データ生成プログラムは、実際の音声波形を分析して、音素記号と音素の継続時間長を示すセグメント情報、ピッチ情報及び音量情報を抽出し、また、対象となる音声合成装置の合成音声辞書と同一の分析を行って、合成音声辞書内の同じ音素のデータとの差分値を求め、それを音色データとして出力し、これらセグメント情報、ピッチ情報、音量情報及び音色データにより音声合成データを生成することを主要な特徴としている。
また、本発明の音声合成装置及び音声合成プログラムは、上記音声合成データを入力し、合成音声辞書から読み出した発声する音素に対応するフレームデータを、前記ピッチ情報、前記音量情報及び前記音色データに応じて変更して出力することを特徴としている。
In order to achieve the above object, a speech synthesis data generation apparatus and a speech synthesis data generation program according to the present invention analyze an actual speech waveform, segment information indicating a phoneme symbol and a phoneme duration, pitch information, and volume. Extract the information, perform the same analysis as the synthesized speech dictionary of the target speech synthesizer, find the difference value with the same phoneme data in the synthesized speech dictionary, output it as timbre data, these The main feature is that speech synthesis data is generated from segment information, pitch information, volume information, and timbre data.
Also, the speech synthesizer and speech synthesis program of the present invention inputs the speech synthesis data, and converts the frame data corresponding to the phoneme uttered read from the synthesized speech dictionary into the pitch information, the volume information, and the timbre data. It is characterized by changing the output accordingly.
本発明の音声合成データ生成装置又は音声合成データ生成プログラムによれば、少ないデータ量で、自然な音声合成を行うための、音素の長さ、韻律情報、さらには、声質の自然な変化のための情報を含んだ音声合成データを容易に作成することが可能となる。
また、本発明の音声合成装置又は音声合成プログラムによれば、前記音声合成データ生成装置又は音声合成データ生成プログラムにより生成された音声合成データを用いて自然な音声を合成することができる。
According to the speech synthesis data generation apparatus or the speech synthesis data generation program of the present invention, because of natural changes in phoneme length, prosodic information, and voice quality for natural speech synthesis with a small amount of data. It is possible to easily create speech synthesis data including the above information.
According to the speech synthesizer or speech synthesis program of the present invention, natural speech can be synthesized using the speech synthesis data generated by the speech synthesis data generation device or the speech synthesis data generation program.
図1は、本発明の音声合成データ生成装置及び該音声合成データ生成装置で生成された音声合成データに基づいて音声合成を行う音声合成装置の一実施の形態の構成を示すブロック図である。なお、これらの装置は、コンピュータにおけるプログラム処理によっても実現することができる。
図1において、1は、セグメンテーション用入力として入力される入力音素記号列である。これは、分析の対象となる音声波形2の内容に対応している記号列であり、例えば、日本語ならば、「おはよ」といったひらがなでもよいし、実際に音声合成装置内部で用いられている音素記号体系に対応する音素記号列(例えば、SAMPA(Speech Assessment Methods Phonetic Alphabet )を使ったもの。今の場合、”ohajo”など)でもよい。ただし、セグメンテーション部3がそういったセグメンテーションのための補助情報を必要としない、純粋な音声認識装置である場合においては、必ずしもこれを必要としない。
FIG. 1 is a block diagram showing a configuration of an embodiment of a speech synthesis data generation device according to the present invention and a speech synthesis device that performs speech synthesis based on speech synthesis data generated by the speech synthesis data generation device. These devices can also be realized by program processing in a computer.
In FIG. 1,
2は、分析の対象となる入力音声波形である。これは、録音済みの音声波形ファイルでもよいし、マイクから入力したものでもよい。
3は、入力音素記号列1及び入力音声波形2の情報をもとに、入力音声のセグメンテーションを行うセグメンテーション部である。ここから出力されるセグメント情報は、例えば、前記図6、図7に示したように、入力された音声波形において、「お」が何秒から何秒まで、「は」が何秒から何秒まで・・・という具合に、ある音素区間が時間的にどこからどこまでかを示す情報である。なお、音素記号列がSAMPAの場合は、「お」が”o”、「は」が”ha”、「よ」が”jo”となる。ここで、セグメンテーション部3が「音声認識部」であるとすると、入力音声波形2の音声認識処理によるセグメンテーションにより、入力音素記号列1の入力なしに、同様の情報を得ることができる。
4は、入力された入力音声波形2から適切な方法にてピッチの検出を行うピッチ検出部である。ピッチ検出の方法は、ゼロクロス区間の測定など、どんな方法であってもよい。
この結果は、前記図6及び図7における(B)ピッチの図のように、時間軸に沿ったピッチ軌跡が情報として得られる。ここでの時間分解能は、例えば、音声合成時のフレーム周期間隔があれば十分であり、あまりピッチが変わらないようであれば、ピッチの大きく変わる部分についてのみデータを持ち、その間については音声合成器側で直線補間などをしてやれば、より少ない情報量ですむ。
Reference numeral 4 denotes a pitch detection unit that detects a pitch from the
As a result, a pitch trajectory along the time axis is obtained as information, as shown in FIG. As for the time resolution here, for example, it is sufficient if there is a frame period interval at the time of speech synthesis. If linear interpolation is performed on the side, less information is required.
5は、前記入力音声波形2から適切な方法にて音量の検出を行う音量検出部である。音量検出の方法としては、例えば、あるフレーム区間、例えば10msec区間内の平均エネルギーを求めるなどの方法が用いられる。
この結果は、前記図6及び図7における(C)音量の図のように、時間軸に添った音量軌跡が情報として得られる。ここでの時間分解能は、例えば、音声合成時のフレーム周期間隔があれば十分であり、あまり音量が変わらないようであれば、音量の大きく変わる部分についてのみデータをもち、その間については音声合成器側で直線補間などをしてやれば、より少ない情報量ですむ。
As a result, as shown in FIG. 6C and FIG. 7C, the volume trajectory along the time axis is obtained as information. The time resolution here is, for example, sufficient if there is a frame period interval at the time of speech synthesis, and if the volume does not change much, it has data only for the part where the volume changes greatly, and a speech synthesizer in the meantime If linear interpolation is performed on the side, less information is required.
図1の点線内は、音色情報抽出部6である。この音色情報抽出部6には、図示するように音色データ検出部7、平均音色データ抽出部9及び音色差分抽出部10が含まれている。この音色情報抽出部6で抽出された情報を音色パラメータとして、音声合成部12に与えてやることにより、音色の変化も再現することができる。
A timbre
音色データ検出部7は、対象となる音声合成部12で用いられている手法と同じ手法で音色分析を行う。
図2は、音色データ検出部7における音色分析の例を示す図である。
図2の(A)は入力音声波形であり、下の点に示す時間間隔(分析フレーム周期)ごとに入力音声波形を切り出して、音色分析を行う。
図2の(B)は、ある時間における音色の分析結果の例を示している。
この図に示した分析方法では、1フレームごとに、周波数と強度の組(周波数,強度)が4セット求められている。このセットをフォルマント周波数とその強度に対応付ければ、この情報が「音色」や「音韻」の情報を表わすことが容易に想像できるであろう。この分析を全てのフレームについて行う。これらの情報が、音色の時間的な変化を含んだ情報を含んでいることはいうまでもない。なお、この4セットには順番にインデックス番号を付して以下の処理を行う。
The timbre
FIG. 2 is a diagram illustrating an example of timbre analysis in the timbre
(A) of FIG. 2 is an input speech waveform, and the timbre analysis is performed by cutting out the input speech waveform at each time interval (analysis frame period) indicated at the lower point.
FIG. 2B shows an example of the timbre analysis result at a certain time.
In the analysis method shown in this figure, four sets of frequency and intensity (frequency and intensity) are obtained for each frame. If this set is associated with the formant frequency and its intensity, it can be easily imagined that this information represents the information of “tone” and “phoneme”. This analysis is performed for all frames. Needless to say, these pieces of information include information including temporal changes in timbre. The four sets are indexed in order and the following processing is performed.
8は音声合成器の合成音声辞書である。これは、音声合成の単位ごと(例えば、「お」「は」「よ」それぞれ)に前記音色データ検出部7の分析手法と同じ手法で求められた情報が収められている。
Reference numeral 8 denotes a synthesized speech dictionary of the speech synthesizer. This stores information obtained by the same method as the analysis method of the timbre
9は、現在のセグメント情報(前記セグメンテーション部3にて分析されている)に対応している前記合成音声辞書8(例えば、「は」の辞書)内の子音部フレーム内(例えば、”ha”のうちの”h”の部分)のデータの平均、及び、母音部フレーム内(例えば、”ha”のうちの”a”の部分)のデータの平均を求め、それぞれを平均音色データとする平均音色データ抽出部である。例えば、各フレームにおける1番目の(周波数,強度)の組の周波数の平均と強度の平均、2番目の(周波数,強度)の組の周波数の平均と強度の平均、・・・というように、平均音色データを求める。
なお、変形例として、ここでは平均音色データは求めずに、合成音声辞書8内のデータ(合成時に実際に用いられるフレームのデータ)そのままを取り出してもよい。
9 is a consonant part frame (for example, “ha”) in the synthesized speech dictionary 8 (for example, “ha” dictionary) corresponding to the current segment information (analyzed by the segmentation unit 3). The average of the “h” part of the data and the average of the data in the vowel part frame (for example, the “a” part of “ha”), and the average of which is the average timbre data A timbre data extraction unit. For example, the average of frequency and intensity of the first (frequency, intensity) group in each frame, the average of frequency and the intensity of the second (frequency, intensity) group, and so on. Obtain average tone data.
As a modification, the average tone color data may not be obtained here, and the data in the synthesized speech dictionary 8 (frame data actually used at the time of synthesis) may be extracted as they are.
10は、前記平均音色データ抽出部9による平均音色データと前記音色データ検出部7で時々刻々と求まる音色データとの差分を、各フレームごとに求める音色差分抽出部である。差分は、音色データと音色データが対応する音素の平均音色データ(例えば、セグメント情報結果が”h”の時間においては、”h”の平均音色データ)との差分をとる。なお、上記平均音色データ抽出部9の変形例(辞書のデータそのままを取り出す場合)においては、合成時に用いられるフレームデータとの差分を求める。
前記音色差分抽出部10により抽出された差分情報(音色データ)の例を図3に示す。
図3の(A)は、各(周波数,強度)の組のうちの、強度に関する差分をそれぞれのインデックス番号ごとに求めたものを図示したものであり、(B)は、同様に、周波数に関する差分を求めたものを図示したものである。
この音色データを、音声の合成時に、それぞれの時刻における合成フレームの(周波数,強度)の組に加算すると、入力音声の音色の変化が再現できることになる。新しい(周波数,強度)の組は、入力音声の音色の時間的変化を再現するものとなっている。
ここで、変形例として、時々刻々とこの音色差分データを音色データとして音声合成器に与えるのではなく、求められた音色差分データを、入力波形の時間内で全て平均をとったものを、「音色データ」として音声合成器に一度与えるようにすると、時々刻々の音色の変化は与えることができないが、その代わりに、全体的な音色が、合成辞書そのままではなく、入力した音声の音色に近いものとすることができる。
An example of difference information (tone color data) extracted by the timbre
FIG. 3A illustrates the difference between the strengths in each (frequency, strength) pair for each index number, and FIG. 3B similarly relates to the frequency. The figure which calculated | required the difference is illustrated.
When this timbre data is added to a set of (frequency, intensity) of the synthesized frame at each time at the time of voice synthesis, a change in timbre of the input voice can be reproduced. The new (frequency, intensity) pair reproduces the temporal change of the timbre of the input voice.
Here, as a modification, instead of giving this timbre difference data to the speech synthesizer as timbre data from moment to moment, the obtained timbre difference data is all averaged within the time of the input waveform. If it is given to the voice synthesizer as `` tone data '' once, the timbre change from moment to moment cannot be given, but instead, the overall timbre is close to the timbre of the input voice, not the synthesis dictionary as it is Can be.
11は、以上までで求められた「セグメント情報」「ピッチ情報」「音量情報」「音色データ」を、対象となる音声合成器に対応するフォーマットに合致するように変換を行う音声合成データ生成部である。
図4は、該音声合成データ生成部11から出力される音声合成データの一例を示す図である。図4の(A)には発声するためのデータ(音声発声データ:発声開始時間、発声終了時間、発声音素)、(B)にはピッチ軌跡(ピッチデータ:ピッチ変化の時間とそのピッチ)、(C)には音量軌跡(音量データ:音量変化の時間とその音量)、(D)には音色データ(音色の変化時間と、そのインデックス番号毎の変化(差分)強度及び周波数)を示し、これらを対象となる音声合成器に入力可能なフォーマットにて出力する。
11 is a speech synthesis data generation unit that converts the “segment information”, “pitch information”, “volume information”, and “timbre data” obtained so far so as to match the format corresponding to the target speech synthesizer. It is.
FIG. 4 is a diagram illustrating an example of speech synthesis data output from the speech synthesis
以上の各構成要素により、本発明の音声合成データ生成装置が構成されている。なお、セグメンテーション部3、ピッチ検出部4、音量検出部5、音色情報抽出部6(音色データ検出部7、平均音色データ抽出部9及び音色差分抽出部10)及び音声合成データ生成部11は、コンピュータによりプログラム処理により実現することができる(音声合成データ生成プログラム)。
この音声合成データ生成装置又は音声合成データ生成プログラムにより生成された音声合成データを音声合成器に供給することにより、少ないデータ量で、高品質の音声を合成することが可能となる。
The speech synthesis data generating device of the present invention is configured by the above constituent elements. The
By supplying the speech synthesis data generated by the speech synthesis data generation apparatus or the speech synthesis data generation program to the speech synthesizer, it is possible to synthesize high quality speech with a small amount of data.
12は、入力された音声合成データに従って音声合成を行う音声合成部である。この音声合成部12にも、前記平均音色データ抽出部9に接続されていた合成音声辞書8と同一の合成音声辞書8が接続されている。すなわち、音声合成データ生成装置と音声合成装置にそれぞれ同一の合成音声辞書8が備えられている。
音声合成部12は、入力された音声合成データに基づいて、前記合成音声辞書8から読み出したフレームデータを変更し、変更したフレームデータに基づいて音声合成を行い、合成した合成音声を出力する。具体的には、前記音声発声データに従って、発声する音素に対応するフレームデータを合成音声辞書8より読み出し、このときのピッチはピッチデータにより、また音量は音量データに従ってフレームデータを変更する。さらに、音色(差分)データをそのフレームデータに加算する手段を有している。これにより、音色の変化まで再現されることになる。
なお、加算するのは、この実施例で述べた合成手法の場合であり、対象となる音声合成手法に対応して、乗算、減算などを行うものであることはいうまでもない。また、この音声合成部12は、コンピュータによるプログラム処理によっても実現することができる。
これにより、高品質の合成音声波形13が得られる。
A
The
The addition is performed in the case of the synthesis method described in this embodiment, and it goes without saying that multiplication, subtraction, etc. are performed in accordance with the target speech synthesis method. The
Thereby, a high-quality synthesized
以上のように、本発明の音声合成データ生成装置又は音声合成データ生成プログラムによれば、入力音声波形から「音声合成データ」の直接な生成が可能であるが、これを適切な韻律記号を伴った「入力文字列」に変換すれば、従来の入力として文字列の入力のみを受け付ける合成システムにそのまま適用することも可能である。例えば、変換された入力文字列を前記図5における入力文字列51とする。ただし、これは韻律記号の入力が可能なタイプの音声合成システムに限られる。
As described above, according to the speech synthesis data generation device or the speech synthesis data generation program of the present invention, it is possible to directly generate “speech synthesis data” from an input speech waveform, which is accompanied by an appropriate prosodic symbol. If converted to an “input character string”, it can be directly applied to a synthesis system that accepts only input of a character string as a conventional input. For example, the converted input character string is the
このような本発明の音声合成データ生成装置又は音声合成データ生成プログラムにより生成された音声合成データは、次のような場合などに適用することができる。
(適用例1)
上述した本発明の音声合成装置を持った携帯電話などの端末などに対して、本発明による音声合成データ生成装置又は音声合成データ生成プログラムを用いてユーザーが好みの音声合成データを作成し、送信する。このデータを受信した別のユーザーがこのデータを再生すると、いわゆる音声合成の画一的な合成音ではなく、感情のこもった自然な合成音声を端末から音声として聞くことが可能となる。ここで、重要なことは、この音声合成データのデータ量は、PCMなどの生音声データに比べて、非常に少ないデータ量であることである。
Such speech synthesis data generated by the speech synthesis data generation apparatus or the speech synthesis data generation program of the present invention can be applied to the following cases.
(Application example 1)
For a terminal such as a mobile phone having the above-described speech synthesizer of the present invention, the user creates desired speech synthesis data using the speech synthesis data generation device or the speech synthesis data generation program according to the present invention, and transmits it. To do. When another user who receives this data reproduces this data, it is possible to hear a natural synthesized voice with emotions as a voice from the terminal instead of a so-called uniform synthetic voice synthesized voice. Here, what is important is that the amount of data of the speech synthesis data is much smaller than that of raw speech data such as PCM.
(適用例2)
音符データ、音素データ、ピッチベンド、音量変化のためのコントロールチェンジ、などを入力し、歌唱合成を行うシステムにおいて、しゃべりやラップといったデータを作成するのは非常に困難である。その理由は、一般の歌唱にくらべて、その音素の長さや抑揚(ピッチ、音量の変化)が激しく変化するため、自然なデータを作成するのは非常に難しいためである。そこで、このようなシステムにおいて、本発明の音声合成データ生成装置又は音声合成データ生成プログラムを使用すれば、自然な音声入力からデータを抽出できるため、容易にこのような音声合成データを作成することが可能となる。
(Application example 2)
It is very difficult to create data such as chatter and rap in a system that synthesizes singing by inputting note data, phoneme data, pitch bend, control change for volume change, and the like. The reason is that it is very difficult to create natural data because the length and intonation (change in pitch and volume) of the phoneme changes drastically compared to general singing. Therefore, in such a system, if the speech synthesis data generation device or the speech synthesis data generation program of the present invention is used, data can be extracted from natural speech input, so that such speech synthesis data can be easily created. Is possible.
また、音声合成システムに限らず、楽音のMIDIシンセサイザーシステムなどにおいて、例えば、サックスのような抑揚、音色変化に富んだ楽音の合成時に、本発明の音声合成データ生成装置を用いて、ピッチ、音量、音色の変化を入力の演奏から抽出し、そのシーケンスデータ(プログラムナンバー:音色のもとになる音色番号、音色パラメータを表す例えばエクスクルーシブデータ、ノートナンバー、音量コントロールのコントロールチェンジ値、ピッチベンド値など)をシンセサイザーに与えてやれば、リアルな合成音を得ることができる。なお、この場合、音素セグメント部は必要ではなくなるが、音符の区切りの検出は行ったほうがよい。
さらにまた、音声に限らず、情報量を多く含んだ表情豊かな楽音の合成を行なう場合、その合成システム(例えば、フォルマント音源)への入力データの作成は人手では困難になる。このデータ作成を補助するために、本発明の音声合成データ生成装置を用いれば、このようなデータの作成は容易となる。ただし、そのもとになる基準となる演奏が必要となる。これは、CGでいえば、モーションキャプチャに相当するものということができる。
In addition, not only in a speech synthesis system but also in a musical sound MIDI synthesizer system, for example, when synthesizing a musical sound rich in inflections and timbres such as saxophone, the pitch, volume, etc. , Change the timbre from the input performance, and its sequence data (program number: timbre number underlying the timbre, timbre parameters such as exclusive data, note number, volume control control change value, pitch bend value, etc.) If you give to the synthesizer, you can get a realistic synthesized sound. In this case, the phoneme segment part is not necessary, but it is better to detect the break of the note.
Furthermore, when synthesizing not only speech but also expressive musical sounds that contain a large amount of information, creation of input data to the synthesis system (for example, formant sound source) becomes difficult manually. If the speech synthesis data generation apparatus of the present invention is used to assist the data creation, such data creation is facilitated. However, it is necessary to have a standard performance. This can be said to be equivalent to motion capture in CG.
1:入力音素記号列、2:入力音声波形、3:セグメンテーション部、4:ピッチ検出部、5:音量検出部、6:音色情報抽出部、7:音色データ検出部、8:合成音声辞書、9:平均音色データ抽出部、10:音色差分抽出部、11:音声合成データ生成部、12:音声合成部、13:合成音声波形 1: input phoneme symbol string, 2: input speech waveform, 3: segmentation unit, 4: pitch detection unit, 5: volume detection unit, 6: tone color information extraction unit, 7: tone color data detection unit, 8: synthesized speech dictionary, 9: average timbre data extraction unit, 10: timbre difference extraction unit, 11: speech synthesis data generation unit, 12: speech synthesis unit, 13: synthesized speech waveform
Claims (8)
入力音声波形を分析して、音素記号と音素の継続時間長を示すセグメント情報、ピッチ情報及び音量情報を出力する手段と、
前記入力音声波形に対して、前記音声合成装置におけるものと同種の音色分析を行い、該分析結果と該当する音素の辞書データとの差分値を音色データとして出力する手段と、
前記セグメント情報、前記ピッチ情報、前記音量情報及び前記音色データにより音声合成データを生成する手段と
を有することを特徴とする音声合成データ生成装置。 A speech synthesis data generation device that analyzes an input speech waveform and generates speech synthesis data to be supplied to the speech synthesizer,
Means for analyzing the input speech waveform and outputting segment information indicating the phoneme symbol and the phoneme duration, pitch information and volume information;
Means for performing the same kind of timbre analysis as in the speech synthesizer on the input speech waveform, and outputting a difference value between the analysis result and dictionary data of the corresponding phoneme as timbre data;
A speech synthesis data generation apparatus comprising: means for generating speech synthesis data from the segment information, the pitch information, the volume information, and the timbre data.
合成音声辞書から読み出した発声する音素に対応するフレームデータを、前記ピッチ情報、前記音量情報及び前記音色データに応じて変更して出力する手段を有することを特徴とする音声合成装置。 A speech synthesizer that synthesizes speech based on speech synthesis data including a phoneme symbol of speech to be synthesized and segment information indicating the duration of the phoneme, pitch information, volume information, and timbre data,
A speech synthesizer comprising means for changing and outputting frame data corresponding to a phoneme to be uttered read from a synthesized speech dictionary according to the pitch information, the volume information, and the timbre data.
入力音声波形を分析して、音素記号と音素の継続時間長を示すセグメント情報、ピッチ情報及び音量情報を出力するステップと、
前記入力音声波形に対して、対象となる音声合成装置におけるものと同種の音色分析を行い、該分析結果と該当する音素の辞書データとの差分値を音色データとして出力するステップと、
前記セグメント情報、前記ピッチ情報、前記音量情報及び前記音色データから音声合成データを生成するステップと
を実行させることを特徴とする音声合成データ生成プログラム。 On the computer,
Analyzing the input speech waveform and outputting segment information indicating a phoneme symbol and a phoneme duration, pitch information and volume information;
Performing the same kind of timbre analysis as in the target speech synthesizer on the input speech waveform, and outputting a difference value between the analysis result and dictionary data of the corresponding phoneme as timbre data;
Generating a speech synthesis data from the segment information, the pitch information, the volume information, and the timbre data.
合成音声辞書から読み出した発声する音素に対応するフレームデータを、前記ピッチ情報、前記音量情報及び前記音色データに応じて変更して出力するステップを含むことを特徴とする音声合成プログラム。 A speech synthesis program for causing a computer to execute a process of synthesizing speech based on speech synthesis data including segment information, pitch information, volume information, and timbre data of speech to be synthesized,
A speech synthesis program comprising the step of changing and outputting frame data corresponding to a phoneme to be uttered read from a synthesis speech dictionary according to the pitch information, the volume information, and the timbre data.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004209634A JP2006030609A (en) | 2004-07-16 | 2004-07-16 | Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004209634A JP2006030609A (en) | 2004-07-16 | 2004-07-16 | Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2006030609A true JP2006030609A (en) | 2006-02-02 |
Family
ID=35897036
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004209634A Pending JP2006030609A (en) | 2004-07-16 | 2004-07-16 | Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2006030609A (en) |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014042439A1 (en) * | 2012-09-13 | 2014-03-20 | 엘지전자 주식회사 | Frame loss recovering method, and audio decoding method and device using same |
| WO2015060340A1 (en) * | 2013-10-23 | 2015-04-30 | ヤマハ株式会社 | Singing voice synthesis |
| CN109992228A (en) * | 2019-02-18 | 2019-07-09 | 维沃移动通信有限公司 | A kind of interface display parameter method of adjustment and terminal device |
| CN111837183A (en) * | 2018-03-09 | 2020-10-27 | 雅马哈株式会社 | Sound processing method, sound processing device, and recording medium |
| CN112309425A (en) * | 2020-10-14 | 2021-02-02 | 浙江大华技术股份有限公司 | Sound tone changing method, electronic equipment and computer readable storage medium |
| CN112466275A (en) * | 2020-11-30 | 2021-03-09 | 北京百度网讯科技有限公司 | Voice conversion and corresponding model training method, device, equipment and storage medium |
| CN113412512A (en) * | 2019-02-20 | 2021-09-17 | 雅马哈株式会社 | Sound signal synthesis method, training method for generating model, sound signal synthesis system, and program |
| CN113838450A (en) * | 2021-08-11 | 2021-12-24 | 北京百度网讯科技有限公司 | Audio synthesis and corresponding model training method, device, equipment and storage medium |
| CN114242033A (en) * | 2021-12-24 | 2022-03-25 | 广州酷狗计算机科技有限公司 | Speech synthesis method, apparatus, equipment, storage medium and program product |
| CN114333764A (en) * | 2021-11-24 | 2022-04-12 | 联通沃悦读科技文化有限公司 | Method and system for determining pronunciation according to position and time |
| CN115331653A (en) * | 2022-08-11 | 2022-11-11 | 腾讯音乐娱乐科技(深圳)有限公司 | A kind of speech synthesis method, electronic device and computer readable storage medium |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58188000A (en) * | 1982-04-28 | 1983-11-02 | 日本電気株式会社 | Voice recognition synthesizer |
| JPS6187199A (en) * | 1984-10-05 | 1986-05-02 | 松下電器産業株式会社 | Speech analysis and synthesis device |
| JPH10285275A (en) * | 1997-04-11 | 1998-10-23 | Nec Corp | Calling method, voice transmitting device and voice receiving device |
| JPH1152987A (en) * | 1997-07-31 | 1999-02-26 | Hitachi Ltd | Speech synthesizer with speaker adaptation function |
| JP2001024747A (en) * | 1999-07-09 | 2001-01-26 | Nec Corp | Telephone system |
| JP2001312290A (en) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | Speech synthesizer |
| JP2003177799A (en) * | 2001-09-27 | 2003-06-27 | Kenwood Corp | Method and device for compressing sound signal, method and device for expanding sound signal, and program |
-
2004
- 2004-07-16 JP JP2004209634A patent/JP2006030609A/en active Pending
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58188000A (en) * | 1982-04-28 | 1983-11-02 | 日本電気株式会社 | Voice recognition synthesizer |
| JPS6187199A (en) * | 1984-10-05 | 1986-05-02 | 松下電器産業株式会社 | Speech analysis and synthesis device |
| JPH10285275A (en) * | 1997-04-11 | 1998-10-23 | Nec Corp | Calling method, voice transmitting device and voice receiving device |
| JPH1152987A (en) * | 1997-07-31 | 1999-02-26 | Hitachi Ltd | Speech synthesizer with speaker adaptation function |
| JP2001024747A (en) * | 1999-07-09 | 2001-01-26 | Nec Corp | Telephone system |
| JP2001312290A (en) * | 2000-04-28 | 2001-11-09 | Mitsubishi Electric Corp | Speech synthesizer |
| JP2003177799A (en) * | 2001-09-27 | 2003-06-27 | Kenwood Corp | Method and device for compressing sound signal, method and device for expanding sound signal, and program |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104718570A (en) * | 2012-09-13 | 2015-06-17 | Lg电子株式会社 | Frame loss recovery method, audio decoding method and device using same |
| US9633662B2 (en) | 2012-09-13 | 2017-04-25 | Lg Electronics Inc. | Frame loss recovering method, and audio decoding method and device using same |
| WO2014042439A1 (en) * | 2012-09-13 | 2014-03-20 | 엘지전자 주식회사 | Frame loss recovering method, and audio decoding method and device using same |
| WO2015060340A1 (en) * | 2013-10-23 | 2015-04-30 | ヤマハ株式会社 | Singing voice synthesis |
| CN111837183A (en) * | 2018-03-09 | 2020-10-27 | 雅马哈株式会社 | Sound processing method, sound processing device, and recording medium |
| CN109992228A (en) * | 2019-02-18 | 2019-07-09 | 维沃移动通信有限公司 | A kind of interface display parameter method of adjustment and terminal device |
| CN113412512A (en) * | 2019-02-20 | 2021-09-17 | 雅马哈株式会社 | Sound signal synthesis method, training method for generating model, sound signal synthesis system, and program |
| CN112309425A (en) * | 2020-10-14 | 2021-02-02 | 浙江大华技术股份有限公司 | Sound tone changing method, electronic equipment and computer readable storage medium |
| CN112466275A (en) * | 2020-11-30 | 2021-03-09 | 北京百度网讯科技有限公司 | Voice conversion and corresponding model training method, device, equipment and storage medium |
| CN112466275B (en) * | 2020-11-30 | 2023-09-22 | 北京百度网讯科技有限公司 | Speech conversion and corresponding model training methods, devices, equipment and storage media |
| CN113838450A (en) * | 2021-08-11 | 2021-12-24 | 北京百度网讯科技有限公司 | Audio synthesis and corresponding model training method, device, equipment and storage medium |
| CN114333764A (en) * | 2021-11-24 | 2022-04-12 | 联通沃悦读科技文化有限公司 | Method and system for determining pronunciation according to position and time |
| CN114242033A (en) * | 2021-12-24 | 2022-03-25 | 广州酷狗计算机科技有限公司 | Speech synthesis method, apparatus, equipment, storage medium and program product |
| CN114242033B (en) * | 2021-12-24 | 2025-07-01 | 广州酷狗计算机科技有限公司 | Speech synthesis method, device, equipment, storage medium and program product |
| CN115331653A (en) * | 2022-08-11 | 2022-11-11 | 腾讯音乐娱乐科技(深圳)有限公司 | A kind of speech synthesis method, electronic device and computer readable storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
| US8898062B2 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
| US8423367B2 (en) | Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method | |
| JPWO2006123539A1 (en) | Speech synthesizer | |
| JP2023007405A (en) | Voice conversion device, voice conversion method, program, and storage medium | |
| JP2006030609A (en) | Voice synthesis data generating device, voice synthesizing device, voice synthesis data generating program, and voice synthesizing program | |
| CN113255313B (en) | Music generation method, device, electronic equipment and storage medium | |
| JP5360489B2 (en) | Phoneme code converter and speech synthesizer | |
| JP2013195928A (en) | Synthesis unit segmentation device | |
| JP2013210501A (en) | Synthesis unit registration device, voice synthesis device, and program | |
| Mengko et al. | Indonesian Text-To-Speech system using syllable concatenation: Speech optimization | |
| JPH08335096A (en) | Text voice synthesizer | |
| JP2021148942A (en) | Voice quality conversion system and voice quality conversion method | |
| JP2001125599A (en) | Audio data synchronizer and audio data creation device | |
| JP2006189544A (en) | Interpreting device, interpreting method, recording medium recording interpreting program, and interpreting program | |
| JP5518621B2 (en) | Speech synthesizer and computer program | |
| JPH06318094A (en) | Speech rule synthesizer | |
| JP2005181998A (en) | Speech synthesis apparatus and speech synthesis method | |
| Kim | Structured encoding of the singing voice using prior knowledge of the musical score | |
| JP2016122033A (en) | Symbol string generation device, voice synthesizer, voice synthesis system, symbol string generation method, and program | |
| D’Souza et al. | Comparative analysis of Kannada formant synthesized utterances and their quality | |
| Ravi et al. | Text-to-speech synthesis system for Kannada language | |
| KR100608643B1 (en) | Accent Modeling Apparatus and Method for Speech Synthesis System | |
| Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
| Dhar et al. | LAPS-Diff: A Diffusion-Based Framework for Singing Voice Synthesis With Language Aware Prosody-Style Guided Learning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070604 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100209 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100419 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100706 |