[go: up one dir, main page]

JP2002358090A - Speech synthesis method, speech synthesis device, and recording medium - Google Patents

Speech synthesis method, speech synthesis device, and recording medium

Info

Publication number
JP2002358090A
JP2002358090A JP2002077096A JP2002077096A JP2002358090A JP 2002358090 A JP2002358090 A JP 2002358090A JP 2002077096 A JP2002077096 A JP 2002077096A JP 2002077096 A JP2002077096 A JP 2002077096A JP 2002358090 A JP2002358090 A JP 2002358090A
Authority
JP
Japan
Prior art keywords
formant
window function
pitch
waveform
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002077096A
Other languages
Japanese (ja)
Other versions
JP3732793B2 (en
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002077096A priority Critical patent/JP3732793B2/en
Priority to KR10-2002-0016033A priority patent/KR100457414B1/en
Priority to EP02252159A priority patent/EP1246163B1/en
Priority to CNB021080496A priority patent/CN1185619C/en
Priority to DE60205421T priority patent/DE60205421T2/en
Publication of JP2002358090A publication Critical patent/JP2002358090A/en
Application granted granted Critical
Publication of JP3732793B2 publication Critical patent/JP3732793B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】音質が良いと同時に、声質などを柔軟に変化さ
せることができる音声合成方法、音声合成装置及び記録
媒体を提供することを目的とする。 【解決手段】ピッチ周期の情報に従ってピッチ波形を重
畳することにより音声信号を生成する音声合成方法、音
声合成装置及び記録媒体であって、前記ピッチ波形は、
複数のホルマント波形の和によって生成され、概ホルマ
ント波形は、ホルマント周波数の正弦波に窓関数をかけ
ることによって生成されることを特徴とする。
(57) [Summary] An object of the present invention is to provide a speech synthesis method, a speech synthesis device, and a recording medium that can change voice quality and the like flexibly while having good sound quality. A voice synthesis method, a voice synthesis device, and a recording medium for generating a voice signal by superimposing a pitch waveform in accordance with pitch period information, wherein the pitch waveform includes:
The approximate formant waveform is generated by summing a plurality of formant waveforms, and the approximate formant waveform is generated by applying a window function to a sine wave of the formant frequency.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明はテキスト音声合成に
関し、特に音韻記号列、ピッチ、音韻継続時間長などの
情報から音声信号を生成する音声合成に関する。
The present invention relates to text-to-speech synthesis, and more particularly to speech synthesis for generating a speech signal from information such as a phoneme symbol string, pitch, and phoneme duration.

【0002】[0002]

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。通常このテキスト
音声合成システムは、言語処理部、音韻処理部、音声信
号生成部の3つの段階から構成される。
2. Description of the Related Art Creating a speech signal artificially from an arbitrary sentence is called text-to-speech synthesis. Usually, this text-to-speech synthesis system includes three stages: a language processing unit, a phoneme processing unit, and a speech signal generation unit.

【0003】入力されたテキストはまず言語処理部にお
いて形態素解析や構文解析などが行われ、次に音韻処理
部においてアクセントやイントネーションの処理が行わ
れて音韻記号列、ピッチパターン(声の高さの変化パタ
ーン)、音韻継続時間長などの情報が出力される。最後
に、音声信号生成部すなわち音声合成器では音韻記号
列、ピッチパターン、音韻継続時間長などの情報から音
声信号を合成する。
The input text is first subjected to morphological analysis and syntactic analysis in a language processing unit, and then to accent and intonation processing in a phonological processing unit to obtain a phonological symbol string and a pitch pattern (voice pitch). Information such as a change pattern and a phoneme duration time is output. Finally, the voice signal generation unit, that is, the voice synthesizer, synthesizes a voice signal from information such as a phoneme symbol string, a pitch pattern, and a phoneme duration.

【0004】このような任意の音韻記号列を合成するこ
とができる合成器の原理は、母音をV、子音をCで表す
と、CV、CVC、VCVなどの基本となる小さな単位
の特徴パラメータ(音声素片)を記憶し、ピッチや継続
時間長を制御して接続することにより音声を合成するも
のである。
[0004] The principle of a synthesizer capable of synthesizing an arbitrary phoneme symbol string is that if a vowel is represented by V and a consonant is represented by C, the characteristic parameters of small basic units such as CV, CVC, VCV, etc. A speech unit is stored, and the speech is synthesized by controlling the pitch and the duration of the connection.

【0005】このような音声合成器において音声素片の
情報から所望のピッチパターンや継続時間長の音声信号
を生成する方法として、PSOLA法(Pitch-Synchron
ousOverlap-add)が良く知られている。例えば、音声素
片として記憶されている音声波形のピッチ周期をPSO
LA法を用いて所望のピッチ周期に変換する方法が特開
平8−202395「ピッチ変換方法およびその装置」
に開示されている。
[0005] In such a speech synthesizer, a PSOLA (Pitch-Synchronous) method is used as a method for generating a speech signal having a desired pitch pattern or duration from speech unit information.
ousOverlap-add) is well known. For example, the pitch cycle of a speech waveform stored as a speech unit is represented by PSO
Japanese Patent Laid-Open No. 8-202395, "Pitch conversion method and device"
Is disclosed.

【0006】図18はPSOLA法を用いて入力音声信
号101のピッチ周期を変更し、出力音声信号104を
生成する原理を表している。まず、入力音声信号101
にピッチ分析を行ってピッチ周期を求める。そして、ピ
ッチ周期の2倍程度の窓長をもつ窓関数をピッチに同期
した位置で入力音声信号101にかけることによってピ
ッチ波形103を生成する。次に、所望のピッチ周期間
隔でピッチ波形103を重ね合わせることによってピッ
チ周期が変更された出力音声信号104を生成する。
FIG. 18 shows the principle of generating an output audio signal 104 by changing the pitch period of an input audio signal 101 using the PSOLA method. First, the input audio signal 101
The pitch period is obtained by performing pitch analysis. Then, a pitch waveform 103 is generated by applying a window function having a window length of about twice the pitch period to the input audio signal 101 at a position synchronized with the pitch. Next, an output audio signal 104 having a changed pitch cycle is generated by superposing the pitch waveforms 103 at a desired pitch cycle interval.

【0007】このPSOLA法を音声合成器に応用する
場合、入力音声信号101があらかじめ記憶されている
音声素片に相当し、出力音声信号104が合成音声信号
に相当する。PSOLA法による合成音声はピッチ周期
の変更の度合いが小さい場合、ピッチ周期の変更による
音質劣化が小さく音質がよいことが知られている。
When the PSOLA method is applied to a speech synthesizer, an input speech signal 101 corresponds to a speech unit stored in advance, and an output speech signal 104 corresponds to a synthesized speech signal. It is known that when the degree of change in the pitch cycle of a synthesized voice by the PSOLA method is small, sound quality deterioration due to the change in the pitch cycle is small and the sound quality is good.

【0008】また、音声合成器の別の方式としてホルマ
ント合成方式がある。ホルマント合成方式は人間の発声
機構を模擬するモデルであり、声帯から発生する信号を
モデル化した音源信号で声道の特性をモデル化するフィ
ルタを駆動することにより音声信号を生成する。一例と
して特開平7−152396「音声合成装置」に、ホル
マント合成方式を用いた音声合成器が開示されている。
Another form of the speech synthesizer is a formant synthesis method. The formant synthesis method is a model that simulates a human vocal mechanism, and generates a voice signal by driving a filter that models vocal tract characteristics with a sound source signal that models a signal generated from a vocal cord. As an example, Japanese Patent Application Laid-Open No. 7-152396 "Speech synthesizer" discloses a speech synthesizer using a formant synthesis method.

【0009】図19は、ホルマント合成方式によって音
声信号を生成する原理を表している。共振器21、2
2、23の縦続接続によって構成される声道フィルタを
所望のピッチ周期間隔で配置されたパルス列207で駆
動して合成音声208を生成する。共振器21の周波数
特性204はホルマント周波数Flとホルマント帯域幅
Blによって決定される。同様に、共振器22の周波数
特性205はホルマント周波数F2とホルマント帯域幅
B2によって、共振器23の周波数特性206はホルマ
ント周波数F3とホルマント帯域幅B3によって決定さ
れる。
FIG. 19 shows the principle of generating an audio signal by the formant synthesis method. Resonator 21, 2
A synthesized voice 208 is generated by driving a vocal tract filter composed of 2, 23 cascade connections with a pulse train 207 arranged at a desired pitch period interval. The frequency characteristic 204 of the resonator 21 is determined by the formant frequency Fl and the formant bandwidth Bl. Similarly, the frequency characteristic 205 of the resonator 22 is determined by the formant frequency F2 and the formant bandwidth B2, and the frequency characteristic 206 of the resonator 23 is determined by the formant frequency F3 and the formant bandwidth B3.

【0010】このように、ホルマント合成方式ではホル
マント周波数と帯域幅の組み合わせによって、合成音声
の音韻(/a/,/i/,/u/など)や声質(男声、
女声など)が決定される。そのため、音声素片の情報は
波形ではなくホルマント周数と帯域幅の値の組み合とな
っている。ホルマント合成方式は、音韻や声質と直接関
係するパラメータを制御することができるため、声質を
変化させるなど柔軟な制御が可能であるという利点があ
る。
As described above, in the formant synthesis method, the phoneme (/ a /, / i /, / u /, etc.) and voice quality (male,
Female voice). Therefore, the speech unit information is not a waveform but a combination of the formant frequency and the bandwidth value. Since the formant synthesis method can control parameters directly related to phonemes and voice qualities, there is an advantage that flexible control such as changing voice qualities is possible.

【0011】[0011]

【発明が解決しようとする課題】上述したように、PS
OLA法はピッチ周期の変更量が小さい範囲では、比較
的音質が良いものの変更の範囲が大きくなると音質が劣
化するという問題がある。
As described above, the PS
The OLA method has a problem that the sound quality is relatively good in a range where the change amount of the pitch period is small, but the sound quality is deteriorated when the change range is large.

【0012】人間が発声する音声は同じ音韻でもピッチ
周期が変化するとそのスペクトル包絡が変化するのに対
して、PSOLA法ではこの変化をモデル化できないこ
とが劣化の原因となっている。また、音声素片の接続部
でスペクトルの不連続が生じた場合に、平滑化処理を行
うことによってスペクトルに歪みが生じて音質が劣化す
るという問題がある。さらに、波形そのものを音声素片
としているため声質を変化させることが難しく柔軟性に
欠ける。
[0012] In a voice uttered by a human, the spectral envelope of the same phoneme changes when the pitch period changes, whereas the PSOLA method cannot model this change, which causes deterioration. In addition, when the discontinuity of the spectrum occurs at the connection part of the speech unit, there is a problem that the distortion is generated in the spectrum by performing the smoothing processing, and the sound quality is deteriorated. Furthermore, since the waveform itself is used as a speech unit, it is difficult to change the voice quality, and lacks flexibility.

【0013】一方、ホルマント合成方式は柔軟性はある
ものの、モデルの精度が悪いという問題がある。つま
り、ホルマント周波数と帯域幅だけでは実際の音声信号
のスペクトルの微細な構造を表現することができず、音
質が悪く肉声感(人間らしさ)に欠ける。
On the other hand, although the formant synthesis method is flexible, there is a problem that the accuracy of the model is poor. In other words, only the formant frequency and the bandwidth cannot express the fine structure of the spectrum of the actual audio signal, and the sound quality is poor and lacks real voice feeling (humanity).

【0014】本発明は以上の事情を考慮してなされたも
のであり、音質が良いと同時に声質などを柔軟に変化さ
せることができる音声合成器を提供することを目的とす
る。
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a speech synthesizer which has good sound quality and can flexibly change voice quality and the like.

【0015】[0015]

【課題を解決するための手段】そこで上記課題を解決す
るために本発明の音声合成方法では、ピッチ周期の情報
に従ってピッチ波形を重畳することにより音声信号を生
成する音声合成方法において、ホルマント周波数の正弦
波に窓関数をかけることによって複数のホルマント波形
を生成し、これら複数のホルマント波形の和によって前
記ピッチ波形を生成することことを特徴とするものであ
る。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, a voice synthesizing method according to the present invention includes a voice synthesizing method for generating a voice signal by superimposing a pitch waveform according to pitch period information. A plurality of formant waveforms are generated by applying a window function to a sine wave, and the pitch waveform is generated by the sum of the plurality of formant waveforms.

【0016】また、本発明の音声合成装置では、ピッチ
パターン、音韻継続時間長及び音韻記号列が入力され、
ピッチ周期の情報にしたがって生成されるピッチマーク
に、ピッチ波形生成部により形成されたピッチ波形を重
畳することにより音声信号を生成する音声合成装置にお
いて、前記ピッチ波形生成部は音声素片の単位毎にホル
マントパラメータが記憶されている記憶部と、前記ピッ
チパターン、前記音韻継続時間長及び前記音韻記号列を
参照として、前記ピッチマークに対応する1フレーム分
の前記ホルマントパラメータを前記記憶部より選択して
読み出すパラメータ選択部と、前記読み出されたホルマ
ント周波数の正弦波を生成する正弦波生成部と、この生
成された正弦波に前記選択された窓関数をかけることに
よりホルマント波形を生成する掛け算器と、これらホル
マントをそれぞれ加算する加算器とを具備することをす
ることを特徴とするものである。
Further, in the speech synthesizer of the present invention, a pitch pattern, a phoneme duration and a phoneme symbol string are inputted,
In a voice synthesizing apparatus for generating a voice signal by superimposing a pitch waveform formed by a pitch waveform generating section on a pitch mark generated in accordance with information on a pitch period, the pitch waveform generating section is provided for each speech unit. A storage unit in which formant parameters are stored, and by referring to the pitch pattern, the phoneme duration and the phoneme symbol string, the formant parameters for one frame corresponding to the pitch mark are selected from the storage unit. A parameter selecting unit for reading out the data, a sine wave generating unit for generating a sine wave having the read formant frequency, and a multiplier for generating a formant waveform by multiplying the generated sine wave by the selected window function. And an adder for adding each of these formants. It is intended.

【0017】また、本発明の記録媒体では、ピッチ周期
の情報に従ってピッチ波形を重畳することにより音声信
号を生成する音声合成方法を実現するプログラムを記録
した記録媒体において、ホルマント周波数の正弦波に窓
関数をかけることによって複数のホルマント波形を生成
し、これら複数のホルマント波形の和によって前記ピッ
チ波形を生成する音声合成方法を実現するプログラムを
記録したことを特徴とする音声合成方法を記録すること
を特徴とするものである。
According to the recording medium of the present invention, a program for realizing an audio synthesizing method for generating an audio signal by superimposing a pitch waveform according to pitch period information is recorded. Generating a plurality of formant waveforms by applying a function, and recording a program for realizing a voice synthesis method for generating the pitch waveform by summing up the plurality of formant waveforms. It is a feature.

【0018】[0018]

【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図1は本発明の一実施形態に係る
音声合成方法を実現する音声合成装置の構成を示すブロ
ック図である。音声合成装置にはピッチパターン30
6、音韻継続時間長307、音韻記号列308が入力さ
れ、合成音声信号305が出力される。本実施形態の音
声合成装置は無声音合成部32と有声音合成部31より
構成され、それぞれが出力する無声音声信号304と有
声音声信号303とを加算することによって合成音声信
号305を生成する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a speech synthesis apparatus for realizing a speech synthesis method according to an embodiment of the present invention. The voice synthesizer has a pitch pattern 30
6, a phoneme duration 307, a phoneme symbol string 308 is input, and a synthesized speech signal 305 is output. The voice synthesizing apparatus according to the present embodiment includes an unvoiced voice synthesis unit 32 and a voiced voice synthesis unit 31, and generates a synthesized voice signal 305 by adding the unvoiced voice signal 304 and the voiced voice signal 303 output from each of them.

【0019】無声音合成部32は、音韻継続時間長30
7と音韻記号列308を参照して主に当該音素が無声子
音や有声摩擦音である場合に無声音声信号304を生成
する。無声音合成部32は、LPC合成フィルタを白色
雑音で駆動する方法など、公知の技術で実現することが
可能である。
The unvoiced sound synthesizer 32 has a phoneme duration 30
7 and the phoneme symbol string 308, an unvoiced speech signal 304 is generated mainly when the phoneme is an unvoiced consonant or voiced fricative. The unvoiced sound synthesis unit 32 can be realized by a known technique such as a method of driving an LPC synthesis filter with white noise.

【0020】また、有声音合成部31はピッチマーク生
成部33、ピッチ波形生成部34、波形重畳部35から
構成される。ピッチマーク生成部33はピッチパターン
306と音韻継続時間長307を参照して、図2に示さ
れるようなピッチマーク302を生成する。ピッチマー
ク302はピッチ波形301を重畳する位置を表すもの
であり、ピッチマークの間隔がピッチ周期に対応する。
ピッチ波形生成部はピッチパターン306、音韻継続時
間長307、音韻記号列308を参照して、図2に示さ
れるようにピッチマーク302のそれぞれに対応するピ
ッチ波形301を生成する。波形重畳部35はピッチマ
ーク302で示される位置に、対応するピッチ波形30
1を重畳することによって有声音声信号303を生成す
る。
The voiced sound synthesizer 31 comprises a pitch mark generator 33, a pitch waveform generator 34, and a waveform superimposing unit 35. The pitch mark generation unit 33 generates a pitch mark 302 as shown in FIG. 2 with reference to the pitch pattern 306 and the phoneme duration 307. The pitch mark 302 indicates the position where the pitch waveform 301 is superimposed, and the interval between the pitch marks corresponds to the pitch cycle.
The pitch waveform generation unit generates a pitch waveform 301 corresponding to each of the pitch marks 302 as shown in FIG. 2 with reference to the pitch pattern 306, the phoneme duration 307, and the phoneme symbol string 308. The waveform superimposing unit 35 places the corresponding pitch waveform 30 at the position indicated by the pitch mark 302.
A voiced speech signal 303 is generated by superimposing 1.

【0021】次に、図1のピッチ波形生成部の構成につ
いて詳しく説明する。
Next, the configuration of the pitch waveform generator of FIG. 1 will be described in detail.

【0022】図3はピッチ波形生成部34の一実施形態
の構成を示すブロック図である。ピッチ波形生成部34
は、ホルマントパラメータ記憶部41、パラメータ選択
部42、正弦波生成部(43、44、45)より構成さ
れる。ホルマントパラメータ記憶部41には音声素片の
単位毎にホルマントパラメータが記憶されている。
FIG. 3 is a block diagram showing the configuration of one embodiment of the pitch waveform generator 34. Pitch waveform generator 34
Comprises a formant parameter storage unit 41, a parameter selection unit 42, and a sine wave generation unit (43, 44, 45). The formant parameter storage unit 41 stores formant parameters for each speech unit.

【0023】図4は音韻/a/の素片のホルマントパラ
メータの例を表している。この例では、/a/の素片は
3フレームから構成され、各フレームは3つのホルマン
トから構成されている。各ホルマントの特徴を表すパラ
メータとしてホルマント周波数、ホルマント位相、窓関
数が記憶されている。
FIG. 4 shows an example of a formant parameter of a phoneme / a / fragment. In this example, the fragment of / a / is composed of three frames, and each frame is composed of three formants. A formant frequency, a formant phase, and a window function are stored as parameters representing the characteristics of each formant.

【0024】ホルマントパラメータ選択部42はピッチ
波形生成部34に入力されるピッチパターン306、音
韻継続時間長307、音韻記号列308を参照して、ピ
ッチマーク302に対応する1フレーム分のホルマント
パラメータ401をホルマントパラメータ記憶部41よ
り選択して読み出す。
The formant parameter selection unit 42 refers to the pitch pattern 306, the phoneme duration 307, and the phoneme symbol string 308 input to the pitch waveform generation unit 34, and forms one formant parameter 401 corresponding to the pitch mark 302. Is selected from the formant parameter storage unit 41 and read out.

【0025】ホルマントパラメータ401はホルマント
番号1に対応するパラメータがホルマント周波数40
2、ホルマント位相403、窓関数411として出力さ
れ、同様に、ホルマント番号2に対応するパラメータが
ホルマント周波数404、ホルマント位相405、窓関
数412として、さらにホルマント番号3に対応するパ
ラメータがホルマント周波数406、ホルマント位相4
07、窓関数413として出力される。
The formant parameter 401 is a parameter corresponding to the formant number 1 and the formant frequency 40
2, the formant phase 403 and the window function 411 are output. Similarly, the parameters corresponding to the formant number 2 are the formant frequency 404, the formant phase 405, and the window function 412, and the parameters corresponding to the formant number 3 are the formant frequency 406. Formant phase 4
07, output as a window function 413.

【0026】正弦波生成部43はホルマント周波数40
2とホルマント位相403に従って正弦波408を出力
する。正弦波408は窓関数411によって窓掛け処理
が行われホルマント波形414が生成される。ホルマン
ト周波数402をω、ホルマント位相403をφ、窓関
数411をw(t)で表すと、ホルマント波形y(t)
は次の式で表される。
The sine wave generator 43 has a formant frequency 40
2 and outputs a sine wave 408 according to the formant phase 403. The sine wave 408 is windowed by a window function 411 to generate a formant waveform 414. When the formant frequency 402 is represented by ω, the formant phase 403 is represented by φ, and the window function 411 is represented by w (t), the formant waveform y (t)
Is represented by the following equation.

【0027】 y(t):\V(t)・sin(ωt+φ) 同様に、正弦波生成部44はホルマント周波数404と
ホルマント位相405に従って正弦波409を出力し、
窓関数412による窓掛け処理を経てホルマント波形4
15が生成される。正弦波生成部45はホルマント周波
数406とホルマント位相407に従って正弦波410
を出力し、窓関数413による窓掛け処理を経てホルマ
ント波形416が生成される。
Y (t): ΔV (t) · sin (ωt + φ) Similarly, the sine wave generator 44 outputs a sine wave 409 according to the formant frequency 404 and the formant phase 405,
Formant waveform 4 after windowing by window function 412
15 is generated. The sine wave generator 45 generates a sine wave 410 according to the formant frequency 406 and the formant phase 407.
Is output, and a formant waveform 416 is generated through windowing processing by a window function 413.

【0028】さらに、ピッチ波形301はホルマント波
形(414、415、416)をそれぞれ加算すること
によって生成される。
Further, the pitch waveform 301 is generated by adding the formant waveforms (414, 415, 416).

【0029】正弦波、窓関数、ホルマント波形、ピッチ
波形の例を図6に示す。また、これらの波形のパワース
ペクトルを図7に示す。図6では横軸が時間、縦軸が振
幅を、図7では横軸が周波数、縦軸が振幅を表してい
る。
FIG. 6 shows an example of a sine wave, a window function, a formant waveform, and a pitch waveform. FIG. 7 shows the power spectra of these waveforms. 6, the horizontal axis represents time, and the vertical axis represents amplitude. In FIG. 7, the horizontal axis represents frequency, and the vertical axis represents amplitude.

【0030】正弦波は鋭いピークを持つ線スペクトルと
なり、窓関数は低域に集中したスペクトルとなってい
る。時間領域での窓掛け(掛け算)は周波数領域では畳
み込みに相当するため、ホルマント波形のスペクトルは
窓関数のスペクトルを正弦波の周波数の位置に平行移動
した形状となっている。そのため、正弦波の周波数や位
相を制御することによってピッチ波形のホルマントの中
心周波数や位相を変化させることができ、窓関数の形状
を制御することによってピッチ波形のホルマントのスペ
クトル形状を変化させることができる。
The sine wave is a line spectrum having a sharp peak, and the window function is a spectrum concentrated in a low band. Since windowing (multiplication) in the time domain corresponds to convolution in the frequency domain, the spectrum of the formant waveform has a shape obtained by translating the spectrum of the window function to the position of the frequency of the sine wave. Therefore, the center frequency and phase of the pitch waveform formant can be changed by controlling the frequency and phase of the sine wave, and the form shape of the pitch waveform can be changed by controlling the shape of the window function. it can.

【0031】このように、ホルマント毎にその中心周波
数や位相、スペクトル形状を独立に制御することが可能
であるため柔軟性の高いモデルであると言える。また同
時に、窓関数の形状によってスペクトルの微細な構造を
表現することが可能であるため、肉声のスペクトル構造
を高精度に近似することができ肉声感のある音声を合成
することが可能である。
As described above, since the center frequency, phase, and spectrum shape of each formant can be controlled independently, it can be said that this is a highly flexible model. At the same time, since the fine structure of the spectrum can be expressed by the shape of the window function, the spectrum structure of the real voice can be approximated with high accuracy, and a voice with a real voice feeling can be synthesized.

【0032】次に、本発明のピッチ波形生成部34の第
2の実施形態を図8を参照して説明する。図3と相対応
する部分に同一の参照符号を付して相違点を中心に説明
すると、本実施形態では窓関数が基底関数展開されてお
り、ホルマントパラメータとして窓関数を記憶する代わ
りに重み係数の組が記憶されている。そして、新たに付
加された窓関数生成部56において重み係数の組から窓
関数を生成する。
Next, a second embodiment of the pitch waveform generator 34 of the present invention will be described with reference to FIG. The parts corresponding to those in FIG. 3 are denoted by the same reference numerals and mainly the differences will be described. In the present embodiment, the window function is expanded to a basis function, and instead of storing the window function as a formant parameter, a weighting coefficient is used. Are stored. Then, the newly added window function generator 56 generates a window function from the set of weighting coefficients.

【0033】ホルマントパラメータ記憶部51に記憶さ
れているホルマントパラメータの例を図5に示す。この
例では3つの基底関数の重み和に窓関数が展開されてお
り、窓関数重み係数のセットとして3つの係数の組が記
憶されている。パラメータ選択部42は選択されたホル
マントパラメータ(ホルマント周波数、ホルマント位
相、窓関数重み係数)501の中でホルマント周波数
(4()2,404,406)、ホルマント位相(40
3,405,407)が正弦波生成部(43,44,4
5)へ、窓関数重み係数セット(517、518、51
9)が窓関数生成部56へ出力される。
FIG. 5 shows an example of the formant parameters stored in the formant parameter storage unit 51. In this example, a window function is developed into a weighted sum of three basis functions, and a set of three coefficients is stored as a set of window function weighting coefficients. The parameter selection unit 42 selects the formant frequency (4 () 2, 404, 406) and the formant phase (40) among the selected formant parameters (formant frequency, formant phase, window function weighting coefficient) 501.
3, 405, 407) are sine wave generators (43, 44, 4).
5), a window function weighting coefficient set (517, 518, 51)
9) is output to the window function generator 56.

【0034】窓関数生成部56は、重み係数セット(5
17、518、519)にしたがって、窓関数(51
1、512、513)をそれぞれ生成する。重み係数セ
ットをそれぞれa1,a2,a3とし、基底関数をb1
(t),b2(t),b3(t)とすると、窓関数W
(t)は次式で表される。
The window function generating section 56 has a weighting coefficient set (5
17, 518, 519), the window function (51
1, 512, 513) respectively. The weight coefficient sets are a1, a2, and a3, respectively, and the basis function is b1
(T), b2 (t), b3 (t), the window function W
(T) is represented by the following equation.

【0035】w(t)=a1・b1(t)十a2・b2
(t)十a3・b3(t)なお、基底関数としてはDC
T基底などを用いても良いし、窓関数をKL展開するこ
とによって生成された基底関数を用いても良い。本実施
形態では、基底の次数を3としたが、次数はいくつでも
良い。窓関数を基底関数展開することによって、ホルマ
ントパラメータ記憶部の記憶容量が削減されるという利
点がある。
W (t) = a1 · b1 (t) tens a2 · b2
(T) 10 a3 · b3 (t) The basis function is DC
A T-basis or the like may be used, or a basis function generated by performing KL expansion of a window function may be used. In the present embodiment, the order of the basis is set to 3, but the order may be any number. By expanding the window function into the basis function, there is an advantage that the storage capacity of the formant parameter storage unit is reduced.

【0036】次に、本発明のピッチ波形生成部34の第
3の実施形態を図9を参照して説明する。図3と相対応
する部分に同一の参照符号を付して相違点を中心に説明
すると、本実施形態ではパラメータ変形部67が新たに
付加されており、ピッチパタ一ン306に従ってホルマ
ントパラメータが変化する点が異なっている。
Next, a third embodiment of the pitch waveform generator 34 of the present invention will be described with reference to FIG. 3 will be described with the same reference numerals given to the parts corresponding to FIG. 3. In this embodiment, a parameter deforming unit 67 is newly added, and the formant parameters change according to the pitch pattern 306. The points are different.

【0037】パラメータ変形部67は、ホルマント周波
数402、ホルマント位相403、窓関数411、ホル
マント周波数404、ホルマント位相405、窓関数4
12、ホルマント周波数406、ホルマント位相40
7、窓関数413を、ピッチパターン306に従って変
化させて、ホルマント周波数720、ホルマント位相7
21、窓関数717、ホルマント周波数722、ホルマ
ント位相723、窓関数718、ホルマント周波数72
4、ホルマント位相725、窓関数719をそれぞれ出
力する。全てのパラメータを変化させるようにしても良
いし、一部のパラメータのみを変化させるようにしても
よい。
The parameter deforming section 67 includes a formant frequency 402, a formant phase 403, a window function 411, a formant frequency 404, a formant phase 405, and a window function 4
12, formant frequency 406, formant phase 40
7. The window function 413 is changed in accordance with the pitch pattern 306 so that the formant frequency 720 and the formant phase 7
21, window function 717, formant frequency 722, formant phase 723, window function 718, formant frequency 72
4. Output formant phase 725 and window function 719. All parameters may be changed, or only some parameters may be changed.

【0038】図10はピッチ周期に応じてホルマント周
波数を制御する場合の制御関数の例を示している。この
ような制御関数は音韻ごとに設定しても良いし、あるい
はフレーム毎、ホルマント番号毎に設定して使い分ける
ようにしても良い。
FIG. 10 shows an example of a control function for controlling the formant frequency according to the pitch period. Such a control function may be set for each phoneme, or may be set and used for each frame or formant number.

【0039】また、ホルマント周波数そのものではなく
入カホルマント周波数と出カホルマント周波数の差分値
や比の値を制御する制御関数を用いても良い。
Further, instead of the formant frequency itself, a control function for controlling a difference value or a ratio value between the input formant frequency and the output formant frequency may be used.

【0040】図11はピッチ周期に応じたゲインを窓関
数に乗じてホルマントのパワーを制御するための制御関
数を表している。このように、ピッチ周期に応じてパラ
メータを変化させることによりピッチ周期の変化による
音声のスペクトルの変化をモデル化することが可能とな
り、声の高さによらず高音質な合成音声を生成すること
ができる。
FIG. 11 shows a control function for controlling the power of the formant by multiplying the window function by a gain corresponding to the pitch period. Thus, by changing the parameters according to the pitch cycle, it is possible to model the change in the spectrum of the voice due to the change in the pitch cycle, and to generate a synthesized voice with high sound quality regardless of the pitch of the voice. Can be.

【0041】また、パラメータ変形部67に音韻記号列
308を入力するようにして、先行あるいは後続の音韻
の種類に従ってホルマントパラメータを変化させるよう
にしても良い。これにより、音韻環境による音声のスペ
クトルの変化をモデル化することが可能となり、音質を
向上させることができる。
Alternatively, the phoneme symbol string 308 may be input to the parameter transformation section 67 so that the formant parameters are changed according to the type of the preceding or succeeding phoneme. Accordingly, it is possible to model a change in the spectrum of the voice due to the phoneme environment, and it is possible to improve the sound quality.

【0042】さらに、パラメータ変形部67に外部から
入力される声質情報309に従ってパラメータを変化さ
せるようにしても良い。これにより、様々な声質の合成
音声を生成することが可能となる。
Further, the parameters may be changed in accordance with the voice quality information 309 input from the outside to the parameter deforming section 67. As a result, it is possible to generate synthesized voices of various voice qualities.

【0043】図12はホルマント周波数を変化させるこ
とによって声の太さを変える場合の制御関数の例を示し
ている。(a)の制御関数を用いて全てのホルマント周
波数を変換すれば、ホルマントが高域にシフトすること
により細い声が生成され、(b)の場合はやや細い声と
なる。反対に、(d)の制御関数を用いると、ホルマン
ト周波数が低域にシフトすることにより、太い声が生成
され、(c)の場合はやや太い声となる。
FIG. 12 shows an example of a control function when the thickness of the voice is changed by changing the formant frequency. If all the formant frequencies are converted using the control function of (a), a thin voice is generated by shifting the formant to a high frequency band, and in the case of (b), the voice becomes slightly thin. Conversely, when the control function of (d) is used, a thick voice is generated by shifting the formant frequency to a low band, and in the case of (c), the voice becomes slightly thick.

【0044】次に、本発明のピッチ波形生成部34の第
4の実施形態を図13を参照して説明する。図3と相対
応する部分に同一の参照符号を付して相違点を中心に説
明すると、本実施形態ではパラメータ平滑化部77が新
たに付加されており、各ホルマントパラメータの時間的
な変化がなめらかになるようにパラメータを平滑化する
点が異なっている。
Next, a fourth embodiment of the pitch waveform generator 34 of the present invention will be described with reference to FIG. The parts corresponding to those in FIG. 3 are denoted by the same reference numerals and mainly the differences will be described. In the present embodiment, a parameter smoothing unit 77 is newly added, and the temporal change of each formant parameter is changed. The difference is that the parameters are smoothed so as to be smooth.

【0045】パラメータ平滑化部77は、ホルマント周
波数402、ホルマント位相403、窓関数411、ホ
ルマント周波数404、ホルマント位相405、窓関数
412、ホルマント周波数406、ホルマント位相40
7、窓関数413を、それぞれ平滑化して、ホルマント
周波数820、ホルマント位相821、窓関数817、
ホルマント周波数822、ホルマント位相823、窓関
数818、ホルマント周波数824、ホルマント位相8
25、窓関数819をそれぞれ出力する。全てのパラメ
ータを平滑化するようにしても良いし、一部のパラメー
タのみを平滑化するようにしても良い。
The parameter smoothing section 77 includes a formant frequency 402, a formant phase 403, a window function 411, a formant frequency 404, a formant phase 405, a window function 412, a formant frequency 406, and a formant phase 40.
7. The window function 413 is smoothed to formant frequency 820, formant phase 821, window function 817,
Formant frequency 822, formant phase 823, window function 818, formant frequency 824, formant phase 8
25, and outputs a window function 819, respectively. All parameters may be smoothed, or only some parameters may be smoothed.

【0046】図14はホルマントの平滑化の例を示して
いる。×で表されるのが平滑化前のホルマント周波数4
02、404、406であり、先行あるいは後続のフレ
ームの対応するホルマント周波数との変化がなめらかに
なるように平滑化を行って○で表される平滑化されたホ
ルマント周波数820、822、824がそれぞれ生成
される。
FIG. 14 shows an example of formant smoothing. × represents the formant frequency 4 before smoothing
02, 404, and 406. The smoothed formant frequencies 820, 822, and 824 represented by ○ are smoothed so that the change from the corresponding formant frequency of the preceding or subsequent frame is smooth. Generated.

【0047】また、音声素片の接続部において、ホルマ
ントの対応がとれないような場合に、図15(a)の×
で表されるようにホルマント周波数404に対応するホ
ルマントが消滅してしまうことが起りうる。この場合、
スペクトルに大きな不連続が生じて音質が劣化するため
○で表されるように、ホルマントを付加してホルマント
周波数822を生成する。この際、図15(b)に表さ
れるようにホルマント周波数822に対応する窓関数8
18のパワーを減衰させるようにしてホルマントのパワ
ーの不連続が生じないようにする。
In the case where the formant cannot be handled at the connection part of the speech unit, the X in FIG.
, The formant corresponding to the formant frequency 404 may disappear. in this case,
Since a large discontinuity occurs in the spectrum and the sound quality is degraded, a formant is added to generate a formant frequency 822 as indicated by a circle. At this time, the window function 8 corresponding to the formant frequency 822 as shown in FIG.
The power of 18 is attenuated so that the discontinuity of the formant power does not occur.

【0048】図16は窓関数位置の平滑化の例を示して
いる。窓関数411のピーク位置がフレーム間でなめら
かに変化するように窓関数位置の平滑化を行って、窓関
数817を生成している。この他にも、窓関数の形状
や、窓関数のパワーの平滑化を行っても良い。
FIG. 16 shows an example of smoothing the window function position. A window function 817 is generated by smoothing the window function position so that the peak position of the window function 411 changes smoothly between frames. In addition, the shape of the window function and the power of the window function may be smoothed.

【0049】上述した本発明の実施形態ではホルマント
数3の場合について説明したが、ホルマント数はいくつ
であっても良く、フレーム毎にホルマント数が変化して
も良い。
In the above-described embodiment of the present invention, the case where the number of formants is 3 has been described. However, the number of formants may be any number, and the number of formants may change for each frame.

【0050】また、本発明の実施形態の正弦波生成部は
正弦波を出力するものとして説明したが、線スペクトル
に近いパワースペクトルを持つ波形であれば完全な正弦
波でなくとも良い。例えば、計算量を削減する目的で計
算精度を落としたり、テーブル化した場合は誤差のため
に完全な正弦波とはならない場合がある。
Although the sine wave generator according to the embodiment of the present invention outputs a sine wave, the waveform may not be a perfect sine wave as long as the waveform has a power spectrum close to a line spectrum. For example, when the calculation accuracy is lowered for the purpose of reducing the calculation amount, or when a table is formed, a perfect sine wave may not be obtained due to an error.

【0051】また、ホルマント波形のスペクトルは、必
ずしも音声信号のスペクトルの山の部分を表現するとは
限らず、複数のホルマント波形の和であるピッチ波形の
スペクトルが音声のスペクトルを表現するものである。
The spectrum of the formant waveform does not always represent the peak of the spectrum of the audio signal, and the spectrum of the pitch waveform, which is the sum of a plurality of formant waveforms, represents the spectrum of the audio.

【0052】本発明の実施形態としてテキスト音声合成
における合成器について説明したが、本発明の他の実施
形態として音声符号化における復号化器がある。すなわ
ち、符号化器では音声信号からホルマント周波数、ホル
マント位相、窓関数などのホルマントパラメータとピッ
チ周期などを分析によって求め、それらを符号化して伝
送あるいは蓄積し、復号化器では、ホルマントパラメー
タとピッチ周期を復号化して上述した合成器と同様に音
声信号を再生することが可能である。
Although the synthesizer for text-to-speech synthesis has been described as an embodiment of the present invention, there is a decoder for speech coding as another embodiment of the present invention. That is, the encoder determines formant parameters such as formant frequency, formant phase, and window function and the pitch period from the audio signal by analysis, encodes them and transmits or stores them, and the decoder encodes the formant parameters and the pitch period. Can be decoded to reproduce an audio signal in the same manner as the synthesizer described above.

【0053】上述した音声合成は、記録媒体に格納され
たプログラムに従ってコンピュータをプログラム制御す
ることにより行うことができる。このプログラム制御を
図17を参照して説明する。
The above-described speech synthesis can be performed by program-controlling a computer according to a program stored in a recording medium. This program control will be described with reference to FIG.

【0054】図17(a)は音声合成処理のフローチャ
ートを示しており、図17(b)は音声合成処理の内の
有声音声生成処理のフローチャートを示しており、図1
7(c)は図17(b)の有声音声生成処理のピッチ波
形生成処理のフローチャートを示している。
FIG. 17A shows a flowchart of the voice synthesis process, and FIG. 17B shows a flowchart of the voiced voice generation process in the voice synthesis process.
FIG. 7C shows a flowchart of the pitch waveform generation processing of the voiced voice generation processing of FIG. 17B.

【0055】図17(a)における音声合成処理におい
ては、ピッチパターン306、音韻継続時間長307お
よび音韻記号列308を入力する(S11)。ピッチパ
ターン306、音韻継続時間長307および音韻記号列
308に基づいて有声音声信号303を生成する(S1
2)。音韻継続時間長307および音韻記号列308を
参照して無声音声信号304を生成する(S13)。有
声音声信号と無声音声信号とを加算して合成音声信号3
05を生成する(S14)。
In the speech synthesis processing in FIG. 17A, a pitch pattern 306, a phoneme duration 307, and a phoneme symbol string 308 are input (S11). A voiced speech signal 303 is generated based on the pitch pattern 306, phoneme duration 307, and phoneme symbol string 308 (S1).
2). An unvoiced speech signal 304 is generated with reference to the phoneme duration 307 and phoneme symbol string 308 (S13). A synthesized voice signal 3 is obtained by adding the voiced voice signal and the unvoiced voice signal.
05 is generated (S14).

【0056】図17(b)における有声音声生成処理で
は、ピッチパターン306と音韻継続時間長307とを
参照してピッチマーク302を生成する(S21)。ピ
ッチパターン306、音韻継続時間長307および音韻
記号列308を参照してピッチマーク302にそれぞれ
対応するピッチ波形301を生成する(S22)。ピッ
チマーク302で示される位置に対応するピッチ波形3
01を重畳し、有声音声を生成する(S23)。
In the voiced voice generation processing in FIG. 17B, the pitch mark 302 is generated with reference to the pitch pattern 306 and the phoneme duration 307 (S21). A pitch waveform 301 corresponding to the pitch mark 302 is generated with reference to the pitch pattern 306, the phoneme duration 307, and the phoneme symbol string 308 (S22). Pitch waveform 3 corresponding to the position indicated by pitch mark 302
01 is superimposed to generate voiced speech (S23).

【0057】図17(c)におけるピッチ波形生成処理
においては、ピッチパターン306、音韻継続時間長3
07および音韻記号列308を参照してピッチマーク3
02に対応する1フレーム分のホルマントパラメータ4
01をホルマントパラメータ記憶部41より選択する
(S31)。選択したホルマントパラメータ401のホ
ルマント番号に対応するホルマント周波数とホルマント
位相に従って複数の正弦波が生成される(S32)。複
数の正弦波を窓関数により窓掛けを行ってホルマント波
形414,415,416を生成する(S33)。これ
らホルマント波形を加算してピッチ波形を生成する(S
34)。
In the pitch waveform generation processing in FIG. 17C, the pitch pattern 306 and the phoneme duration 3
07 and the phonological symbol string 308 with reference to the pitch mark 3
Formant parameter 4 for one frame corresponding to 02
01 is selected from the formant parameter storage unit 41 (S31). A plurality of sine waves are generated according to the formant frequency and formant phase corresponding to the formant number of the selected formant parameter 401 (S32). A plurality of sine waves are windowed by a window function to generate formant waveforms 414, 415, 416 (S33). A pitch waveform is generated by adding these formant waveforms (S
34).

【0058】[0058]

【発明の効果】以上説明したように本発明によれば、ホ
ルマント毎にホルマント周波数、ホルマント形状を独立
に制御するため、ピッチ周期や声質の違いによる音声の
スペクトル変化を表現することが可能となり、高い柔軟
性を実現することができる。あるいは、窓関数の形状に
よってホルマントのスペクトルの微細な構造を表現する
ため、肉声感のある高音質な合成音を生成することがで
きる。
As described above, according to the present invention, since the formant frequency and the formant shape are controlled independently for each formant, it is possible to express a change in the spectrum of a voice due to a difference in pitch period or voice quality. High flexibility can be realized. Alternatively, since the fine structure of the formant spectrum is expressed by the shape of the window function, a high-quality synthesized sound having a real voice feeling can be generated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る音声合成器のブロッ
ク図。
FIG. 1 is a block diagram of a speech synthesizer according to an embodiment of the present invention.

【図2】ピッチ波形の重畳による有声音声の生成を示す
模式図。
FIG. 2 is a schematic diagram showing generation of voiced speech by superposition of a pitch waveform.

【図3】本発明の一実施形態に係るピッチ波形生成部の
ブロック図。
FIG. 3 is a block diagram of a pitch waveform generator according to one embodiment of the present invention.

【図4】ホルマントパラメータの例を示す模式図。FIG. 4 is a schematic diagram showing an example of a formant parameter.

【図5】ホルマントパラメータの例を示す模式図。FIG. 5 is a schematic diagram showing an example of a formant parameter.

【図6】正弦波、窓関数、ホルマント波形、ピッチ波形
の例を示す模式図。
FIG. 6 is a schematic diagram showing an example of a sine wave, a window function, a formant waveform, and a pitch waveform.

【図7】正弦波、窓関数、ホルマント波形、ピッチ波形
のパワースペクトルの例を示す模式図。
FIG. 7 is a schematic diagram showing an example of a power spectrum of a sine wave, a window function, a formant waveform, and a pitch waveform.

【図8】本発明の一実施形態に係るピッチ波形生成部の
ブロック図。
FIG. 8 is a block diagram of a pitch waveform generator according to an embodiment of the present invention.

【図9】本発明の一実施形態に係るピッチ波形生成部の
ブロック図。
FIG. 9 is a block diagram of a pitch waveform generator according to an embodiment of the present invention.

【図10】ホルマント周波数の制御関数の例を示す模式
図。
FIG. 10 is a schematic diagram illustrating an example of a control function of a formant frequency.

【図11】ホルマントゲインの制御関数の例を示す模式
図。
FIG. 11 is a schematic diagram showing an example of a control function of a formant gain.

【図12】声質変換のためのホルマント周波数マッピン
グ関数の例を示す模式図
FIG. 12 is a schematic diagram showing an example of a formant frequency mapping function for voice quality conversion;

【図13】本発明の一実施形態に係るピッチ波形生成部
のブロック図。
FIG. 13 is a block diagram of a pitch waveform generator according to one embodiment of the present invention.

【図14】ホルマント周波数の平滑化の例を示す模式
図。
FIG. 14 is a schematic diagram showing an example of smoothing a formant frequency.

【図15】ホルマント周波数の平滑化の例を示す模式
図。
FIG. 15 is a schematic diagram showing an example of smoothing a formant frequency.

【図16】窓関数位置の平滑化の例を示す模式図。FIG. 16 is a schematic diagram showing an example of smoothing a window function position.

【図17】本発明の音声合成器の処理を示すフローチャ
ートである。
FIG. 17 is a flowchart showing processing of the speech synthesizer of the present invention.

【図18】従来のPSOLA法による音声合成を示す模
式図。
FIG. 18 is a schematic diagram showing speech synthesis by a conventional PSOLA method.

【図19】従来のホルマント合成器のブロック図。FIG. 19 is a block diagram of a conventional formant synthesizer.

【符号の説明】[Explanation of symbols]

31…有声音合成部 32…無声音合成部 33…ピッチマーク生成部 34…ピッチ波形生成部 35…波形重畳部 41、51…ホルマントパラメータ記憶部 42…パラメータ選択部 43、44、45…正弦波生成部 56…窓関数生成部 67…パラメータ変形部 77…パラメータ平滑化部 DESCRIPTION OF SYMBOLS 31 ... Voiced sound synthesis part 32 ... Unvoiced sound synthesis part 33 ... Pitch mark generation part 34 ... Pitch waveform generation part 35 ... Waveform superposition part 41, 51 ... Formant parameter storage part 42 ... Parameter selection part 43, 44, 45 ... Sine wave generation Unit 56: window function generating unit 67: parameter deforming unit 77: parameter smoothing unit

Claims (17)

【特許請求の範囲】[Claims] 【請求項1】ピッチ周期の情報にしたがってピッチ波形
を重畳することにより音声信号を生成する音声合成方法
において、ホルマント周波数の正弦波に窓関数をかける
ことによって複数のホルマント波形を生成し、これら複
数のホルマント波形の和によって前記ピッチ波形を生成
することを特徴とする音声合成方法。
In a voice synthesizing method for generating a voice signal by superimposing a pitch waveform according to pitch period information, a plurality of formant waveforms are generated by applying a window function to a sine wave of a formant frequency. Wherein the pitch waveform is generated by the sum of the formant waveforms.
【請求項2】前記窓関数は複数の基底関数の重み付き加
算によって生成されることを特徴とする請求項1記載の
音声合成方法。
2. The speech synthesis method according to claim 1, wherein said window function is generated by weighted addition of a plurality of basis functions.
【請求項3】前記ホルマント波形のパワー、前記窓関数
の形状、前記窓関数の位置、前記ホルマント周波数のう
ち少なくとも1つが前記ピッチ周期に応じて変化するこ
とを特徴とする請求項1記載の音声合成方法。
3. The voice according to claim 1, wherein at least one of the power of the formant waveform, the shape of the window function, the position of the window function, and the formant frequency changes in accordance with the pitch period. Synthesis method.
【請求項4】前記ホルマント波形のパワー、前記窓関数
の形状、前記窓関数の位置、前記ホルマント周波数のう
ち少なくとも1つが少なくとも先行または後続の音韻の
種類に応じて変化することを特徴とする請求項1記載の
音声合成方法。
4. The apparatus according to claim 1, wherein at least one of the power of the formant waveform, the shape of the window function, the position of the window function, and the formant frequency changes in accordance with at least a type of a preceding or succeeding phoneme. Item 1. The speech synthesis method according to Item 1.
【請求項5】前記ホルマント波形のパワー、前記窓関数
の形状、前記窓関数の位置、前記ホルマント周波数のう
ち少なくとも1つが与えられた声質の情報に応じて変化
することを特徴とする請求項1記載の音声合成方法。
5. The apparatus according to claim 1, wherein at least one of the power of the formant waveform, the shape of the window function, the position of the window function, and the formant frequency changes in accordance with given voice quality information. Described speech synthesis method.
【請求項6】前記ホルマント周波数、前記ホルマント波
形のパワー、前記窓関数の形状、前記正弦波の位相、前
記窓関数の位置のうち少なくとも1つが少なくとも先行
または後続のピッチ波形の対応するホルマントの、ホル
マント周波数、ホルマント波形のパワー、窓関数の形
状、正弦波の位相、窓関数の位置のうち少なくとも1つ
に応じて変化することを特徴とする請求項1記載の音声
合成方法。
6. The method according to claim 6, wherein at least one of the formant frequency, the power of the formant waveform, the shape of the window function, the phase of the sine wave, and the position of the window function is at least one of a corresponding formant of a preceding or succeeding pitch waveform. 2. The speech synthesis method according to claim 1, wherein the voice synthesis method changes in accordance with at least one of a formant frequency, a power of a formant waveform, a shape of a window function, a phase of a sine wave, and a position of the window function.
【請求項7】前記ホルマント周波数、前記ホルマント波
形のパワー、前記窓関数の形状、前記正弦波の位相、前
記窓関数の位置のうち少なくとも1つが少なくとも先行
または後続のピッチ波形の対応するホルマントの有無に
応じて変化することを特徴とする請求項1記載の音声合
成方法。
7. At least one of the formant frequency, the power of the formant waveform, the shape of the window function, the phase of the sine wave, and the position of the window function is the presence or absence of a corresponding formant of at least a preceding or succeeding pitch waveform. 2. The speech synthesis method according to claim 1, wherein the speech synthesis method changes according to the following.
【請求項8】ピッチパターン、音韻継続時間長及び音韻
記号列が入力され、ピッチ周期の情報にしたがって生成
されるピッチマークに、ピッチ波形生成部により形成さ
れたピッチ波形を重畳することにより音声信号を生成す
る音声合成装置において、前記ピッチ波形生成部は音声
素片の単位毎にホルマントパラメータが記憶されている
記憶部と、前記ピッチパターン、前記音韻継続時間長及
び前記音韻記号列を参照として、前記ピッチマークに対
応する1フレーム分の前記ホルマントパラメータを前記
記憶部より選択して読み出すパラメータ選択部と、前記
読み出されたホルマント周波数の正弦波を生成する正弦
波生成部と、この生成された正弦波に前記選択された窓
関数をかけることによりホルマント波形を生成する掛け
算器と、これらホルマントをそれぞれ加算する加算器と
を具備することを特徴とする音声合成装置。
8. A voice signal is inputted by inputting a pitch pattern, a phoneme duration and a phoneme symbol string, and superimposing a pitch waveform formed by a pitch waveform generator on a pitch mark generated according to pitch period information. In the speech synthesizer that generates, the pitch waveform generating unit, a storage unit in which formant parameters are stored for each unit of the speech unit, and the pitch pattern, the phoneme duration and the phoneme symbol string as a reference, A parameter selection unit that selects and reads the formant parameters for one frame corresponding to the pitch mark from the storage unit, a sine wave generation unit that generates a sine wave of the read formant frequency, A multiplier for generating a formant waveform by multiplying the sine wave by the selected window function; Speech synthesis apparatus characterized by comprising an adder for adding the mantle, respectively.
【請求項9】前記窓関数は前記記憶部に記憶されている
ことを特徴とする請求項8記載の音声合成装置。
9. A speech synthesizer according to claim 8, wherein said window function is stored in said storage unit.
【請求項10】前記記憶部に窓関数の重み係数が記憶さ
れており、この重み係数が導入され基底関数の重み付け
加算によって前記窓関数を生成する窓関数生成部とを具
備することを特徴とする請求項8記載の音声合成装置。
10. A window function generating unit for storing a weighting factor of a window function in the storage unit, and generating the window function by introducing the weighting factor and adding weights of basis functions. The speech synthesizer according to claim 8, wherein
【請求項11】前記選択されたホルマントパラメータを
前記ピッチ周期に応じて変化させるパラメータ変形部を
設けたことを特徴とする請求項8記載の音声合成装置。
11. A speech synthesizer according to claim 8, further comprising a parameter deforming section for changing said selected formant parameter in accordance with said pitch period.
【請求項12】前記選択されたホルマントパラメータを
先行または後続の音韻の情報に応じて変化させるパラメ
ータ変形部を設けたことを特徴とする請求項8記載の音
声合成装置。
12. A speech synthesizer according to claim 8, further comprising a parameter transforming unit for changing said selected formant parameter in accordance with preceding or succeeding phoneme information.
【請求項13】前記選択されたホルマントパラメータを
与えられた声質に応じて変化させるパラメータ変形部を
設けたことを特徴とする請求項8記載の音声合成装置。
13. A speech synthesizer according to claim 8, further comprising a parameter deforming unit for changing said selected formant parameter according to a given voice quality.
【請求項14】前記選択されたホルマントパラメータを
時間的な変化を滑らかにするパラメータ平滑化部を設け
たことを特徴とする請求項8記載の音声合成装置。
14. The speech synthesizer according to claim 8, further comprising a parameter smoothing unit for smoothing a temporal change of the selected formant parameter.
【請求項15】ピッチ周期の情報に従ってピッチ波形を
重畳することにより音声信号を生成する音声合成方法を
実現するプログラムを記録した記録媒体において、ホル
マント周波数の正弦波に窓関数をかけることによって複
数のホルマント波形を生成し、これら複数のホルマント
波形の和によって前記ピッチ波形を生成する音声合成方
法を実現するプログラムを記録したことを特徴とする音
声合成方法を記録した記録媒体。
15. A recording medium on which a program for realizing a voice synthesizing method for generating a voice signal by superimposing a pitch waveform in accordance with pitch period information is recorded, by applying a window function to a sine wave of formant frequency. A recording medium recording a voice synthesis method, wherein a program for generating a formant waveform and a voice synthesis method for generating the pitch waveform by a sum of the plurality of formant waveforms is recorded.
【請求項16】ホルマント周波数、ホルマント位相およ
び窓関数を表す多数のホルマントパラメータを記憶装置
に格納させる命令と、ピッチパターン、音韻継続時間長
及び音韻記号列に従って前記ホルマントパラメータから
所定のホルマントパラメータを選択させる命令と、選択
されたホルマントパラメータに対応するホルマント周波
数およびホルマント位相に基づいて複数の正弦波を生成
させる命令と、複数のホルマント波形を生成するため前
記選択されたホルマントパラメータに対応する窓関数と
前記正弦波とを乗算させる命令と、複数のピッチ波形を
生成するために前記ホルマント波形を加算させる命令
と、音声信号を生成するためにピッチ周期に従って前記
ピッチ波形を重畳させる命令とを含む音声合成プログラ
ム。
16. A predetermined formant parameter is selected from said formant parameters according to a command for storing a plurality of formant parameters representing a formant frequency, a formant phase and a window function in a storage device, and a pitch pattern, a phoneme duration and a phoneme symbol string. Instructions to generate a plurality of sine waves based on the formant frequency and formant phase corresponding to the selected formant parameter, and a window function corresponding to the selected formant parameter to generate a plurality of formant waveforms. Speech synthesis including a command to multiply by the sine wave, a command to add the formant waveform to generate a plurality of pitch waveforms, and a command to superimpose the pitch waveform according to a pitch period to generate a voice signal program.
【請求項17】前記窓関数を生成するために重み係数に
よって重み付けされた規定関数を加算させる命令を含む
請求項16記載の音声合成プログラム。
17. The speech synthesis program according to claim 16, further comprising an instruction to add a prescribed function weighted by a weight coefficient to generate the window function.
JP2002077096A 2001-03-26 2002-03-19 Speech synthesis method, speech synthesis apparatus, and recording medium Expired - Fee Related JP3732793B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002077096A JP3732793B2 (en) 2001-03-26 2002-03-19 Speech synthesis method, speech synthesis apparatus, and recording medium
KR10-2002-0016033A KR100457414B1 (en) 2001-03-26 2002-03-25 Speech synthesis method, speech synthesizer and recording medium
EP02252159A EP1246163B1 (en) 2001-03-26 2002-03-26 Speech synthesis method and speech synthesizer
CNB021080496A CN1185619C (en) 2001-03-26 2002-03-26 Voice synthetic method, voice synthetic device and recording medium
DE60205421T DE60205421T2 (en) 2001-03-26 2002-03-26 Method and apparatus for speech synthesis

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001-87041 2001-03-26
JP2001087041 2001-03-26
JP2002077096A JP3732793B2 (en) 2001-03-26 2002-03-19 Speech synthesis method, speech synthesis apparatus, and recording medium

Publications (2)

Publication Number Publication Date
JP2002358090A true JP2002358090A (en) 2002-12-13
JP3732793B2 JP3732793B2 (en) 2006-01-11

Family

ID=26612017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002077096A Expired - Fee Related JP3732793B2 (en) 2001-03-26 2002-03-19 Speech synthesis method, speech synthesis apparatus, and recording medium

Country Status (5)

Country Link
EP (1) EP1246163B1 (en)
JP (1) JP3732793B2 (en)
KR (1) KR100457414B1 (en)
CN (1) CN1185619C (en)
DE (1) DE60205421T2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004105A (en) * 2003-06-13 2005-01-06 Sony Corp Signal generation apparatus and signal generation method
US7596497B2 (en) 2003-06-13 2009-09-29 Sony Corporation Speech synthesis apparatus and speech synthesis method
US8175881B2 (en) 2007-08-17 2012-05-08 Kabushiki Kaisha Toshiba Method and apparatus using fused formant parameters to generate synthesized speech
JP2013205697A (en) * 2012-03-29 2013-10-07 Toshiba Corp Speech synthesizer, speech synthesis method, speech synthesis program and learning device
JP2017173606A (en) * 2016-03-24 2017-09-28 カシオ計算機株式会社 Electronic musical instrument, musical sound generation device, musical sound generation method and program

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
AU2003254398A1 (en) * 2002-09-10 2004-04-30 Leslie Doherty Phoneme to speech converter
JP2004294816A (en) * 2003-03-27 2004-10-21 Yamaha Corp Mobile terminal device
JP2005234337A (en) * 2004-02-20 2005-09-02 Yamaha Corp Device, method, and program for speech synthesis
JP5275102B2 (en) 2009-03-25 2013-08-28 株式会社東芝 Speech synthesis apparatus and speech synthesis method
CN107924678B (en) * 2015-09-16 2021-12-17 株式会社东芝 Speech synthesis device, speech synthesis method, and storage medium
CN108257613B (en) * 2017-12-05 2021-12-10 北京小唱科技有限公司 Method and device for correcting pitch deviation of audio content
CN108597527B (en) * 2018-04-19 2020-01-24 北京微播视界科技有限公司 Multi-channel audio processing method, device, computer-readable storage medium and terminal
CN110189743B (en) * 2019-05-06 2024-03-08 平安科技(深圳)有限公司 Splicing point smoothing method, device and storage medium in waveform splicing
CN114648974B (en) * 2020-12-17 2025-02-18 南京理工大学 Speech synthesis method and system based on speech radar and deep learning

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004105A (en) * 2003-06-13 2005-01-06 Sony Corp Signal generation apparatus and signal generation method
US7596497B2 (en) 2003-06-13 2009-09-29 Sony Corporation Speech synthesis apparatus and speech synthesis method
US8175881B2 (en) 2007-08-17 2012-05-08 Kabushiki Kaisha Toshiba Method and apparatus using fused formant parameters to generate synthesized speech
JP2013205697A (en) * 2012-03-29 2013-10-07 Toshiba Corp Speech synthesizer, speech synthesis method, speech synthesis program and learning device
JP2017173606A (en) * 2016-03-24 2017-09-28 カシオ計算機株式会社 Electronic musical instrument, musical sound generation device, musical sound generation method and program

Also Published As

Publication number Publication date
DE60205421D1 (en) 2005-09-15
EP1246163B1 (en) 2005-08-10
JP3732793B2 (en) 2006-01-11
DE60205421T2 (en) 2006-04-20
EP1246163A2 (en) 2002-10-02
CN1378199A (en) 2002-11-06
CN1185619C (en) 2005-01-19
KR20020076144A (en) 2002-10-09
EP1246163A3 (en) 2003-08-13
KR100457414B1 (en) 2004-11-16

Similar Documents

Publication Publication Date Title
JP3408477B2 (en) Semisyllable-coupled formant-based speech synthesizer with independent crossfading in filter parameters and source domain
JP4705203B2 (en) Voice quality conversion device, pitch conversion device, and voice quality conversion method
KR940002854B1 (en) Sound synthesizing system
JP4469883B2 (en) Speech synthesis method and apparatus
JP5159325B2 (en) Voice processing apparatus and program thereof
JPH031200A (en) Regulation type voice synthesizing device
JP3732793B2 (en) Speech synthesis method, speech synthesis apparatus, and recording medium
Erro et al. Weighted frequency warping for voice conversion.
US7251601B2 (en) Speech synthesis method and speech synthesizer
JP3450237B2 (en) Speech synthesis apparatus and method
US20090326951A1 (en) Speech synthesizing apparatus and method thereof
JP2018077283A (en) Speech synthesis method
JP2904279B2 (en) Voice synthesis method and apparatus
JP5175422B2 (en) Method for controlling time width in speech synthesis
CN100508025C (en) Method for synthesizing speech
JP3727885B2 (en) Speech segment generation method, apparatus and program, and speech synthesis method and apparatus
JP2002244693A (en) Speech synthesis apparatus and speech synthesis method
JP2008299266A (en) Speech synthesis apparatus and speech synthesis method
JP2003330482A (en) Basic frequency pattern generation method, basic frequency pattern generation device, voice synthesis method, voice synthesis device, basic frequency pattern generation program, and voice synthesis program
JPH11224096A (en) Method and device for speech synthesis
JPH0836397A (en) Speech synthesizer
JP3967571B2 (en) Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program
Bonada et al. Improvements to a sample-concatenation based singing voice synthesizer
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
Min et al. A hybrid approach to synthesize high quality Cantonese speech

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051013

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081021

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091021

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101021

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees