[go: up one dir, main page]

JP2003208188A - 日本語テキスト音声合成方法 - Google Patents

日本語テキスト音声合成方法

Info

Publication number
JP2003208188A
JP2003208188A JP2002006545A JP2002006545A JP2003208188A JP 2003208188 A JP2003208188 A JP 2003208188A JP 2002006545 A JP2002006545 A JP 2002006545A JP 2002006545 A JP2002006545 A JP 2002006545A JP 2003208188 A JP2003208188 A JP 2003208188A
Authority
JP
Japan
Prior art keywords
connection
unit
vowel
phoneme
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002006545A
Other languages
English (en)
Inventor
Tomomoto Toda
智基 戸田
Hisashi Kawai
恒 河井
Minoru Tsuzaki
実 津崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002006545A priority Critical patent/JP2003208188A/ja
Publication of JP2003208188A publication Critical patent/JP2003208188A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、音素単位だけでなく音素の中心
を境界とするダイフォン単位も用いた新たな日本語テキ
スト合成方法を提供することを目的とする。また、この
発明は、音素単位のみを用いる従来法と比較して、より
自然性の高い音声を合成することができ、かつコーパス
をより有効に使用することができるようになる日本語テ
キスト合成方法を提供することを目的とする。 【解決手段】 日本語テキスト音声合成方法において、
母音と母音との連鎖における波形接続において、それら
の境界での接続と、それらの母音中心での接続との両方
を考慮して音声合成単位の選択を行うようにした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、日本語のテキス
ト情報を合成音声で読み上げることができるテキスト音
声合成方法に関する。
【0002】
【従来の技術】〔1〕従来の日本語テキスト音声合成装
置についての説明
【0003】図1は、従来の日本語テキスト音声合成装
置の概略構成を示してる。
【0004】入力された日本語のテキストは、言語処理
部1で形態素解析、係り受け解析が行われ、音素記号、
アクセント記号等に変換される。
【0005】韻律パターン生成部2では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音素持続時間(声の長
さ)、基本周波数(声の高さF0 )、母音中心のパワー
(声の大きさ)等の推定が行われる。
【0006】音素単位選択部3では、推定された音素持
続時間、基本周波数、母音中心のパワー等に最も近く、
かつ波形辞書5に蓄積されている合成単位(音素片)を
接続したときの歪みが最も小さくなる合成単位の組み合
わせが動的計画法を用いて選択される。
【0007】音素波形生成部4では、選択された音素片
の組み合わせにしたがって、ピッチを変換しつつ音素片
の接続を行うことによって音声が生成される。
【0008】ところで、音素単位選択部3によって行わ
れる単位選択では、知覚的特徴に一致した尺度(コス
ト)を用いることが重要である(文献1参照)。
【0009】文献1: E. Klabbers and R. Veldhuis,
"Reducing audible spectral discontinuities", IEEE
Trans. Speech and Audio Processing, vol. 9, no.
1, pp. 39-51, 2001.
【0010】そのため、観測可能な特徴量(物理量,言
語情報)から心理量へのコスト関数によるマッピングを
行う必要がある。図2にコスト関数の概念図を示す。
【0011】コスト関数は聴覚上の印象を反映する必要
があるため、知覚実験に基づいて推定するべきである。
基本周波数F0 ,音素持続時間Durationのように説明変
数の空間が比較的単純な場合は、知覚実験により物理量
から心理量へのマッピングを推定することが可能であ
る。しかし、より高次元の特徴量を説明変数とした複雑
な空間においては、知覚実験による推定は実現が困難で
ある。また、心理量を直接表現するものとして聴覚上の
特性をよく反映した物理量に関する研究が数多くなされ
ているが、十分な精度をもつ物理量はいまだ見つけられ
ていない(文献2,3参照)。
【0012】文献2:Y. Stylianou and A.K. Syrdal,
"Perceptual and objective detection of discontinu
ities in concatenative speech synthesis", Proc. IC
ASSP,pp. 837-840, Salt Lake City, U.S.A., May. 200
1. 文献3:M. Tsuzaki, "Feature extraction by auditor
y modeling for unitselection in concatenative spee
ch synthesis", Proc. EUROSPEECH, pp. 2223-2226, Aa
lborg, Denmark, Sep. 2001.
【0013】言語情報から心理情報へのマッピングに関
しては、知覚実験による推定が比較的容易である。この
マッピングを用いることにより、物理量では十分に表現
できない知覚的特徴を捕らえることができる可能性があ
る。ただし、言語情報のみではカテゴリカルな特徴しか
表現できず、同一カテゴリ内のサンプル間の比較ができ
ないため、各サンプルの特徴を表すことのできる物理量
との併用も必要である。
【0014】この例では、物理量と知覚実験結果から直
接求められる心理量を用いたコスト関数Wcを使用す
る。コスト関数Wcは、表1に示す5つのサブコスト関
数から構成される。Cpro およびCFoは音源情報に基づ
いたサブコスト関数であり、C typ 、Cenv およびC
specは声道情報に基づいたサブコスト関数である。
【0015】
【表1】
【0016】つまり、図3に示すように、ui-1
i 、ui+1 を単位候補の音素片とし、ti-1 、ti
i+1 を実際に使用する環境(ターゲット)とすると、
i に対するサブコスト関数には、Cpro (ui
i )、Ctyp (ui ,ti )、Cen v (ui
i-1 )、Cspec(ui ,ui-1 )およびCFo(ui
i-1 )がある。
【0017】図3において、ui-1 とui はコーパス中
で連続しているわけではなく、i−1番目とi番目のタ
ーゲットti-1 、ti に対する1つの単位候補を意味す
る。
【0018】Cpro (ui ,ti )およびC
typ (ui ,ti )は、i番目の音素について抽出され
た単位候補(ui )と、実際に使用する環境(ターゲッ
トti )との間の歪みを表している。また、Cenv (u
i ,ui-1 )、Cspec(ui ,ui-1 )およびCFo(u
i ,ui-1 )は、i番目の単位候補(ui )と、i−1
番目の単位候補(ui-1 )とを接続したときに生ずる歪
みを表している。
【0019】先行の単位候補がui-1 である時の、合成
したい音素ターゲットti に対する単位候補ui のコス
ト関数WC(ui , ti )は次式(1)で表される。
【0020】
【数1】
【0021】ここで、Cpro ,CF0,Cenv ,Cspec
typ はサブコスト関数であり、詳細は以下で述べる。
各サブコストはほぼ等しいダイナミックレンジに正規化
されたものを用いる。
【0022】wpro ,wF0,wenv ,wspec,wtyp
各サブコストに対する重みを示し、これら総和は、次式
(2)に示すように1となる。この例では、全てのサブ
コストに対して等しい重み(0.2)を用いている。
【0023】
【数2】
【0024】音素単位選択部3は、入力されたセンテン
ス中の各音素をターゲットとして、次式(3)で示され
るトータルコストTCが最小となる単位候補の組合せを
動的計画法を用いて選択する。
【0025】
【数3】
【0026】ここで、Nはセンテンス中のターゲット音
素数を示す。WC (ui,i ) は合成したいターゲット
i に対する単位候補ui のコストを示す。
【0027】以下、各サブコスト関数について説明す
る。
【0028】(1)韻律に関するサブコスト関数:C
pro サブコスト関数Cpro ( ui,i )は単位候補ui とタ
ーゲットti との間における韻律(F0 軌跡, 音素持続
時間) の違いにより生じる自然性の劣化を示しており、
次式(4)で表される。
【0029】
【数4】
【0030】ここで、DF0( ui,i,m)は、単位候補
i とターゲットti における、m番目の分割区間にお
けるlogF0 の平均値の差を示している。また、Mは
音素分割数を示している。また、Dd ( ui,i )は単
位候補ui とターゲットtiにおける音素持続時間の差
を示している。また、Pは、DF0( ui,i,m)とD d
( ui,i )とを変数とする非線形関数である。
【0031】この例では、合成時に韻律変形を行うこと
を想定し、韻律変形により生じる自然性劣化についての
知覚実験結果から関数Pが決定される。韻律変形を行わ
ない際には、ターゲットと異なった韻律を用いることに
より生じる自然性劣化についての知覚実験を行い、その
結果から関数Pを決定する必要がある。
【0032】(2)F0 不連続に関するサブコスト関
数:CF0 サブコスト関数CF0(ui,i-1)は、ui-1 とui との
接続境界におけるF0の不連続性により生じる自然性の
劣化を示しており、次式(5)で表される。
【0033】
【数5】
【0034】ここで、DF0( ui,i-1)は、ui-1 とu
i との接続境界におけるLogF0の差に基づいた距離
を示す。ui-1 とui とがコーパス中で連続しており、
接続が生じない単位候補間においては、このサブコスト
は0となる。
【0035】(3)音素環境代替に関するサブコスト関
数:Cenv サブコスト関数Cenv ( ui,i-1)は、単位候補とター
ゲットとの間における音素環境の代替により生じる自然
性の劣化を表し、知覚実験結果から決定される(文献4
参照)。このサブコスト関数Cenv ( ui,i-1)は次式
(6)で表される。
【0036】文献4:河井恒, 津崎実, 舛田剛志, 岩澤
秀紀, "波形素片接続時の音素環境代替による自然性劣
化の知覚的評価", 信学技法, SP2001-22, pp. 51-57,
May,2001.
【0037】
【数6】
【0038】ここで、Ss ( ui,s ( ui-1), ti )
は後続環境の代替により生じるサブコスト関数を示し、
p ( ui,P ( ui ),ti-1)は先行環境の代替により
生じるサブコスト関数を示す。Es ( ui-1)はコーパス
中での後続の音素を示し、E P (ui ) は先行音素を示
している。
【0039】例えば、「あえ」の「あ」(ui-1 = /a
/ ,Es ( ui-1)= /e/ )と、「んお」の「お」(u
i = /o/ ,Ep ( ui ) = /N/ )を接続して、「あ
お」(ti-1 = /a/ ,ti = /o/ )を合成する際に
は、サブコスト関数Cenv (ui,i-1)は、次式(7)
で表される。
【0040】
【数7】
【0041】環境が一致していても、Ss とSp は0に
なるとは限らない。その場合コスト値は、音素間( ui,
i-1)のラベリングの曖昧さ等に起因する接続の難しさ
を表す。なお、ui-1 とui とがコーパス中で連続して
おり、接続が生じない単位候補間においては、このサブ
コストは0になる。
【0042】(4)スペクトルの不連続に関するサブコ
スト関数:Cspec サブコスト関数Cspec( ui,i-1)は、ui-1 とui
の接続境界におけるスペクトルの不連続により生じる自
然性の劣化を表しており、次式(8)で表される。
【0043】
【数8】
【0044】ここで、h(f)は、長さωの三角窓を示
している。MCD(ui ,ui-1 ,f)は、単位候補u
i-1 における終端からf番目のフレームと単位候補ui
の始端からf番目のフレームとの間におけるメルケプス
トラム歪みを示している。u i-1 とui とがコーパス中
で連続しており、接続が生じない単位候補間において
は、このサブコスト関数は0となる。
【0045】(5)音素の適合性に関するサブコスト関
数:Ctyp サブコスト関数Ctyp ( ui,i ) は音素の適合性を表
しており、単位候補u i とターゲットti との間におけ
る平均的なスペクトルの差により生じる自然の劣化を示
している。このサブコスト関数Ctyp ( ui,i ) は次
式(9)で表される。
【0046】
【数9】
【0047】ここで、Cenは、対数スペクトルセントロ
イドを示している。また、MCDは、単位候補ui のセ
ントロイドCen(ui ) とターゲットti のセントロ
イドCen( ti ) との間のメルケプストラム歪みを示
す。ターゲットti のセントロイドCen(ti ) の計算
には、HMMによる音声合成方式(文献5参照)により
出力されるメルケプストラムが用いられる。
【0048】文献5:吉村貴克, 徳田恵一, 益子貴史,
小林隆夫, 北村正, "HMM に基づく音声合成におけるス
ペクトル・ピッチ・継続長の同時モデル化", 信学論
(D-II), vol. J83-D-II, no. 11, pp. 2099-2107, 200
0.
【0049】〔2〕従来の各種単位選択法についての説
【0050】近年、テキスト音声合成(TTS:Text-to-Sp
eech) 装置においてはコーパスベースのものが主流とな
っており、音声素片波形を接続して音声を合成すること
によって、品質の高い合成音声が得られるようになって
きている。しかし、その品質は十分なものとはいいがた
く、読み上げ口調の文章の合成に限っても改善すべき点
は数多く残されている。本発明者らは読み上げ文章の合
成を対象とした、より高品質な日本語テキスト音声合成
装置の構築を目指している。
【0051】日本語では、母音の無声化を除くと、CV
(C:子音,V:母音)とVから音節が構成されるた
め、日本語テキスト音声合成装置においては、合成単位
としてCVを考慮することにより効率的に音声コーパス
を構築することが可能である。また、CからVへの遷移
は音韻性の知覚上重要であると考えられるため、日本語
テキスト音声合成装置では合成単位としてはCV単位が
適している。
【0052】しかし、CV単位を用いて音声を合成する
と、VからVへの接続によりしばしば不連続感が生じ
る。これは、VからVへの遷移はフォルマントが滑らか
に遷移する区間であるため、接続によりフォルマントの
不連続が生じると自然性が大きく劣化してしまうからで
ある。そのため、V−V間での滑らかな接続の実現は重
要な課題である。
【0053】V−V間の合成単位の接続を避けるため
に、より長い単位が提案されている(文献6、7、8参
照)。
【0054】文献6:H. Kawai, N. Higuchi, T. Shimi
zu and S. Yamamoto, "Developmentof a text-to-speec
h system for Japanese based on waveform splicing",
Proc. ICASSP, pp. 569-572, Adelaide, Australia, A
pr. 1994. 文献7:S. Takano, K. Tanaka, H. Mizuno, M. Abe an
d S. Nakajima, "A Japanese TTS system based on mul
tiform units and a speech modification algorithm w
ith harmonics reconstruction", IEEE Trans. Speech
and Audio Processing, vol. 9, no. 1, pp. 3-10, 200
1. 文献8:N. Iwahashi, N. Kaiki and Y. Sagisaka, "Sp
eech segment selection for concatenative synthesis
based on spectral distortion minimization", IEICE
Trans. Fundamentals, vol. E76-A, no. 11, pp. 1942
-1948, 1993.
【0055】文献6に示されるように、河井らによって
提案されたCV単位は、出現頻度の高いCVに続く母音
連鎖を1つの単位としてみなすものであり、CV単位を
拡張したものである。
【0056】また、他の単位としては、文献8に示され
るように、岩橋らによって提案された可変長単位があ
る。この方法では、合成したい音素系列に対するコスト
関数を定め、その総和を最小とする基準により、音声コ
ーパスから最適な単位が選択される。音素単位に基づい
た動的計画法による探索を行うことにより、様々な長さ
の音素連鎖からなる単位を選択することができる(文献
9参照)。
【0057】文献9:A Black and N. Campbell, "Opti
mising selection of units from speech databese for
concatenative synthesis", Proc. EUROSPEECH, pp. 5
81-584, Madrid, Spain, Sept. 1995.
【0058】そのため、コーパス中に合成したい母音連
鎖が存在し、それが単位として選択されればV−V間で
の合成単位の接続が避けられる。しかし、日本語におい
ては母音連鎖の種類は無限に存在するため、全ての母音
連鎖を含むコーパスを構築することは不可能である。
【0059】また、韻律のカバレッジ(文献10参照)
まで考慮すると、更にコーパス量は膨大となる。したが
って、V−V間での合成単位の接続は避けることができ
ない問題があるといえる。
【0060】文献10:河井恒, 樋口宣男, 山本誠一,
"基本周波数および音素接続時間を考慮した音声合成用
波形素片データセットの作成", 信学論 (D-II), vol.
J82-D-II, no. 8, pp. 1229-1238, 1999.
【0061】母音連鎖において、母音中心付近でのフォ
ルマントの遷移は母音境界でのフォルマントの遷移と比
較するとより安定している。したがって、母音中心にお
いて接続を行うと、母音境界において接続を行った場合
に比べて、不連続感を低減できる場合が多い。このこと
は本発明者らが行った予備実験でも明らかにされてい
る。また、文献11に示されているVCV単位はこの考
えに基づいて考案された合成単位である。
【0062】文献11:佐藤大和, "PAECOR-VCV 連鎖を
用いた音声合成方式",信学論 (D),vol. J61-D, no. 11,
pp. 858-865, 1978.
【0063】しかし、母音境界においても滑らかな接続
を行うことができる合成単位が存在する可能性もあるた
め、必ずしも母音中心のみで接続を行ったほうがよいと
は限らない。そのため、母音連鎖においては、母音中心
における接続を行う単位と母音境界で接続を行う単位の
両者を考慮するべきである。
【0064】
【発明が解決しようとする課題】この発明は、上記のよ
うな考察に基づいてなされたものであり、音素単位だけ
でなく音素の中心を境界とするダイフォン単位も用いた
新たな日本語テキスト合成方法を提供することを目的と
する。
【0065】また、この発明は、音素単位のみを用いる
従来法と比較して、より自然性の高い音声を合成するこ
とができ、かつコーパスをより有効に使用することがで
きるようになる日本語テキスト合成方法を提供すること
を目的とする。
【0066】
【課題を解決するための手段】請求項1に記載の発明
は、日本語テキスト音声合成方法において、母音と母音
との連鎖における波形接続において、それらの境界での
接続と、それらの母音中心での接続との両方を考慮して
音声合成単位の選択を行うようにしたことを特徴とす
る。
【0067】請求項2に記載の発明は、請求項1に記載
の発明において、母音と半母音との連鎖における波形接
続において、それらの境界での接続と、半母音の前の母
音の中心での接続との両方を考慮して音声合成単位の選
択を行うようにしたことを特徴とする。
【0068】請求項3に記載の発明は、請求項2に記載
の発明において、母音と鼻音との連鎖における波形接続
において、それらの境界での接続と、鼻音の前の母音の
中心での接続との両方を考慮して音声合成単位の選択を
行うようにしたことを特徴とする。
【0069】
【発明の実施の形態】以下、図4〜図10を参照して、
この発明の実施の形態について説明する。まず、母音中
心における接続について考察を行った後に、本願発明の
特徴である日本語テキスト音声合成方法における音素単
位とダイフォン単位とを用いた単位選択法について説明
する。
【0070】〔1〕母音中心における接続についての考
【0071】母音連鎖において母音境界で波形接続を行
った場合は、母音連鎖において母音中心で波形接続を行
った場合と比較して、より大きなフォルマント遷移の不
連続が現れる。これは、母音中心での波形接続において
は、母音境界での波形接続と比較して、よりスペクトル
が安定しており、統計的に静的特徴の分散が小さくかつ
変化も小さいためであると考えられる。
【0072】このことから、母音連鎖においては母音境
界で波形接続を行うより母音中心で波形接続を行ったほ
うが、よりよい接続を行うことができると予想される。
この予想をメルケプストラム歪みを客観的評価尺度とし
て用いて実験を行うことにより検証する。
【0073】〔1−1〕実験方法
【0074】母音境界において波形接続を行った際と母
音中心において波形接続を行った際の、接続境界周辺に
おけるメルケプストラム歪みについて検討する。
【0075】母音連鎖における各接続方法を図4に示
す。図4(a)は母音境界での波形接続方法を、図4
(b)は母音中心での波形接続方法をそれぞれ示してい
る。
【0076】図4では、母音V1と母音V2とを接続す
る場合を示している。図4においてV* は、全ての母音
を示している。V1fhは母音V1の前半部を、V1lh
母音のV1の後半部をそれぞれ示している。図4(a)
では、Unit1のV1と、Unit2のV2とが接続
されている。図4(b)では、Unit1のV1fhと、
Unit2の(V1lh+V2)とが接続されている。
【0077】日本人男性話者1名が発声した日本語音声
コーパスの中で、人手によってラベル付けされたATR
音素バランス文の中の450文(約30分程度)を用い
る。コーパス中に存在する全ての母音連鎖において音素
境界と音素中心における接続を行い、各場合におけるメ
ルケプストラム歪みの重み付け和(上記式(8)で表さ
れる、以下接続歪みという) の分布を求める。上記式
(8)において、メルケプストラムを計算するためのフ
レーム数ωは4であり、フレームシフトは5msであ
る。各フレームにおけるメルケプストラム歪みは次式
(10)を用いて計算する。
【0078】
【数10】
【0079】ここで、mci (p) は後続母音のあるフレ
ームにおけるF0 適応型平滑化スペクトル(STRAIGHT ス
ペクトル) (文献12参照)から求めたp次元目のメル
ケプストラム係数を示す。同様に、mci-1 (p) は先行
母音におけるメルケプストラム係数を示す。標本化周波
数は16kHzである。
【0080】文献12: H. Kawahara, I. Masuda-Kats
use and A.de Cheveign0, "Restructuring speech repr
esentations using a pitch-adaptive time-frequency
smoothing and an instantaneous-frequency-based F0
extraction: possible roleof a repetitive structure
in sounds", Speech Communication, vol. 27, no.3-
4, pp. 187-207, 1999.
【0081】なお、以下の説明においては、撥音 /N/
も母音とみなすことにする。
【0082】〔1−2〕音素環境が異なる母音を含む場
【0083】音素環境が異なる母音を含む場合の母音連
鎖における接続について検討する。先行母音としては、
コーパス中にて後続環境が母音であるものを全て用いる
(図4においてV* ≠V2の場合も含む)。
【0084】接続歪みの頻度分布を図5に示す。図5か
ら、母音中心における接続(Vowelceter;実線) は母音
境界における接続(Vowel boundary; 破線) と比較し
て、接続歪みをより小さくすることができる場合が多い
ことがわかる。なお、Av.は平均値を、Sd.は標準
偏差を示している。
【0085】単位選択においては、スペクトルの不連続
だけでなく全てのサブコストの和を小さくする単位を見
つけることが重要となる。そのため、接続歪みが小さい
ほうに分布が寄れば、よりコストを小さくできる可能性
のある単位候補数が増えることを意味している。このこ
とから、音素環境が異なる際には、母音中心で接続を行
うことにより、よりスペクトルの不連続が小さい接続を
行うことができ、より多くの良い単位候補が存在するよ
うになることがわかる。
【0086】〔1−3〕音素環境が等しい母音を用いる
場合
【0087】次に、音素環境が等しい母音を用いる場合
について検討する。これは、図4においてV* =V2の
場合に相当する。この場合のコーパス中における単位候
補数は、先の実験の場合(V* ≠V2の場合も含む)と
比較すると約1/3である。
【0088】音素環境が等しい母音を用いた際の接続歪
みの頻度分布を図6に示す。図6からわかるように、母
音中心における接続(Vowel ceter;実線) および母音境
界における接続(Vowel boundary; 破線) のいずれにお
いても、接続歪み頻度分布がほぼ同じであることがわか
る。
【0089】したがって、音素環境が等しい際には、母
音中心における接続と母音境界における接続の間には大
きな違いはない。
【0090】そこで、各単位候補において母音境界にお
ける接続と母音中心における接続を比較し、より接続歪
みを小さくすることができる接続を用いることを考え
る。この際の接続歪みの頻度分布、すなわち、母音境界
における接続と母音中心における接続とのうち接続歪み
の小さい方を用いた場合の接続歪みの頻度分布を、図6
に鎖線(Vowel ceter & Vowel boundary) で示す。この
頻度分布から、この場合には、母音境界における接続ま
たは母音中心における接続のいずれか一方のみを用いた
場合に比較して、接続歪みをより小さくすることができ
ることがわかる。
【0091】これは、母音境界における接続と母音中心
における接続の両者を考慮することにより、単位候補の
数が増え、よりスペクトルの不連続性が小さい接続を行
うことができる単位候補の使用が可能となることを意味
している。
【0092】以上のことから、母音連鎖においては母音
中心における接続と母音境界における接続の両者を併用
することにより、よりよい単位選択を行うことができる
といえる。
【0093】〔2〕この発明による日本語テキスト音声
合成方法についての説明
【0094】この発明による日本語テキスト音声合成方
法では、母音連鎖(V−V連鎖)においては、母音中心
における接続(ダイフォン単位を用いた単位選択)と、
母音境界における接続(従来の音素単位を用いた単位選
択)とを併用して、好適な単位選択を行うことを特徴と
している。なお、それ以外の連鎖においては従来の音素
単位を用いた単位選択を用いる。
【0095】さらに、この実施の形態では、V−V連鎖
だけでなく、V−半母音連鎖、V−鼻音連鎖に関しても
ダイフォン単位による接続を考慮している。V−半母音
連鎖、V−鼻音連鎖に関してもダイフォン単位による接
続を考慮する際には、半母音、鼻音の前の母音の中心に
おける接続を考慮する。また、接続箇所が増加するのを
防ぐため、半母音だけからなる単位は使用していない。
ただし、無音を1つの音素とみなすことにより、半母音
の先行もしくは後続が無音の際には例外とする。
【0096】〔2−1〕音素単位とダイフォン単位を用
いた単位選択法
【0097】音声単位を用いた単位選択において用いら
れるサブコスト関数としては、従来技術の説明の欄にお
いて、既に説明したので、ここではその説明を省略す
る。
【0098】以下、ダイフォン単位を用いた単位選択に
おいて用いられるサブコスト関数について説明する。
【0099】母音中心における接続を考慮する母音の単
位候補に関しては、ダイフォン単位を考慮するために前
半部と後半部の半音素に分割して単位選択を行う。ここ
では、半音素はもととなる音素の半分の持続時間をもつ
ものとしている。ダイフォン単位を考慮する母音のコス
トの計算は音素単位に基づいており、前半部の半音素単
位候補と後半部の半音素単位候補を組み合わせたものを
一つの音素とみなす。
【0100】前半部の半音素単位候補をui f (半音素
に分割する前をu1i)、後半部の半音素単位候補をui
l (半音素に分割する前をu2i)とすると、ターゲット
i(前半部をti f 、後半部をti l )に対する各サ
ブコストは以下のように計算される。
【0101】(1)韻律に関するサブコスト関数Cpro
(ui ,ti ) サブコスト関数Cpro (ui ,ti )は次式(11),
(12)で示されるように、半音素ごとに計算が行わ
れ、各半音素の接続時間durに応じた重み付けが行わ
れることにより計算される。
【0102】
【数11】
【0103】
【数12】
【0104】ここで、Cpro (ui f ,ti f )、C
pro (ui l ,ti l )における音素分割数はM/2と
する。
【0105】(2)F0 不連続に関するサブコスト関数
F0(ui ,ui-1 ) サブコスト関数CF0(ui ,ui-1 )は次式(13)で
示されるように、音素境界(ui-1 とui f )と音素中
心(ui f とui l )におけるサブコストの和として計
算される。
【0106】
【数13】
【0107】(3)音素環境代替に関するサブコスト関
数Cenv (ui ,ui-1 ) サブコスト関数Cenv (ui ,ui-1 )は次式(14)
で示される。半音素の先行音素環境および後続音素環境
は、半音素に分割する前の音素に対する音素環境と等し
いものとされる。ただし、音素中心におけるコスト関数
s d とSp dは音素間のものとは異なっている。
【0108】
【数14】
【0109】(4)スペクトルの不連続に関するサブコ
スト関数Cspec(ui ,ui-1 ) サブコスト関数Cspec(ui ,ui-1 )は次式(15)
で示されるように、音素境界(ui-1 とui f )と音素
中心(ui f とui l )におけるサブコストの和として
計算される。
【0110】
【数15】
【0111】(5)音素の適合性に関するサブコスト関
数Ctyp (ui ,ti ) サブコスト関数Ctyp (ui ,ti )は次式(16)で
示されるように、半音素ごとに計算が行われ、各半音素
の接続時間durに応じた重み付けが行なわれることに
より計算される。
【0112】
【数16】
【0113】ここで、ωf とωl は上記式(12)と等
しい。
【0114】ダイフォン単位を考慮するターゲットti
に対する単位候補ui f ,ui l のコスト計算におい
て、各サブコストの計算に用いられるターゲットと単位
候補を図7に示す。ここで、ui-1 ,ui f ,ui l
コーパス中で連続しているわけではなく、i−1番目、
i番目前半部およびi番目後半部のターゲットに対する
1つの単位候補を意味する。
【0115】ダイフォン単位が使用される際には(u
i-1 ,ui f がコーパス中で連続している場合)、C
env (ui f ,ui-1 ),Cspec(ui f ,ui-1 ),
F0(u i f ,ui-1 )は0となる。また、音素単位が
使用される際には(ui f ,ui l がコーパス中で連続
している場合)、Cenv (ui l ,ui f ),C
spec(u i l ,ui f ),CF0(ui l ,ui f )は0
となる。
【0116】以上のことを考慮して、上記式(3)によ
り示されるトータルコストTCが最小となる単位候補の
組み合わせを動的計画法を用いて選択する。ダイフォン
単位を考慮する母音においては、前半部の候補数がF
個、後半部の候補数がL個であるとすると、F×L個の
パスの計算が行われ、その結果、L個のパスが残る。
【0117】図8は、音素単位とダイフォン単位とを用
いた単位選択の例を示している。
【0118】この例では、入力センテンスは、ついやす
(/ts〔C〕 u〔V〕 i〔V〕 y〔C〕 a
〔V〕 S〔C〕/)である。なお、yは半母音であ
る。
【0119】図8において、”<V* 〕”(V* は全て
の母音を表す)は、母音の後半部を示し、”〔V* >”
は、母音の前半部を示している。
【0120】この例では、/ts-u/、 /u-i/および/i-y/
それぞれの連鎖において、音素単位だけでなくダイフォ
ン単位を考慮して単位選択が行われる。他の連鎖/y-a/
および/a-s/ においては、音素単位のみによる単位選択
が行われる。単位選択の結果、音素境界だけでなく母音
中心においても接続を許容された可変長単位が選択され
る。
【0121】〔3〕評価実験
【0122】上記実施の形態による日本語テキスト音声
合成方法(以下、提案法という)の性能を評価するため
に、音素単位に基づいた従来法との比較を行う。
【0123】〔3−1〕主観評価実験
【0124】〔3−1−1〕実験条件
【0125】上記〔1−1〕の実験方法で用いたものと
同じ音声コーパス(日本人男性話者1名が発声した日本
語音声コーパスの中で、人手によってラベル付けされた
ATR音素バランス文の中の450文(約30分程
度))を用いて実験を行った。ラベリングのみでなくF
0 も人手により修正されている。
【0126】日本語10文の合成音声を用いて対比較実
験を行った。これらの文は単位選択に用いるコーパスに
含まれていない。提案法と従来法を用いて単位選択を行
い、音声を合成する。単位選択法の性能のみを評価する
ために、原音声から抽出した自然な韻律情報とメルケプ
ストラム系列を用いて単位選択を行った。
【0127】音声合成では、高品質な分析合成方式であ
る STRAIGHT (上記文献12参照)を用いて韻律(F0
軌跡、音素持続時間、パワー)の制御を行った。被験者
は日本人成人男女10名である。各試行においては、提
案法による合成音声と従来法による合成音声を対として
ランダムな順序で呈示し、被験者にはより不自然に感じ
る合成音声を選択してもらった。その際、必要に応じて
一度だけでなく何度も合成音声を聴くことを許してい
る。
【0128】〔3−1−2〕実験結果
【0129】合成された10文は366の音素で構成さ
れており、提案法では145の音素境界接続(V−C接
続:125、V−V接続:6、V−半母音接続:3、V
−鼻音接続:11)と25の母音中心接続が行われてい
る。従来法では、163の音素境界接続(V−C接続:
124、V−V接続:16、V−半母音接続:3、V−
鼻音接続:20)が行われている。
【0130】対比較実験の結果を図9に示す。図9で
は、提案法による合成音声と従来法による合成音声のう
ち、自然に感じられた方の割合をPreference scoreとし
て示している。図9から提案法は従来法と比較して、よ
り自然な音声の合成が可能であることが明らかである。
【0131】〔3−2〕客観評価実験
【0132】〔3−2−1〕実験条件
【0133】提案法はダイフォン単位も考慮することで
単位候補数を増やすことができるため、コーパスをより
有効に使用できると予想される。そこで、従来法に対す
る提案法のコーパス削減率を求めた。コーパス削減率
は、平均コスト値が等しい際の従来法と提案法のコーパ
スの大きさの差(コーパス削減量)を、その際の従来法
のコーパスの大きさで割った値として表される。単位選
択に用いたコーパスは、約8時間弱(約10000文)
の音声コーパスを2-n/2(n=0,1,2,...,9)
に縮小したものである。評価文にはこの音声コーパスに
含まれていない53文を用いる。
【0134】〔3−2−2〕実験結果
【0135】コーパスの大きさとコーパス削減率の関係
を図10に示す。図10から、提案法は従来法と比較し
コーパスを削減できることがわかり、より有効にコーパ
スを使用できるといえる。その結果はコーパスが大きく
なるにつれ更に大きくなることがわかる。
【0136】
【発明の効果】この発明によれば、音素単位だけでなく
音素の中心を境界とするダイフォン単位も用いた新たな
日本語テキスト合成方法が得られる。
【0137】また、この発明によれば、音素単位のみを
用いる従来法と比較して、より自然性の高い音声を合成
することができ、かつコーパスをより有効に使用するこ
とができるようになる。
【図面の簡単な説明】
【図1】従来の日本語テキスト音声合成装置の概略構成
を示すブロック図である。
【図2】コスト関数の概念を示す模式図である。
【図3】音素ターゲットti に対する単位候補ui のコ
スト計算において、各サブコストの計算に用いられるタ
ーゲットと単位候補とを示す模式図である。
【図4】母音境界での波形接続方法と母音中心での波形
接続方法とをそれぞれ示す模式図である。
【図5】音素環境が異なる母音を含む場合の接続歪みの
頻度分布を示すグラフである。
【図6】音素環境が等しい母音を用いた際の接続歪みの
頻度分布を示すグラフである。
【図7】ダイフォン単位を考慮するターゲットti に対
する単位候補ui f ,ui l のコスト計算において、各
サブコストの計算に用いられるターゲットと単位候補と
を示す模式図である。
【図8】音素単位とダイフォン単位とを用いた単位選択
の例を示す模式図である。
【図9】主観評価実験の結果を示すグラフである。
【図10】客観評価実験の結果を示すグラフである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 津崎 実 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 Fターム(参考) 5D045 AB02 AB30

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 日本語テキスト音声合成方法において、
    母音と母音との連鎖における波形接続において、それら
    の境界での接続と、それらの母音中心での接続との両方
    を考慮して音声合成単位の選択を行うようにしたことを
    特徴とする日本語テキスト音声合成方法。
  2. 【請求項2】 母音と半母音との連鎖における波形接続
    において、それらの境界での接続と、半母音の前の母音
    の中心での接続との両方を考慮して音声合成単位の選択
    を行うようにしたことを特徴とする請求項1に記載の日
    本語テキスト音声合成方法。
  3. 【請求項3】 母音と鼻音との連鎖における波形接続に
    おいて、それらの境界での接続と、鼻音の前の母音の中
    心での接続との両方を考慮して音声合成単位の選択を行
    うようにしたことを特徴とする請求項2に記載の日本語
    テキスト音声合成方法。
JP2002006545A 2002-01-15 2002-01-15 日本語テキスト音声合成方法 Pending JP2003208188A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002006545A JP2003208188A (ja) 2002-01-15 2002-01-15 日本語テキスト音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002006545A JP2003208188A (ja) 2002-01-15 2002-01-15 日本語テキスト音声合成方法

Publications (1)

Publication Number Publication Date
JP2003208188A true JP2003208188A (ja) 2003-07-25

Family

ID=27645282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002006545A Pending JP2003208188A (ja) 2002-01-15 2002-01-15 日本語テキスト音声合成方法

Country Status (1)

Country Link
JP (1) JP2003208188A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005265895A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法
JP2007079019A (ja) * 2005-09-13 2007-03-29 Oki Electric Ind Co Ltd 音声合成方法,音声合成装置,およびコンピュータプログラム
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2010224392A (ja) * 2009-03-25 2010-10-07 Oki Electric Ind Co Ltd 発話補助装置、方法及びプログラム
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP2011242465A (ja) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声素片データベース作成装置、代替音声モデル作成装置、音声合成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP2013205637A (ja) * 2012-03-28 2013-10-07 Yamaha Corp 音声合成装置
CN113571094A (zh) * 2021-02-03 2021-10-29 腾讯科技(深圳)有限公司 一种口语发音评测方法、装置、设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005265895A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及び方法
JP2007079019A (ja) * 2005-09-13 2007-03-29 Oki Electric Ind Co Ltd 音声合成方法,音声合成装置,およびコンピュータプログラム
JP2008052628A (ja) * 2006-08-28 2008-03-06 Advanced Telecommunication Research Institute International アニメーションデータ作成装置及びアニメーションデータ作成プログラム
JP2010224392A (ja) * 2009-03-25 2010-10-07 Oki Electric Ind Co Ltd 発話補助装置、方法及びプログラム
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP5275470B2 (ja) * 2009-09-10 2013-08-28 株式会社東芝 音声合成装置およびプログラム
JP2011242465A (ja) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 音声素片データベース作成装置、代替音声モデル作成装置、音声合成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム
JP2013205637A (ja) * 2012-03-28 2013-10-07 Yamaha Corp 音声合成装置
CN113571094A (zh) * 2021-02-03 2021-10-29 腾讯科技(深圳)有限公司 一种口语发音评测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Tokuda et al. Speech synthesis based on hidden Markov models
US11763797B2 (en) Text-to-speech (TTS) processing
Govind et al. Expressive speech synthesis: a review
US20200410981A1 (en) Text-to-speech (tts) processing
JP5039865B2 (ja) 声質変換装置及びその方法
JP5148026B1 (ja) 音声合成装置および音声合成方法
JPWO2005109399A1 (ja) 音声合成装置および方法
Kim et al. HMM-based Korean speech synthesis system for hand-held devices
Astrinaki et al. Reactive and continuous control of HMM-based speech synthesis
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
Mukherjee et al. A bengali hmm based speech synthesis system
JP2003208188A (ja) 日本語テキスト音声合成方法
Yin An overview of speech synthesis technology
TWI360108B (en) Method for synthesizing speech
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
JPH01284898A (ja) 音声合成方法
Chouireb et al. Towards a high quality Arabic speech synthesis system based on neural networks and residual excited vocal tract model
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network
Tsiakoulis et al. An overview of the ILSP unit selection text-to-speech synthesis system
Huang et al. Personalized Spontaneous Speech Synthesis Using a Small-Sized Unsegmented Semispontaneous Speech
EP1589524B1 (en) Method and device for speech synthesis
Klabbers et al. Analysis of affective speech recordings using the superpositional intonation model.
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060315

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060712