JP2003208188A

JP2003208188A - 日本語テキスト音声合成方法

Info

Publication number: JP2003208188A
Application number: JP2002006545A
Authority: JP
Inventors: Tomomoto Toda; 智基戸田; Hisashi Kawai; 恒河井; Minoru Tsuzaki; 実津崎
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-01-15
Filing date: 2002-01-15
Publication date: 2003-07-25

Abstract

(57)【要約】【課題】この発明は、音素単位だけでなく音素の中心
を境界とするダイフォン単位も用いた新たな日本語テキ
スト合成方法を提供することを目的とする。また、この
発明は、音素単位のみを用いる従来法と比較して、より
自然性の高い音声を合成することができ、かつコーパス
をより有効に使用することができるようになる日本語テ
キスト合成方法を提供することを目的とする。【解決手段】日本語テキスト音声合成方法において、
母音と母音との連鎖における波形接続において、それら
の境界での接続と、それらの母音中心での接続との両方
を考慮して音声合成単位の選択を行うようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、日本語のテキス
ト情報を合成音声で読み上げることができるテキスト音
声合成方法に関する。

【０００２】

【従来の技術】〔１〕従来の日本語テキスト音声合成装
置についての説明

【０００３】図１は、従来の日本語テキスト音声合成装
置の概略構成を示してる。

【０００４】入力された日本語のテキストは、言語処理
部１で形態素解析、係り受け解析が行われ、音素記号、
アクセント記号等に変換される。

【０００５】韻律パターン生成部２では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音素持続時間（声の長
さ）、基本周波数（声の高さＦ₀）、母音中心のパワー
（声の大きさ）等の推定が行われる。

【０００６】音素単位選択部３では、推定された音素持
続時間、基本周波数、母音中心のパワー等に最も近く、
かつ波形辞書５に蓄積されている合成単位（音素片）を
接続したときの歪みが最も小さくなる合成単位の組み合
わせが動的計画法を用いて選択される。

【０００７】音素波形生成部４では、選択された音素片
の組み合わせにしたがって、ピッチを変換しつつ音素片
の接続を行うことによって音声が生成される。

【０００８】ところで、音素単位選択部３によって行わ
れる単位選択では、知覚的特徴に一致した尺度（コス
ト）を用いることが重要である（文献１参照）。

【０００９】文献１： E. Klabbers and R. Veldhuis,
"Reducing audible spectral discontinuities", IEEE
Trans. Speech and Audio Processing, vol. 9, no.
1, pp. 39-51, 2001.

【００１０】そのため、観測可能な特徴量（物理量，言
語情報）から心理量へのコスト関数によるマッピングを
行う必要がある。図２にコスト関数の概念図を示す。

【００１１】コスト関数は聴覚上の印象を反映する必要
があるため、知覚実験に基づいて推定するべきである。
基本周波数Ｆ₀，音素持続時間Durationのように説明変
数の空間が比較的単純な場合は、知覚実験により物理量
から心理量へのマッピングを推定することが可能であ
る。しかし、より高次元の特徴量を説明変数とした複雑
な空間においては、知覚実験による推定は実現が困難で
ある。また、心理量を直接表現するものとして聴覚上の
特性をよく反映した物理量に関する研究が数多くなされ
ているが、十分な精度をもつ物理量はいまだ見つけられ
ていない（文献２，３参照）。

【００１２】文献２：Y. Stylianou and A.K. Syrdal,
"Perceptual and objective detection of discontinu
ities in concatenative speech synthesis", Proc. IC
ASSP,pp. 837-840, Salt Lake City, U.S.A., May. 200
1. 文献３：M. Tsuzaki, "Feature extraction by auditor
y modeling for unitselection in concatenative spee
ch synthesis", Proc. EUROSPEECH, pp. 2223-2226, Aa
lborg, Denmark, Sep. 2001.

【００１３】言語情報から心理情報へのマッピングに関
しては、知覚実験による推定が比較的容易である。この
マッピングを用いることにより、物理量では十分に表現
できない知覚的特徴を捕らえることができる可能性があ
る。ただし、言語情報のみではカテゴリカルな特徴しか
表現できず、同一カテゴリ内のサンプル間の比較ができ
ないため、各サンプルの特徴を表すことのできる物理量
との併用も必要である。

【００１４】この例では、物理量と知覚実験結果から直
接求められる心理量を用いたコスト関数Ｗｃを使用す
る。コスト関数Ｗｃは、表１に示す５つのサブコスト関
数から構成される。Ｃ_proおよびＣ_Foは音源情報に基づ
いたサブコスト関数であり、Ｃ _typ、Ｃ_envおよびＣ
_specは声道情報に基づいたサブコスト関数である。

【００１５】

【表１】

【００１６】つまり、図３に示すように、ｕ_i-1、
ｕ_i、ｕ_i+1を単位候補の音素片とし、ｔ_i-1、ｔ_i、
ｔ_i+1を実際に使用する環境（ターゲット）とすると、
ｕ_iに対するサブコスト関数には、Ｃ_pro（ｕ_i，
ｔ_i）、Ｃ_typ（ｕ_i，ｔ_i）、Ｃ_en _v（ｕ_i，
ｕ_i-1）、Ｃ_spec（ｕ_i，ｕ_i-1）およびＣ_Fo（ｕ_i，
ｕ_i-1）がある。

【００１７】図３において、ｕ_i-1とｕ_iはコーパス中
で連続しているわけではなく、ｉ−１番目とｉ番目のタ
ーゲットｔ_i-1、ｔ_iに対する１つの単位候補を意味す
る。

【００１８】Ｃ_pro（ｕ_i，ｔ_i）およびＣ
_typ（ｕ_i，ｔ_i）は、ｉ番目の音素について抽出され
た単位候補（ｕ_i）と、実際に使用する環境（ターゲッ
トｔ_i）との間の歪みを表している。また、Ｃ_env（ｕ
_i，ｕ_i-1）、Ｃ_spec（ｕ_i，ｕ_i-1）およびＣ_Fo（ｕ
_i，ｕ_i-1）は、ｉ番目の単位候補（ｕ_i）と、ｉ−１
番目の単位候補（ｕ_i-1）とを接続したときに生ずる歪
みを表している。

【００１９】先行の単位候補がｕ_i-1である時の、合成
したい音素ターゲットｔ_iに対する単位候補ｕ_iのコス
ト関数ＷＣ（ｕ_i, ｔ_i）は次式（１）で表される。

【００２０】

【数１】

【００２１】ここで、Ｃ_pro，Ｃ_F0，Ｃ_env，Ｃ_spec，
Ｃ_typはサブコスト関数であり、詳細は以下で述べる。
各サブコストはほぼ等しいダイナミックレンジに正規化
されたものを用いる。

【００２２】ｗ_pro，ｗ_F0，ｗ_env，ｗ_spec，ｗ_typは
各サブコストに対する重みを示し、これら総和は、次式
（２）に示すように１となる。この例では、全てのサブ
コストに対して等しい重み（０．２）を用いている。

【００２３】

【数２】

【００２４】音素単位選択部３は、入力されたセンテン
ス中の各音素をターゲットとして、次式（３）で示され
るトータルコストＴＣが最小となる単位候補の組合せを
動的計画法を用いて選択する。

【００２５】

【数３】

【００２６】ここで、Ｎはセンテンス中のターゲット音
素数を示す。ＷＣ (ｕ_i,ｔ_i) は合成したいターゲット
ｔ_iに対する単位候補ｕ_iのコストを示す。

【００２７】以下、各サブコスト関数について説明す
る。

【００２８】（１）韻律に関するサブコスト関数：Ｃ
_pro サブコスト関数Ｃ_pro( ｕ_i,ｔ_i）は単位候補ｕ_iとタ
ーゲットｔ_iとの間における韻律（Ｆ₀軌跡, 音素持続
時間) の違いにより生じる自然性の劣化を示しており、
次式（４）で表される。

【００２９】

【数４】

【００３０】ここで、Ｄ_F0( ｕ_i,ｔ_i,ｍ）は、単位候補
ｕ_iとターゲットｔ_iにおける、ｍ番目の分割区間にお
けるｌｏｇＦ₀の平均値の差を示している。また、Ｍは
音素分割数を示している。また、Ｄ_d( ｕ_i,ｔ_i）は単
位候補ｕ_iとターゲットｔ_iにおける音素持続時間の差
を示している。また、Ｐは、Ｄ_F0( ｕ_i,ｔ_i,ｍ）とＤ _d
( ｕ_i,ｔ_i）とを変数とする非線形関数である。

【００３１】この例では、合成時に韻律変形を行うこと
を想定し、韻律変形により生じる自然性劣化についての
知覚実験結果から関数Ｐが決定される。韻律変形を行わ
ない際には、ターゲットと異なった韻律を用いることに
より生じる自然性劣化についての知覚実験を行い、その
結果から関数Ｐを決定する必要がある。

【００３２】（２）Ｆ₀不連続に関するサブコスト関
数：Ｃ_F0 サブコスト関数ＣＦ₀(ｕ_i,ｕ_i-1)は、ｕ_i-1 とｕ_iとの
接続境界におけるＦ₀の不連続性により生じる自然性の
劣化を示しており、次式（５）で表される。

【００３３】

【数５】

【００３４】ここで、Ｄ_F0( ｕ_i,ｕ_i-1)は、ｕ_i-1とｕ
_iとの接続境界におけるＬｏｇＦ₀の差に基づいた距離
を示す。ｕ_i-1とｕ_iとがコーパス中で連続しており、
接続が生じない単位候補間においては、このサブコスト
は０となる。

【００３５】（３）音素環境代替に関するサブコスト関
数：Ｃ_env サブコスト関数Ｃ_env( ｕ_i,ｕ_i-1)は、単位候補とター
ゲットとの間における音素環境の代替により生じる自然
性の劣化を表し、知覚実験結果から決定される（文献４
参照）。このサブコスト関数Ｃ_env( ｕ_i,ｕ_i-1)は次式
（６）で表される。

【００３６】文献４：河井恒, 津崎実, 舛田剛志, 岩澤
秀紀, "波形素片接続時の音素環境代替による自然性劣
化の知覚的評価", 信学技法, SP2001-22, pp. 51-57,
May,2001.

【００３７】

【数６】

【００３８】ここで、Ｓ_s( ｕ_i,Ｅ_s( ｕ_i-1), ｔ_i)
は後続環境の代替により生じるサブコスト関数を示し、
Ｓ_p( ｕ_i,Ｅ_P( ｕ_i),ｔ_i-1)は先行環境の代替により
生じるサブコスト関数を示す。Ｅ_s( ｕ_i-1)はコーパス
中での後続の音素を示し、Ｅ _P (ｕ_i) は先行音素を示
している。

【００３９】例えば、「あえ」の「あ」（ｕ_i-1 ＝ /ａ
/ ，Ｅ_s( ｕ_i-1)＝ /ｅ/ ）と、「んお」の「お」（ｕ
_i＝ /ｏ/ ，Ｅ_p( ｕ_i) ＝ /Ｎ/ ）を接続して、「あ
お」（ｔ_i-1 ＝ /ａ/ ，ｔ_i＝ /ｏ/ ）を合成する際に
は、サブコスト関数Ｃ_env(ｕ_i,ｕ_i-1)は、次式（７）
で表される。

【００４０】

【数７】

【００４１】環境が一致していても、Ｓ_sとＳ_pは０に
なるとは限らない。その場合コスト値は、音素間( ｕ_i,
ｕ_i-1)のラベリングの曖昧さ等に起因する接続の難しさ
を表す。なお、ｕ_i-1とｕ_iとがコーパス中で連続して
おり、接続が生じない単位候補間においては、このサブ
コストは０になる。

【００４２】（４）スペクトルの不連続に関するサブコ
スト関数：Ｃ_spec サブコスト関数Ｃ_spec( ｕ_i,ｕ_i-1)は、ｕ_i-1とｕ_iと
の接続境界におけるスペクトルの不連続により生じる自
然性の劣化を表しており、次式（８）で表される。

【００４３】

【数８】

【００４４】ここで、ｈ（ｆ）は、長さωの三角窓を示
している。ＭＣＤ（ｕ_i，ｕ_i-1，ｆ）は、単位候補ｕ
_i-1における終端からｆ番目のフレームと単位候補ｕ_i
の始端からｆ番目のフレームとの間におけるメルケプス
トラム歪みを示している。ｕ _i-1とｕ_iとがコーパス中
で連続しており、接続が生じない単位候補間において
は、このサブコスト関数は０となる。

【００４５】（５）音素の適合性に関するサブコスト関
数：Ｃ_typ サブコスト関数Ｃ_typ( ｕ_i,ｔ_i) は音素の適合性を表
しており、単位候補ｕ _iとターゲットｔ_iとの間におけ
る平均的なスペクトルの差により生じる自然の劣化を示
している。このサブコスト関数Ｃ_typ( ｕ_i,ｔ_i) は次
式（９）で表される。

【００４６】

【数９】

【００４７】ここで、Ｃenは、対数スペクトルセントロ
イドを示している。また、ＭＣＤは、単位候補ｕ_iのセ
ントロイドＣｅｎ（ｕ_i) とターゲットｔ_iのセントロ
イドＣｅｎ( ｔ_i) との間のメルケプストラム歪みを示
す。ターゲットｔ_iのセントロイドＣen（ｔ_i) の計算
には、ＨＭＭによる音声合成方式（文献５参照）により
出力されるメルケプストラムが用いられる。

【００４８】文献５：吉村貴克, 徳田恵一, 益子貴史,
小林隆夫, 北村正, "HMM に基づく音声合成におけるス
ペクトル・ピッチ・継続長の同時モデル化", 信学論
(D-II), vol. J83-D-II, no. 11, pp. 2099-2107, 200
0.

【００４９】〔２〕従来の各種単位選択法についての説
明

【００５０】近年、テキスト音声合成（TTS:Text-to-Sp
eech) 装置においてはコーパスベースのものが主流とな
っており、音声素片波形を接続して音声を合成すること
によって、品質の高い合成音声が得られるようになって
きている。しかし、その品質は十分なものとはいいがた
く、読み上げ口調の文章の合成に限っても改善すべき点
は数多く残されている。本発明者らは読み上げ文章の合
成を対象とした、より高品質な日本語テキスト音声合成
装置の構築を目指している。

【００５１】日本語では、母音の無声化を除くと、ＣＶ
（Ｃ：子音，Ｖ：母音）とＶから音節が構成されるた
め、日本語テキスト音声合成装置においては、合成単位
としてＣＶを考慮することにより効率的に音声コーパス
を構築することが可能である。また、ＣからＶへの遷移
は音韻性の知覚上重要であると考えられるため、日本語
テキスト音声合成装置では合成単位としてはＣＶ単位が
適している。

【００５２】しかし、ＣＶ単位を用いて音声を合成する
と、ＶからＶへの接続によりしばしば不連続感が生じ
る。これは、ＶからＶへの遷移はフォルマントが滑らか
に遷移する区間であるため、接続によりフォルマントの
不連続が生じると自然性が大きく劣化してしまうからで
ある。そのため、Ｖ−Ｖ間での滑らかな接続の実現は重
要な課題である。

【００５３】Ｖ−Ｖ間の合成単位の接続を避けるため
に、より長い単位が提案されている（文献６、７、８参
照）。

【００５４】文献６：H. Kawai, N. Higuchi, T. Shimi
zu and S. Yamamoto, "Developmentof a text-to-speec
h system for Japanese based on waveform splicing",
Proc. ICASSP, pp. 569-572, Adelaide, Australia, A
pr. 1994. 文献７：S. Takano, K. Tanaka, H. Mizuno, M. Abe an
d S. Nakajima, "A Japanese TTS system based on mul
tiform units and a speech modification algorithm w
ith harmonics reconstruction", IEEE Trans. Speech
and Audio Processing, vol. 9, no. 1, pp. 3-10, 200
1. 文献８：N. Iwahashi, N. Kaiki and Y. Sagisaka, "Sp
eech segment selection for concatenative synthesis
based on spectral distortion minimization", IEICE
Trans. Fundamentals, vol. E76-A, no. 11, pp. 1942
-1948, 1993.

【００５５】文献６に示されるように、河井らによって
提案されたＣＶ単位は、出現頻度の高いＣＶに続く母音
連鎖を１つの単位としてみなすものであり、ＣＶ単位を
拡張したものである。

【００５６】また、他の単位としては、文献８に示され
るように、岩橋らによって提案された可変長単位があ
る。この方法では、合成したい音素系列に対するコスト
関数を定め、その総和を最小とする基準により、音声コ
ーパスから最適な単位が選択される。音素単位に基づい
た動的計画法による探索を行うことにより、様々な長さ
の音素連鎖からなる単位を選択することができる（文献
９参照）。

【００５７】文献９：A Black and N. Campbell, "Opti
mising selection of units from speech databese for
concatenative synthesis", Proc. EUROSPEECH, pp. 5
81-584, Madrid, Spain, Sept. 1995.

【００５８】そのため、コーパス中に合成したい母音連
鎖が存在し、それが単位として選択されればＶ−Ｖ間で
の合成単位の接続が避けられる。しかし、日本語におい
ては母音連鎖の種類は無限に存在するため、全ての母音
連鎖を含むコーパスを構築することは不可能である。

【００５９】また、韻律のカバレッジ（文献１０参照）
まで考慮すると、更にコーパス量は膨大となる。したが
って、Ｖ−Ｖ間での合成単位の接続は避けることができ
ない問題があるといえる。

【００６０】文献１０：河井恒, 樋口宣男, 山本誠一,
"基本周波数および音素接続時間を考慮した音声合成用
波形素片データセットの作成", 信学論 (D-II), vol.
J82-D-II, no. 8, pp. 1229-1238, 1999.

【００６１】母音連鎖において、母音中心付近でのフォ
ルマントの遷移は母音境界でのフォルマントの遷移と比
較するとより安定している。したがって、母音中心にお
いて接続を行うと、母音境界において接続を行った場合
に比べて、不連続感を低減できる場合が多い。このこと
は本発明者らが行った予備実験でも明らかにされてい
る。また、文献１１に示されているＶＣＶ単位はこの考
えに基づいて考案された合成単位である。

【００６２】文献１１：佐藤大和, "PAECOR-VCV 連鎖を
用いた音声合成方式",信学論 (D),vol. J61-D, no. 11,
pp. 858-865, 1978.

【００６３】しかし、母音境界においても滑らかな接続
を行うことができる合成単位が存在する可能性もあるた
め、必ずしも母音中心のみで接続を行ったほうがよいと
は限らない。そのため、母音連鎖においては、母音中心
における接続を行う単位と母音境界で接続を行う単位の
両者を考慮するべきである。

【００６４】

【発明が解決しようとする課題】この発明は、上記のよ
うな考察に基づいてなされたものであり、音素単位だけ
でなく音素の中心を境界とするダイフォン単位も用いた
新たな日本語テキスト合成方法を提供することを目的と
する。

【００６５】また、この発明は、音素単位のみを用いる
従来法と比較して、より自然性の高い音声を合成するこ
とができ、かつコーパスをより有効に使用することがで
きるようになる日本語テキスト合成方法を提供すること
を目的とする。

【００６６】

【課題を解決するための手段】請求項１に記載の発明
は、日本語テキスト音声合成方法において、母音と母音
との連鎖における波形接続において、それらの境界での
接続と、それらの母音中心での接続との両方を考慮して
音声合成単位の選択を行うようにしたことを特徴とす
る。

【００６７】請求項２に記載の発明は、請求項１に記載
の発明において、母音と半母音との連鎖における波形接
続において、それらの境界での接続と、半母音の前の母
音の中心での接続との両方を考慮して音声合成単位の選
択を行うようにしたことを特徴とする。

【００６８】請求項３に記載の発明は、請求項２に記載
の発明において、母音と鼻音との連鎖における波形接続
において、それらの境界での接続と、鼻音の前の母音の
中心での接続との両方を考慮して音声合成単位の選択を
行うようにしたことを特徴とする。

【００６９】

【発明の実施の形態】以下、図４〜図１０を参照して、
この発明の実施の形態について説明する。まず、母音中
心における接続について考察を行った後に、本願発明の
特徴である日本語テキスト音声合成方法における音素単
位とダイフォン単位とを用いた単位選択法について説明
する。

【００７０】〔１〕母音中心における接続についての考
察

【００７１】母音連鎖において母音境界で波形接続を行
った場合は、母音連鎖において母音中心で波形接続を行
った場合と比較して、より大きなフォルマント遷移の不
連続が現れる。これは、母音中心での波形接続において
は、母音境界での波形接続と比較して、よりスペクトル
が安定しており、統計的に静的特徴の分散が小さくかつ
変化も小さいためであると考えられる。

【００７２】このことから、母音連鎖においては母音境
界で波形接続を行うより母音中心で波形接続を行ったほ
うが、よりよい接続を行うことができると予想される。
この予想をメルケプストラム歪みを客観的評価尺度とし
て用いて実験を行うことにより検証する。

【００７３】〔１−１〕実験方法

【００７４】母音境界において波形接続を行った際と母
音中心において波形接続を行った際の、接続境界周辺に
おけるメルケプストラム歪みについて検討する。

【００７５】母音連鎖における各接続方法を図４に示
す。図４（ａ）は母音境界での波形接続方法を、図４
（ｂ）は母音中心での波形接続方法をそれぞれ示してい
る。

【００７６】図４では、母音Ｖ１と母音Ｖ２とを接続す
る場合を示している。図４においてＶ^*は、全ての母音
を示している。Ｖ１_fhは母音Ｖ１の前半部を、Ｖ１_lhは
母音のＶ１の後半部をそれぞれ示している。図４（ａ）
では、Ｕｎｉｔ１のＶ１と、Ｕｎｉｔ２のＶ２とが接続
されている。図４（ｂ）では、Ｕｎｉｔ１のＶ１_fhと、
Ｕｎｉｔ２の（Ｖ１_lh＋Ｖ２）とが接続されている。

【００７７】日本人男性話者１名が発声した日本語音声
コーパスの中で、人手によってラベル付けされたＡＴＲ
音素バランス文の中の４５０文（約３０分程度）を用い
る。コーパス中に存在する全ての母音連鎖において音素
境界と音素中心における接続を行い、各場合におけるメ
ルケプストラム歪みの重み付け和（上記式（８）で表さ
れる、以下接続歪みという) の分布を求める。上記式
（８）において、メルケプストラムを計算するためのフ
レーム数ωは４であり、フレームシフトは５ｍｓであ
る。各フレームにおけるメルケプストラム歪みは次式
（１０）を用いて計算する。

【００７８】

【数１０】

【００７９】ここで、ｍｃ_i ^(p)は後続母音のあるフレ
ームにおけるＦ₀適応型平滑化スペクトル(STRAIGHT ス
ペクトル) （文献１２参照）から求めたｐ次元目のメル
ケプストラム係数を示す。同様に、ｍｃ_i-1 ^(p)は先行
母音におけるメルケプストラム係数を示す。標本化周波
数は１６ｋＨｚである。

【００８０】文献１２： H. Kawahara, I. Masuda-Kats
use and A.de Cheveign₀, "Restructuring speech repr
esentations using a pitch-adaptive time-frequency
smoothing and an instantaneous-frequency-based F₀
extraction: possible roleof a repetitive structure
in sounds", Speech Communication, vol. 27, no.3-
4, pp. 187-207, 1999.

【００８１】なお、以下の説明においては、撥音 /Ｎ/
も母音とみなすことにする。

【００８２】〔１−２〕音素環境が異なる母音を含む場
合

【００８３】音素環境が異なる母音を含む場合の母音連
鎖における接続について検討する。先行母音としては、
コーパス中にて後続環境が母音であるものを全て用いる
（図４においてＶ^*≠Ｖ２の場合も含む）。

【００８４】接続歪みの頻度分布を図５に示す。図５か
ら、母音中心における接続（Vowelceter;実線) は母音
境界における接続（Vowel boundary; 破線) と比較し
て、接続歪みをより小さくすることができる場合が多い
ことがわかる。なお、Ａｖ．は平均値を、Ｓｄ．は標準
偏差を示している。

【００８５】単位選択においては、スペクトルの不連続
だけでなく全てのサブコストの和を小さくする単位を見
つけることが重要となる。そのため、接続歪みが小さい
ほうに分布が寄れば、よりコストを小さくできる可能性
のある単位候補数が増えることを意味している。このこ
とから、音素環境が異なる際には、母音中心で接続を行
うことにより、よりスペクトルの不連続が小さい接続を
行うことができ、より多くの良い単位候補が存在するよ
うになることがわかる。

【００８６】〔１−３〕音素環境が等しい母音を用いる
場合

【００８７】次に、音素環境が等しい母音を用いる場合
について検討する。これは、図４においてＶ^*＝Ｖ２の
場合に相当する。この場合のコーパス中における単位候
補数は、先の実験の場合（Ｖ^*≠Ｖ２の場合も含む）と
比較すると約１／３である。

【００８８】音素環境が等しい母音を用いた際の接続歪
みの頻度分布を図６に示す。図６からわかるように、母
音中心における接続（Vowel ceter;実線) および母音境
界における接続（Vowel boundary; 破線) のいずれにお
いても、接続歪み頻度分布がほぼ同じであることがわか
る。

【００８９】したがって、音素環境が等しい際には、母
音中心における接続と母音境界における接続の間には大
きな違いはない。

【００９０】そこで、各単位候補において母音境界にお
ける接続と母音中心における接続を比較し、より接続歪
みを小さくすることができる接続を用いることを考え
る。この際の接続歪みの頻度分布、すなわち、母音境界
における接続と母音中心における接続とのうち接続歪み
の小さい方を用いた場合の接続歪みの頻度分布を、図６
に鎖線（Vowel ceter & Vowel boundary) で示す。この
頻度分布から、この場合には、母音境界における接続ま
たは母音中心における接続のいずれか一方のみを用いた
場合に比較して、接続歪みをより小さくすることができ
ることがわかる。

【００９１】これは、母音境界における接続と母音中心
における接続の両者を考慮することにより、単位候補の
数が増え、よりスペクトルの不連続性が小さい接続を行
うことができる単位候補の使用が可能となることを意味
している。

【００９２】以上のことから、母音連鎖においては母音
中心における接続と母音境界における接続の両者を併用
することにより、よりよい単位選択を行うことができる
といえる。

【００９３】〔２〕この発明による日本語テキスト音声
合成方法についての説明

【００９４】この発明による日本語テキスト音声合成方
法では、母音連鎖（Ｖ−Ｖ連鎖）においては、母音中心
における接続（ダイフォン単位を用いた単位選択）と、
母音境界における接続（従来の音素単位を用いた単位選
択）とを併用して、好適な単位選択を行うことを特徴と
している。なお、それ以外の連鎖においては従来の音素
単位を用いた単位選択を用いる。

【００９５】さらに、この実施の形態では、Ｖ−Ｖ連鎖
だけでなく、Ｖ−半母音連鎖、Ｖ−鼻音連鎖に関しても
ダイフォン単位による接続を考慮している。Ｖ−半母音
連鎖、Ｖ−鼻音連鎖に関してもダイフォン単位による接
続を考慮する際には、半母音、鼻音の前の母音の中心に
おける接続を考慮する。また、接続箇所が増加するのを
防ぐため、半母音だけからなる単位は使用していない。
ただし、無音を１つの音素とみなすことにより、半母音
の先行もしくは後続が無音の際には例外とする。

【００９６】〔２−１〕音素単位とダイフォン単位を用
いた単位選択法

【００９７】音声単位を用いた単位選択において用いら
れるサブコスト関数としては、従来技術の説明の欄にお
いて、既に説明したので、ここではその説明を省略す
る。

【００９８】以下、ダイフォン単位を用いた単位選択に
おいて用いられるサブコスト関数について説明する。

【００９９】母音中心における接続を考慮する母音の単
位候補に関しては、ダイフォン単位を考慮するために前
半部と後半部の半音素に分割して単位選択を行う。ここ
では、半音素はもととなる音素の半分の持続時間をもつ
ものとしている。ダイフォン単位を考慮する母音のコス
トの計算は音素単位に基づいており、前半部の半音素単
位候補と後半部の半音素単位候補を組み合わせたものを
一つの音素とみなす。

【０１００】前半部の半音素単位候補をｕ_i ^f（半音素
に分割する前をｕ_1i）、後半部の半音素単位候補をｕ_i
^l（半音素に分割する前をｕ_2i）とすると、ターゲット
ｔ_i（前半部をｔ_i ^f、後半部をｔ_i ^l）に対する各サ
ブコストは以下のように計算される。

【０１０１】（１）韻律に関するサブコスト関数Ｃ_pro
（ｕ_i，ｔ_i）サブコスト関数Ｃ_pro（ｕ_i，ｔ_i）は次式（１１），
（１２）で示されるように、半音素ごとに計算が行わ
れ、各半音素の接続時間ｄｕｒに応じた重み付けが行わ
れることにより計算される。

【０１０２】

【数１１】

【０１０３】

【数１２】

【０１０４】ここで、Ｃ_pro（ｕ_i ^f，ｔ_i ^f）、Ｃ
_pro（ｕ_i ^l，ｔ_i ^l）における音素分割数はＭ／２と
する。

【０１０５】（２）Ｆ₀不連続に関するサブコスト関数
Ｃ_F0（ｕ_i，ｕ_i-1）サブコスト関数Ｃ_F0（ｕ_i，ｕ_i-1）は次式（１３）で
示されるように、音素境界（ｕ_i-1とｕ_i ^f）と音素中
心（ｕ_i ^fとｕ_i ^l）におけるサブコストの和として計
算される。

【０１０６】

【数１３】

【０１０７】（３）音素環境代替に関するサブコスト関
数Ｃ_env（ｕ_i，ｕ_i-1）サブコスト関数Ｃ_env（ｕ_i，ｕ_i-1）は次式（１４）
で示される。半音素の先行音素環境および後続音素環境
は、半音素に分割する前の音素に対する音素環境と等し
いものとされる。ただし、音素中心におけるコスト関数
Ｓ_s ^dとＳ_p ^dは音素間のものとは異なっている。

【０１０８】

【数１４】

【０１０９】（４）スペクトルの不連続に関するサブコ
スト関数Ｃ_spec（ｕ_i，ｕ_i-1）サブコスト関数Ｃ_spec（ｕ_i，ｕ_i-1）は次式（１５）
で示されるように、音素境界（ｕ_i-1とｕ_i ^f）と音素
中心（ｕ_i ^fとｕ_i ^l）におけるサブコストの和として
計算される。

【０１１０】

【数１５】

【０１１１】（５）音素の適合性に関するサブコスト関
数Ｃ_typ（ｕ_i，ｔ_i）サブコスト関数Ｃ_typ（ｕ_i，ｔ_i）は次式（１６）で
示されるように、半音素ごとに計算が行われ、各半音素
の接続時間ｄｕｒに応じた重み付けが行なわれることに
より計算される。

【０１１２】

【数１６】

【０１１３】ここで、ω_fとω_lは上記式（１２）と等
しい。

【０１１４】ダイフォン単位を考慮するターゲットｔ_i
に対する単位候補ｕ_i ^f，ｕ_i ^lのコスト計算におい
て、各サブコストの計算に用いられるターゲットと単位
候補を図７に示す。ここで、ｕ_i-1，ｕ_i ^f，ｕ_i ^lは
コーパス中で連続しているわけではなく、ｉ−１番目、
ｉ番目前半部およびｉ番目後半部のターゲットに対する
１つの単位候補を意味する。

【０１１５】ダイフォン単位が使用される際には（ｕ
_i-1，ｕ_i ^fがコーパス中で連続している場合）、Ｃ
_env（ｕ_i ^f，ｕ_i-1），Ｃ_spec（ｕ_i ^f，ｕ_i-1），
Ｃ_F0（ｕ _i ^f，ｕ_i-1）は０となる。また、音素単位が
使用される際には（ｕ_i ^f，ｕ_i ^lがコーパス中で連続
している場合）、Ｃ_env（ｕ_i ^l，ｕ_i ^f），Ｃ
_spec（ｕ _i ^l，ｕ_i ^f），Ｃ_F0（ｕ_i ^l，ｕ_i ^f）は０
となる。

【０１１６】以上のことを考慮して、上記式（３）によ
り示されるトータルコストＴＣが最小となる単位候補の
組み合わせを動的計画法を用いて選択する。ダイフォン
単位を考慮する母音においては、前半部の候補数がＦ
個、後半部の候補数がＬ個であるとすると、Ｆ×Ｌ個の
パスの計算が行われ、その結果、Ｌ個のパスが残る。

【０１１７】図８は、音素単位とダイフォン単位とを用
いた単位選択の例を示している。

【０１１８】この例では、入力センテンスは、ついやす
（／ｔｓ〔Ｃ〕ｕ〔Ｖ〕ｉ〔Ｖ〕ｙ〔Ｃ〕ａ
〔Ｖ〕Ｓ〔Ｃ〕／）である。なお、ｙは半母音であ
る。

【０１１９】図８において、”＜Ｖ^*〕”（Ｖ^*は全て
の母音を表す）は、母音の後半部を示し、”〔Ｖ^*＞”
は、母音の前半部を示している。

【０１２０】この例では、/ts-u/、 /u-i/および/i-y/
それぞれの連鎖において、音素単位だけでなくダイフォ
ン単位を考慮して単位選択が行われる。他の連鎖/y-a/
および/a-s/ においては、音素単位のみによる単位選択
が行われる。単位選択の結果、音素境界だけでなく母音
中心においても接続を許容された可変長単位が選択され
る。

【０１２１】〔３〕評価実験

【０１２２】上記実施の形態による日本語テキスト音声
合成方法（以下、提案法という）の性能を評価するため
に、音素単位に基づいた従来法との比較を行う。

【０１２３】〔３−１〕主観評価実験

【０１２４】〔３−１−１〕実験条件

【０１２５】上記〔１−１〕の実験方法で用いたものと
同じ音声コーパス（日本人男性話者１名が発声した日本
語音声コーパスの中で、人手によってラベル付けされた
ＡＴＲ音素バランス文の中の４５０文（約３０分程
度））を用いて実験を行った。ラベリングのみでなくＦ
₀も人手により修正されている。

【０１２６】日本語１０文の合成音声を用いて対比較実
験を行った。これらの文は単位選択に用いるコーパスに
含まれていない。提案法と従来法を用いて単位選択を行
い、音声を合成する。単位選択法の性能のみを評価する
ために、原音声から抽出した自然な韻律情報とメルケプ
ストラム系列を用いて単位選択を行った。

【０１２７】音声合成では、高品質な分析合成方式であ
る STRAIGHT （上記文献１２参照）を用いて韻律（Ｆ₀
軌跡、音素持続時間、パワー）の制御を行った。被験者
は日本人成人男女１０名である。各試行においては、提
案法による合成音声と従来法による合成音声を対として
ランダムな順序で呈示し、被験者にはより不自然に感じ
る合成音声を選択してもらった。その際、必要に応じて
一度だけでなく何度も合成音声を聴くことを許してい
る。

【０１２８】〔３−１−２〕実験結果

【０１２９】合成された１０文は３６６の音素で構成さ
れており、提案法では１４５の音素境界接続（Ｖ−Ｃ接
続：１２５、Ｖ−Ｖ接続：６、Ｖ−半母音接続：３、Ｖ
−鼻音接続：１１）と２５の母音中心接続が行われてい
る。従来法では、１６３の音素境界接続（Ｖ−Ｃ接続：
１２４、Ｖ−Ｖ接続：１６、Ｖ−半母音接続：３、Ｖ−
鼻音接続：２０）が行われている。

【０１３０】対比較実験の結果を図９に示す。図９で
は、提案法による合成音声と従来法による合成音声のう
ち、自然に感じられた方の割合をPreference scoreとし
て示している。図９から提案法は従来法と比較して、よ
り自然な音声の合成が可能であることが明らかである。

【０１３１】〔３−２〕客観評価実験

【０１３２】〔３−２−１〕実験条件

【０１３３】提案法はダイフォン単位も考慮することで
単位候補数を増やすことができるため、コーパスをより
有効に使用できると予想される。そこで、従来法に対す
る提案法のコーパス削減率を求めた。コーパス削減率
は、平均コスト値が等しい際の従来法と提案法のコーパ
スの大きさの差（コーパス削減量）を、その際の従来法
のコーパスの大きさで割った値として表される。単位選
択に用いたコーパスは、約８時間弱（約１００００文）
の音声コーパスを２^-n/2（ｎ＝０，１，２，...，９）
に縮小したものである。評価文にはこの音声コーパスに
含まれていない５３文を用いる。

【０１３４】〔３−２−２〕実験結果

【０１３５】コーパスの大きさとコーパス削減率の関係
を図１０に示す。図１０から、提案法は従来法と比較し
コーパスを削減できることがわかり、より有効にコーパ
スを使用できるといえる。その結果はコーパスが大きく
なるにつれ更に大きくなることがわかる。

【０１３６】

【発明の効果】この発明によれば、音素単位だけでなく
音素の中心を境界とするダイフォン単位も用いた新たな
日本語テキスト合成方法が得られる。

【０１３７】また、この発明によれば、音素単位のみを
用いる従来法と比較して、より自然性の高い音声を合成
することができ、かつコーパスをより有効に使用するこ
とができるようになる。

【図面の簡単な説明】

【図１】従来の日本語テキスト音声合成装置の概略構成
を示すブロック図である。

【図２】コスト関数の概念を示す模式図である。

【図３】音素ターゲットｔ_iに対する単位候補ｕ_iのコ
スト計算において、各サブコストの計算に用いられるタ
ーゲットと単位候補とを示す模式図である。

【図４】母音境界での波形接続方法と母音中心での波形
接続方法とをそれぞれ示す模式図である。

【図５】音素環境が異なる母音を含む場合の接続歪みの
頻度分布を示すグラフである。

【図６】音素環境が等しい母音を用いた際の接続歪みの
頻度分布を示すグラフである。

【図７】ダイフォン単位を考慮するターゲットｔ_iに対
する単位候補ｕ_i ^f，ｕ_i ^lのコスト計算において、各
サブコストの計算に用いられるターゲットと単位候補と
を示す模式図である。

【図８】音素単位とダイフォン単位とを用いた単位選択
の例を示す模式図である。

【図９】主観評価実験の結果を示すグラフである。

【図１０】客観評価実験の結果を示すグラフである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者津崎実京都府相楽郡精華町光台二丁目２番地２株式会社国際電気通信基礎技術研究所内Ｆターム(参考） 5D045 AB02 AB30

Claims

【特許請求の範囲】

【請求項１】日本語テキスト音声合成方法において、
母音と母音との連鎖における波形接続において、それら
の境界での接続と、それらの母音中心での接続との両方
を考慮して音声合成単位の選択を行うようにしたことを
特徴とする日本語テキスト音声合成方法。
【請求項２】母音と半母音との連鎖における波形接続
において、それらの境界での接続と、半母音の前の母音
の中心での接続との両方を考慮して音声合成単位の選択
を行うようにしたことを特徴とする請求項１に記載の日
本語テキスト音声合成方法。
【請求項３】母音と鼻音との連鎖における波形接続に
おいて、それらの境界での接続と、鼻音の前の母音の中
心での接続との両方を考慮して音声合成単位の選択を行
うようにしたことを特徴とする請求項２に記載の日本語
テキスト音声合成方法。