JP3681111B2

JP3681111B2 - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: JP3681111B2
Application number: JP2001107849A
Authority: JP
Inventors: 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-04-05
Filing date: 2001-04-05
Publication date: 2005-08-10
Anticipated expiration: 2021-04-05
Also published as: JP2002304186A

Description

【０００１】
【発明の属する技術分野】
本発明は、文字列または記号列からなるテキストデータを入力して音声データに変換する音声合成装置、音声合成方法および音声合成プログラムに関する。
【０００２】
【従来の技術】
音声合成技術においては、単に情報を正確に伝えるだけではなく、ユーザーの好みに応じてカスタマイズを行ったり、状況に応じて音声を切り替えたり、またはゲーム等の娯楽において複数の登場人物を会話させたりするために、複数の個性のある音声を合成することが求められる。
【０００３】
音声を決定する主な要因としては、声質（太い、細い、ハスキーである等）、全体的（平均的）な声の高さ、発声速度、ポーズ（文節間の間（長さ）の取り方）、アクセント（単語、文節等、短い単位内の音の高低）、フレーズピッチ成分（文全体の音の高低（フレーズ成分の強度）、一般には最初が高く、徐々に下がる）等が挙げられる。このうち、声質以外の部分を一般に韻律と呼ぶ。韻律の中でも特に、アクセントは声の個性に対して、声質と並んで影響が大きい。
【０００４】
従来の音声を合成する方法（特開平１−３２１４９６４２１６号公報、特開平９−２４４６７７号公報）では、図７に示すように、テキスト処理手段２が参照する言語辞書１に文章を解析するための形態素情報記憶部１０１、標準的なアクセントを与えるための標準語アクセント記憶部１０２のデータの他に、方言アクセント記憶部１０３を設けて、そこからアクセントデータを選択することにより、方言の音声を合成していた。
【０００５】
【発明が解決しようとする課題】
しかしながら、上述した従来の音声合成方法は、実際にアクセント辞書を作成する困難さや、開発コストのために実現されていない。その理由を以下に説明する。
【０００６】
従来の日本語音声合成装置において、単語毎のアクセントを決定する言語辞書は、一般に、出版されている標準語のアクセント辞書（例えばＮＨＫ「日本語発音アクセント辞典」）を基に作成しているため、標準語アクセントにより音声を合成する。方言等の標準語以外のアクセントで正確に発声させるためには、数万単語に及ぶアクセント辞書を作成する必要がある。
【０００７】
しかし、方言と行っても実際には細かな地域や話者により各々異なり、方言を一つに特定して整理するのは非常に困難である。このため、正確な方言アクセント辞書を作成するためには、大阪弁のような一つの地方に限ったとしても、膨大な期間と費用がかかり、実現は困難である。また、辞書を作成できた場合でも、多数の単語に方言アクセントを付加するとメモリの増加につながり、さらに方言の種類を増やすこともメモリの増加につながるため、実現は困難である。さらに、コストをかけて作成しても、効果を評価しにくいことも実現されない理由の一つと考えられる。
【０００８】
例えば、「大阪・東京アクセント音声辞典：杉籐美代子、１９９５年」において、同じ大阪市出身の話者でも各単語に対するアクセントが異なることは、正しい大阪弁というのは存在せず、大阪弁らしさのような傾向があるに過ぎないことを示す。このことは、逆に、ある一部地域の方言アクセントを正確に再現しても、聞く人によって評価が異なるため、それを正しいと評価するユーザーは非常に少ないということになり得る。
【０００９】
さらに、一部の単語のみについて、方言アクセントを調査して辞書に付加しても、その他の単語を標準語アクセントで発声した場合には、発話の途中で方言の様式が急激に変化するためにユーザーが混乱し、文章の意味が理解できない等の障害が生じるおそれがある。
【００１０】
具体的なアクセント型の形状については後述するが、一般に、方言のアクセントは従来の標準語アクセントにおける０型からｎ型のアクセント型のみを用いたのでは再現することができず、標準語には無い新たなアクセント型を必要とする。一例として先に挙げた「大阪・東京アクセント辞典」によれば、大阪弁アクセントは、標準語の０型からｎ型とは異なる、高起の０型からｎ型および低起の０型からｎ型というアクセント型を用いなければ表現することができない。他方、これらのアクセント型は関西弁に共通するものであるため、これらのアクセント型を用いれば、アクセント型が特定の地域の方言と異なっていても、ある程度の関西弁らしさが表現できることになる。
【００１１】
本発明は、このような従来技術の課題を解決するべくなされたものであり、方言アクセント辞書が不完全であったり、方言アクセント辞書が無く、標準語を基にした言語辞書からでも、方言らしい個性のあるアクセントを生成することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
【００１２】
【課題を解決するための手段】
本発明の音声合成装置は、単語毎の形態素情報および単語毎の標準語のアクセント情報が記憶された言語辞書と、入力されたテキストデータを前記言語辞書を参照して解析して、文節毎に、音素列情報と標準語における文節のアクセント核の位置を示すアクセント型を含む韻律情報とを出力するテキスト処理手段と、該テキスト処理手段から入力された韻律情報を変換規則に基づいて異なる韻律情報に変換する韻律変換手段と、該音素列情報および変換された韻律情報から音声波形を合成する規則音声合成手段とを有し、前記韻律変換手段は、アクセント変換規則記憶部と、アクセント変換部とを有し、該アクセント変換規則記憶部には、標準語における前記アクセント型から、それぞれの方言に特徴的な高起アクセント型または低起アクセント型への変換を行う変換規則が記憶されており、前記アクセント変換部では、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とし、そのことにより上記目的が達成される。
【００１４】
前記韻律変換手段は、さらに、音素列変換規則記憶部と、音素列変換部とを有し、該音素列変換部では、入力された規則選択パラメータに基づいて該音素列変換規則記憶部に記憶された変換規則を選択し、選択された変換規則に従って、前記テキスト処理手段から入力される音素列情報を、入力された音素列とは異なる音素列に変換することを特徴としてもよい。
【００１６】
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴としてもよい。
【００１７】
本発明の音声合成方法は、前記音声合成装置を用いて音声合成を行う方法であって、前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする。
【００１８】
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴としてもよい。
【００１９】
本発明の音声合成プログラムは、前記音声合成装置を用いて音声合成を行う方法を実行させるための音声合成プログラムであって、前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする。
【００２０】
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴としてもよい。
【００２１】
以下に、本発明の作用について説明する。
【００２２】
本発明にあっては、標準語に基づいて解析されたアクセント型（または音素列）を変換規則に基づいて変換することができるため、方言アクセント辞書を作成する必要がなく、従来開発コストがかかりすぎて実現が困難であった、異なる方言アクセントによる音声合成が可能となる。さらに、メモリの増加量もほとんど無いため、複数の方言など、多様な音声合成を１つの装置により行うことが可能となる。
【００２３】
また、アクセント変換部において、変換規則に従って、標準語の０型からｎ型までの整数型アクセントから、関西弁に特徴的な高起アクセント型の０型からｎ型または低起アクセント型の０型からｎ型に変換を行うことにより、テキスト処理手段が標準語の言語辞書に基づく韻律情報を出力しても、関西弁風のアクセントで音声を合成することが可能となる。
【００２４】
さらに、標準語を基本とする言語辞書の一部の単語において、方言の韻律（アクセント）が登録されている場合には、それらの単語に関しては辞書に登録された正確な韻律を用いて音声合成を行い、調査されていない単語については変換規則を用いてその地方の方言風のアクセント（または音素列）に変換する。これにより、より自然な方言に近づくことが可能となり、方言アクセントと標準語アクセントが混ざることによって音声の聴取者が混乱するのを避けることができる。
【００２５】
音声合成を行うアルゴリズムは複雑であり、汎用マイクロコンピューターまたはＤＳＰを用いてソフトウェアにより実現するのが一般的である。本発明の音声合成プログラムによれば、パーソナルコンピューター等のマイクロコンピューターを用いたシステムやＤＳＰを用いたシステムにおいて、方言風の音声合成機能を追加することが可能である。
【００２６】
【発明の実施の形態】
以下に、本発明の実施の形態について、図面を参照しながら説明する。
【００２７】
（実施形態１）
図１は、本発明の一実施形態である音声合成装置の構成を説明するための図である。この音声合成装置は、言語辞書１と、テキスト処理手段２と、記録音声合成手段３と、韻律変換手段４を備えている。
【００２８】
言語辞書１は、単語毎の形態素情報および単語毎のアクセント情報を記憶しており、一般に読み出し専用メモリにより実現される。
【００２９】
テキスト処理手段２は、入力されたテキストデータから言語辞書１を用いて単語を検出して、動詞や名詞等の形態素から文の構造を決定し、文の構造に基づいてポーズの長さと、文章全体の抑揚を制御するフレーズ成分の強さを決定する。また、文節に含まれる自立語のアクセント情報から各文節のアクセント型を決定する。そして、文節毎に音素記号列、アクセント型、フレーズ成分の強さ、ポーズの長さおよび声の大きさの情報等を出力する。一般に、声の大きさは文章内では一定とされる場合が多いが、微視的に見た場合には、音声素片（基本的にはこれを繋ぎ合わせて音声を合成する）を収録したときの声の大きさの変化がそのまま出力される。韻律制御の際には、この声の大きさを文章毎に大きくしたり小さくしたりすることができる。また、音素毎の時間長を統計的に調べて、その長さに対してどの程度速くするか遅くするかということにより発声速度を制御することができる。さらに、文の構造から求められるフレーズ成分と単語各々によって決定されるアクセント成分との加算によって声の高さを制御することができる。それを全体的に高くしたり低くしたりすることにより声の高さを調整し、フレーズ成分やアクセント成分の強さを調整することにより、抑揚の強さを調整することができる。調整をどの程度行うかについては、ユーザーが決定できるようにされることが多い。このテキスト処理手段２は、一般に、ＣＰＵやＤＳＰを用いてソフトウェアにより実現される。
【００３０】
規則音声合成手段３は、入力された情報を基に音声波形を合成する。具体的には、アクセント生成部３０２は、アクセント形状記憶部３０１を参照して、入力された各文節の音素記号列の各音素に対して音の高さを設定する。次に、フレーズ生成部３０４は、フレーズ形状記憶部３０３を参照して、複数の文節にわたる音素記号列の各音素に対して、抑揚を表す音の高さの形状を、フレーズ成分の強さで調整して加算する。フレーズ形状については後述する。次に、波形生成部３０６では、音素毎に波形辞書３０５を参照して、アクセント生成部３０２およびフレーズ生成部３０４で生成された音の高さに応じた音声波形を合成する。この規則音声合成手段３は、一般に、ＣＰＵやＤＳＰを用いてソフトウェアにより実現される。
【００３１】
波形生成の方法としては、各種方式を利用することができるが、ここでは零位相化した単位波形を合成したい声の周波数の逆数で表される間隔（ピッチ）で重畳してゆく波形重畳方式を用いることにより、比較的高品位の音声を合成することが可能である。
【００３２】
図２に、フレーズ形状の一例を示す。フレーズ形状は、人間が文章を発声するときの文全体の声の高さの形状をモデル化したものであり、各文節の先頭で高くなり、文末へ向けて緩やかに下降する形状を有する。また、一般に藤崎モデルと称される「へ」の字型のカーブを用いる場合もある。図２では、対数周波数上で直線的に下降するフレーズ形状を示している。この例では、文節の先頭における声の高さをフレーズ成分の値で与え、文節の最後で定常の高さになるように下降速度を調整する。従って、文節が長くなると、下降速度が遅くなる。
【００３３】
以上は、通常の音声合成装置と同様の機能である。本実施形態では、さらに、韻律変換手段４を設けて、合成される音声の韻律を変更する。韻律とは、一般に、アクセント、フレーズ成分の強度および平均的な声の高さや、発声速度、ポーズ長等を指す。例えば、アクセント型を変換することにより、方言風の音声合成を行うことが可能である。また、アクセントの強さ、フレーズの強さ、声の大きさを文末に向けて徐々に大きくすることにより、演説風に誇張した音声を合成する、といった操作を行うことも可能である。さらに、韻律だけではなく、音素を変換することにより、方言や年齢に特有の言葉の変換も可能である。この韻律変換手段４は、一般にＣＰＵやＤＳＰを用いてソフトウェアにより実現される。
【００３４】
以下に、韻律変換手段４について、図１を参照しながらさらに詳細な説明を行う。韻律変換手段４の内部には、アクセント変換規則記憶部４０１およびアクセント変換部４０２を有する。アクセント変換部４０２は、方言選択パラメータに基づいてアクセント変換規則記憶部４０１に記憶された変換規則からアクセント変換規則を選択する。方言選択パラメータは、入力テキスト中に制御コマンドとして特殊記号を用いて埋め込まれるか、またはユーザーが何らかの方法（例えば方言選択パラメータ入力部を設ける等）により入力することができる。通常は、ソフトウェアにより設定画面を用いて男声や女声、声の高さや大きさ、速さ等を設定できるようになっており、その同じ画面上で方言を設定することができる。または別に設定装置を設けることもできる。そして、入力された音素列とアクセント型から、選択したアクセント変換規則に従って、異なるアクセント型へと変換する。具体的なアクセント型変換については、後述する。
【００３５】
さらに、韻律変換手段４の内部に、音素列変換規則記憶部４０３および音素列変換部４０４を設けてもよい。この場合、アクセントと同様に、規則選択パラメータに基づいて、音素列変換規則記憶部４０３に記憶された変換規則から音素列変換規則を選択する。規則選択パラメータについても、方言選択パラメータと同様に、入力テキスト中に制御コマンドとして特殊記号を用いて埋め込まれるか、またはユーザーが何らかの方法（例えば方言選択パラメータ入力部を設ける等）により入力することができる。そして、入力された音素列とアクセント型から、選択した音素列変換規則に従って、異なる音素列へと変換する。
【００３６】
まず、音素列変換規則の具体例について説明する。例えば、子供っぽい音声に変換するための規則の一例としては、
（１）「し」を「ち」に変換
（２）「す」、「つ」を「ちゅ」に変換
（３）「ら」を「だ」に変換
（４）「ぞ」を「ど」に変換
等が挙げられる。
【００３７】
この他にも、一部の方言における「ひ」と「し」が入れ替わる規則や、別の方言における「し」が「す」と発音される規則等を記憶しておき、目的に応じて規則選択パラメータを用いて選択することにより、各種の変換が可能となる。これらの変換規則の選び方は、文節毎に変るものではないので、音声合成の前に予めどの変換規則を適用するかを規則選択パラメータに設定しておくことにより実現することができる。
【００３８】
次に、具体的な日本語の方言アクセント変換への変換方法について、説明する。図３は、本実施形態で用いる具体的なアクセント型を示す図である。図３（Ａ）は、従来の音声合成でも用いられる標準語アクセントの形状を、アクセント型とモーラ数毎に表示したものである。ここで、モーラとは、音声の拍を表す単位であり、日本語の場合カナ文字に相当する。一般に、アクセントはモーラ毎の高低２段階で表される。０型は平板型とも称され、１モーラを除いて低音「Ｌ」で始まり、２モーラ目以後、最後まで高音「Ｈ」が続く。なお、（）で示されるのは、単語に付属語が続く場合における付属語の音高を示している。例えば、「わたし」は標準語では３モーラで０型であるので「ＬＨＨ」、付属語「は」が続いて「わたしは」となった場合には「ＬＨＨＨ」となる。１型は１モーラ目が高く、続くモーラは低音が並ぶ。２以上の型はアクセント型の数字がアクセント核の位置を表し、第２モーラからアクセント核までが高く、アクセント核の次のモーラから後ろが低音となる。例えば、「はなし」は３モーラで３型であるため「ＬＬＨ」となり、単独では０型と同じであるが、付属語「は」が続いて「はなしは」となった場合には「ＬＨＨＬ」となる。
【００３９】
図３（Ｂ）および図３（Ｃ）は各々関西弁に特徴的な高起アクセント型と低起アクセント型の一例を示す図である。図３（Ｂ）の高起アクセント型では、語頭のモーラが必ず高音「Ｈ」で始まる。また、アクセント型が１で１モーラの場合には、モーラ内で高音から低音に下がり、継続長が長くなる。これを図３（Ｂ）では「Ｄ」と表している。図３（Ｃ）の低起アクセント型では、０型の場合、最後のモーラのみが高音となる。１型は１モーラを除いて標準型や高起アクセント型と同じである。また、アクセント型が１型で１モーラの場合には、モーラ内で低音から高音に上がり、継続時間が長くなる。これを図３（Ｃ）では「Ｕ｝と表している。２型以上では低音で始まってアクセント核の位置のみが高音となり、以後は低音になる。
【００４０】
本実施形態では、規則音声合成手段３内のアクセント形状記憶部３０１でこれらのアクセント形状を記憶し、韻律変換手段４内のアクセント変換部４０２でこれらの中からアクセント型を選択する。従来では、アクセント型の指定には０型からｎ型までの整数値で指定が可能であったが、本実施形態ではこれとは別の整数値を用いて標準型、高起型または低起型というアクセント種別を指定する。従って、文節毎の韻律変換手段４からは、音素記号列、アクセント型、フレーズ成分の強さ、ポーズの長さ、声の大きさおよびアクセント種別の情報を出力する。
【００４１】
関西弁以外のアクセント型を実現する際に、上述したような型で表現できない場合には、さらにアクセント種別を拡張して、アクセント型を追加することも考えられる。また、方言選択パラメータに基づいてアクセント変換規則を選択することにより、１つの装置で複数の方言アクセント型を切り替えて音声合成することが可能になる。方言選択パラメータは設定画面を用いて設定することができ、例えば整数で０が標準語、１が関西弁、２が鹿児島弁等というように設定することができる。
【００４２】
次に、関西弁風の音声を合成する際のアクセント変換規則の具体例を示す。例えば、
（１）２モーラの文節は０型を１型に、１型を０型に変換する
（２）３モーラ以上の１型文節で、第１母音と第２母音が異なる場合には２型に変換する
（３）２型アクセントは低起型にする
（４）上記（３）以外で（アクセント型≧モーラ数）であれば高起型に変換する
（５）上記（４）以外で２モーラであれば低起型に変換する
（６）上記（５）以外でモーラ数が奇数であれば低起型、偶数であれば高起型に変換する
といった規則の組を関西弁風アクセント変換規則として、アクセント変換規則記憶部４０１に記憶する。この変換規則（３）において、２型アクセントは低起型でも標準型でも同じ形状であるので、どちらを選んでもよい。
【００４３】
例文を用いて、この規則を用いた変換例を示す。例えば、
「テレビゲームやパソコンでゲームをして遊ぶ」
という例文をテキスト処理手段２へ入力した場合を考える。テキスト処理手段によって、「テレビゲームや・パソコンで・ゲームを・して・あそぶ」
という文節に区切られたとする。ここでは、文節区切りを中点（・）で表すことにする。このとき、各文節の標準語アクセント型は、
「４・０・１・０・０」
となる。このアクセントを音の高低（Ｈ：高音、Ｌ：低音）で表すと、
「ＬＨＨＨＬＬＬ・ＬＨＨＨＨ・ＨＬＬＬ・ＬＨ・ＬＨＨ」
のようになる。上記変換規則により各文節のアクセント型は、
「低起４・低起０・高起１・高起１・低起３」
のように変換される。このアクセントを音の高低で表すと、
「ＬＬＬＨＬＬＬ・ＬＬＬＬＨ・ＨＬＬＬ・ＨＬ・ＬＬＨ」
のようになる。これにより、規則を用いて概ね関西弁によくあるアクセントに変換できることが分かる。
【００４４】
本実施形態では、変換規則により変換を行うことにより、方言のアクセント辞書を必要としないため、少ないコストで読み上げ音声のバリエーションを広げることができる。
【００４５】
（実施形態２）
図４は、実施形態２の音声合成装置の構成を説明するための図である。この音声合成装置は、図１の構成に加えて、韻律変換手段４の内部にバイパススイッチ４０５を有している。そして、テキスト処理手段２により非変換を指示された場合には、アクセント変換部４０２によるアクセント変換および音素列変換部４０４による音素列変換を行わずに出力する。この機能が効果を発揮するのは、言語辞書１が図７に示したように方言アクセント記憶部１０３を有し、一部の重要語および頻出単語についてのみ正しいアクセントを記憶している場合である。
【００４６】
この構成では、方言選択パラメータとして、テキスト処理手段２とアクセント変換部４０２に同じパラメータを入力し、アクセントを統一するのが望ましい。
【００４７】
例えば、テキスト処理手段２において、方言アクセントで出力しようとする単語に対して、方言選択パラメータによって指定された方言アクセントが言語辞書１内に存在する場合には韻律変換指示コードとして０を出力し、指定された方言アクセントが言語辞書１内に存在しない場合には韻律変換指示コードとして１を出力する。
【００４８】
韻律変換手段４内のバイパススイッチ４０５は、韻律変化指示コードが１のとき、アクセント変換部４０２および音素列変換部４０４の方に情報を出力し、韻律変換指示コードが０のときには、変換せずにそのまま規則音声合成手段３へ情報を出力する。
【００４９】
本実施形態では、文節毎のテキスト処理手段２からの出力および文節毎の韻律変換手段４からの出力は、音素記号列、アクセント型、フレーズ成分の強さ、ポーズの長さ、声の大きさおよびアクセントの種別の情報となる。さらに、韻律変換手段４からは韻律変換指示コードの情報も出力される。なお、アクセントの種別はテキスト処理手段２および韻律変換手段４から出力され、韻律変換指示コードにより変換が指示されていない場合にはテキスト処理手段からのアクセント種別が優先される。また、韻律変換指示コードにより変換が指示されている場合にはテキスト処理手段からのアクセント種別は無視され、韻律変換手段によりアクセント種別が決定される。
【００５０】
バイパススイッチ４０５の操作は、テキスト処理手段２から指示される韻律変換指示コードに従って韻律変換手段４が行ってもよく、アクセント変換部４０２自身が行ってもよい。また、標準アクセントで音声合成する場合にも、バイパススイッチ４０５を用いて、アクセント変換および音素列変換を行わない。
【００５１】
（実施形態３）
図５は、本発明の音声合成装置をコンピューターを用いて実現するための構成例を示す図である。入力装置５は、シリアル通信、ネットワーク通信またはキーボード等により音声合成対象となるテキストデータを入力する。
【００５２】
記憶媒体８は、実施形態１に示した言語辞書１、テキスト処理手段２、規則音声合成手段３および韻律変換手段４の各機能からなる音声合成プログラムを記録したＣＤＲＯＭやフロッピーディスク、フラッシュメモリ等の記録媒体である。記憶装置９は、記憶媒体８のプログラムを読み込んだハードディスクやフラッシュメモリ等の記憶装置である。ＲＡＭ１０は、処理に必要な一次記憶に用いられる。
【００５３】
出力装置７は、合成された音声を出力するためのＤ／Ａ変換器、アンプやスピーカ等で構成される。
【００５４】
処理装置６は、記憶媒体９または記憶装置１０に読み込まれた音声合成プログラムに従って、音声合成処理を行うマイクロコンピューターやＤＳＰ等の処理装置である。
【００５５】
図６は、関西弁風アクセント変換規則をアルゴリズムで実現した場合のフローチャートを示す。このアルゴリズム自体は、上記実施形態１と同様の処理動作を行う。ステップ１１０１〜ステップ１１０７までがアクセント核の位置を変換する処理であり、ステップ１１０８〜ステップ１１１４までが高起型または低起型を選択する処理である。ステップ１１０１〜ステップ１１０５までが上記変換規則（１）に相当し、ステップ１１０６およびステップ１１０７が上記変換規則（２）に相当する。ステップ１１０８およびステップ１１０９が上記変換規則（３）に相当し、ステップ１１１０およびステップ１１１１が上記変換規則（４）に相当する。ステップ１１１２〜ステップ１１１４が上記変換規則（５）および（６）に相当する。
【００５６】
上記実施形態２についても、図５と同様の構成により実現することが可能である。
【００５７】
【発明の効果】
以上詳述したように、本発明によれば、標準語アクセントに基づいて解析されて付与されたアクセント型を、変換規則に基づいて変換するため、特別なアクセント辞書を作成する必要がなく、従来開発コストがかかりすぎて実現が困難であった方言アクセントでの音声合成が可能となる。さらに、メモリの増加量もほとんど無いため、複数の方言や個人的な特徴のあるアクセント等、多様な音声合成を１つの装置で行うことができる。
【００５８】
また、標準語アクセントから関西弁に特徴的な高起アクセント型や低起アクセント型に変換する変換規則を用いることにより、関西弁風の音声を合成することができる。
【００５９】
さらに、一部の単語において方言のアクセントが言語辞書に登録されている場合でも、方言アクセントと標準語アクセントが混ざって音声の聴取者が混乱するのを防ぐことができる。
【図面の簡単な説明】
【図１】実施形態１の音声合成装置の構成を示す図である。
【図２】フレーズ形状の一例を示す図である。
【図３】（Ａ）〜（Ｃ）は実施形態１におけるアクセント型の一例を示す図である。
【図４】実施形態２の音声合成装置の構成を示す図である。
【図５】実施形態３の音声合成装置をコンピューターを用いて実現する構成を示す図である。
【図６】アクセント変換規則をアルゴリズムで実現するためのフローチャートである。
【図７】従来の音声合成装置の構成を示す図である。
【符号の説明】
１言語辞書
２テキスト処理手段
３規則音声合成手段
４韻律変換手段
５入力装置
６処理装置
７出力装置
８記憶媒体
９記憶装置
１０ＲＡＭ
１０１形態素情報記憶部
１０２標準語アクセント記憶部
１０３方言アクセント記憶部
３０１アクセント形状記憶部
３０２アクセント生成部
３０３フレーズ形状記憶部
３０４フレーズ生成部
３０５波形辞書
３０６波形生成部
４０１アクセント変換規則記憶部
４０２アクセント変換部
４０３音素列変換規則記憶部
４０４音素列変換部
４０５バイパススイッチ

Claims

単語毎の形態素情報および単語毎の標準語のアクセント情報が記憶された言語辞書と、
入力されたテキストデータを前記言語辞書を参照して解析して、文節毎に、音素列情報と標準語における文節のアクセント核の位置を示すアクセント型を含む韻律情報とを出力するテキスト処理手段と、
該テキスト処理手段から入力された韻律情報を変換規則に基づいて異なる韻律情報に変換する韻律変換手段と、
該音素列情報および変換された韻律情報から音声波形を合成する規則音声合成手段とを有し、
前記韻律変換手段は、アクセント変換規則記憶部と、アクセント変換部とを有し、
該アクセント変換規則記憶部には、標準語における前記アクセント型から、それぞれの方言に特徴的な高起アクセント型または低起アクセント型への変換を行う変換規則が記憶されており、
前記アクセント変換部では、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする音声合成装置。
前記韻律変換手段は、さらに、音素列変換規則記憶部と、音素列変換部とを有し、
該音素列変換部では、入力された規則選択パラメータに基づいて該音素列変換規則記憶部に記憶された変換規則を選択し、選択された変換規則に従って、前記テキスト処理手段から入力される音素列情報を、入力された音素列とは異なる音素列に変換することを特徴とする請求項１に記載の音声合成装置。
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、
前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、
入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴とする請求項２に記載の音声合成装置。
請求項１に記載の音声合成装置を用いて音声合成を行う方法であって、
前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする音声合成方法。
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、
前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、
入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴とする請求項４に記載の音声合成方法。
請求項１に記載の音声合成装置を用いて音声合成を行う方法を実行させるための音声合成プログラムであって、
前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする音声合成プログラム。
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、
前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、
入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴とする請求項６に記載の音声合成プログラム。