JP3681111B2 - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents
音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JP3681111B2 JP3681111B2 JP2001107849A JP2001107849A JP3681111B2 JP 3681111 B2 JP3681111 B2 JP 3681111B2 JP 2001107849 A JP2001107849 A JP 2001107849A JP 2001107849 A JP2001107849 A JP 2001107849A JP 3681111 B2 JP3681111 B2 JP 3681111B2
- Authority
- JP
- Japan
- Prior art keywords
- accent
- conversion
- dialect
- type
- conversion unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、文字列または記号列からなるテキストデータを入力して音声データに変換する音声合成装置、音声合成方法および音声合成プログラムに関する。
【0002】
【従来の技術】
音声合成技術においては、単に情報を正確に伝えるだけではなく、ユーザーの好みに応じてカスタマイズを行ったり、状況に応じて音声を切り替えたり、またはゲーム等の娯楽において複数の登場人物を会話させたりするために、複数の個性のある音声を合成することが求められる。
【0003】
音声を決定する主な要因としては、声質(太い、細い、ハスキーである等)、全体的(平均的)な声の高さ、発声速度、ポーズ(文節間の間(長さ)の取り方)、アクセント(単語、文節等、短い単位内の音の高低)、フレーズピッチ成分(文全体の音の高低(フレーズ成分の強度)、一般には最初が高く、徐々に下がる)等が挙げられる。このうち、声質以外の部分を一般に韻律と呼ぶ。韻律の中でも特に、アクセントは声の個性に対して、声質と並んで影響が大きい。
【0004】
従来の音声を合成する方法(特開平1−3214964216号公報、特開平9−244677号公報)では、図7に示すように、テキスト処理手段2が参照する言語辞書1に文章を解析するための形態素情報記憶部101、標準的なアクセントを与えるための標準語アクセント記憶部102のデータの他に、方言アクセント記憶部103を設けて、そこからアクセントデータを選択することにより、方言の音声を合成していた。
【0005】
【発明が解決しようとする課題】
しかしながら、上述した従来の音声合成方法は、実際にアクセント辞書を作成する困難さや、開発コストのために実現されていない。その理由を以下に説明する。
【0006】
従来の日本語音声合成装置において、単語毎のアクセントを決定する言語辞書は、一般に、出版されている標準語のアクセント辞書(例えばNHK「日本語発音アクセント辞典」)を基に作成しているため、標準語アクセントにより音声を合成する。方言等の標準語以外のアクセントで正確に発声させるためには、数万単語に及ぶアクセント辞書を作成する必要がある。
【0007】
しかし、方言と行っても実際には細かな地域や話者により各々異なり、方言を一つに特定して整理するのは非常に困難である。このため、正確な方言アクセント辞書を作成するためには、大阪弁のような一つの地方に限ったとしても、膨大な期間と費用がかかり、実現は困難である。また、辞書を作成できた場合でも、多数の単語に方言アクセントを付加するとメモリの増加につながり、さらに方言の種類を増やすこともメモリの増加につながるため、実現は困難である。さらに、コストをかけて作成しても、効果を評価しにくいことも実現されない理由の一つと考えられる。
【0008】
例えば、「大阪・東京アクセント音声辞典:杉籐美代子、1995年」において、同じ大阪市出身の話者でも各単語に対するアクセントが異なることは、正しい大阪弁というのは存在せず、大阪弁らしさのような傾向があるに過ぎないことを示す。このことは、逆に、ある一部地域の方言アクセントを正確に再現しても、聞く人によって評価が異なるため、それを正しいと評価するユーザーは非常に少ないということになり得る。
【0009】
さらに、一部の単語のみについて、方言アクセントを調査して辞書に付加しても、その他の単語を標準語アクセントで発声した場合には、発話の途中で方言の様式が急激に変化するためにユーザーが混乱し、文章の意味が理解できない等の障害が生じるおそれがある。
【0010】
具体的なアクセント型の形状については後述するが、一般に、方言のアクセントは従来の標準語アクセントにおける0型からn型のアクセント型のみを用いたのでは再現することができず、標準語には無い新たなアクセント型を必要とする。一例として先に挙げた「大阪・東京アクセント辞典」によれば、大阪弁アクセントは、標準語の0型からn型とは異なる、高起の0型からn型および低起の0型からn型というアクセント型を用いなければ表現することができない。他方、これらのアクセント型は関西弁に共通するものであるため、これらのアクセント型を用いれば、アクセント型が特定の地域の方言と異なっていても、ある程度の関西弁らしさが表現できることになる。
【0011】
本発明は、このような従来技術の課題を解決するべくなされたものであり、方言アクセント辞書が不完全であったり、方言アクセント辞書が無く、標準語を基にした言語辞書からでも、方言らしい個性のあるアクセントを生成することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明の音声合成装置は、単語毎の形態素情報および単語毎の標準語のアクセント情報が記憶された言語辞書と、入力されたテキストデータを前記言語辞書を参照して解析して、文節毎に、音素列情報と標準語における文節のアクセント核の位置を示すアクセント型を含む韻律情報とを出力するテキスト処理手段と、該テキスト処理手段から入力された韻律情報を変換規則に基づいて異なる韻律情報に変換する韻律変換手段と、該音素列情報および変換された韻律情報から音声波形を合成する規則音声合成手段とを有し、前記韻律変換手段は、アクセント変換規則記憶部と、アクセント変換部とを有し、該アクセント変換規則記憶部には、標準語における前記アクセント型から、それぞれの方言に特徴的な高起アクセント型または低起アクセント型への変換を行う変換規則が記憶されており、前記アクセント変換部では、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とし、そのことにより上記目的が達成される。
【0014】
前記韻律変換手段は、さらに、音素列変換規則記憶部と、音素列変換部とを有し、該音素列変換部では、入力された規則選択パラメータに基づいて該音素列変換規則記憶部に記憶された変換規則を選択し、選択された変換規則に従って、前記テキスト処理手段から入力される音素列情報を、入力された音素列とは異なる音素列に変換することを特徴としてもよい。
【0016】
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴としてもよい。
【0017】
本発明の音声合成方法は、前記音声合成装置を用いて音声合成を行う方法であって、前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする。
【0018】
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴としてもよい。
【0019】
本発明の音声合成プログラムは、前記音声合成装置を用いて音声合成を行う方法を実行させるための音声合成プログラムであって、前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする。
【0020】
前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴としてもよい。
【0021】
以下に、本発明の作用について説明する。
【0022】
本発明にあっては、標準語に基づいて解析されたアクセント型(または音素列)を変換規則に基づいて変換することができるため、方言アクセント辞書を作成する必要がなく、従来開発コストがかかりすぎて実現が困難であった、異なる方言アクセントによる音声合成が可能となる。さらに、メモリの増加量もほとんど無いため、複数の方言など、多様な音声合成を1つの装置により行うことが可能となる。
【0023】
また、アクセント変換部において、変換規則に従って、標準語の0型からn型までの整数型アクセントから、関西弁に特徴的な高起アクセント型の0型からn型または低起アクセント型の0型からn型に変換を行うことにより、テキスト処理手段が標準語の言語辞書に基づく韻律情報を出力しても、関西弁風のアクセントで音声を合成することが可能となる。
【0024】
さらに、標準語を基本とする言語辞書の一部の単語において、方言の韻律(アクセント)が登録されている場合には、それらの単語に関しては辞書に登録された正確な韻律を用いて音声合成を行い、調査されていない単語については変換規則を用いてその地方の方言風のアクセント(または音素列)に変換する。これにより、より自然な方言に近づくことが可能となり、方言アクセントと標準語アクセントが混ざることによって音声の聴取者が混乱するのを避けることができる。
【0025】
音声合成を行うアルゴリズムは複雑であり、汎用マイクロコンピューターまたはDSPを用いてソフトウェアにより実現するのが一般的である。本発明の音声合成プログラムによれば、パーソナルコンピューター等のマイクロコンピューターを用いたシステムやDSPを用いたシステムにおいて、方言風の音声合成機能を追加することが可能である。
【0026】
【発明の実施の形態】
以下に、本発明の実施の形態について、図面を参照しながら説明する。
【0027】
(実施形態1)
図1は、本発明の一実施形態である音声合成装置の構成を説明するための図である。この音声合成装置は、言語辞書1と、テキスト処理手段2と、記録音声合成手段3と、韻律変換手段4を備えている。
【0028】
言語辞書1は、単語毎の形態素情報および単語毎のアクセント情報を記憶しており、一般に読み出し専用メモリにより実現される。
【0029】
テキスト処理手段2は、入力されたテキストデータから言語辞書1を用いて単語を検出して、動詞や名詞等の形態素から文の構造を決定し、文の構造に基づいてポーズの長さと、文章全体の抑揚を制御するフレーズ成分の強さを決定する。また、文節に含まれる自立語のアクセント情報から各文節のアクセント型を決定する。そして、文節毎に音素記号列、アクセント型、フレーズ成分の強さ、ポーズの長さおよび声の大きさの情報等を出力する。一般に、声の大きさは文章内では一定とされる場合が多いが、微視的に見た場合には、音声素片(基本的にはこれを繋ぎ合わせて音声を合成する)を収録したときの声の大きさの変化がそのまま出力される。韻律制御の際には、この声の大きさを文章毎に大きくしたり小さくしたりすることができる。また、音素毎の時間長を統計的に調べて、その長さに対してどの程度速くするか遅くするかということにより発声速度を制御することができる。さらに、文の構造から求められるフレーズ成分と単語各々によって決定されるアクセント成分との加算によって声の高さを制御することができる。それを全体的に高くしたり低くしたりすることにより声の高さを調整し、フレーズ成分やアクセント成分の強さを調整することにより、抑揚の強さを調整することができる。調整をどの程度行うかについては、ユーザーが決定できるようにされることが多い。このテキスト処理手段2は、一般に、CPUやDSPを用いてソフトウェアにより実現される。
【0030】
規則音声合成手段3は、入力された情報を基に音声波形を合成する。具体的には、アクセント生成部302は、アクセント形状記憶部301を参照して、入力された各文節の音素記号列の各音素に対して音の高さを設定する。次に、フレーズ生成部304は、フレーズ形状記憶部303を参照して、複数の文節にわたる音素記号列の各音素に対して、抑揚を表す音の高さの形状を、フレーズ成分の強さで調整して加算する。フレーズ形状については後述する。次に、波形生成部306では、音素毎に波形辞書305を参照して、アクセント生成部302およびフレーズ生成部304で生成された音の高さに応じた音声波形を合成する。この規則音声合成手段3は、一般に、CPUやDSPを用いてソフトウェアにより実現される。
【0031】
波形生成の方法としては、各種方式を利用することができるが、ここでは零位相化した単位波形を合成したい声の周波数の逆数で表される間隔(ピッチ)で重畳してゆく波形重畳方式を用いることにより、比較的高品位の音声を合成することが可能である。
【0032】
図2に、フレーズ形状の一例を示す。フレーズ形状は、人間が文章を発声するときの文全体の声の高さの形状をモデル化したものであり、各文節の先頭で高くなり、文末へ向けて緩やかに下降する形状を有する。また、一般に藤崎モデルと称される「へ」の字型のカーブを用いる場合もある。図2では、対数周波数上で直線的に下降するフレーズ形状を示している。この例では、文節の先頭における声の高さをフレーズ成分の値で与え、文節の最後で定常の高さになるように下降速度を調整する。従って、文節が長くなると、下降速度が遅くなる。
【0033】
以上は、通常の音声合成装置と同様の機能である。本実施形態では、さらに、韻律変換手段4を設けて、合成される音声の韻律を変更する。韻律とは、一般に、アクセント、フレーズ成分の強度および平均的な声の高さや、発声速度、ポーズ長等を指す。例えば、アクセント型を変換することにより、方言風の音声合成を行うことが可能である。また、アクセントの強さ、フレーズの強さ、声の大きさを文末に向けて徐々に大きくすることにより、演説風に誇張した音声を合成する、といった操作を行うことも可能である。さらに、韻律だけではなく、音素を変換することにより、方言や年齢に特有の言葉の変換も可能である。この韻律変換手段4は、一般にCPUやDSPを用いてソフトウェアにより実現される。
【0034】
以下に、韻律変換手段4について、図1を参照しながらさらに詳細な説明を行う。韻律変換手段4の内部には、アクセント変換規則記憶部401およびアクセント変換部402を有する。アクセント変換部402は、方言選択パラメータに基づいてアクセント変換規則記憶部401に記憶された変換規則からアクセント変換規則を選択する。方言選択パラメータは、入力テキスト中に制御コマンドとして特殊記号を用いて埋め込まれるか、またはユーザーが何らかの方法(例えば方言選択パラメータ入力部を設ける等)により入力することができる。通常は、ソフトウェアにより設定画面を用いて男声や女声、声の高さや大きさ、速さ等を設定できるようになっており、その同じ画面上で方言を設定することができる。または別に設定装置を設けることもできる。そして、入力された音素列とアクセント型から、選択したアクセント変換規則に従って、異なるアクセント型へと変換する。具体的なアクセント型変換については、後述する。
【0035】
さらに、韻律変換手段4の内部に、音素列変換規則記憶部403および音素列変換部404を設けてもよい。この場合、アクセントと同様に、規則選択パラメータに基づいて、音素列変換規則記憶部403に記憶された変換規則から音素列変換規則を選択する。規則選択パラメータについても、方言選択パラメータと同様に、入力テキスト中に制御コマンドとして特殊記号を用いて埋め込まれるか、またはユーザーが何らかの方法(例えば方言選択パラメータ入力部を設ける等)により入力することができる。そして、入力された音素列とアクセント型から、選択した音素列変換規則に従って、異なる音素列へと変換する。
【0036】
まず、音素列変換規則の具体例について説明する。例えば、子供っぽい音声に変換するための規則の一例としては、
(1)「し」を「ち」に変換
(2)「す」、「つ」を「ちゅ」に変換
(3)「ら」を「だ」に変換
(4)「ぞ」を「ど」に変換
等が挙げられる。
【0037】
この他にも、一部の方言における「ひ」と「し」が入れ替わる規則や、別の方言における「し」が「す」と発音される規則等を記憶しておき、目的に応じて規則選択パラメータを用いて選択することにより、各種の変換が可能となる。これらの変換規則の選び方は、文節毎に変るものではないので、音声合成の前に予めどの変換規則を適用するかを規則選択パラメータに設定しておくことにより実現することができる。
【0038】
次に、具体的な日本語の方言アクセント変換への変換方法について、説明する。図3は、本実施形態で用いる具体的なアクセント型を示す図である。図3(A)は、従来の音声合成でも用いられる標準語アクセントの形状を、アクセント型とモーラ数毎に表示したものである。ここで、モーラとは、音声の拍を表す単位であり、日本語の場合カナ文字に相当する。一般に、アクセントはモーラ毎の高低2段階で表される。0型は平板型とも称され、1モーラを除いて低音「L」で始まり、2モーラ目以後、最後まで高音「H」が続く。なお、()で示されるのは、単語に付属語が続く場合における付属語の音高を示している。例えば、「わたし」は標準語では3モーラで0型であるので「LHH」、付属語「は」が続いて「わたしは」となった場合には「LHHH」となる。1型は1モーラ目が高く、続くモーラは低音が並ぶ。2以上の型はアクセント型の数字がアクセント核の位置を表し、第2モーラからアクセント核までが高く、アクセント核の次のモーラから後ろが低音となる。例えば、「はなし」は3モーラで3型であるため「LLH」となり、単独では0型と同じであるが、付属語「は」が続いて「はなしは」となった場合には「LHHL」となる。
【0039】
図3(B)および図3(C)は各々関西弁に特徴的な高起アクセント型と低起アクセント型の一例を示す図である。図3(B)の高起アクセント型では、語頭のモーラが必ず高音「H」で始まる。また、アクセント型が1で1モーラの場合には、モーラ内で高音から低音に下がり、継続長が長くなる。これを図3(B)では「D」と表している。図3(C)の低起アクセント型では、0型の場合、最後のモーラのみが高音となる。1型は1モーラを除いて標準型や高起アクセント型と同じである。また、アクセント型が1型で1モーラの場合には、モーラ内で低音から高音に上がり、継続時間が長くなる。これを図3(C)では「U}と表している。2型以上では低音で始まってアクセント核の位置のみが高音となり、以後は低音になる。
【0040】
本実施形態では、規則音声合成手段3内のアクセント形状記憶部301でこれらのアクセント形状を記憶し、韻律変換手段4内のアクセント変換部402でこれらの中からアクセント型を選択する。従来では、アクセント型の指定には0型からn型までの整数値で指定が可能であったが、本実施形態ではこれとは別の整数値を用いて標準型、高起型または低起型というアクセント種別を指定する。従って、文節毎の韻律変換手段4からは、音素記号列、アクセント型、フレーズ成分の強さ、ポーズの長さ、声の大きさおよびアクセント種別の情報を出力する。
【0041】
関西弁以外のアクセント型を実現する際に、上述したような型で表現できない場合には、さらにアクセント種別を拡張して、アクセント型を追加することも考えられる。また、方言選択パラメータに基づいてアクセント変換規則を選択することにより、1つの装置で複数の方言アクセント型を切り替えて音声合成することが可能になる。方言選択パラメータは設定画面を用いて設定することができ、例えば整数で0が標準語、1が関西弁、2が鹿児島弁等というように設定することができる。
【0042】
次に、関西弁風の音声を合成する際のアクセント変換規則の具体例を示す。例えば、
(1)2モーラの文節は0型を1型に、1型を0型に変換する
(2)3モーラ以上の1型文節で、第1母音と第2母音が異なる場合には2型に変換する
(3)2型アクセントは低起型にする
(4)上記(3)以外で(アクセント型≧モーラ数)であれば高起型に変換する
(5)上記(4)以外で2モーラであれば低起型に変換する
(6)上記(5)以外でモーラ数が奇数であれば低起型、偶数であれば高起型に変換する
といった規則の組を関西弁風アクセント変換規則として、アクセント変換規則記憶部401に記憶する。この変換規則(3)において、2型アクセントは低起型でも標準型でも同じ形状であるので、どちらを選んでもよい。
【0043】
例文を用いて、この規則を用いた変換例を示す。例えば、
「テレビゲームやパソコンでゲームをして遊ぶ」
という例文をテキスト処理手段2へ入力した場合を考える。テキスト処理手段によって、 「テレビゲームや・パソコンで・ゲームを・して・あそぶ」
という文節に区切られたとする。ここでは、文節区切りを中点(・)で表すことにする。このとき、各文節の標準語アクセント型は、
「4・0・1・0・0」
となる。このアクセントを音の高低(H:高音、L:低音)で表すと、
「LHHHLLL・LHHHH・HLLL・LH・LHH」
のようになる。上記変換規則により各文節のアクセント型は、
「低起4・低起0・高起1・高起1・低起3」
のように変換される。このアクセントを音の高低で表すと、
「LLLHLLL・LLLLH・HLLL・HL・LLH」
のようになる。これにより、規則を用いて概ね関西弁によくあるアクセントに変換できることが分かる。
【0044】
本実施形態では、変換規則により変換を行うことにより、方言のアクセント辞書を必要としないため、少ないコストで読み上げ音声のバリエーションを広げることができる。
【0045】
(実施形態2)
図4は、実施形態2の音声合成装置の構成を説明するための図である。この音声合成装置は、図1の構成に加えて、韻律変換手段4の内部にバイパススイッチ405を有している。そして、テキスト処理手段2により非変換を指示された場合には、アクセント変換部402によるアクセント変換および音素列変換部404による音素列変換を行わずに出力する。この機能が効果を発揮するのは、言語辞書1が図7に示したように方言アクセント記憶部103を有し、一部の重要語および頻出単語についてのみ正しいアクセントを記憶している場合である。
【0046】
この構成では、方言選択パラメータとして、テキスト処理手段2とアクセント変換部402に同じパラメータを入力し、アクセントを統一するのが望ましい。
【0047】
例えば、テキスト処理手段2において、方言アクセントで出力しようとする単語に対して、方言選択パラメータによって指定された方言アクセントが言語辞書1内に存在する場合には韻律変換指示コードとして0を出力し、指定された方言アクセントが言語辞書1内に存在しない場合には韻律変換指示コードとして1を出力する。
【0048】
韻律変換手段4内のバイパススイッチ405は、韻律変化指示コードが1のとき、アクセント変換部402および音素列変換部404の方に情報を出力し、韻律変換指示コードが0のときには、変換せずにそのまま規則音声合成手段3へ情報を出力する。
【0049】
本実施形態では、文節毎のテキスト処理手段2からの出力および文節毎の韻律変換手段4からの出力は、音素記号列、アクセント型、フレーズ成分の強さ、ポーズの長さ、声の大きさおよびアクセントの種別の情報となる。さらに、韻律変換手段4からは韻律変換指示コードの情報も出力される。なお、アクセントの種別はテキスト処理手段2および韻律変換手段4から出力され、韻律変換指示コードにより変換が指示されていない場合にはテキスト処理手段からのアクセント種別が優先される。また、韻律変換指示コードにより変換が指示されている場合にはテキスト処理手段からのアクセント種別は無視され、韻律変換手段によりアクセント種別が決定される。
【0050】
バイパススイッチ405の操作は、テキスト処理手段2から指示される韻律変換指示コードに従って韻律変換手段4が行ってもよく、アクセント変換部402自身が行ってもよい。また、標準アクセントで音声合成する場合にも、バイパススイッチ405を用いて、アクセント変換および音素列変換を行わない。
【0051】
(実施形態3)
図5は、本発明の音声合成装置をコンピューターを用いて実現するための構成例を示す図である。入力装置5は、シリアル通信、ネットワーク通信またはキーボード等により音声合成対象となるテキストデータを入力する。
【0052】
記憶媒体8は、実施形態1に示した言語辞書1、テキスト処理手段2、規則音声合成手段3および韻律変換手段4の各機能からなる音声合成プログラムを記録したCDROMやフロッピーディスク、フラッシュメモリ等の記録媒体である。記憶装置9は、記憶媒体8のプログラムを読み込んだハードディスクやフラッシュメモリ等の記憶装置である。RAM10は、処理に必要な一次記憶に用いられる。
【0053】
出力装置7は、合成された音声を出力するためのD/A変換器、アンプやスピーカ等で構成される。
【0054】
処理装置6は、記憶媒体9または記憶装置10に読み込まれた音声合成プログラムに従って、音声合成処理を行うマイクロコンピューターやDSP等の処理装置である。
【0055】
図6は、関西弁風アクセント変換規則をアルゴリズムで実現した場合のフローチャートを示す。このアルゴリズム自体は、上記実施形態1と同様の処理動作を行う。ステップ1101〜ステップ1107までがアクセント核の位置を変換する処理であり、ステップ1108〜ステップ1114までが高起型または低起型を選択する処理である。ステップ1101〜ステップ1105までが上記変換規則(1)に相当し、ステップ1106およびステップ1107が上記変換規則(2)に相当する。ステップ1108およびステップ1109が上記変換規則(3)に相当し、ステップ1110およびステップ1111が上記変換規則(4)に相当する。ステップ1112〜ステップ1114が上記変換規則(5)および(6)に相当する。
【0056】
上記実施形態2についても、図5と同様の構成により実現することが可能である。
【0057】
【発明の効果】
以上詳述したように、本発明によれば、標準語アクセントに基づいて解析されて付与されたアクセント型を、変換規則に基づいて変換するため、特別なアクセント辞書を作成する必要がなく、従来開発コストがかかりすぎて実現が困難であった方言アクセントでの音声合成が可能となる。さらに、メモリの増加量もほとんど無いため、複数の方言や個人的な特徴のあるアクセント等、多様な音声合成を1つの装置で行うことができる。
【0058】
また、標準語アクセントから関西弁に特徴的な高起アクセント型や低起アクセント型に変換する変換規則を用いることにより、関西弁風の音声を合成することができる。
【0059】
さらに、一部の単語において方言のアクセントが言語辞書に登録されている場合でも、方言アクセントと標準語アクセントが混ざって音声の聴取者が混乱するのを防ぐことができる。
【図面の簡単な説明】
【図1】実施形態1の音声合成装置の構成を示す図である。
【図2】フレーズ形状の一例を示す図である。
【図3】(A)〜(C)は実施形態1におけるアクセント型の一例を示す図である。
【図4】実施形態2の音声合成装置の構成を示す図である。
【図5】実施形態3の音声合成装置をコンピューターを用いて実現する構成を示す図である。
【図6】アクセント変換規則をアルゴリズムで実現するためのフローチャートである。
【図7】従来の音声合成装置の構成を示す図である。
【符号の説明】
1 言語辞書
2 テキスト処理手段
3 規則音声合成手段
4 韻律変換手段
5 入力装置
6 処理装置
7 出力装置
8 記憶媒体
9 記憶装置
10 RAM
101 形態素情報記憶部
102 標準語アクセント記憶部
103 方言アクセント記憶部
301 アクセント形状記憶部
302 アクセント生成部
303 フレーズ形状記憶部
304 フレーズ生成部
305 波形辞書
306 波形生成部
401 アクセント変換規則記憶部
402 アクセント変換部
403 音素列変換規則記憶部
404 音素列変換部
405 バイパススイッチ
Claims (7)
- 単語毎の形態素情報および単語毎の標準語のアクセント情報が記憶された言語辞書と、
入力されたテキストデータを前記言語辞書を参照して解析して、文節毎に、音素列情報と標準語における文節のアクセント核の位置を示すアクセント型を含む韻律情報とを出力するテキスト処理手段と、
該テキスト処理手段から入力された韻律情報を変換規則に基づいて異なる韻律情報に変換する韻律変換手段と、
該音素列情報および変換された韻律情報から音声波形を合成する規則音声合成手段とを有し、
前記韻律変換手段は、アクセント変換規則記憶部と、アクセント変換部とを有し、
該アクセント変換規則記憶部には、標準語における前記アクセント型から、それぞれの方言に特徴的な高起アクセント型または低起アクセント型への変換を行う変換規則が記憶されており、
前記アクセント変換部では、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする音声合成装置。 - 前記韻律変換手段は、さらに、音素列変換規則記憶部と、音素列変換部とを有し、
該音素列変換部では、入力された規則選択パラメータに基づいて該音素列変換規則記憶部に記憶された変換規則を選択し、選択された変換規則に従って、前記テキスト処理手段から入力される音素列情報を、入力された音素列とは異なる音素列に変換することを特徴とする請求項1に記載の音声合成装置。 - 前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、
前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、
入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴とする請求項2に記載の音声合成装置。 - 請求項1に記載の音声合成装置を用いて音声合成を行う方法であって、
前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする音声合成方法。 - 前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、
前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、
入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴とする請求項4に記載の音声合成方法。 - 請求項1に記載の音声合成装置を用いて音声合成を行う方法を実行させるための音声合成プログラムであって、
前記該韻律変換手段の前記アクセント変換部により、入力された方言選択パラメータに基づいて該アクセント変換規則記憶部に記憶された前記変換規則を選択し、該変換規則に基づいて、入力されるテキストデータにおける全ての文節に対して、標準語における前記アクセント型から、前記方言選択パラメータに対応した方言に特徴的な高起アクセント型または低起アクセント型への変換を行うことを特徴とする音声合成プログラム。 - 前記韻律変換手段は、前記テキスト処理手段の出力を、前記アクセント変換部と前記音素列変換部とをバイパスさせて出力するバイパススイッチを有し、
前記言語辞書には、一部の単語に、方言のアクセント型が予め記憶されており、
入力されるテキストデータに含まれる単語に対して前記方言のアクセント型が記憶されている場合には、前記テキスト処理手段が、前記言語辞書に保持されている方言のアクセント型を選択して出力するとともに、前記韻律変換手段は、該テキスト処理手段の出力を、前記バイパススイッチによって、前記アクセント変換部と前記音素列変換部とをバイパスさせることを特徴とする請求項6に記載の音声合成プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001107849A JP3681111B2 (ja) | 2001-04-05 | 2001-04-05 | 音声合成装置、音声合成方法および音声合成プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001107849A JP3681111B2 (ja) | 2001-04-05 | 2001-04-05 | 音声合成装置、音声合成方法および音声合成プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002304186A JP2002304186A (ja) | 2002-10-18 |
| JP3681111B2 true JP3681111B2 (ja) | 2005-08-10 |
Family
ID=18960101
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001107849A Expired - Fee Related JP3681111B2 (ja) | 2001-04-05 | 2001-04-05 | 音声合成装置、音声合成方法および音声合成プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3681111B2 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20040052110A (ko) * | 2002-12-13 | 2004-06-19 | 에스케이 텔레콤주식회사 | Tts를 이용한 코러스 및 아카펠라 구현방법 |
| CN1942894B (zh) | 2004-04-27 | 2010-04-28 | 汤姆逊许可公司 | 胶片的指纹识别 |
| JP2013072957A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 文書読み上げ支援装置、方法及びプログラム |
| CN113178186B (zh) * | 2021-04-27 | 2022-10-18 | 湖南师范大学 | 一种方言语音合成方法、装置、电子设备和存储介质 |
| EP4503017A4 (en) * | 2022-03-31 | 2025-05-07 | Midea Group (Shanghai) Co., Ltd. | Speech synthesis method and apparatus |
| JP2024017194A (ja) * | 2022-07-27 | 2024-02-08 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2667553B2 (ja) * | 1990-05-31 | 1997-10-27 | シャープ株式会社 | 音声合成装置 |
| JPH0764586A (ja) * | 1993-08-24 | 1995-03-10 | Sony Corp | 音声合成装置 |
| JPH0772900A (ja) * | 1993-09-02 | 1995-03-17 | Nippon Hoso Kyokai <Nhk> | 音声合成の感情付与方法 |
| JPH09171396A (ja) * | 1995-10-18 | 1997-06-30 | Baisera:Kk | 音声発生システム |
| JP3171775B2 (ja) * | 1995-11-08 | 2001-06-04 | 富士通テン株式会社 | 音声合成装置 |
| JPH10124515A (ja) * | 1996-10-17 | 1998-05-15 | Canon Inc | 自然言語文生成システム,方法およびこの方法を実現するプログラムを格納した記憶媒体 |
| JPH11175082A (ja) * | 1997-12-10 | 1999-07-02 | Toshiba Corp | 音声対話装置及び音声対話用音声合成方法 |
| JP3884851B2 (ja) * | 1998-01-28 | 2007-02-21 | ユニデン株式会社 | 通信システムおよびこれに用いられる無線通信端末装置 |
| JP3571925B2 (ja) * | 1998-07-27 | 2004-09-29 | 株式会社東芝 | 音声情報処理装置 |
| JP3576848B2 (ja) * | 1998-12-21 | 2004-10-13 | 日本電気株式会社 | 音声合成法方法、装置、および音声合成プログラムを記録した記録媒体 |
| JP3247664B2 (ja) * | 1999-06-11 | 2002-01-21 | 株式会社タカラ | 多質音声発生玩具 |
-
2001
- 2001-04-05 JP JP2001107849A patent/JP3681111B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002304186A (ja) | 2002-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7233901B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| JP3361066B2 (ja) | 音声合成方法および装置 | |
| US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
| US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
| US20040073427A1 (en) | Speech synthesis apparatus and method | |
| US20050144002A1 (en) | Text-to-speech conversion with associated mood tag | |
| US20080319754A1 (en) | Text-to-speech apparatus | |
| JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
| US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
| JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
| JP2010128103A (ja) | 音声合成装置、音声合成方法、および音声合成プログラム | |
| JP3681111B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
| US6832192B2 (en) | Speech synthesizing method and apparatus | |
| JP2894447B2 (ja) | 複合音声単位を用いた音声合成装置 | |
| JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
| JP3060276B2 (ja) | 音声合成装置 | |
| JPH0580791A (ja) | 音声規則合成装置および方法 | |
| JP3685648B2 (ja) | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 | |
| JP2006084666A (ja) | 韻律生成装置及び韻律生成プログラム | |
| JP2012163721A (ja) | 読み記号列編集装置および読み記号列編集方法 | |
| JP3113101B2 (ja) | 音声合成装置 | |
| JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
| JP3892691B2 (ja) | 音声合成方法及びその装置並びに音声合成プログラム | |
| JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 | |
| JP3870583B2 (ja) | 音声合成装置および記憶媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041013 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041125 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050121 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050513 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050513 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080527 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090527 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100527 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110527 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110527 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120527 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120527 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130527 Year of fee payment: 8 |
|
| LAPS | Cancellation because of no payment of annual fees |