JP2006030384A

JP2006030384A - テキスト音声合成装置及びテキスト音声合成方法

Info

Publication number: JP2006030384A
Application number: JP2004206080A
Authority: JP
Inventors: Toshiyuki Kumakura; 俊之熊倉; Erika Kumakura; 恵理香熊倉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-13
Filing date: 2004-07-13
Publication date: 2006-02-02

Abstract

【課題】複数の言語が混在した入力テキストが入力された場合であっても、言語の特徴を十分に表現して音声合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供するを提供する。
【解決手段】複数の言語が混合した入力テキストに含まれる言語を判定し、判定された言語毎に入力テキストを分割する。テキスト分割部２は、分割されたテキスト部分を言語毎に設けられた音声合成部３_１〜３_ｎへ出力する。各テキスト音声合成部３１〜３ｎにて合成された音声波形は、音声波形統合部４にて統合される。
【選択図】図１

Description

本発明は、複数の言語を処理することができるテキスト音声合成装置及びテキスト音声合成方法に関する。

テキスト音声合成は、タイプ入力などにより得られた入力テキストを人間の音声の生成機構に基づいて機械的に音声を合成するものである。図９に、従来のテキスト音声合成装置１００の構成を示す。テキスト音声合成装置１００は、入力テキストを音声記号列に変換する音声記号列生成部１０１と、音声記号列を韻律データに変換する韻律生成部１０２と、韻律データから音声波形を生成する波形生成部１０３とを有して構成されている。

音声記号列生成部１０１は、入力テキストを意味をもつ最小の言語単位である形態素に分割し、形態素に関する表記、品詞、読みなどの情報が格納された辞書を参照して音声記号列を生成する。この音声記号列は、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。

そして、韻律生成部１０２は、入力された音声記号列を解析し、音素毎に継続時間長、基本周波数及びパワーを決定する。決定された各音素の情報は、韻律データとして波形生成部１０３に出力する。ここで、音素とは、ある１つの言語で用いられる音の単位で、意味の相違をもたらす最小の単位である。

韻律生成部１０２から出力された韻律データは、波形生成部１０３で音素列情報、音素時間情報、ピッチパタン情報に分けられる。音素列情報には音素列が含まれており、選択された音素列に対応する音響特長パラメータは、音素時間情報に基づいて時間軸上で伸縮され、ピッチパタン情報に基づいてピッチが変更されて音声波形に変換される。

以上のような処理により、音声合成装置１００は、タイプ入力などにより得られた入力テキストを音声波形に変換する。

特開２００１−１４３０５号公報

ところで、テキスト音声合成装置において、日本語、英語などの複数の言語を処理できるものが知られている（例えば、特許文献１参照。）。例えば、特許文献１に記載の電子文書処理装置は、電子文書を記述する言語を示す属性情報に基づいて音声合成エンジンを選択することにより複数の言語を処理している。

しかしながら、特許文献１には、例えば１つの入力テキストに複数の言語が混在する場合の音声合成エンジンの選択方法について記載されておらず、特許文献１に記載の技術では、１つの入力テキストに複数の言語が混在する場合、各言語の韻律で音声合成することができなかった。

本発明は、このような問題に鑑みてなされたものであり、複数の言語が混在した入力テキストが入力された場合であっても、言語の特徴を十分に表現して音声合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供することを目的とする。

上述した目的を達成するために、本発明に係るテキスト音声合成装置は、２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別手段と、上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成手段と、上記言語毎に変換された音声波形を統合する音声波形統合手段とを有し、上記言語判別手段は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成手段に出力することを特徴としている。

また、本発明に係るテキスト音声合成装置は、２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、上記入力テキストに含まれる言語を判定する判定手段と、上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理手段と、上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成手段と、上記韻律データを音声波形に変換する音声波形生成手段とを有し、上記言語処理手段は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成手段に出力することを特徴としている。

また、本発明に係るテキスト音声合成方法は、２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別工程と、上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成工程と、上記言語毎に変換された音声波形を統合する音声波形統合工程とを有し、上記言語判別工程は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成工程に出力することを特徴としている。

また、本発明に係るテキスト音声合成方法は、２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、上記入力テキストに含まれる言語を判定する判定工程と、上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理工程と、上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成工程と、上記韻律データを音声波形に変換する音声波形生成工程とを有し、上記言語処理工程は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成工程に出力することを特徴としている。

本発明は、２つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定し、テキスト部分の言語に応じて当該テキスト部分を各言語の音声合成手段に出力することにより、各言語の韻律で音声合成することができる。

また、２つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定し、言語毎のテキスト部分を音声記号列に変換し、音声記号列に応じて当該音声記号列を各言語の韻律生成手段に出力することにより、各言語の韻律で音声合成することができる。

以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。本発明の具体例として示すテキスト音声合成装置は、複数の言語が混合した入力テキストに含まれる言語を判定し、その言語の特徴を十分に表現して音声合成するようにしたものである。

（第１の実施の形態）
図１は、第１の実施の形態におけるテキスト音声合成装置１０の全体構成を示すものである。テキスト音声合成装置１０は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部１と、判定された言語毎に入力テキストを分割するテキスト分割部２と、分割されたテキスト部分の音声波形を合成する言語毎に設けられたテキスト音声合成部３_１〜３_ｎと、各テキスト音声合成部３_１〜３_ｎで合成された音声波形を統合する音声波形統合部４とを有して構成されている。

言語判定部１は、２つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定する。また、言語判定部１は、判定された言語毎に言語情報を示すタグを付与する。例えば、「これはｄｉｃｔｉｏｎａｒｙです。」という日本語と英語の言語混合文に対するタグ付きテキストは、以下のように記述される。
<lang=japanese>これは</lang> <lang=english>ｄｉｃｔｉｏｎａｒｙ</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。

また、言語の判定は、例えば次のような方法により行われる。
１．外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
２．文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
３．辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
４．文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。

テキスト分割部２は、入力テキストを言語毎にタグが付与されたテキスト部分に切り分け、タグの言語情報に基づいてテキスト部分を各言語のテキスト音声合成部３_１〜３_ｎへ出力する。

音声波形統合部４は、各言語のテキスト音声合成部３_１〜３_ｎで合成された音声波形を統合する。また、音声波形統合部４は、音声波形が入力される度にテキスト分割部２へ波形到着通知を送信し、テキスト分割部２から終了指令を受信することにより、それまでに統合された音声波形を出力する。

次に、音声合成装置１０の動作を図２に示すフローチャートを参照して説明する。先ず、言語判定部１は、入力テキストに含まれる言語を判定し（ステップＳ１）、言語毎のテキスト部分に分割する判定された言語毎に言語情報を示すタグを付与する。

タグ付きテキストは、テキスト分割部２で言語毎に切り分けられる（ステップＳ２）。そして、テキスト分割部２は、先ず、入力テキストのうち先頭のテキスト部分を、タグの言語情報に従って当該言語のテキスト音声合成部３_１〜３_ｎへ出力する。テキスト音声合成部３_１〜３_ｎは、入力されたテキスト部分を音声波形に変換し（ステップＳ３）、音声波形統合部４へ出力する。

音声波形統合部４は、テキスト音声合成部で出力された音声波形を受け取ったら、音声波形が届いたという波形到着通知をテキスト分割部２へ送信する。テキスト分割部２は、波形到着通知を波形統合部４から受信すると、入力テキストのうち先頭から2番目のテキスト部分を言語情報に従って、当該言語のテキスト音声合成部ｎへ出力する。同様にして、２番目のテキストもテキスト音声合成部３_１〜３_ｎにて音声波形に変換され、音声波形統合部４へと送られる。

音声波形統合部４は、テキスト音声合成部３_１〜３_ｎから出力された音声波形を、音声波形統合部４へ入力された順番に統合し（ステップＳ４）、音声波形が届いたという信号をテキスト分割部２へ送る。そして、同様にして、入力テキストのテキスト部分が終了するまで、3番目以降のテキスト部分も処理される（ステップＳ５）。

最終のテキスト部分の波形到着通知を受信した場合、テキスト分割部２は、終了指令を音声波形統合部４へ送信する。終了指令を受けたら、音声波形統合部４は、それまでに結合した音声波形を出力する（ステップＳ６）。

このように、第１の実施の形態におけるテキスト音声合成装置１０は、テキスト部分の言語に応じて当該テキスト部分を各言語の音声合成手段３_１〜３_ｎに出力することにより、２つ以上の言語のテキスト部分を有する入力テキストでも各言語の韻律で音声合成することができる。

（第２の実施の形態）
図３は、第２の実施の形態におけるテキスト音声合成装置２０の構成を示すものである。このテキスト音声合成装置２０は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部２１と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部２２と、音声記号列を言語毎に設けられた韻律生成部２４_１〜２４_ｎに出力する切換処理部２３と、音声記号列を韻律データに変換する言語毎の韻律生成部２４_１〜２４_ｎと、各韻律生成部２４_１〜２４_ｎからの韻律データを接続する韻律接続部２５と、韻律データに基づいて音声波形を生成する波形生成部２６とを有して構成されている。

言語判定部２１は、上記第１の実施の形態における言語判定部１と同様で、２つ以上の言語のテキスト部分を有する入力テキストに含まれる言語を判定する。また、言語判定部１は、判定された言語毎に言語情報を示すタグを付与する。例えば、「これはｄｉｃｔｉｏｎａｒｙです。」という日本語と英語の言語混合文に対するタグ付きテキストは、以下のように記述される。
<lang=japanese>これは</lang> <lang=english>ｄｉｃｔｉｏｎａｒｙ</lang> <lang=japanense>です</lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。

言語の判定は、例えば次のような方法により行われる。
１．外部から与えられた情報により言語を判定する
例えば単語毎にタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を判定する。
２．文字の種類により言語を判定する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と判定する。
３．辞書を参照することにより言語を判定する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を判定する。
４．文字コードにより言語を判定する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を判定する。

音声記号列生成部２２は、図４に示すように入力されたテキスト文を解析し、形態素情報を生成するテキスト解析部２２１と、形態素情報を基に音声記号を生成する韻律情報生成部２２２とを有して構成されている。ここで、形態素とは、語幹、接頭辞、接尾辞など、意味をもつ文字列の最小単位で、単語よりやや小さいものである。また、音声記号列とは、発音記号やアクセント記号などで表現したものである。

テキスト解析部２２１は、テキスト解析ルール２２３と辞書２２４とを有している。テキスト解析ルール２２３には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書２２４に登録されていない形態素に必要な情報を付与する規則とが格納されている。また、辞書２２４には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。

韻律情報生成部２２２は、形態素情報を解析し韻律情報を得るための韻律情報生成ルール２２５を有する。韻律情報生成ルール２２５には、形態素情報をもとにフレーズの区切り方を指すフレージングや読みの変更を行うための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部２２１で用いた辞書２２４とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パタンの情報などである。

なお、図４に示す音声記号列生成部２２の構成では、１つの辞書２２４に形態素に関する情報と韻律生成のための情報とを納める構成となっているが、それぞれ別の辞書を保持してもよい。すなわち、テキスト解析部２２１は、形態素に関する情報のみが納められた辞書と接続され、韻律情報生成部２２２は、韻律生成のための情報のみが納められた辞書と接続されるという構成でも同様の処理を行うことができる。また、テキスト解析ルール２２３、辞書２２４及び韻律情報生成ルール２２５は、各言語のルールを格納していることとしているが、言語毎にルールを独立して有する構成としてもよい。

ここで、入力テキストの処理について説明する。なお、入力テキストは、1文の場合でも、複数文からなる場合でもよい。

入力テキストは、言語判定部２１にて言語毎のテキスト部分に区分される。区分されたテキスト部分は、テキスト解析部２２１において、テキスト解析ルール２２３と辞書２４とを用いて形態素に分割され、辞書２２４からそれぞれの形態素に関する情報を得る。辞書２２４に登録されていない形態素については、テキスト解析ルール２２３を用いて、必要な形態素情報を生成する。このようにして得られた形態素情報は、韻律情報生成部２２２へと送られる。

韻律情報生成部２２２では、テキスト解析部２２１から受け取った形態素情報をもとに、入力文に対し、韻律情報生成ルール２２５を用いて韻律情報を付与するという処理を行う。韻律情報は、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などの情報である。なお、韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定されるものではない。

韻律情報生成部２２２での処理によって得られる韻律情報は、音声記号列で表現され、韻律生成部へと出力する。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。

これらの記号は、独自のものを定義してもよいし、既存の記号を採用してもよい。例えば、ＩＰＡ(国際音声字母、International Phonetic Alphabet)、ＳＡＭＰＡ（Speech Assessment Methods Phonetic Alphabet）などの発音記号、アクセント記号などを用いてもよい。又は、ＴｏＢＩ(Tone and Break Indices)などのポーズ記号、音調記号などを用いてもよい。本実施の形態では、便宜的に日本語部分にはローマ字を、英語部分にはSAMPAを参考にした独自記号を用いた。例えば、「これはｄｉｃｔｉｏｎａｒｙです。」という入力テキストに対し、音声記号列生成部２２から出力される音声記号列は、例えば次のように記述される。
<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>
なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。

切換処理部２３は、音声記号列を出力する韻律生成部２４_１〜２４_ｎを選択する。例えば、音声記号列に付与された言語情報に応じて、その音声記号列の出力を韻律生成部２４_１〜２４_ｎに切り換える。例えば、入力された音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>に対し、切換処理部２３は、「korewa」及び「desu」を日本語韻律生成部へ、「dIkS@neri:」を英語韻律生成部へ出力する。

図５は、韻律生成部２４_１〜２４_ｎのうち、１つの韻律生成部２４_ｎの構成を示すものである。韻律生成部２４_ｎは、各音素の継続時間長を求めるための継続時間長決定部５１と、各音素の基本周波数を求めるための基本周波数決定部５２と、各音素の音量を求めるためのパワー決定部５３とを有して構成されている。

継続時間長決定部５１は、音声記号列解析部５４と、ルール適用部５５とを有している。音声記号列解析部５４は、音声記号列を解析するための解析ルール５６を有している。解析ルール５６は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。

ルール適用部５５は、それぞれの音素の継続時間長を決めるための生成ルール５７を有している。生成ルール５７は、それぞれの音素の継続時間長を決定するためのルールであり、どのような音韻環境のときにデフォルト継続時間長を伸縮させるかを決めるための規則を格納している。また、音素のデフォルト継続時間長も格納されている。ここで、音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどこかなどを示すものである。

継続時間長決定部５１は、この生成ルール５７を用いて、それぞれの音素の継続時間長を決定する。生成ルール５７を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定された継続時間長の情報は、基本周波数決定部３２へ送信される。

基本周波数決定部５２は、音声記号列解析部５８と生成ルール適用部５９と時間伸縮部６０とを有している。音声記号列解析部５８は、音声記号列を解析するための解析ルール６１を有している。解析ルール６１は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。

ルール適用部５９は、基本周波数パタンを生成するための生成ルール６２を有している。生成ルール６２は、アクセント型等の音調区分に対する基本周波数パタンの値及び、それらのパタンの選択、変形のためのルールが格納されている。

ここで、ルール選択方法は装置によって、様々な形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性の是非を判定する。

生成ルールに含まれる基本周波数パタンのデータは、複数の音素にまたがる基本周波数の値を保持しており、ルールにより選択できるように、アクセント型や音調など予測要因毎にパタンが分類してある。

音声記号列解析部５８は、入力された音声記号列を解析ルール６１により、生成ルール６２の適用に必要な情報を得る。ルール適用部５９は、得られた情報から生成ルール６２を用いて、最適なパタンを選択、変形する。時間伸縮部６０は、選択されたパタンを、継続時間長決定部５１ですでに決定されたそれぞれの音素の継続時間長にあわせて、変形させ、音素毎の基本周波数を決定する。

パワー決定部５３は、音声記号列解析部６３と、ルール適用部６４とを有している。音声記号列解析部６３は、音声記号列を解析するための解析ルール６５を有している。解析ルール６５は、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールを格納している。

ルール適用部６４は、それぞれの音素のパワーを決めるための生成ルール６４を有している。生成ルール６６は、それぞれの音素のパワーを決定するためのルールである。

パワー決定部５３は、この生成ルール６６を用いて、それぞれの音素のパワーを決定する。生成ルール６６を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定されたパワーの情報は、出力生成部６７へ送信される。

継続時間長決定部５１で決定された音素毎の継続時間長、基本周波数決定部５２で決定された音素毎の基本周波数及びパワー決定部５３で決定された音素毎のパワーの情報は、韻律データとして出力生成部６２で生成され、韻律生成部２４ｎから出力される。

韻律接続部２５は、韻律生成部２４_１〜２４_ｎから出力された韻律データを、切換処理部２３に入力された音声記号列の順番に会うように整列、接続する。この韻律接続部２５は、韻律データが到達すると、切換処理部２３に到達通知を送信する。切換処理部２３は、到達通知を受信した後、次の順番の音声記号列を出力するので、入力テキストの順番に韻律データが統合される。また、切換処理部２３は、最後の音声記号列の到達通知を受信すると、終了通知を韻律接続部２５へ送信する。韻律接続部２５は、終了通知を受信して韻律データを波形生成部２６へ出力する。

図６は、波形生成部２６の構成を示したものである。波形生成部２６は、韻律生成部２４_１〜２４_ｎから出力された韻律データから音声波形を生成する。波形生成部２６は、入力された韻律データを情報毎に分配する韻律データ分配部２６１と、音素列の音響特長パラメータを生成する素片選択部２６２と、音響特長パラメータを補正するパラメータ補正部２６３と、ピッチを変更しながら音声信号波形を合成する波形組立部２６４とを有して構成されている。また、素片選択部２６２は、音響的な特長を示すパラメータを格納した音声データ２６５を有している。

韻律データ分配部２６１は、入力された韻律データを音素列情報、音素時間長情報及びピッチパタン情報に分け、それぞれ、素片選択部２６２、パラメータ補正部２６３及び波形組立部２６４に出力する。

素片選択部２６２は、入力された音素列情報に基づいて音声データ２６５を参照して上記音素列情報に含まれる音素列を選択して、選択した音素列に対応する音響特長パラメータを音声データ２６５から順次読み出して出力する。

音声データ２６５は、既存の規則音声合成装置に使用されるものと同様のもので、例えばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、ＣＶ、ＣＶＣ（Ｃ：子音、Ｖ：母音）、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位に固定されない。

パラメータ補正部２６３は、音素列によって時間軸上に並べられた音響特長パラメータを、韻律データ分配部２６１から入力された音素時間情報によってそれぞれの音素の長さに等しくなるように時間軸上で伸縮する。また、素片の接続部での音響特長パラメータの不整合を避けるために音響特長パラメータを補正する。

波形組立部２６４は、パラメータ補正部２６３から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部２６１からのピッチパタン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。

このような構成のテキスト音声合成装置２０は、音声記号列の言語情報に応じて当該テキスト部分を各言語の韻律生成部２４_１〜２４_ｎに出力することにより、２つ以上の言語のテキスト部分を有する入力テキストでも各言語の韻律で音声合成することができる。

また、テキスト音声合成装置２０は、言語毎に韻律生成部２４_１〜２４_ｎを有する構成としたが、１つの韻律生成部において各ルールが各言語のルールを有する構成としてもよい。この場合、切換処理部２３及び韻律接続部２５の構成がなくても、各言語の韻律で音声合成することができる。

（第３の実施の形態）
図７は、第３の実施の形態におけるテキスト音声合成装置３０の構成を示すものである。このテキスト音声合成装置３０は、複数の言語が混合した入力テキストに含まれる言語を判定する言語判定部２１と、単語毎のテキスト部分を音声記号列に変換する音声記号列生成部２２と、言語決定部３２で決定された言語に応じて言語毎に設けられた韻律生成部２４_１〜２４_ｎへの音声記号列の出力を切り換える切換処理部３１と、音声記号列を韻律データに変換する言語毎の韻律生成部２４_１〜２４_ｎと、各韻律生成部２４_１〜２４_ｎからの韻律データを接続する韻律接続部２５と、韻律データに基づいて音声波形を生成する波形生成部２６とを有して構成されている。

すなわち、第３の実施の形態におけるテキスト音声合成装置３０は、第２の実施の形態におけるテキスト音声合成装置２０の構成に言語決定部３２をさらに設け、切換処理部３１では、言語決定部３２にて決定された言語に応じて音声記号列の出力を各韻律生成部２４_１〜２４_ｎへ切り換えるようにしたものである。なお、上述した図３に示す構成の各部と対応する部分には同じ指示符号を付している。

言語決定部３２は、切換処理部３１に入力された音声記号列のベースとなる言語を決定する。ベース言語とは、あたかも一人の話者が発声しているかのように韻律を生成するために用いられる話者の母国語のようなものである。

次に、言語決定部３２における言語の決定方法について説明する。ここでは、「これはdictionaryです。」という入力テキストの音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を用いて説明する。なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<lang=japanese>は文内で日本語(Japanese)が開始することを示し、</lang>は当該言語が終了することを示す。また、言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。

１．入力された音声記号列の中で最も長い区間に割り当てられた言語
上記例において、入力された音声記号列のうち、「dIkS@neri:」が最も音韻数が多いため、英語をベース言語と決定する。
２．入力された音声記号列の中で最も多数の区間に割り当てられた言語
上記例において、日本語が２区間、英語が１区間であるため、日本語をベース言語と決定する。
３．入力された音声記号列の中で最初に出現する区間に割り当てられた言語
上記例において、最初に出現する区間<lang=japanense>korewa</lang>が日本語であるため、日本語をベース言語と決定する。
４．入力された音声記号列の中で最後に出現する区間に割り当てられた言語
上記例において、最後に出現する区間<lang=japanense>desu</lang>が日本語であるため、日本語をベース言語と決定する。
５．入力された音声記号列の中で最初に出現する区間と最後に出現する区間に割り当てられた言語
上記例において、最初に出現する区間と最後に出現する区間が日本語であるため、日本語をベース言語と決定する。

なお、入力された音声記号列に出現する言語を任意に選択し、ベース言語としてもよい。また、ベース言語一覧をもち、その中から任意に選択することでベース言語としてもよい。また、外部から指定された言語をベース言語としてもよい。

上記方法のいずれか１つ以上でベース言語を決定することができないときには、前述した第２の実施の形態のように、タグの言語情報に応じた言語の韻律制御部を利用することができる。

切換処理部３１は、図８に示すように音声記号列を再変換する再変換部３１１と、言語情報を変換する言語変換部３１２とを有している。

再変換部３１１は、言語決定部３２にて決定された言語に応じて音声記号列を再変換する。その際、読みに関する情報が格納されている変換ルールを参照する。例えば、ベース言語として日本語が決定された場合、音声記号列を日本語の音声記号列に再変換する。この場合、例えば、音声記号列<lang=english>dIkS@neri:</lang>は、<lang=english>dikushonarii</lang>に再変換される。

言語変換部３１２は、言語決定部３２にて決定された言語に応じて音声記号列の言語情報を変える。例えば、ベース言語として日本語が決定された場合、音声記号列に付与された言語情報を日本語とする。この場合、例えば、音声記号列<lang=english>dIkS@neri:</lang>は、<lang=japanense>dIkS@neri:</lang>と変換される。つまり、音声記号列に付与されている出力先の言語情報を言語決定部３２で決定された言語に変換する。

このように、再変換部３１１と言語変換部３１２とを有することにより、ベース言語以外の言語の音声記号列をベース言語の音声記号列に変換し、韻律を生成することができる。また、入力された音声記号列にベース言語以外の音声記号列が含まれていても、そのまま韻律を生成することができる。

例えば、入力テキスト「これはdictionaryです。」の音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を<lang=english>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=english>desu</lang>に変換することにより、dictionaryの発音だけ流暢な英語で、他の部分は片言の日本語であるような発話を表現することができる。

また、<lang=japanense>korewa</lang> <lang=japanense>dikushonarii</lang> <lang=japanense>desu</lang>に変換することにより、流暢な日本語の発話を表現することができる。

また、言語決定部３２にて異なる言語決定方法で異なるベース言語を決定し、それぞれ異なるベース言語に基づいて、音声記号列及びその言語情報をそれぞれ変換してもよい。この場合、例えば、入力テキスト「これはdictionaryです。」の音声記号列<lang=japanese>korewa</lang> <lang=english>dIkS@neri:</lang> <lang=japanense>desu</lang>を<lang=english>korewa</lang> <lang=english> dikushonarii</lang> <lang=english>desu</lang>に変換することができるのため、片言の日本語の発話を表現することができる。

また、ベース言語に限らなくとも、様々な言語の韻律を指定できるので、ユニークな発話を表現することができる。

なお、上記第１〜第３の実施の形態では、判定された言語毎に言語情報を示すタグを付与することとしたが、これに限られるものではなく、例えば言語毎に異なる音声記号列を使用してもよい。

本発明に係るテキスト音声合成装置の構成を示すブロック図である。本発明に係るテキスト音声合成装置の動作を説明するフローチャートである。本発明に係るテキスト音声合成装置の構成を示すブロック図である。音声記号列生成部の構成を示すブロック図である。韻律生成部の構成を示すブロック図である。波形生成部の構成を示すブロック図である。本発明に係るテキスト音声合成装置の構成を示すブロック図である。切換処理部の構成を示すブロック図である。従来のテキスト音声合成装置の構成を示すブロック図である。

符号の説明

１言語判定部、２テキスト分割部、３_１〜３_ｎテキスト音声合成部、４音声波形統合部、１０テキスト音声合成装置、２０テキスト音声合成装置、２１言語判定部、２２音声記号列生成部、２３切換処理部、２４_１〜２４_ｎ韻律生成部、２５韻律接続部、２６波形生成部、３０テキスト音声合成装置、３１切換処理部、３２言語決定部、１００テキスト音声合成装置、１０１音声記号列生成部、１０２韻律生成部、１０３波形生成部

Claims

２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、
上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別手段と、
上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成手段と、
上記言語毎に変換された音声波形を統合する音声波形統合手段とを有し、
上記言語判別手段は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成手段に出力することを特徴とするテキスト音声合成装置。
上記言語判別手段は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項１記載のテキスト音声合成装置。
上記言語判別手段は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項１記載のテキスト音声合成装置。
上記言語判別手段は、上記テキスト部分の文字種及び／又は文字コードに基づいて言語を判定することを特徴とする請求項１記載のテキスト音声合成装置。
２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成装置であって、
上記入力テキストに含まれる言語を判定する判定手段と、
上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理手段と、
上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成手段と、
上記韻律データを音声波形に変換する音声波形生成手段とを有し、
上記言語処理手段は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成手段に出力することを特徴とするテキスト音声合成装置。
上記判定手段は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項５記載のテキスト音声合成装置。
上記判定手段は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項５記載のテキスト音声合成装置。
上記判定手段は、上記テキスト部分の文字種及び／又は文字コードに基づいて言語を判定することを特徴とする請求項５記載のテキスト音声合成装置。
上記言語処理手段は、上記音声記号列のベースとなる言語を決定する言語決定手段をさらに有することを特徴とする請求項５記載のテキスト音声合成装置。
上記言語決定手段は、上記音声記号列の中で最も長い区間に割り当てられた言語を決定することを特徴とする請求項９記載のテキスト音声合成装置。
上記言語決定手段は、上記音声記号列の中で最も多数の区間に割り当てられた言語を決定することを特徴とする請求項９記載のテキスト音声合成装置。
上記言語決定手段は、上記音声記号列の中で最初に出現する区間及び／又は最後に出現する区間に割り当てられた言語を決定することを特徴とする請求項９記載のテキスト音声合成装置。
上記言語処理手段は、上記言語決定手段にて決定された言語に応じて上記音声記号列を再変換する再変換手段を有することを特徴とする請求項９記載のテキスト音声合成装置。
上記言語処理手段は、上記言語決定手段にて決定された言語に応じて上記音声記号列の言語情報を変換する言語変換手段を有することを特徴とする請求項９記載のテキスト音声合成装置。
２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、
上記入力テキストに含まれる言語を判定し、言語毎のテキスト部分に分割する言語判別工程と、
上記テキスト部分を音声波形に変換する上記言語毎に設けられた複数の音声合成工程と、
上記言語毎に変換された音声波形を統合する音声波形統合工程とを有し、
上記言語判別工程は、上記テキスト部分の言語に応じて当該テキスト部分を上記複数の音声合成工程に出力することを特徴とするテキスト音声合成方法。
上記言語判別工程は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項１５記載のテキスト音声合成方法。
上記言語判別工程は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項１５記載のテキスト音声合成方法。
上記言語判別工程は、上記テキスト部分の文字種及び／又は文字コードに基づいて言語を判定することを特徴とする請求項１５記載のテキスト音声合成方法。
２つ以上の言語のテキスト部分を有する入力テキストを処理するテキスト音声合成方法であって、
上記入力テキストに含まれる言語を判定する判定工程と、
上記判定された言語毎のテキスト部分を音声記号列に変換する言語処理工程と、
上記音声記号列を韻律データに変換する上記言語毎に設けられた複数の韻律生成工程と、
上記韻律データを音声波形に変換する音声波形生成工程とを有し、
上記言語処理工程は、上記音声記号列に応じて当該音声記号列を上記複数の韻律生成工程に出力することを特徴とするテキスト音声合成方法。
上記判定工程は、上記テキスト部分に予め付与された属性情報に基づいて言語を判定することを有することを特徴とする請求項１９記載のテキスト音声合成方法。
上記判定工程は、上記テキスト部分を識別するための辞書を参照して言語を判定することを特徴とする請求項１９記載のテキスト音声合成方法。
上記判定工程は、上記テキスト部分の文字種及び／又は文字コードに基づいて言語を判定することを特徴とする請求項１９記載のテキスト音声合成方法。
上記言語処理工程は、上記音声記号列のベースとなる言語を決定する言語決定工程をさらに有することを特徴とする請求項１９記載のテキスト音声合成方法。
上記言語決定工程は、上記音声記号列の中で最も長い区間に割り当てられた言語を決定することを特徴とする請求項２３記載のテキスト音声合成方法。
上記言語決定工程は、上記音声記号列の中で最も多数の区間に割り当てられた言語を決定することを特徴とする請求項２３記載のテキスト音声合成方法。
上記言語決定工程は、上記音声記号列の中で最初に出現する区間及び／又は最後に出現する区間に割り当てられた言語を決定することを特徴とする請求項２３記載のテキスト音声合成方法。
上記言語処理工程は、上記言語決定工程にて決定された言語に応じて上記音声記号列を再変換する再変換工程を有することを特徴とする請求項２３記載のテキスト音声合成方法。
上記言語処理工程は、上記言語決定工程にて決定された言語に応じて上記音声記号列の言語情報を変換する言語変換工程を有することを特徴とする請求項２３記載のテキスト音声合成方法。