JP2007079019A - Method and device for speech synthesis, and computer program - Google Patents
Method and device for speech synthesis, and computer program Download PDFInfo
- Publication number
- JP2007079019A JP2007079019A JP2005265778A JP2005265778A JP2007079019A JP 2007079019 A JP2007079019 A JP 2007079019A JP 2005265778 A JP2005265778 A JP 2005265778A JP 2005265778 A JP2005265778 A JP 2005265778A JP 2007079019 A JP2007079019 A JP 2007079019A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- keyword
- scale
- text
- text body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明はテキスト本文を読み上げるための音声合成にかかり,特にキーワードを音質良く強調する音声合成装置,音声合成方法,およびコンピュータプログラムに関する。 The present invention relates to speech synthesis for reading a text body, and more particularly to a speech synthesizer, a speech synthesis method, and a computer program for emphasizing keywords with good sound quality.
予め録音された人の自然音声等を基にして,PC(パーソナルコンピュータ)に記憶されたテキスト文書を,音声に変換して読み上げる音声合成装置が一般的に知られている。上記音声合成装置は,品詞単位に分割可能な自然音声が記録されているコーパスに基づいて音声を合成する。 2. Description of the Related Art Generally, a speech synthesizer is known that converts a text document stored in a PC (personal computer) into a voice and reads it out based on a natural voice of a person recorded in advance. The speech synthesizer synthesizes speech based on a corpus in which natural speech that can be divided into parts of speech is recorded.
音声を合成するために,従来にかかる音声合成装置は,まず,入力されたテキストに対して,例えば,形態素解析,係り受け解析を実行し,音素記号,アクセント記号などに変換する。 In order to synthesize speech, a conventional speech synthesizer first performs, for example, morpheme analysis and dependency analysis on input text, and converts it into phoneme symbols, accent symbols, and the like.
次に,従来に係る音声合成装置は,音素記号,アクセント記号列,および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さ),母音中心のパワー(声の大きさ)等の推定を行う。 Next, the conventional speech synthesizer uses the part of speech information of the input text obtained from the phoneme symbol, the accent symbol string, and the morpheme analysis result, and uses the phoneme duration (voice length), fundamental frequency (voice height). And vowel-centered power (voice volume).
次に,従来に係る音声合成装置は,上記推定された音素持続時間,基本周波数,母音中心のパワーなどに最も近く,かつ波形辞書に蓄積されている合成単位(音素片)を接続したときの歪みが最も小さくなる合成単位の組合せを,動的計画法等を用いて選択する。なお,この際に行われる単位選択では,知覚的特徴に一致した尺度を用いる。 Next, the conventional speech synthesizer is connected to the synthesis unit (phoneme fragment) that is closest to the estimated phoneme duration, fundamental frequency, vowel center power, etc. and stored in the waveform dictionary. The combination of composition units with the smallest distortion is selected using dynamic programming or the like. The unit selection performed at this time uses a scale that matches the perceptual feature.
上記合成単位の組合せが選択されると,従来に係る音声合成装置は,当該選択された音素片の組合せに従って,音素片の接続を行うことにより音声を合成する。 When the combination of the synthesis units is selected, the conventional speech synthesizer synthesizes the speech by connecting the phonemes according to the selected phoneme combination.
また,従来に係る音声合成装置には,文書中の重要な個所,文書作成者が読み手に特に伝えたい個所を強調して読み上げることが可能な音声合成装置が存在する(例えば,特許文献1,参照)。 In addition, speech synthesis apparatuses according to the related art include speech synthesis apparatuses that can emphasize important parts in a document and parts that a document creator particularly wants to convey to a reader and read them out (for example, Patent Document 1, Patent Document 1). reference).
しかしながら,従来に係る音声合成装置では,入力したテキスト本文全体からコストを求め,キーワード部分の音声について話者,音量,ピッチ,または話速のいずれかを変更することで当該キーワードを強調していたが,それ以外を変更してキーワード部分を強調する音声合成装置は存在しなかった。 However, the conventional speech synthesizer emphasizes the keyword by calculating the cost from the whole text body entered and changing either the speaker, volume, pitch, or speaking speed of the keyword part. However, there was no speech synthesizer that changed the others and emphasized the keyword part.
また,従来に係る音声合成装置では,入力したテキスト本文全体からコストを求め,キーワード部分の話者,音量,ピッチ,または話速のいずれかを変更し,キーワードを強調していたため,強調されたキーワード部分の音質を向上するのは困難であった。 In addition, in the conventional speech synthesizer, the cost was calculated from the whole text body entered, and the keyword was emphasized because the keyword was changed by changing the speaker, volume, pitch, or speaking speed. It was difficult to improve the sound quality of the keyword part.
本発明は,上記問題点に鑑みてなされたものであり,本発明の目的は,キーワード部分の音声について話者,音量,ピッチ,または話速以外を変更し,キーワード部分を強調することが可能な,新規かつ改良された音声合成装置,音声合成方法,およびコンピュータプログラムを提供することである。 The present invention has been made in view of the above problems, and an object of the present invention is to enhance the keyword portion by changing the speech of the keyword portion other than the speaker, volume, pitch, or speaking speed. A new and improved speech synthesis apparatus, speech synthesis method, and computer program are provided.
上記課題を解決するため,本発明の第1の観点によれば,テキスト本文を解析し,該テキスト本文を構成する各記号(又は,各音韻記号)の特徴量を予測した韻律予測情報を生成する韻律予測情報生成部と;上記韻律予測情報とテキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出部と;複数の音声が収録され,その音声を構成する音韻が格納された音韻データベースと;上記テキスト本文を構成する各記号ごとに,尺度算出部により求められた尺度に基づいて音韻データベースからテキスト音韻を選択する音韻選択部と;韻律予測情報とテキスト本文のうちキーワードを構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出部と;キーワードを構成する各記号ごとに,キーワード尺度算出部により求められたキーワードを構成する各記号の尺度に基づいて音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部と;上記音韻選択部が選択したテキスト音韻のうちキーワード部分に該当する音韻をキーワード優先音韻選択部が選択したキーワード音韻に置き換える音韻置換部と;音韻を接続し,合成音声を生成する合成部と;を備えることを特徴とした音声合成装置が提供される。 In order to solve the above problems, according to a first aspect of the present invention, a text body is analyzed, and prosodic prediction information is generated by predicting a feature quantity of each symbol (or each phoneme symbol) constituting the text body. The text body is constructed by mapping from the observable feature amount to a scale determined based on a perceptual experiment based on the prosodic prediction information generating unit and each symbol constituting the text body. A scale calculation unit for obtaining a scale of each symbol to be recorded; a phoneme database in which a plurality of voices are recorded and phonemes constituting the speech are stored; and for each symbol constituting the text body, the scale calculation unit calculates A phoneme selection unit that selects text phonemes from a phoneme database based on the measured scale; observable based on prosodic prediction information and each symbol constituting a keyword in the text body A keyword scale calculation unit that calculates a scale of each symbol that constitutes the keyword by mapping from a characteristic amount to a scale that is determined based on a perceptual experiment; and a keyword scale calculation unit that obtains a scale of each symbol that constitutes the keyword; A keyword-priority phoneme selection unit that selects a keyword phoneme from a phoneme database based on a scale of each symbol constituting the selected keyword; and a keyword-priority phoneme selection of a phoneme corresponding to the keyword part among the text phonemes selected by the phoneme selection unit There is provided a speech synthesizer comprising: a phoneme replacement unit that replaces a keyword phoneme selected by the unit; and a synthesis unit that connects phonemes and generates synthesized speech.
本発明によれば,音声合成装置に備わる音韻選択部がテキスト音韻を選択し,キーワード優先音韻選択部がキーワード音韻を選択し,音韻置換部がテキスト音韻のうち該当する部分をキーワード音韻に置き換える。かかる構成によれば,音韻選択部がテキスト音韻を選択するのとは別途独立して,キーワード尺度算出部がキーワードを構成する各記号と韻律予測情報とを基に尺度を計算し,その尺度からキーワード優先音韻選択部がキーワード音韻を選択する。したがって,キーワード部分に対象範囲を限定して尺度が求められ音韻が選択されるためキーワード部分の合成音声の自然性が高まり,さらにキーワード部分の合成音声が明瞭となるため当該キーワード部分が強調される。 According to the present invention, the phoneme selection unit provided in the speech synthesizer selects the text phoneme, the keyword priority phoneme selection unit selects the keyword phoneme, and the phoneme replacement unit replaces the corresponding part of the text phoneme with the keyword phoneme. According to such a configuration, the keyword scale calculation unit calculates the scale based on each symbol constituting the keyword and the prosodic prediction information separately from the phoneme selection unit selecting the text phoneme. A keyword priority phoneme selection unit selects a keyword phoneme. Therefore, the scale is determined by limiting the target range to the keyword part, and the phoneme is selected, so that the naturalness of the synthesized speech of the keyword part increases, and the synthesized speech of the keyword part becomes clear, and the keyword part is emphasized .
なお,上記テキスト音韻は,例えば,テキスト本文に構成する各記号ごとに選択された音韻である。上記キーワード音韻は,例えば,テキスト本文中のキーワードを構成する各記号ごとに選択された音韻である。 The text phoneme is, for example, a phoneme selected for each symbol constituting the text body. The keyword phoneme is, for example, a phoneme selected for each symbol constituting the keyword in the text body.
また,本発明にかかる尺度算出部と音韻選択部とは,別体として構成されるが,かかる例に限定されず,例えば,尺度算出部と音韻選択部とが一体として構成される場合でもよい。 In addition, the scale calculation unit and the phoneme selection unit according to the present invention are configured as separate bodies. However, the present invention is not limited to this example. For example, the scale calculation unit and the phoneme selection unit may be configured as a single unit. .
また,本発明にかかるキーワード尺度算出部とキーワード優先音韻選択部と音韻置換部とは,別体として構成されるが,かかる例に限定されず,例えば,キーワード尺度算出部とキーワード優先音韻選択部と音韻置換部とが一体として構成される場合でもよい。 In addition, the keyword scale calculation unit, the keyword priority phoneme selection unit, and the phoneme replacement unit according to the present invention are configured separately, but are not limited to this example. For example, the keyword scale calculation unit and the keyword priority phoneme selection unit And the phoneme replacement unit may be configured integrally.
また,上記特徴量は,例えば,音響的な尺度,物理量,言語情報などであり,当該物理量は,例えば,スペクトル,メルケプストラム,ピッチ,音の長さ等であるが,かかる例に限定されない。上記知覚評価量(心理量)は,例えば,局所コスト(又は,局所的な尺度,サブコスト)であるが,かかる例に限定されない。上記特徴量から心理量へのマッピングは,例えば,コスト関数が用いられるが,かかる例に限定されない。 The feature quantity is, for example, an acoustic scale, a physical quantity, language information, and the like. The physical quantity is, for example, a spectrum, a mel cepstrum, a pitch, a sound length, etc., but is not limited to such an example. The perceptual evaluation amount (psychological amount) is, for example, a local cost (or local scale, sub cost), but is not limited to such an example. The mapping from the feature quantity to the psychological quantity uses, for example, a cost function, but is not limited to this example.
上記キーワードが上記テキスト本文中に2つ以上存在する場合,上記キーワード優先音韻選択部は,該テキスト本文の先頭からキーワードが出現する順に,該キーワード各々に優先順位を付与しその優先順に,または該キーワードに付与した重みを優先順位に変換しその優先順に,上記キーワード音韻を選択するように構成してもよい。 When there are two or more keywords in the text body, the keyword priority phoneme selection unit assigns a priority to each of the keywords in the order in which the keywords appear from the top of the text body, The weights assigned to the keywords may be converted into priorities, and the keyword phonemes may be selected in the order of priority.
上記キーワードが上記テキスト本文中に2つ以上存在する場合,上記キーワード優先音韻選択部は,上記キーワード単位に各々重み付けし該キーワードが出現する順に,該キーワードに重み付けされた値を基にして上記キーワードを構成する各記号の尺度を求めるように構成してもよい。 When there are two or more keywords in the text body, the keyword priority phoneme selection unit weights each keyword and weights the keywords in the order in which the keywords appear. You may comprise so that the scale of each symbol which comprises may be calculated | required.
上記音韻置換部は,上記キーワード優先音韻選択部により上記キーワード音韻が選択されると逐次,上記音韻選択部が選択した上記テキスト音韻のうち該キーワード部分に該当する音韻を該キーワード音韻に,置き換えるように構成してもよい。 The phoneme replacement unit sequentially replaces the phoneme corresponding to the keyword part in the text phoneme selected by the phoneme selection unit with the keyword phoneme when the keyword phoneme selection unit selects the keyword phoneme. You may comprise.
上記音韻置換部は,上記キーワード優先音韻選択部により求められた尺度と上記音韻選択部により求められた尺度とを比較することにより,上記キーワード音韻に置き換えるか否かを判断するように構成してもよい。 The phoneme replacement unit is configured to determine whether or not to replace with the keyword phoneme by comparing the scale obtained by the keyword priority phoneme selection unit with the measure obtained by the phoneme selection unit. Also good.
上記音韻置換部は,上記キーワード優先音韻選択部により求められた尺度及び上記音韻選択部により求められた尺度の差分値と,所定の閾値とを大小比較するようにしてもよい。 The phoneme replacement unit may compare the difference between the scale obtained by the keyword priority phoneme selection unit and the scale obtained by the phoneme selection unit with a predetermined threshold.
上記課題を解決するために,本発明の別の観点によれば,テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと;上記韻律予測情報と上記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;上記テキスト本文を構成する各記号ごとに,上記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;上記韻律予測情報と上記テキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;上記キーワードを構成する各記号ごとに,上記キーワード尺度算出ステップで求めた上記キーワードを構成する各記号の尺度に基づいて上記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;上記音韻選択ステップで選択した上記テキスト音韻のうち上記キーワード部分に該当する音韻を上記キーワード優先音韻選択ステップで選択した上記キーワード音韻に置き換える音韻置換ステップと;上記音韻を接続し,合成音声を生成する合成音声生成ステップとを含むことを特徴とする,音声合成方法が提供される。 In order to solve the above-mentioned problem, according to another aspect of the present invention, a prosodic prediction information generating step of analyzing a text body and generating prosodic prediction information predicting a feature amount of each symbol constituting the text body; Mapping the scale of each symbol constituting the text body by mapping from the observable feature amount to the scale determined based on the perceptual experiment based on the prosodic prediction information and the symbols constituting the text body; A scale calculation step to be obtained; for each symbol constituting the text body, a text from a phoneme database storing one or more phonemes constituting the recorded speech based on the scale obtained in the scale calculation step A phoneme selection step of selecting a phoneme; the observable based on the prosodic prediction information and each symbol constituting a keyword in the text body A keyword scale calculating step for obtaining a scale of each symbol constituting the keyword by mapping the collected amount to a scale determined based on the perceptual experiment; and the keyword scale calculating step for each symbol constituting the keyword A keyword-preferred phoneme selection step of selecting a keyword phoneme from the phoneme database based on the scale of each symbol constituting the keyword obtained in step; a phoneme corresponding to the keyword portion of the text phoneme selected in the phoneme selection step A speech synthesizing method comprising: a phoneme replacement step that replaces the keyword phoneme with the keyword phoneme selected in the keyword priority phoneme selection step; and a synthesized speech generation step that generates a synthesized speech by connecting the phonemes. The
また,上記課題を解決するために,本発明の別の観点によれば,テキスト本文を解析し,該テキスト本文を構成する各記号の特徴量を予測した韻律予測情報を生成する韻律予測情報生成ステップと;上記韻律予測情報と上記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;上記テキスト本文を構成する各記号ごとに,上記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;上記韻律予測情報と上記テキスト本文のうちキーワードを構成する各記号とを基にして上記観測可能な特徴量から上記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;上記キーワードを構成する各記号ごとに,上記キーワード尺度算出ステップで求めた上記キーワードを構成する各記号の尺度に基づいて上記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;上記音韻選択ステップで選択した上記テキスト音韻のうち上記キーワード部分に該当する音韻を上記キーワード優先音韻選択ステップで選択した上記キーワード音韻に置き換える音韻置換ステップと;上記音韻を接続し,合成音声を生成する合成音声生成ステップとを含んだ音声合成方法をコンピュータに実行させることを特徴とする,コンピュータプログラムが提供される。 In order to solve the above-mentioned problem, according to another aspect of the present invention, prosody prediction information generation that analyzes a text body and generates prosodic prediction information that predicts a feature amount of each symbol constituting the text body is performed. Mapping each of the symbols constituting the text body by mapping from an observable feature amount to a scale determined based on a perceptual experiment based on the prosodic prediction information and the symbols constituting the text body. A scale calculation step for obtaining a scale; a phoneme database in which one or more phonemes constituting the recorded speech are stored for each symbol constituting the text body based on the scale obtained in the scale calculation step A phoneme selection step of selecting a text phoneme from: the observation based on the prosodic prediction information and each symbol constituting a keyword in the text body A keyword scale calculating step for obtaining a scale of each symbol constituting the keyword by mapping from the feature value to a scale determined based on the perceptual experiment; and the keyword scale for each symbol constituting the keyword A keyword-preferred phoneme selection step for selecting a keyword phoneme from the phoneme database based on the scale of each symbol constituting the keyword obtained in the calculation step; and corresponding to the keyword portion of the text phoneme selected in the phoneme selection step Causing a computer to execute a speech synthesis method including a phoneme replacement step of replacing a phoneme to be replaced with the keyword phoneme selected in the keyword priority phoneme selection step; and a synthesized speech generation step of generating the synthesized speech by connecting the phonemes Featuring a computer Program is provided.
上記課題を解決するために,本発明の別の観点によれば,漢字仮名文字で表現されたテキスト本文を韻律予測情報に変換し,上記韻律予測情報に応じて,各音韻単位で,最適な音韻の候補を,観測可能な特徴量から,心理量へマッピングを行ったコスト関数を用いた,コスト計算(又は,尺度計算)により,収録音声が保持されるコーパス(音韻データベース)から選択,決定し,選択した音韻に対応する波形セグメント(波形データ)を接続することで,合成波形を得る音声合成装置において,予め定めた特定語(キーワード)に対して,独立にコスト再計算を行うことで,最適な音韻の候補を再決定する,キーワード優先音韻選択部を備えた音声合成装置が提供される。 In order to solve the above-described problem, according to another aspect of the present invention, a text body expressed in kanji characters is converted into prosodic prediction information, and an optimal value is obtained for each phoneme unit according to the prosodic prediction information. Select phonetic candidates from corpus (phoneme database) that holds recorded speech by cost calculation (or scale calculation) using a cost function that maps observable features to psychological quantities. Then, by connecting the waveform segments (waveform data) corresponding to the selected phoneme, the speech synthesizer that obtains the synthesized waveform can perform cost recalculation independently for a predetermined specific word (keyword). A speech synthesizer including a keyword-priority phoneme selection unit that re-decides an optimal phoneme candidate is provided.
上記キーワード優先音韻選択部において,予め定めた特定語(キーワード)に対して,独立に行ったコスト再計算の結果,各特定語(キーワード)部分の,合成音の自然性の高さを示す,コスト値を比較することで,音韻候補の組合せを選択するように構成してもよい。 In the keyword priority phoneme selection unit, the result of cost recalculation performed independently for a predetermined specific word (keyword) indicates the naturalness of the synthesized sound of each specific word (keyword) part. A combination of phoneme candidates may be selected by comparing the cost values.
上記キーワード優先音韻選択部において,予め定めた特定語(キーワード)が2つ以上存在する際,テキスト本文の先頭から,特定語(キーワード)が出現する順に,キーワード優先音韻選択部を作用させる,あるいは,複数の特定語(キーワード)に優先順位を付与し,優先順に,キーワード優先音韻選択部を作用させる,あるいは,複数の特定語(キーワード)に重みを付与し,特定語(キーワード)が出現する順に,重み付きコスト再計算を行う,あるいは,複数の特定語(キーワード)に付与した重みを,優先順位に変換し,優先順に,キーワード優先音韻選択部を作用させるようにしてもよい。 In the keyword priority phoneme selection unit, when two or more predetermined specific words (keywords) exist, the keyword priority phoneme selection unit is operated in the order in which the specific words (keywords) appear from the head of the text body, or Priority is given to a plurality of specific words (keywords), and the keyword priority phoneme selection unit is operated in the priority order, or weights are given to a plurality of specific words (keywords), and the specific word (keyword) appears. The weighted cost recalculation may be performed in order, or the weights assigned to a plurality of specific words (keywords) may be converted into priorities, and the keyword priority phoneme selection unit may be operated in order of priority.
上記キーワード優先音韻選択部において,初回に,漢字仮名文字で表現された,テキスト本文全体で選択した音韻候補の組合せの,特定語(キーワード)部分を,特定語(キーワード)が出現する順に,あるいは,優先順に,あるいは,重みを付与してコスト再計算したコスト値を比較した結果から生じる順に,各特定語(キーワード)に対して,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるようにしてもよい。 In the keyword-preferred phoneme selection unit, for the first time, the specific word (keyword) portion of the combination of phoneme candidates selected in the entire text body expressed in kanji characters is sorted in the order in which the specific word (keyword) appears, or , In the order of priority, or in the order that results from the comparison of the cost values recalculated with weighting, the phoneme candidate obtained by applying the keyword priority phoneme selection unit to each specific word (keyword) You may make it replace with a combination.
上記キーワード優先音韻選択部において,初回に,漢字仮名文字で表現された,テキスト本文全体で選択した音韻候補の組合せの,特定語(キーワード)部分を,各特定語(キーワード)に対して,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるかどうかを判断する手段を追加した,キーワード優先音韻選択部を備えるように構成してもよい。 In the keyword-preferred phoneme selection unit, for each specific word (keyword), a specific word (keyword) portion of the combination of phoneme candidates selected in the entire text body expressed in Kanji characters for the first time You may comprise so that the keyword priority phoneme selection part which added the means to judge whether to replace with the combination of the phoneme candidate calculated | required by operating the priority phoneme selection part may be provided.
上記初回に,漢字仮名文字で表現された,テキスト本文全体で選択した音韻候補の組合せの,特定語(キーワード)部分を,各特定語(キーワード)に対して,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるかどうかを判断する手段を追加した,キーワード優先音韻選択部において,漢字仮名文字で表現された,テキスト本文中の特定語(キーワード)部分に対して,初回に,テキスト文全体の音韻候補を選択する際に求めた特定語(キーワード)部分のコスト(又は,尺度)を取得し,キーワード優先音韻選択部を作用させることで求めたコスト値との大小を判定し,置き換えの必要の際は,キーワード優先音韻選択部を作用させることで求めた音韻候補の組合せに,置き換えるように構成してもよい。 In the first time, the keyword priority phoneme selection unit is applied to each specific word (keyword) for the specific word (keyword) portion of the combination of phoneme candidates selected in the entire text body expressed in Kanji characters. In the keyword-preferred phoneme selection unit, which adds a means to determine whether or not to replace the phoneme candidate combination obtained by the above, for the specific word (keyword) part in the text body expressed in kanji kana characters, First, obtain the cost (or scale) of the specific word (keyword) part obtained when selecting phoneme candidates for the entire text sentence, and compare it with the cost value obtained by operating the keyword priority phoneme selection unit If a replacement is necessary, the keyword-preferred phoneme selection unit may be replaced with the combination of phoneme candidates obtained by the action. .
以上説明したように,本発明によれば,テキスト本文を構成する各記号の尺度を求めてテキスト音韻を選択するのとは独立して,テキスト本文内のキーワードを構成する各記号の尺度を別途に求めてキーワード音韻を選択し,上記テキスト音韻のキーワード部分の音韻をキーワード音韻に置換することで,キーワード部分を明瞭に強調することができる。 As described above, according to the present invention, the scale of each symbol constituting the keyword in the text body is separately provided independently of obtaining the scale of each symbol constituting the text body and selecting the text phoneme. Then, the keyword phoneme is selected, and the keyword part is replaced with the keyword phoneme to clearly emphasize the keyword part.
以下,本発明の好適な実施の形態について,添付図面を参照しながら詳細に説明する。なお,以下の説明及び添付図面において,略同一の機能及び構成を有する構成要素については,同一符号を付することにより,重複説明を省略する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of the invention will be described in detail with reference to the accompanying drawings. In the following description and the accompanying drawings, components having substantially the same functions and configurations are denoted by the same reference numerals, and redundant description is omitted.
(音声合成装置について)
まず,図1を参照しながら,第1の実施の形態にかかる音声合成装置100について説明する。なお,図1は,第1の実施の形態にかかる音声合成装置の概略的な構成を示すブロック図である。
(About voice synthesizer)
First, the
図1に示すように,音声合成装置100は,テキスト解析部101と,韻律予測部103と,音韻選択部104と,キーワード優先音韻選択部(又は,音韻置換部)107と,コーパス(又は,音韻データベース)109と,音韻接続部111とを備えている。
As shown in FIG. 1, the
なお,本実施の形態にかかるテキスト解析部101と韻律予測部103とは別体である場合を例に挙げて説明するが,かかる例に限定されず,例えば,テキスト解析部101と韻律予測部103が,韻律予測情報生成部として一体に構成される場合等でも実施可能である。
Note that the case where the
上記テキスト解析部101は,図1に示すように,漢字仮名文字で表現されたテキスト本文を,音韻記号に変換する。なお,音韻とは,例えば,音素記号で表されるような分節可能な単位を示すが,かかる例に限定されない。
As shown in FIG. 1, the
より具体的には,上記テキスト解析部101は,例えば,漢字仮名文字で表現されたテキスト本文に対して,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
More specifically, the
上記韻律予測部103は,テキスト解析部101により変換されたテキスト本文の音韻記号と,テキスト解析部101から出力されるアクセント記号列と,上記テキスト解析部101による形態素解析結果から得られるテキスト本文の品詞情報とを用いて,ピッチ(声の高さ:基本周波数F0)と,音韻継続時間長(声の長さ)と,波形の成分を表現するメルケプストラムとを予測する。また,メルケプストラム等の詳細については,例えば,特開2003−208188に記載されている。
The
上記音韻選択部104は,韻律予測部103で予測した上記ピッチと上記音韻継続時間長とメルケプストラムとを,音韻選択処理のパラメータとして,コーパス109から音韻を選択する。なお,コーパス109は,例えば,話者やピッチ等が異なる音声を複数収録し,その収録された音声を構成する1又は2以上の音韻が少なくとも格納された音韻データベースであって,ハードディスクドライブ(HDD)等の記憶手段に記憶されている。
The
上記音韻を選択する処理では,上記音韻選択部104は,知覚的特性に一致した尺度(以下,コスト)を使用する。また,観測可能な特徴量(物理量など)から,知覚実験に基づいて定められるコスト(又は,知覚評価量(心理量))にマッピングを行ったコスト関数は,例えば,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻の適合性に関するサブコストとの重み付けされた5つのサブコスト関数を足し合わせた,関数として構成される(なお,詳細については,例えば,特開2003−208188,参照)。
In the process of selecting the phoneme, the
なお,上記特徴量は,例えば,音響的な尺度,物理量,言語情報などであり,当該物理量は,例えば,スペクトル,メルケプストラム,ピッチ,音の長さ,リズム(音の高低など)等であるが,かかる例に限定されない。上記心理量は,例えば,局所コスト(又は,局所的な尺度,サブコスト)であるが,かかる例に限定されない。上記特徴量から心理量へのマッピングは,例えば,コスト関数が用いられる。なお,上記コスト関数から求まるコスト値が最小となればなるほど,合成音の自然性が高くなる傾向がある。 The feature quantity is, for example, an acoustic scale, physical quantity, linguistic information, etc., and the physical quantity is, for example, spectrum, mel cepstrum, pitch, length of sound, rhythm (sound pitch, etc.), etc. However, it is not limited to such an example. The psychological quantity is, for example, a local cost (or local scale, sub cost), but is not limited to such an example. For example, a cost function is used for the mapping from the feature quantity to the psychological quantity. Note that the naturalness of the synthesized sound tends to increase as the cost value obtained from the cost function is minimized.
また,本実施形態に係るコスト関数は,聴覚上の印象を反映する必要があるため,知覚実験に基づいて定められる。上記知覚実験が行われるのは,物理量がどれくらい変化したら,音質が劣化するのか把握するのが困難なためである。知覚実験は,例えば,被験者がテキストを読み上げた合成音声を聞き,その自然性を5段階(例えば,1段階「不自然」〜5段階「自然音声と遜色なし」)で評価するが,かかる例に限定されない。 Further, the cost function according to the present embodiment needs to reflect an auditory impression, and thus is determined based on a perceptual experiment. The above perception experiment is performed because it is difficult to grasp how much the physical quantity changes and the sound quality deteriorates. In the perceptual experiment, for example, the subject listens to the synthesized speech in which the text is read out, and the naturalness is evaluated in 5 levels (for example, 1 level “unnatural” to 5 levels “natural speech and no inferiority”). It is not limited to.
上記音韻選択部104は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(以下,ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
The
図4に示すように,音韻選択部104は,ターゲット選択で求めた音韻候補をもとに,テキスト本文の開始位置(例えば,図4に示す本文開始)から,テキスト本文の終了位置(例えば,図4に示す本文終了)まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。なお,図4は,本実施の形態にかかる音韻選択処理の概略の一例を示す説明図である。
As shown in FIG. 4, the
図4に示すように,まず最上段に図示された本文開始から本文終了までの音韻記号(又は,記号)の列は,例えば,テキスト解析部101により出力された音韻記号の列であり,図4の最上段から一段下の段に図示された音韻記号の列は,例えば,音韻選択部104によりコストが求められコーパス109から選択された音韻(又は,テキスト音韻)の列であり,それから一段下の段に図示された列は,キーワード優先音韻選択部107によりキーワード部分についてコストが求められコーパス109から選択された音韻(又は,キーワード音韻)の列であり,図4の最下段の列は,例えば,音韻選択部104により選択された音韻(図4の最上段から2段目の音韻)のうちキーワード部分の音韻が,キーワード優先音韻選択部107により選択された音韻に置換された音韻の列である。
As shown in FIG. 4, first, the sequence of phonological symbols (or symbols) from the start of the body to the end of the body shown in the uppermost row is, for example, a sequence of phonological symbols output by the
なお,従来にかかる音韻選択部では,例えば,特開2001−100775に記載されているように,音素ラベルに対応した音声波形信号の音声セグメントのデータからなる音声波形データベースを記憶しておき,音声波形信号の音声セグメントを連結することによって任意の音素列をつなぎ合わせて音声合成するに際して,音韻選択部は,音声波形データベースに含まれる1対の音素のリストを生成し,その音素リストに基づいて書く1対の音素のリストを生成し,その音素リストに基づいて書く1対の音素に対する韻律的特徴パラメータと音響的特徴パラメータとに関する類似度を計算し,その類似度が所定のしきい値以上であるとき,その各1対の音素のうちの一方の1対の音素に係る音声波形信号の音声セグメントのデータを音声波形データベースから削除して音声データ量を削減していた。 The phoneme selection unit according to the related art stores a speech waveform database including speech segment data of speech waveform signals corresponding to phoneme labels, as described in, for example, Japanese Patent Application Laid-Open No. 2001-100775. When synthesizing speech by connecting arbitrary phoneme strings by concatenating speech segments of waveform signals, the phoneme selection unit generates a list of a pair of phonemes included in the speech waveform database, and based on the phoneme list A list of pairs of phonemes to be written is generated, and the similarity between the prosodic feature parameter and the acoustic feature parameter for the pair of phonemes to be written is calculated based on the phoneme list, and the similarity is equal to or greater than a predetermined threshold. The speech segment data of the speech waveform signal associated with one of the pair of phonemes is converted into a speech wave. We had to reduce the amount of audio data is deleted from the database.
音声合成装置100の特徴部分である上記キーワード優先音韻選択部107は,韻律予測部103で予測したピッチと,音韻継続時間長と,メルケプストラムとを,音韻選択処理のパラメータとして,コーパス109から音韻を選択する。
The keyword priority
上記キーワード優先音韻選択部107による音韻を選択する処理では,知覚的特性に一致した尺度(又は,コスト)を使用する。観測可能な特徴量から,心理量にマッピングを行ったコスト関数は,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻の適合性に関するサブコストとの重み付けされた5つのサブコスト関数を足し合わせた,関数として構成される。なお,詳細については,例えば,特開2003−208188等に記載されている。
In the process of selecting a phoneme by the keyword priority
上記キーワード優先音韻選択部107は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,3つのサブコスト値を足し合わせた最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
The keyword priority
図4に示すように,キーワード優先音韻選択部107は,ターゲット選択で求めた音韻候補をもとに,テキスト本文内の,ユーザが指定したキーワード開始位置(例えば,図4に示すキーワード開始)からキーワード終了位置(例えば,図4に示すキーワード終了)までの範囲における,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,各々足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。
As shown in FIG. 4, the keyword priority
なお,上記キーワード開始位置と,キーワード終了位置は,例えば,テキスト本文の開始位置からの音韻数で指定する。例えば,図4に示すように,キーワード(又は,キーワード音韻列)を“aoki”とした場合,キーワード開始位置の“a”は,テキスト本文の開始位置“h”からの音韻数で指定することができる。順に“o”,“k”,“i”についても同様に音韻数を指定することができる。 The keyword start position and the keyword end position are specified by the number of phonemes from the start position of the text body, for example. For example, as shown in FIG. 4, when the keyword (or keyword phoneme string) is “aoki”, the keyword starting position “a” is specified by the number of phonemes from the starting position “h” of the text body. Can do. The number of phonemes can be specified in the same manner for “o”, “k”, and “i” in order.
また,キーワード位置の指定方法としては,テキスト本文中のキーワード部分に対してタグ付けする方法と,テキスト本文を一旦テキスト解析し,テキスト本文の音韻列をユーザに表示し,ユーザがキーワード部分をテキスト本文中から指定する方法と,複数のキーワードをあらかじめ保持し,ユーザが上記複数のキーワードの中からキーワードを選択し,選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがある。 Also, the keyword position can be specified by tagging the keyword part in the text body, analyzing the text body once, displaying the phoneme string of the text body to the user, and then displaying the keyword part as text. There are a method of designating from the text, and a method of storing a plurality of keywords in advance, selecting a keyword from among the plurality of keywords, and searching for a location that matches the selected keyword in the text body.
また,図4に示すように,キーワードが2つ以上存在する場合,キーワード優先音韻選択部107によるキーワード部分に関するコスト値の計算は,例えば,図4に示す本文開始から本文終了に向けて,キーワードの出現順に行われるが,かかる例に限定されず,例えば,上記キーワード部分に関するコスト値の計算は,複数のキーワードに優先順位を付与し,その優先順に従い,コスト値の計算を行う場合,あるいは,複数のキーワードに重みを付与し,キーワードが出現する順に,重み付きコスト再計算を行う場合,あるいは,複数のキーワードに付与した重みを,優先順位に変換し,優先順に従って,コスト値の計算を行う場合等でも実施可能である。
In addition, as shown in FIG. 4, when there are two or more keywords, the keyword-priority
上記キーワード優先音韻選択部107は,テキスト本文全体で選択した音韻候補の組合せのうちのキーワード部分に対して,キーワードが出現する順に,優先順に,若しくはキーワードが出現する順に,重みとコスト値とを乗算した重み付きコスト値を求める。
The keyword priority
次に,上記キーワード優先音韻選択部107は,上記求めた重み付きコスト値各々を比較し,重み付きコスト値の小さい順に,キーワード優先音韻選択した音韻候補の組合せに,置き換える。
Next, the keyword priority
上記音韻接続部(又は,合成部)111は,例えば,選択された音韻(又は,波形セグメント)を,テキスト本文の開始位置から順に,相互相関法と,補間法とを用いて接続し,合成音声(又は,合成波形)を生成する。当該合成音声が外部に出力されると,利用者はテキスト本文を耳で聞くことができる。 The phoneme connection unit (or synthesis unit) 111 connects, for example, the selected phonemes (or waveform segments) in order from the start position of the text body using the cross-correlation method and the interpolation method. Generate speech (or synthesized waveform). When the synthesized speech is output to the outside, the user can hear the text body by ear.
なお,音声合成装置100は,テキスト本文とキーワードを基にして合成音声を出力することが可能な装置であって,その合成音声を出力することで,テキスト本文を音声にして読み上げることが可能な装置である。より具体的には,音声合成装置100は,例えば,CPU,メモリ,HDD(ハードディスクドライブ),マウス等に相当する入力部(図示せず。),液晶ディスプレイ等に相当する表示部(図示せず。)などを備えたPC等を例示することができるが,かかる例に限定されない。
Note that the
なお,本実施の形態にかかる音声合成装置100に備わる表示部は,CPUにより表示可能なように処理された表示画面データと音声データを出力する。また,表示部は,例えば,TV又は液晶ディスプレイ装置などが例示され,上記双方ともにスピーカーを備えて,静止画像のほか,音声,又は動画像などを出力することが可能である。
In addition, the display part with which the
上記入力部は,例えば,使用者から操作指示を受けることが可能なマウス,トラックボール,トラックパッド,スタイラスペン,タッチパネル,またはジョイスティックなどのポインティングデバイスや,キーボード,ボタン,スイッチ,レバー等の操作手段と,入力信号を生成してCPUに出力する入力制御回路などから構成されている。 The input unit is, for example, a pointing device such as a mouse, a trackball, a trackpad, a stylus pen, a touch panel, or a joystick that can receive an operation instruction from a user, or an operation means such as a keyboard, button, switch, or lever. And an input control circuit for generating an input signal and outputting it to the CPU.
音声合成装置100のユーザは,この入力部を操作することにより,音声合成装置100に対して各種のデータを入力したり,キーワードを選択したり,合成音声出力など各種の処理動作を指示したりすることができる。
The user of the
なお,従来に係る音声合成装置は,例えば,特開平10−049193に記載されているように,音声セグメントを記憶する手段と,韻律的特徴パラメータ等を抽出して出力する手段と,韻律的特徴パラメータ等を記憶する手段と,音響的特徴パラメータにおける寄与度を表す重み係数ベクトルを決定する手段と,重み係数ベクトルを記憶する手段と,入力される自然発話文の音素列に対して,目標コストと連結コストとを含むコストが最小となる音素候補の組合せを検索して索引情報を出力する音声単位選択手段と,入力された音声を合成して出力する手段とを備えていた。 Note that a conventional speech synthesizer includes, for example, means for storing speech segments, means for extracting and outputting prosodic feature parameters, and the like, as described in Japanese Patent Laid-Open No. 10-049193. A target cost for a phoneme sequence of an input natural utterance sentence, a means for storing a parameter, a means for determining a weighting coefficient vector representing a contribution in an acoustic feature parameter, a means for storing a weighting coefficient vector, And speech unit selection means for searching for a combination of phoneme candidates having the minimum cost including the connection cost and outputting index information, and means for synthesizing and outputting the input speech.
また,従来に係る音声合成装置をさらに音質が良くなるように改良した従来に係る音声合成装置は,例えば,特開平2003−208188に記載されているように,言語処理部と,韻律パターン生成部と,音素単位選択部と,波形辞書と,音声波形生成部とを備え,上記言語処理部では,形態素解析,係り受け解析が行われ,テキストから,音素記号,アクセント記号等に変換する。上記韻律パターン生成部では,音素記号,アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて,音素持続時間(声の長さ),基本周波数(声の高さF0),母音中心のパワー(声の大きさ)等の推定を行う。さらに上記音素単位選択部では,物理量と,知覚実験結果から直接求められる心理量とを用いた,コスト関数を使用する。コスト関数は,韻律に関するサブコストと,ピッチの不連続に関するサブコストと,音韻環境代替に関するサブコストと,スペクトルの不連続に関するサブコストと,音韻(又は,音素)の適合性に関するサブコストとの,5つのサブコスト関数から構成される。 In addition, a conventional speech synthesizer improved from the conventional speech synthesizer so that the sound quality is further improved is, for example, a language processing unit and a prosodic pattern generation unit as described in JP-A-2003-208188. A phoneme unit selection unit, a waveform dictionary, and a speech waveform generation unit. The language processing unit performs morpheme analysis and dependency analysis, and converts the text into phoneme symbols, accent symbols, and the like. The prosodic pattern generation unit uses the part-of-speech information of the input text obtained from the phoneme symbol, the accent symbol string, and the morpheme analysis result, the phoneme duration (voice length), the fundamental frequency (voice pitch F 0 ), Estimate vowel center power (voice volume). Furthermore, the phoneme unit selection unit uses a cost function that uses physical quantities and psychological quantities directly obtained from the perceptual experiment results. The cost function has five sub-cost functions: a sub-cost related to prosody, a sub-cost related to pitch discontinuity, a sub-cost related to phoneme environment substitution, a sub-cost related to spectrum discontinuity, and a sub-cost related to phoneme (or phoneme) suitability. Consists of
また,従来にかかるテキストを読み上げる音声合成装置は,特開平10−274999に記載されているように,例えば,テキスト全体からキーワードのコストを求め,音声の話者,音量,音程および話速のうちから任意選択された少なくとも1つを変えることにより,キーワード部分に対する出力音声とその他の部分に対する出力音声とが識別されるように音声信号を生成している。 Further, a conventional speech synthesizer that reads out text, as described in Japanese Patent Laid-Open No. 10-274999, for example, obtains the cost of a keyword from the entire text, and includes the voice speaker, volume, pitch, and speech speed. By changing at least one arbitrarily selected from the above, an audio signal is generated so that the output audio for the keyword portion and the output audio for the other portion are identified.
(音声合成方法について)
図2に示すように,まず,利用者によって入力部が操作されると,例えば,強調させたい1又は2以上のキーワードを含んだテキスト本文と,その強調させたいキーワードの開始位置及びキーワードの終了位置とが入力される(S201)。なお,かかる例に限定されず,例えば,利用者は,キーワードの開始位置からキーワードの終了位置の範囲全てを指定しても良い。
(Speech synthesis method)
As shown in FIG. 2, first, when the user operates the input unit, for example, the text body including one or more keywords to be emphasized, the start position of the keyword to be emphasized, and the end of the keyword. The position is input (S201). However, the present invention is not limited to this example. For example, the user may specify the entire range from the keyword start position to the keyword end position.
なお,上記ステップS201において入力されるキーワードの開始位置とキーワードの終了位置とは,例えば,テキスト本文の開始位置からの音韻数に基づいて指定されるが,かかる例に限定されない。 The keyword start position and keyword end position input in step S201 are specified based on, for example, the number of phonemes from the start position of the text body, but are not limited to this example.
上記ステップS201において,利用者により指定された強調させたい1又は2以上のキーワードを含んだテキスト本文は,図1に示すテキスト解析部101に入力する。
In step S201, the text body including one or more keywords to be emphasized specified by the user is input to the
図2に示すように,テキスト解析部101は,例えば,漢字仮名文字で表現されたテキスト本文に対してテキスト解析し,音韻記号に変換する(S203)。
As shown in FIG. 2, for example, the
テキスト解析部101は,上記テキスト本文に対してテキスト解析を行うが,そのテキスト解析は,例えば,形態素解析,係り受け解析などを例示できる。テキスト解析部101は,上記テキスト本文に対し形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
The
なお,第1の実施の形態にかかる音声合成方法では,テキスト本文に対して,テキスト本文から変換された音韻記号と,上記形態素解析結果との情報を持つ出力結果を,例えば,図2に示すように,テキスト本文中間言語とするが,かかる例に限定されない。 In the speech synthesis method according to the first embodiment, an output result having information on the phoneme symbol converted from the text body and the morpheme analysis result is shown in FIG. Thus, although it is set as a text body intermediate language, it is not limited to such an example.
ここで,テキスト本文が変換された音韻記号501(図3Aに示すテキスト本文音韻記号)は,例えば,図3Aに示すように,「hajime…oki…」となる。
Here, the
次に,テキスト解析部101により出力されたテキスト本文中間言語は,図1に示す韻律予測部103に入力する。
Next, the text body intermediate language output by the
図2に示すように,韻律予測部103は,ピッチ(声の高さ,基本周波数F0),音韻継続時間長(声の長さ)と,基本周波数(声の高さF0)と,波形の成分を表現するメルケプストラムとを,予測する(S207)。
As shown in FIG. 2, the
上記ステップS207で韻律予測部103によりピッチ,音韻継続時間長,基本周波数,メルケプストラムとが予測されると,それらの予測した情報を持つ韻律予測情報は,音韻選択部104に入力する。
When the pitch, phoneme duration, fundamental frequency, and mel cepstrum are predicted by the
なお,上記韻律予測情報は,例えば,上記ピッチ,音韻継続時間長,基本周波数,またはメルケプストラム等で各音韻記号の特徴量を予測する情報であるが,かかる例に限定されない。 The prosody prediction information is information for predicting the feature quantity of each phoneme symbol by, for example, the pitch, phoneme duration, fundamental frequency, or mel cepstrum, but is not limited to this example.
ここで,上記韻律予測情報を説明するために,図3Aを参照すると,韻律予測情報502は,音韻記号501毎(図3Aに示す韻律予測情報502の縦方向に図示された“hajime…oki…”の音韻記号毎)に,音韻の開始時間を表す“start”と,音韻の継続時間長を表す“duration”と,音韻の1又は2以上のピッチを表す“pitch”と,音韻の1又は2以上のメルケプストラムを表す“Mel cep”とから少なくとも構成される。
Here, in order to explain the prosodic prediction information, referring to FIG. 3A, the
図2に示すように,音韻選択部104は,テキスト本文の本文開始位置から,本文終了位置まで,コーパス109を用いて,最適な音韻を選択する(S214)。
As shown in FIG. 2, the
より具体的にステップS214について説明すると,音韻選択部104は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる音韻を候補としてターゲット選択する。
More specifically, step S214 will be described. The
図4に示すように,音韻選択部104では,ターゲット選択で求めた音韻候補をもとに,テキスト本文の本文開始位置から,テキスト本文の本文終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。なお,コスト関数から求まるコスト値が最小となればなるほど,合成音の自然性が高いものとしているが,かかる例に限定されない。
As shown in FIG. 4, in the
上記音韻選択部104によりテキスト本文全体の音韻選択が完了すると(S214),次に,キーワード部分の最適な音韻を選択するために,キーワード優先音韻選択部107による処理に移行する(S216,S219)。
When the
ここで,図3Aを参照すると,図3Aに示すテキスト本文全体の音韻候補の組合せ503には,テキスト本文音韻記号501(図3Aで示す例では,“hajime…oki…”)の各音韻記号に対応する音韻が,コーパス109内に存在するどの音声ファイルで,先頭から何番目に位置する音韻であるかを示す情報が記述されている。テキスト本文全体の音韻候補の組合せ503に記述されている情報は,例えば,「音韻記号“h”に対応する音韻は1音声ファイルの先頭から3番目の位置に存在する音韻である」,ことを示している。
Here, referring to FIG. 3A, a
さらに,図3Bに示すように,キーワード優先音韻選択処理部107には,韻律予測情報502と,音韻選択部104から出力されるテキスト本文全体の音韻候補の組合せ503と,ユーザが指定するキーワード位置とが,入力される。
Further, as shown in FIG. 3B, the keyword priority phoneme
図2に示すように,キーワード優先音韻選択部107は,まず,テキスト本文内の最後に出現するキーワードであるかどうかを判定する(S216)。なお,後述する図5に示すステップS501の処理と上記ステップS216の処理とは,実質的に同一である。
As shown in FIG. 2, the keyword priority
キーワード優先音韻選択部107は,テキスト本文の本文開始位置から出現するキーワードの順に,あるいは,テキスト本文のキーワードに付与された優先順位を基にして優先順に,あるいは,テキスト本文中の1又は2以上のキーワードに付与された重みを優先順位に変換し優先順に,キーワード優先音韻選択処理を行う。そのためには,最後のキーワードであるかどうか図2に示すステップS216で判定する必要がある。
The keyword priority
上記ステップS216で判定した結果,最後のキーワードでない場合,図2に示すキーワード優先音韻選択処理が行われる。 If the result of determination in step S216 is not the last keyword, the keyword priority phoneme selection process shown in FIG. 2 is performed.
一方,上記ステップS216で判定した結果,最後のキーワードである場合,キーワード部分の音韻選択が完了し,波形セグメントを得ることが可能な音韻候補の組合せが決定するので,図1に示す音韻接続部111に処理が移行する。 On the other hand, if the result of determination in step S216 is the last keyword, the phoneme selection of the keyword portion is completed and the combination of phoneme candidates from which waveform segments can be obtained is determined. The process moves to 111.
次に,図2に示すように,キーワード優先音韻選択部107は,テキスト本文内のキーワード部分から,コーパス109を用いて,最適な音韻を選択する(S219)。
Next, as shown in FIG. 2, the keyword priority
ここで,図5を参照しながら,上記キーワード優先音韻選択部107によるキーワード優先音韻選択処理(S219)について説明する。図5は,第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。
Here, the keyword priority phoneme selection process (S219) by the keyword priority
図2に示すキーワード優先音韻選択処理(S219)は,図5に示すように,最後のキーワードか否かを確認する処理(S501)と,キーワードに対してターゲット選択を行う処理(S505)と,キーワードに対してコスト値が最小となる音韻候補の組合せを設定する処理(S509)と,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S513)とが含まれている。 The keyword priority phoneme selection process (S219) shown in FIG. 2 includes, as shown in FIG. 5, a process for confirming whether or not the keyword is the last keyword (S501), a process for selecting a target for the keyword (S505), A process for setting a combination of phoneme candidates that minimizes the cost value for a keyword (S509) and a process for replacing a combination of phoneme candidates for the entire text body with a combination of phoneme candidates at a keyword location (S513) are included. ing.
上記キーワードに対してターゲット選択を行う処理(S505)では,キーワード部分の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
In the process of performing target selection for the keyword (S505), the sub-cost value related to phoneme compatibility, the sub-cost value related to phonological environment substitution, and the sub-cost value related to prosody for the phoneme of the keyword part are stored in the
上記キーワードに対してコスト値が最小となる音韻候補の組合せを設定する処理(S509)では,図4に示すように,ターゲット選択で求めた音韻候補をもとに,テキスト本文内の,ユーザが指定したキーワード開始位置から,キーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。 In the process of setting a combination of phoneme candidates that minimizes the cost value for the keyword (S509), as shown in FIG. 4, the user in the text body based on the phoneme candidates obtained by target selection. From the specified keyword start position to the keyword end position, the target cost value, the sub cost value related to the pitch discontinuity, and the sub cost value related to the spectrum discontinuity are combined to obtain a phoneme candidate that minimizes the cost value. , Select using dynamic programming.
キーワード開始位置,キーワード終了位置は,例えば,テキスト本文の本文開始位置からカウントした音韻数によって指定されるが,かかる例に限定されず,例えば,本文終了位置からカウントした音韻数によって指定される場合等でもよい。 The keyword start position and the keyword end position are specified by, for example, the number of phonemes counted from the text start position of the text body. However, the present invention is not limited to this example. For example, the keyword start position and the keyword end position are specified by the number of phonemes counted from the text end position. Etc.
上記キーワード位置の指定方法としては,例えば,テキスト本文中のキーワード部分に対してタグ付けする方法,テキスト本文を一旦テキスト解析しテキスト本文中の音韻列をユーザに表示しキーワード部分を指定する方法,または1又は2以上のキーワードをあらかじめ保持しユーザがキーワードを選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがあるが,かかる例に限定されない。 The keyword position can be specified by, for example, tagging the keyword part in the text body, analyzing the text body once, displaying the phoneme string in the text body to the user, and specifying the keyword part, Alternatively, there is a method in which one or two or more keywords are stored in advance and the user selects a keyword and a search is made for a portion that matches in the text body. However, the method is not limited to this example.
図4に示すように,キーワード音韻候補が2つ以上存在する場合,キーワード部分に関するコスト値の計算は,例えば,テキスト本文の本文開始位置から本文終了位置に向けて,キーワードの出現順に行われる。 As shown in FIG. 4, when there are two or more keyword phoneme candidates, the cost value for the keyword portion is calculated in the order of appearance of the keywords, for example, from the text start position to the text end position of the text body.
なお,本実施の形態にかかる上記キーワード部分に関するコスト値の計算は,本文開始位置から本文終了位置に向けてキーワードの出現順に行う場合に限定されず,例えば,キーワード部分に関するコスト値の計算は,複数のキーワードに優先順位を付与し,優先順に行われる場合等でも実施可能である。 Note that the calculation of the cost value related to the keyword part according to the present embodiment is not limited to the case of performing the keyword appearance order from the text start position to the text end position. The present invention can be carried out even when priority is given to a plurality of keywords and the priority order is given.
図5に示すように,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S513)では,上記図3Aのテキスト本文全体の音韻候補の組合せ503のように,テキスト本文全体で選択した音韻候補の組合せの,キーワード部分に対して,キーワードが出現する順で,あるいは,優先順で,キーワード優先音韻選択した音韻候補の組合せに,置き換える。なお,図5に示すようにステップS513は,図2に示すステップS214の音韻選択処理が行われる度に,逐次的に実行され,音韻の置換が行われる。 As shown in FIG. 5, in the replacement processing (S513) of the combination of phoneme candidates of the whole text body with the combination of phoneme candidates of the keyword portion, the combination of the phoneme candidates of the entire text body of FIG. The phoneme candidate combinations selected in the whole text are replaced with the phoneme candidate combinations selected in keyword order in the order in which the keywords appear or in the priority order with respect to the keyword part. As shown in FIG. 5, step S513 is executed sequentially each time the phoneme selection process of step S214 shown in FIG. 2 is performed, and phoneme replacement is performed.
キーワード部分の音韻候補の組合せの置き換えが完了した後(S513),図2に示すステップS216と実質的に同一のステップS501に処理が移行し,最後のキーワードになるまで繰り返して処理が行われる(S505〜S513)。 After the replacement of the keyword part phoneme candidate combination is completed (S513), the process proceeds to step S501, which is substantially the same as step S216 shown in FIG. 2, and the process is repeated until the last keyword is obtained ( S505 to S513).
さらに,図6を参照しながら,第1の実施の形態にかかるキーワード優先音韻選択処理の変形例について説明する。図6は,第1の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。 Further, a modified example of the keyword priority phoneme selection process according to the first embodiment will be described with reference to FIG. FIG. 6 is a flowchart showing an outline of the keyword priority phoneme selection process according to the first embodiment.
図6に示すように,キーワード優先音韻選択処理は,最後のキーワードであるか否かを判定する処理(S502)と,キーワードに対してターゲット選択を行う処理(S505)と,コスト値が最小となる音韻候補の組合せを設定し,重み付けコスト値を求める処理(S510)と,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S521)とを含んでいる。 As shown in FIG. 6, the keyword priority phoneme selection process includes a process for determining whether or not the keyword is the last keyword (S502), a process for selecting a target for the keyword (S505), and a cost value is minimum. And a process for obtaining a weighted cost value (S510), and a process for replacing a combination of phoneme candidates in the entire text body with a combination of phoneme candidates at a keyword location (S521).
図6に示すように,キーワードに対して,コスト値が最小となる音韻候補の組合せを設定し,コスト値と重みを乗算した重み付きコスト値を求める処理(S510)では,上記説明したようにキーワードに対してコスト値が最小となる音韻候補の組合せを設定する。さらに,キーワード部分に関するコスト値の計算(S510)では,1又は2以上のキーワードに重みを付与し,キーワードが出現する順に,重みとコスト値とを乗算する処理が行われる。あるいは,キーワード部分に関するコスト値の計算(S510)では,1又は2以上のキーワードに付与した重みを,優先順位に変換し,優先順に行われる。 As shown in FIG. 6, in the process (S510) of setting a phoneme candidate combination that minimizes the cost value for a keyword and obtaining a weighted cost value obtained by multiplying the cost value by the weight, as described above. A combination of phoneme candidates having a minimum cost value is set for the keyword. Further, in the calculation of the cost value related to the keyword portion (S510), a process of assigning weights to one or more keywords and multiplying the weights and the cost values in the order in which the keywords appear is performed. Alternatively, in the calculation of the cost value relating to the keyword portion (S510), the weights assigned to one or more keywords are converted into priorities and performed in order of priority.
次に,図6に示すように,最後のキーワードであるか否かを判定し,判定した結果最後のキーワードである場合(S502),図6の重み付きコスト値の小さい値をもつキーワード順に,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S521)に処理が移行する。 Next, as shown in FIG. 6, it is determined whether or not it is the last keyword, and if it is the last keyword as a result of the determination (S502), in order of keywords having the smallest value of the weighted cost value in FIG. The processing shifts to the replacement processing (S521) of the combination of phoneme candidates in the keyword portion of the combination of phoneme candidates in the entire text body.
図6に示すように,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え処理(S521)では,テキスト本文全体で選択した音韻候補の組合せの,キーワードが出現する順に,重みとコスト値とを乗算した重み付きコスト値を求め,各々を比較し,重み付きコスト値の小さい順で,キーワード優先音韻選択した音韻候補の組合せに,置き換える。 As shown in FIG. 6, in the replacement process (S521) of the combination of phoneme candidates in the keyword text in the combination of phoneme candidates in the entire text body (S521), in the order in which the keywords appear in the combination of phoneme candidates selected in the entire text body. A weighted cost value obtained by multiplying the weight and the cost value is obtained, compared with each other, and replaced with a combination of phoneme candidates selected by keyword priority phoneme in ascending order of the weighted cost value.
キーワード部分の音韻候補の組合せの置き換えが完了した後(S521),図1に示す音韻接続部111が実行する処理に移行する。
After the replacement of the combination of the phoneme candidates in the keyword part is completed (S521), the process proceeds to the process executed by the
再び図2に戻ると,図2に示すように,音韻接続部111によって実行される波形セグメントを接続する処理(S223)は,現在取り扱っている波形セグメントと,次の波形セグメントとを接続する。 Returning to FIG. 2 again, as shown in FIG. 2, in the process of connecting waveform segments executed by the phoneme connection unit 111 (S223), the currently handled waveform segment is connected to the next waveform segment.
音韻接続部111によって,全ての波形セグメントの接続が完了すると(S223),図2に示すように,音韻接続部111によって接続された波形セグメントは,合成音(又は,合成音声)として出力される(S225)。上記合成音がスピーカ等の出力部から出力されることによって,音声合成装置100は,テキスト本文のうちキーワード部分を強調しながら読上げることができる。
When the connection of all the waveform segments is completed by the phonological connection unit 111 (S223), as shown in FIG. 2, the waveform segments connected by the
以上で,第1の実施の形態にかかる音声合成装置100による音声合成方法の一連の処理について説明を終了するが,かかる音声合成方法によって以下に示すような優れた効果が存在する。
(1)テキスト本文中の強調させたいキーワード位置を予め利用者(ユーザ)が音声合成装置100に対して指定することで,音声合成装置100はキーワード部分に対する読上げに関して自然性が高い読上げ(自然な読上げ)をすることができ,出力される合成音の音質が良い上,キーワードの読上げが強調される。
This is the end of the description of the series of processes of the speech synthesis method performed by the
(1) A user (user) designates in advance a keyword position to be emphasized in a text body to the
(第2の実施の形態について)
次に,図7を参照しながら,第2の実施の形態にかかる音声合成方法について説明する。なお,以下説明する第2の実施の形態にかかる音声合成方法では,上記説明した第1の実施の形態にかかる音声合成方法と相違する点について詳細に説明し,その他の点については略同一であるとして説明は省略する。
(About the second embodiment)
Next, a speech synthesis method according to the second embodiment will be described with reference to FIG. In the speech synthesis method according to the second embodiment described below, differences from the speech synthesis method according to the first embodiment described above will be described in detail, and the other points are substantially the same. The explanation is omitted as there is.
図7は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。第2の実施の形態にかかる音声合成方法では,図2に示す第1の実施の形態にかかる音声合成方法のうちのキーワード優先音韻選択処理が改良されている点で,異なる。以下,図7を参照しながら説明するが,図7に示す第2の実施の形態にかかるキーワード優先音韻選択処理では,ステップS511等に示すように,キーワードに対するコスト値をCkeyとする。 FIG. 7 is a flowchart showing an outline of keyword priority phoneme selection processing according to the second embodiment. The speech synthesis method according to the second embodiment is different in that the keyword priority phoneme selection process in the speech synthesis method according to the first embodiment shown in FIG. 2 is improved. Hereinafter, although described with reference to FIG. 7, in the keyword priority phoneme selection process according to the second embodiment shown in FIG. 7, the cost value for the keyword is C key as shown in step S511 or the like.
図7のステップS515に示すように,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得する。
As shown in step S515 of FIG. 7, for the keyword part in the text body, the sub-cost value related to phoneme compatibility, the sub-cost value related to phonological environment substitution, the sub-cost value related to prosody, obtained by the
図7に示すキーワード優先音韻選択処理では,ステップS517に示すように,キーワードに対するコスト値をCkeyと,テキスト本文中のキーワード部分で,音韻選択部104で求めたコスト値Corigとの差分をとり,その差分値と閾値(Threshold)に対する大小を判定する。なお,本実施の形態に係る閾値は音声合成方法の使用環境などに応じて適宜変更することが可能である。
In the keyword priority phoneme selection process shown in FIG. 7, as shown in step S517, the difference between the cost value C key for the keyword and the cost value C orig obtained by the
(音声合成方法について)
図2に示すように,第2の実施の形態にかかる音声合成方法では,まず,第1の実施の形態にかかる音声合成方法と同様に,例えば,強調させたい1又は2以上のキーワードを含んだテキスト本文と,その強調させたいキーワードの開始位置と,キーワードの終了位置とを,利用者が入力する(S201)。なお,かかる例に限定されず,例えば,利用者は,キーワードの開始位置からキーワードの終了位置の範囲全てを指定しても良い。
(Speech synthesis method)
As shown in FIG. 2, in the speech synthesis method according to the second embodiment, first, like the speech synthesis method according to the first embodiment, for example, one or more keywords to be emphasized are included. The user inputs the text body, the start position of the keyword to be emphasized, and the end position of the keyword (S201). However, the present invention is not limited to this example. For example, the user may specify the entire range from the keyword start position to the keyword end position.
なお,上記ステップS201において入力されるキーワードの開始位置とキーワードの終了位置とは,例えば,テキスト本文の開始位置からの音韻数に基づいて指定されるが,かかる例に限定されない。 The keyword start position and keyword end position input in step S201 are specified based on, for example, the number of phonemes from the start position of the text body, but are not limited to this example.
上記ステップS201において,利用者により指定された強調させたい1又は2以上のキーワードを含んだテキスト本文は,図1に示すテキスト解析部101に入力する。
In step S201, the text body including one or more keywords to be emphasized specified by the user is input to the
次に,第2の実施の形態にかかる音声合成方法では,図2に示すようにテキスト解析部101は,例えば,漢字仮名文字で表現されたテキスト本文に対してテキスト解析し,音韻記号に変換する(S203)。
Next, in the speech synthesis method according to the second embodiment, as shown in FIG. 2, the
テキスト解析部101は,上記漢字仮名文字などで表現されたテキスト本文に対し,例えば,形態素解析,係り受け解析を行い,アクセント記号列と,テキスト本文の品詞情報を表す形態素解析結果とを出力する。
The
なお,第2の実施の形態にかかる音声合成方法では,テキスト本文に対して,テキスト本文から変換された音韻記号と,上記形態素解析結果との情報を持つ出力結果を,例えば,テキスト本文中間言語とするが,かかる例に限定されない。 In the speech synthesis method according to the second embodiment, an output result having information on the phoneme symbol converted from the text body and the morpheme analysis result is obtained as the text body intermediate language. However, it is not limited to such an example.
ここで,第1の実施の形態にかかる音声合成方法においても説明したが,テキスト本文が変換された音韻記号501(図3Aに示すテキスト本文音韻記号)は,例えば,図3Aに示すように,「hajime…oki…」となる。 Here, as explained in the speech synthesis method according to the first embodiment, the phoneme symbol 501 (the text body phoneme symbol shown in FIG. 3A) obtained by converting the text body is, for example, as shown in FIG. "Hajime ... oki ..."
次に,テキスト解析部101により出力されたテキスト本文中間言語は,図1に示す韻律予測部103に入力する。
Next, the text body intermediate language output by the
図2に示すように,韻律予測部103は,ピッチ(声の高さ,基本周波数F0),音韻継続時間長(声の長さ)と,基本周波数(声の高さF0)と,波形の成分を表現するメルケプストラムとを,予測する(S207)。
As shown in FIG. 2, the
上記韻律予測部103により予測(S207)した情報(例えば,ピッチ,音韻継続時間長,基本周波数,メルケプストラム)を持つ韻律予測情報を,音韻選択部104に入力する。
Prosody prediction information having information (for example, pitch, phoneme duration, fundamental frequency, mel cepstrum) predicted by the prosody prediction unit 103 (S207) is input to the
ここで,第1の実施の形態にかかる音声合成方法でも説明したが,図3Aを参照すると,韻律予測情報502は,音韻記号501の音韻記号毎(図3Aに示す韻律予測情報502の縦方向に図示された“hajime…oki…”の音韻記号毎)に,音韻の開始時間を表す“start”と,音韻の継続時間長を表す“duration”と,音韻の1又は2以上のピッチを表す“pitch”と,音韻の1又は2以上のメルケプストラムを表す“Mel cep”とから少なくとも構成される。
Here, as explained in the speech synthesis method according to the first embodiment, referring to FIG. 3A, the
図2に示すように,音韻選択部104は,テキスト本文の本文開始位置から,本文終了位置まで,コーパス109を用いて,最適な音韻を選択する(S214)。
As shown in FIG. 2, the
上記ステップS214について,第1の実施形態でも説明したが,より具体的に説明すると,音韻選択部104は,テキスト本文の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内(例えば,ターゲットコスト値に±5を加算した値の範囲内)に含まれる,音韻を候補としてターゲット選択する。
Step S214 has been described in the first embodiment, but more specifically, the
図4に示すように,音韻選択部104では,ターゲット選択で求めた音韻候補をもとに,テキスト本文の本文開始位置からテキスト本文の本文終了位置までの範囲について,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。なお,コスト関数から求まるコスト値が最小となればなるほど,合成音の自然性が高くなる傾向がある。
As shown in FIG. 4, in the
上記テキスト本文全体の音韻選択が完了すると(S214),次に,キーワード部分の最適な音韻を選択するために,キーワード優先音韻選択部107による処理に移行する(S216,S219)。
When the phoneme selection of the entire text body is completed (S214), the process proceeds to the process by the keyword priority
図3Aに示すように,テキスト本文全体の音韻候補の組合せ503には,テキスト本文音韻記号501(図3Aで示す例では,“hajime…oki…”)の各音韻記号に対応する音韻が,コーパス109内に存在するどの音声ファイルで,先頭から何番目に位置する音韻であるかを示す情報が記述されている。
As shown in FIG. 3A, the
さらに,図3Bに示すように,キーワード優先音韻選択処理部107には,韻律予測情報502と,音韻選択部104から出力されるテキスト本文全体の音韻候補の組合せ503と,ユーザが指定するキーワード位置とが,入力される。
Further, as shown in FIG. 3B, the keyword priority phoneme
図2に示すように,キーワード優先音韻選択部107は,第1の実施の形態でも説明したが,テキスト本文内の最後に出現するキーワードであるかどうかを判定する(S216)。
As shown in FIG. 2, as described in the first embodiment, the keyword priority
キーワード優先音韻選択部107は,テキスト本文の本文開始位置から出現するキーワード順に処理を行う,あるいは,テキスト本文のキーワードに付与された優先順位をもとに優先順に処理を行う,あるいは,テキスト本文中の1又は2以上のキーワードに付与された重みを優先順位に変換し優先順に処理を行う必要がある。そのためには,最後のキーワードであるかどうか図2に示すステップS216で判定する必要がある。
The keyword priority
上記ステップS216で判定した結果,最後のキーワードでない場合,図2に示すキーワード優先音韻選択処理が行われる。 If the result of determination in step S216 is not the last keyword, the keyword priority phoneme selection process shown in FIG. 2 is performed.
一方,上記ステップS216で判定した結果,最後のキーワードである場合,キーワード部分の音韻選択が完了し,波形セグメントを得ることが可能な音韻候補の組合せが決定するので,図1に示す音韻接続部111に処理が移行する。 On the other hand, if the result of determination in step S216 is the last keyword, the phoneme selection of the keyword portion is completed and the combination of phoneme candidates from which waveform segments can be obtained is determined. The process moves to 111.
次に,図2に示すように,キーワード優先音韻選択処理(S219)は,テキスト本文内のキーワード部分から,コーパス109を用いて,最適な音韻を選択する処理である。
Next, as shown in FIG. 2, the keyword priority phoneme selection process (S219) is a process for selecting an optimal phoneme from the keyword part in the text body using the
ここで,図7を参照しながら,第2の実施の形態にかかるキーワード優先音韻処理(S219)について説明する。図7は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。 Here, the keyword priority phoneme process (S219) according to the second embodiment will be described with reference to FIG. FIG. 7 is a flowchart showing an outline of keyword priority phoneme selection processing according to the second embodiment.
図7に示すように,キーワード優先音韻選択処理(S219)は,最後のキーワードか否かを確認する処理(S501)と,キーワードに対してターゲット選択を行う処理(S505)と,キーワードに対してコスト値Ckeyが最小となる音韻候補の組合せを設定する処理(S511)と,テキスト本文中のキーワード部分で音韻選択部104で求めたコスト値Corigを取得する処理(S515)と,Ckey−Corig>thresholdの関係が成立するか否かを検証する処理(S517)と,テキスト本文全体の音韻候補の組合せのキーワード箇所の音韻候補の組合せの置き換える処理(S513)との処理が,行われる。なお,最後のキーワードか否かを確認する処理(S501)は,上記説明のステップS216と実質的に同一である。
As shown in FIG. 7, the keyword priority phoneme selection process (S219) includes a process for confirming whether the keyword is the last keyword (S501), a process for selecting a target for the keyword (S505), and a keyword. A process of setting a combination of phoneme candidates that minimizes the cost value C key (S511), a process of acquiring the cost value C orig obtained by the
図7に示すように,キーワードに対して,ターゲット選択を行う処理(S505)では,キーワード部分の音韻に対して,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)から,ある程度の幅を持たせた値の範囲内に含まれる,音韻を候補としてターゲット選択する。
As shown in FIG. 7, in the process of performing target selection for a keyword (S505), the sub-cost value related to phoneme compatibility, the sub-cost value related to phoneme environment substitution, and the sub-cost related to prosody for the phoneme of the keyword part. Values obtained using the
図7に示すキーワードに対してコスト値Ckeyが最小となる音韻候補の組合せを設定する処理(S511)では,図4に示すように,ターゲット選択で求めた音韻候補(又は,音韻選択)をもとに,テキスト本文内の,ユーザが指定したキーワード開始位置から,キーワード終了位置まで,ターゲットコスト値と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値が最小となる音韻候補の組合せを,動的計画法を用いて選択する。 In the process of setting a combination of phoneme candidates that minimizes the cost value C key for the keyword shown in FIG. 7 (S511), as shown in FIG. 4, the phoneme candidate (or phoneme selection) obtained by target selection is set. Originally, the target cost value, sub-cost value related to pitch discontinuity, and sub-cost value related to spectrum discontinuity are added from the keyword start position specified by the user to the keyword end position in the text body. The phoneme candidate combination with the lowest cost value is selected using dynamic programming.
キーワード開始位置,キーワード終了位置は,例えば,テキスト本文の本文開始位置からカウントした音韻数によって,指定することができるが,かかる例に限定されず,例えば,本文終了位置からカウントした音韻数によって指定される場合等でもよい。 The keyword start position and the keyword end position can be specified by, for example, the number of phonemes counted from the text start position of the text body, but not limited to such an example, for example, specified by the number of phonemes counted from the text end position It may be the case.
上記キーワード位置(キーワード開始位置〜キーワード終了位置)の指定方法としては,テキスト本文中のキーワード部分に対してタグ付けする方法と,テキスト本文を一旦テキスト解析しテキスト本文中の音韻列をユーザに表示しキーワード部分を指定する方法と,1又は2以上のキーワードをあらかじめ保持しユーザがキーワードを選択しその選択したキーワードとテキスト本文中で一致する箇所を検索する方法とがある。 The keyword position (keyword start position to keyword end position) can be specified by tagging the keyword part in the text body or by analyzing the text body once and displaying the phoneme string in the text body to the user. There are a method of designating a keyword portion and a method of holding one or more keywords in advance, selecting a keyword by the user, and searching for a location that matches the selected keyword in the text body.
図4に示すように,キーワード音韻候補が2つ以上存在する場合,キーワード部分に関するコスト値の計算は,例えば,テキスト本文の本文開始位置から本文終了位置に向けて,キーワードの出現順に行われる,あるいは,キーワード部分に関するコスト値の計算は,1又は2以上のキーワードに優先順位を付与し,優先順に行われる,あるいは,図8に示すように,キーワード部分に関するコスト値の計算は,1又は2以上のキーワードに重みを付与し,キーワードが出現する順に,重みとコスト値とを乗算する処理が行われる,あるいは,キーワード部分に関するコスト値の計算は,複数のキーワードに付与した重みを,優先順位に変換し,優先順に行われる。 As shown in FIG. 4, when there are two or more keyword phoneme candidates, the cost value for the keyword part is calculated in the order of appearance of the keywords from the text start position to the text end position of the text body, for example. Alternatively, the calculation of the cost value for the keyword part is performed in order of priority by giving priority to one or more keywords, or the calculation of the cost value for the keyword part is 1 or 2 as shown in FIG. Weights are assigned to the above keywords, and the process of multiplying the weights by the cost values is performed in the order in which the keywords appear. Alternatively, the cost values for the keyword part are calculated by assigning the weights assigned to multiple keywords to the priority order. And is performed in order of priority.
図7に示すように,テキスト本文中のキーワード部分について音韻選択部104で求めたコスト値Corigを取得する処理(S515)では,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得する。
As shown in FIG. 7, in the process of obtaining the cost value C orig obtained by the
上記コスト値Corigは,テキスト本文中のキーワード部分の範囲から求められたサブコスト値を基にして求められるコスト値であるのに対して,コスト値Ckeyは,テキスト本文の本文開始位置から本文終了位置までの範囲から求められたサブコスト値を基にして求められるキーワード部分のコスト値である。即ち,双方のコスト値Corigとコスト値Ckeyは,例えば,上記3つのサブコスト値を求めるための音韻の対象範囲が異なっている。上記コスト値Corigの方が,どちらかと言えばキーワード部分を構成する1又は2以上の音韻が本来兼ね備えている声質などの特質を直接的に数値に表現される傾向がある。 The cost value C orig is a cost value obtained based on the sub cost value obtained from the range of the keyword part in the text body, whereas the cost value C key is determined from the body start position of the text body. This is the cost value of the keyword portion obtained based on the sub cost value obtained from the range up to the end position. That is, both the cost value C orig and the cost value C key have different phoneme target ranges for obtaining the three sub cost values, for example. The cost value C orig tends to be directly expressed as numerical values such as voice quality that one or more phonemes constituting the keyword part originally have.
図7に示すように,Ckey−Corig>thresholdの関係であるか判定する処理(S517)では,キーワードに対するコスト値をCkeyと,テキスト本文中のキーワード部分で,音韻選択部104で求めたコスト値Corigとの差分をとり,ある閾値(Threshold)に対して,大小を判定する。
As shown in FIG. 7, in the process of determining whether the relationship of C key -C orig > threshold is satisfied (S517), the
上記大小判定した結果,差分値が,ある閾値(Threshold)より大きい場合であって,上記不等式の関係を保つ場合,図7に示すテキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え(S513)に処理が移行する。 As a result of the above determination, if the difference value is larger than a certain threshold (Threshold) and the above inequality relationship is maintained, the combination of phoneme candidates of the entire text body shown in FIG. Processing shifts to combination replacement (S513).
上記求めた差分値が,ある閾値(Threshold)以下の場合,図7に示す最後のキーワードであるか否かを判定する処理が行われる(S501)。 When the obtained difference value is equal to or less than a certain threshold value (Threshold), a process of determining whether or not it is the last keyword shown in FIG. 7 is performed (S501).
図7に示すように,テキスト本文全体の音韻候補の組合せの,キーワード箇所の音韻候補の組合せの置き換え(S513)では,テキスト本文全体で選択した音韻候補の組合せの,キーワード部分に対して,キーワード優先音韻選択部107によりキーワード優先音韻選択した音韻候補の組合せに,置き換える。つまり,キーワード個所の音韻は,キーワード優先音韻選択部107によりキーワード優先音韻選択した音韻が採用され,その音韻が後述の合成音として出力されることとなる。
As shown in FIG. 7, in the replacement of the combination of phoneme candidates in the keyword text with the combination of phoneme candidates in the entire text body (S513), the keyword for the keyword part of the combination of phoneme candidates selected in the entire text body is used. The priority
また,第2の実施の形態にかかる音声合成方法では,キーワード優先音韻選択部107により選択された音韻の方が合成音として出力した際により一層クリアに明快に読み上げられるように閾値(Threshold)が定められ,置換処理(S513)が行われるようにする。
In the speech synthesis method according to the second embodiment, the threshold is set so that the phoneme selected by the keyword priority
キーワード部分の音韻候補の組合せの置き換えが完了した後(S513),図2に示すステップS216と実質的に同一のステップS501に処理が移行し,最後のキーワードになるまで繰り返して処理が行われる(S505〜S513)。 After the replacement of the keyword part phoneme candidate combination is completed (S513), the process proceeds to step S501, which is substantially the same as step S216 shown in FIG. 2, and the process is repeated until the last keyword is obtained ( S505 to S513).
ここで,図8を参照しながら,第2の実施の形態にかかるキーワード優先音韻選択処理の変形例について説明する。図8は,第2の実施の形態にかかるキーワード優先音韻選択処理の概略を示すフローチャートである。 Here, a modified example of the keyword priority phoneme selection process according to the second embodiment will be described with reference to FIG. FIG. 8 is a flowchart showing an outline of keyword priority phoneme selection processing according to the second embodiment.
図8に示すように,キーワード優先音韻選択処理(S219)は,最後のキーワードであるか否かを判定する処理(S501)と,キーワードに対して,ターゲット選択を行う処理(S509)と,キーワードに対してコスト値Ckeyが最小となる音韻候補の組合せを設定する処理(S511)と,テキスト本文中のキーワード部分で音韻選択部104が求めたコスト値に重みを乗算したCorigを取得する処理(S516)と,最後のキーワードか否かを判定する処理(S502)と,Ckey−Corig>thresholdの関係であるか判定する処理(S517)と,テキスト本文全体の音韻候補の組合せを,キーワード箇所の音韻候補の組合せに置き換える処理(S513)とを含んでいる。
As shown in FIG. 8, the keyword priority phoneme selection process (S219) includes a process for determining whether or not it is the last keyword (S501), a process for selecting a target for the keyword (S509), a keyword, Processing for setting a combination of phoneme candidates that minimizes the cost value C key (S511), and obtaining C orig by multiplying the cost value obtained by the
図8に示すように,第2の実施の形態にかかるキーワード優先音韻選択処理(S219)は,図7に示す第2の実施の形態にかかるキーワード優先音韻選択処理と比べて,上記ステップS515の代わりにステップS516を含む点,さらに上記ステップS502を含む点で異なる。 As shown in FIG. 8, the keyword-priority phoneme selection process (S219) according to the second embodiment is different from the keyword-priority phoneme selection process according to the second embodiment shown in FIG. Instead, it differs in that it includes step S516 and further includes step S502.
図8のステップS516では,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパス109を用いて取得し,上記3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得する。
In step S516 in FIG. 8, the sub-cost value related to phoneme compatibility, the sub-cost value related to phonological environment substitution, and the sub-cost value related to prosody obtained by the
また,図8のステップS516では,キーワードが出現する順に,重みと上記で求めたコスト値とを乗算した重み付きコスト値を求め,各々を比較し,重み付きコスト値を取得する。 Further, in step S516 in FIG. 8, a weighted cost value obtained by multiplying the weight and the cost value obtained above is obtained in the order in which the keywords appear, and each is compared to obtain a weighted cost value.
また,図8に示すように,テキスト本文中のキーワード部分で,音韻選択部104で求めたコスト値に重みを乗算したCorigを取得する処理(S516)では,テキスト本文中のキーワード部分に対して,音韻選択部104で求めた,音韻の適合性に関するサブコスト値と,音韻環境代替に関するサブコスト値と,韻律に関するサブコスト値とを,コーパスを用いて取得し,3つのサブコスト値を足し合わせた,最小のサブコスト値(ターゲットコスト値)と,ピッチの不連続に関するサブコスト値と,スペクトルの不連続に関するサブコスト値とを,足し合わせたコスト値Corigを取得し,コスト値Corigと,複数のキーワードに付与された重みとを,キーワードが出現する順に乗算し,重み付きコスト値Corigを求める。
Further, as shown in FIG. 8, in the process of acquiring Corig obtained by multiplying the cost value obtained by the
図8に示すように,最後のキーワードであるか否かを判定する処理(S502)では,例えば,各キーワードで求められた,重み付きコスト値Corigを比較し,小さい重み付きコスト値を保持しているキーワード順で,テキスト本文内の最後に出現するキーワードであるかどうかを判定する。 As shown in FIG. 8, in the process of determining whether or not it is the last keyword (S502), for example, the weighted cost value C orig obtained for each keyword is compared, and a small weighted cost value is held. It is determined whether or not the keyword appears last in the text body in the order in which the keywords are displayed.
上記判定の結果(S502),最後のキーワードでない場合,図8に示す「Ckey−Corig>threshold」の関係について検証する処理(S517)に移行する。 As a result of the determination (S502), if it is not the last keyword, the process proceeds to processing (S517) for verifying the relationship of “C key −C orig > threshold” shown in FIG.
一方,上記判定の結果(S502),最後のキーワードである場合,キーワード部分の音韻選択が完了し,波形セグメントを得ることが可能な音韻候補の組合せが決定するので,音韻接続部111によって行われる処理に移行する。 On the other hand, as a result of the determination (S502), if it is the last keyword, the phoneme selection of the keyword part is completed, and the combination of phoneme candidates from which waveform segments can be obtained is determined. Transition to processing.
第1の実施の形態にかかる音声合成方法にて説明したように,図2に示すように,音韻接続部111によって実行される波形セグメントを接続する処理(S223)は,現在取り扱っている波形セグメントと,次の波形セグメントとを接続する。 As described in the speech synthesis method according to the first embodiment, as shown in FIG. 2, the process of connecting waveform segments executed by the phoneme connection unit 111 (S223) is the waveform segment currently handled. To the next waveform segment.
音韻接続部111によって,全ての波形セグメントの接続が完了すると(S223),図2に示すように,音韻接続部111によって接続された波形セグメントは,合成音(又は,合成音声)として出力される(S225)。上記合成音がスピーカ等の出力部から出力されることによって,音声合成装置100は,テキスト本文のうちキーワードを強調しながら読上げることができる。
When the connection of all the waveform segments is completed by the phonological connection unit 111 (S223), as shown in FIG. 2, the waveform segments connected by the
以上で,第2の実施の形態にかかる音声合成方法について説明を終了するが,かかる音声合成方法によって,以下に示すような優れた効果が存在する。
(1)テキスト本文中の強調させたいキーワードの部分を,何の評価もせずに,キーワード優先音韻選択部107で選択した音韻の候補に置き換えるのではなく,キーワード部分に対して,音韻選択部104で求めたコスト値Ckeyとキーワード優先音韻選択部107で求めたコスト値Corigとを比較し,置き換えの必要の際は,キーワード優先音韻部107が選択した音韻候補の組合せに置き換えることで,キーワード部分のより自然性が高い読上げを可能とし,音質がよく,キーワードの読上げを強調させることができる。
Although the description of the speech synthesis method according to the second embodiment is finished as described above, the speech synthesis method has the following excellent effects.
(1) The keyword portion to be emphasized in the text body is not replaced with the phoneme candidate selected by the keyword priority
なお,上述した一連の処理は,専用のハードウェアにより行うこともできるし,ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には,そのソフトウェアを構成するプログラムが,汎用のコンピュータやマイクロコンピュータ等の情報処理装置にインストールされ,上記情報処理装置を音声合成装置100として機能させる。
The series of processes described above can be performed by dedicated hardware or software. When a series of processing is performed by software, a program constituting the software is installed in an information processing apparatus such as a general-purpose computer or a microcomputer, and the information processing apparatus functions as the
上記プログラムは,コンピュータに内蔵されている記録媒体としてのハードディスクドライブ(HDD)やROMに予め記録しておくことができる。 The above program can be recorded in advance in a hard disk drive (HDD) or ROM as a recording medium built in the computer.
あるいはまた,プログラムは,ハードディスクドライブに限らず,フレキシブルディスク,CD−ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc),磁気ディスク,半導体メモリなどのリムーバブル記録媒体に,一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は,いわゆるパッケージソフトウエアとして提供することができる。 Alternatively, the program is not limited to a hard disk drive, but a removable recording medium such as a flexible disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto Optical) disk, DVD (Digital Versatile Disc), magnetic disk, and semiconductor memory. In addition, it can be stored (recorded) temporarily or permanently. Such a removable recording medium can be provided as so-called package software.
なお,プログラムは,上述したようなリムーバブル記録媒体からコンピュータにインストールする他,ダウンロードサイトから,ディジタル衛星放送用の人工衛星を介して,コンピュータに無線で転送したり,LAN(Local Area Network),インターネットといったネットワークを介して,コンピュータに有線で転送し,コンピュータでは,そのようにして転送されてくるプログラムを受信し,内蔵するハードディスクドライブにインストールすることができる。 The program is installed on the computer from the removable recording medium as described above, and is transferred from the download site to the computer wirelessly via a digital satellite broadcasting artificial satellite, or a LAN (Local Area Network) or the Internet. Such a program can be transferred to a computer via a network, and the computer can receive the program transferred in this way and install it on a built-in hard disk drive.
ここで,本明細書において,コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは,必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく,並列的あるいは個別に実行される処理(例えば,並列処理あるいはオブジェクトによる処理)も含むものである。 Here, in this specification, the processing steps for describing a program for causing a computer to perform various processes do not necessarily have to be processed in time series in the order described in the flowchart, but in parallel or individually. This includes processing to be executed (for example, parallel processing or processing by an object).
また,プログラムは,1のコンピュータにより処理されるものであっても良いし,複数のコンピュータによって分散処理されるものであっても良い。 The program may be processed by one computer, or may be distributedly processed by a plurality of computers.
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明はかかる例に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例を想定し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, this invention is not limited to this example. It is obvious for a person skilled in the art that various changes or modifications can be envisaged within the scope of the technical idea described in the claims, and these are naturally within the technical scope of the present invention. It is understood that it belongs.
上記実施の形態においては,テキスト解析部101と韻律予測部103とは別体である場合を例に挙げて説明したが,本発明はかかる例に限定されない。例えば,テキスト解析部101と韻律予測部103とが,一体に構成される場合等でも実施可能である。
In the above embodiment, the case where the
本発明は,テキスト本文を読み上げるための音声を合成することが可能な音声合成装置,音声合成方法,およびコンピュータプログラムに適用可能である。 The present invention is applicable to a speech synthesizer, a speech synthesis method, and a computer program capable of synthesizing speech for reading a text body.
100 音声合成装置
101 テキスト解析部
103 韻律予測部
104 音韻選択部
107 キーワード優先音韻選択部
109 コーパス
111 音韻接続部
DESCRIPTION OF
Claims (8)
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出部と;
収録された音声を構成する1又は2以上の音韻が格納された音韻データベースと;
前記テキスト本文を構成する各記号ごとに,前記尺度算出部により求められた尺度に基づいて前記音韻データベースからテキスト音韻を選択する音韻選択部と;
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出部と;
前記キーワードを構成する各記号ごとに,前記キーワード尺度算出部により求められた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択部と;
前記音韻選択部が選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択部が選択した前記キーワード音韻に置き換える音韻置換部と;
前記音韻を接続し,合成音声を生成する合成部と;
を備えることを特徴とする,音声合成装置。 A prosodic prediction information generating unit that analyzes the text body and generates prosodic prediction information that predicts the feature amount of each symbol constituting the text body;
A scale of each symbol constituting the text body is obtained by mapping from a observable feature amount to a scale determined based on a perceptual experiment based on the prosodic prediction information and each symbol constituting the text body. A scale calculator;
A phoneme database storing one or more phonemes constituting the recorded speech;
A phoneme selection unit that selects a text phoneme from the phoneme database based on a scale obtained by the scale calculation unit for each symbol constituting the text body;
Each symbol constituting the keyword is mapped from the observable feature amount to a scale determined based on the perceptual experiment based on the prosodic prediction information and each symbol constituting the keyword in the text body. A keyword scale calculator for calculating the scale of
A keyword priority phoneme selection unit that selects a keyword phoneme from the phoneme database based on a scale of each symbol that constitutes the keyword obtained by the keyword scale calculation unit for each symbol that constitutes the keyword;
A phoneme replacement unit that replaces a phoneme corresponding to the keyword portion in the text phoneme selected by the phoneme selection unit with the keyword phoneme selected by the keyword priority phoneme selection unit;
A synthesis unit that connects the phonemes and generates synthesized speech;
A speech synthesizer characterized by comprising:
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;
前記テキスト本文を構成する各記号ごとに,前記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;
前記キーワードを構成する各記号ごとに,前記キーワード尺度算出ステップで求めた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;
前記音韻選択ステップで選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択ステップで選択した前記キーワード音韻に置き換える音韻置換ステップと;
前記音韻を接続し,合成音声を生成する合成音声生成ステップと;
を含むことを特徴とする,音声合成方法。 A prosodic prediction information generation step of analyzing the text body and generating prosodic prediction information in which the feature amount of each symbol constituting the text body is predicted;
A scale of each symbol constituting the text body is obtained by mapping from a observable feature amount to a scale determined based on a perceptual experiment based on the prosodic prediction information and each symbol constituting the text body. A scale calculation step;
For each symbol constituting the text body, based on the scale obtained in the scale calculation step, phoneme selection for selecting a text phoneme from a phoneme database storing one or more phonemes constituting the recorded speech Steps and;
Each symbol constituting the keyword is mapped from the observable feature amount to a scale determined based on the perceptual experiment based on the prosodic prediction information and each symbol constituting the keyword in the text body. A keyword scale calculating step for obtaining a scale of
A keyword priority phoneme selection step for selecting a keyword phoneme from the phoneme database based on the scale of each symbol constituting the keyword obtained in the keyword scale calculation step for each symbol constituting the keyword;
A phoneme replacement step of replacing a phoneme corresponding to the keyword part in the text phoneme selected in the phoneme selection step with the keyword phoneme selected in the keyword priority phoneme selection step;
A synthesized speech generation step of connecting the phonemes and generating a synthesized speech;
A speech synthesis method comprising:
前記韻律予測情報と前記テキスト本文を構成する各記号とを基にして観測可能な特徴量から知覚実験に基づいて定められる尺度にマッピングすることで,該テキスト本文を構成する各記号の尺度を求める尺度算出ステップと;
前記テキスト本文を構成する各記号ごとに,前記尺度算出ステップで求めた尺度に基づいて,収録された音声を構成する1又は2以上の音韻が格納された音韻データベースからテキスト音韻を選択する音韻選択ステップと;
前記韻律予測情報と前記テキスト本文のうちキーワードを構成する各記号とを基にして前記観測可能な特徴量から前記知覚実験に基づいて定められる尺度にマッピングすることで,該キーワードを構成する各記号の尺度を求めるキーワード尺度算出ステップと;
前記キーワードを構成する各記号ごとに,前記キーワード尺度算出ステップで求めた前記キーワードを構成する各記号の尺度に基づいて前記音韻データベースからキーワード音韻を選択するキーワード優先音韻選択ステップと;
前記音韻選択ステップで選択した前記テキスト音韻のうち前記キーワード部分に該当する音韻を前記キーワード優先音韻選択ステップで選択した前記キーワード音韻に置き換える音韻置換ステップと;
前記音韻を接続し,合成音声を生成する合成音声生成ステップと;
を含んだ音声合成方法をコンピュータに実行させることを特徴とする,コンピュータプログラム。 A prosodic prediction information generation step of analyzing the text body and generating prosodic prediction information in which the feature amount of each symbol constituting the text body is predicted;
A scale of each symbol constituting the text body is obtained by mapping from a observable feature amount to a scale determined based on a perceptual experiment based on the prosodic prediction information and each symbol constituting the text body. A scale calculation step;
For each symbol constituting the text body, based on the scale obtained in the scale calculation step, phoneme selection for selecting a text phoneme from a phoneme database storing one or more phonemes constituting the recorded speech Steps and;
Each symbol constituting the keyword is mapped from the observable feature amount to a scale determined based on the perceptual experiment based on the prosodic prediction information and each symbol constituting the keyword in the text body. A keyword scale calculating step for obtaining a scale of
A keyword priority phoneme selection step for selecting a keyword phoneme from the phoneme database based on the scale of each symbol constituting the keyword obtained in the keyword scale calculation step for each symbol constituting the keyword;
A phoneme replacement step of replacing a phoneme corresponding to the keyword part in the text phoneme selected in the phoneme selection step with the keyword phoneme selected in the keyword priority phoneme selection step;
A synthesized speech generation step of connecting the phonemes and generating a synthesized speech;
A computer program for causing a computer to execute a speech synthesis method including
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005265778A JP4640063B2 (en) | 2005-09-13 | 2005-09-13 | Speech synthesis method, speech synthesizer, and computer program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005265778A JP4640063B2 (en) | 2005-09-13 | 2005-09-13 | Speech synthesis method, speech synthesizer, and computer program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007079019A true JP2007079019A (en) | 2007-03-29 |
| JP4640063B2 JP4640063B2 (en) | 2011-03-02 |
Family
ID=37939427
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005265778A Expired - Fee Related JP4640063B2 (en) | 2005-09-13 | 2005-09-13 | Speech synthesis method, speech synthesizer, and computer program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4640063B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016109832A (en) * | 2014-12-05 | 2016-06-20 | 三菱電機株式会社 | Voice synthesizer and voice synthesis method |
| JP2017009872A (en) * | 2015-06-24 | 2017-01-12 | カシオ計算機株式会社 | Learning support apparatus and program |
| CN112086086A (en) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | Speech synthesis method, device, equipment and computer readable storage medium |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04162098A (en) * | 1990-10-25 | 1992-06-05 | Ricoh Co Ltd | Regular voice synthesizing device |
| JPH05224689A (en) * | 1992-02-13 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesizer |
| JPH0792997A (en) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | Speech synthesizer |
| JP2002049386A (en) * | 2000-08-01 | 2002-02-15 | Sharp Corp | Text-to-speech synthesis apparatus, text-to-speech synthesis method, and recording medium recording the method |
| JP2002123281A (en) * | 2000-10-12 | 2002-04-26 | Oki Electric Ind Co Ltd | Speech synthesizer |
| JP2003208188A (en) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | Japanese text-to-speech synthesis method |
| JP2004126205A (en) * | 2002-10-02 | 2004-04-22 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesis method, speech synthesis device, and speech synthesis program |
| JP2007025338A (en) * | 2005-07-19 | 2007-02-01 | Oki Electric Ind Co Ltd | Method and device for speech synthesis, and computer program |
-
2005
- 2005-09-13 JP JP2005265778A patent/JP4640063B2/en not_active Expired - Fee Related
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04162098A (en) * | 1990-10-25 | 1992-06-05 | Ricoh Co Ltd | Regular voice synthesizing device |
| JPH05224689A (en) * | 1992-02-13 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesizer |
| JPH0792997A (en) * | 1993-09-22 | 1995-04-07 | N T T Data Tsushin Kk | Speech synthesizer |
| JP2002049386A (en) * | 2000-08-01 | 2002-02-15 | Sharp Corp | Text-to-speech synthesis apparatus, text-to-speech synthesis method, and recording medium recording the method |
| JP2002123281A (en) * | 2000-10-12 | 2002-04-26 | Oki Electric Ind Co Ltd | Speech synthesizer |
| JP2003208188A (en) * | 2002-01-15 | 2003-07-25 | Advanced Telecommunication Research Institute International | Japanese text-to-speech synthesis method |
| JP2004126205A (en) * | 2002-10-02 | 2004-04-22 | Nippon Telegr & Teleph Corp <Ntt> | Speech synthesis method, speech synthesis device, and speech synthesis program |
| JP2007025338A (en) * | 2005-07-19 | 2007-02-01 | Oki Electric Ind Co Ltd | Method and device for speech synthesis, and computer program |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016109832A (en) * | 2014-12-05 | 2016-06-20 | 三菱電機株式会社 | Voice synthesizer and voice synthesis method |
| JP2017009872A (en) * | 2015-06-24 | 2017-01-12 | カシオ計算機株式会社 | Learning support apparatus and program |
| CN112086086A (en) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | Speech synthesis method, device, equipment and computer readable storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4640063B2 (en) | 2011-03-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
| US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
| JP3823930B2 (en) | Singing synthesis device, singing synthesis program | |
| JP5269668B2 (en) | Speech synthesis apparatus, program, and method | |
| JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
| CN101171624B (en) | Speech synthesis device and speech synthesis method | |
| JP2016033662A (en) | Estimation of target character string | |
| JP3050832B2 (en) | Speech synthesizer with spontaneous speech waveform signal connection | |
| JP4640063B2 (en) | Speech synthesis method, speech synthesizer, and computer program | |
| JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
| JP2010117528A (en) | Vocal quality change decision device, vocal quality change decision method and vocal quality change decision program | |
| JP2006293026A (en) | Voice synthesis apparatus and method, and computer program therefor | |
| JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP4639932B2 (en) | Speech synthesizer | |
| JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
| JP3091426B2 (en) | Speech synthesizer with spontaneous speech waveform signal connection | |
| JP4533255B2 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, and recording medium therefor | |
| JP7183556B2 (en) | Synthetic sound generator, method, and program | |
| JP3892691B2 (en) | Speech synthesis method and apparatus, and speech synthesis program | |
| JPH11259094A (en) | Rule speech synthesizer | |
| JP2006084854A (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| JP2007025338A (en) | Method and device for speech synthesis, and computer program | |
| JP4297496B2 (en) | Speech synthesis method and apparatus | |
| JP2005091551A (en) | Speech synthesis apparatus, cost calculation apparatus therefor, and computer program | |
| JP6479637B2 (en) | Sentence set generation device, sentence set generation method, program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071025 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100412 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100615 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100913 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101115 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4640063 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |