JP2013033103A - Voice quality conversion device and voice quality conversion method - Google Patents
Voice quality conversion device and voice quality conversion method Download PDFInfo
- Publication number
- JP2013033103A JP2013033103A JP2011168623A JP2011168623A JP2013033103A JP 2013033103 A JP2013033103 A JP 2013033103A JP 2011168623 A JP2011168623 A JP 2011168623A JP 2011168623 A JP2011168623 A JP 2011168623A JP 2013033103 A JP2013033103 A JP 2013033103A
- Authority
- JP
- Japan
- Prior art keywords
- vocal tract
- conversion
- opening degree
- unit
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Prostheses (AREA)
Abstract
【課題】自然性を保持したまま入力音声の発声様態を変換する。
【解決手段】入力音声を声道情報と音源情報とに分離する声道音源分離部101と、声道音源分離部101により分離された声道情報から、入力音声の発声時の口腔内の容積に対応する開口度を、入力音声の所定再生時刻毎に算出する開口度算出部102と、開口度の変換度合いを示す発声様態変換度に基づいて、所定再生時刻毎の開口度の変換率を決定する開口度変換率決定部105と、開口度変換率決定部105により決定された変換率に基づいて、声道音源分離部101により分離された声道情報を、開口度算出部102が算出した開口度が当該変換率で変換された後の開口度に対応する声道情報に変換する声道情報変換部103と、声道情報変換部103による変換後の声道情報と、声道音源分離部101により分離された音源情報とを用いて、合成音を生成する合成部104とを備える。
【選択図】図5[PROBLEMS] To convert an utterance state of input speech while maintaining naturalness.
A vocal tract sound source separation unit that separates input speech into vocal tract information and sound source information, and a volume in the oral cavity when the input speech is uttered from the vocal tract information separated by the vocal tract sound source separation unit. Based on the opening degree calculation unit 102 that calculates the opening degree corresponding to the input sound at every predetermined reproduction time and the utterance state conversion degree that indicates the degree of conversion of the opening degree, the conversion degree of the opening degree at each predetermined reproduction time is calculated. Based on the conversion rate determined by the opening degree conversion rate determination unit 105 and the opening degree conversion rate determination unit 105 to be determined, the opening degree calculation unit 102 calculates the vocal tract information separated by the vocal tract sound source separation unit 101. The vocal tract information conversion unit 103 converts the vocal tract information into the vocal tract information corresponding to the open degree after the open degree is converted at the conversion rate, the vocal tract information after the conversion by the vocal tract information conversion unit 103, and the vocal tract sound source Sound source information separated by the separation unit 101 Using, and a synthesizing unit 104 for generating a synthesized sound.
[Selection] Figure 5
Description
本発明は、音声合成技術に基づき音声の声質を変換する声質変換装置およびその方法に関する。 The present invention relates to a voice quality conversion apparatus and method for converting voice quality of voice based on a voice synthesis technique.
近年、音声合成技術の発達により、さまざまな分野で加工された音声が用いられるようになってきた。 In recent years, with the development of speech synthesis technology, speech processed in various fields has come to be used.
例えば、音楽収録においてボーカル音を微修正するなど方法で加工された音声の利用も増えてきている。 For example, the use of voice processed by a method such as fine correction of vocal sounds in music recording is increasing.
音声収録には、専用のレコーディングスタジオなどの環境が必要である。このため、いったん収録が完了した音声に対して修正が必要になった場合には、音声の再収録が必要となり、コストがかかるという問題がある。 Sound recording requires a dedicated recording studio environment. For this reason, when it is necessary to correct the sound once recorded, it is necessary to re-record the sound, which is expensive.
このような再収録が必要な場合として、「言い間違い」や、「アクセントの間違い」などがあるが、これらの原因のように収録時に気づき易いもの以外にも、収録後の編集作業において変更が必要になる場合も考えられる。例えば、収録した音声を少し元気な発声に変更したい場合や、逆に少し弱弱しい発声に変更したい場合など、発声の仕方(後述の発声様態)の変更に関する要望がある。 When such re-recording is necessary, there are "wrong words" and "accent mistakes". In addition to things that are easy to notice during recording, such as these causes, there are changes in editing work after recording. It may be necessary. For example, there is a demand for changing the way of utterance (the utterance mode described later), for example, when it is desired to change the recorded voice to a slightly more active utterance, or to change to a slightly weaker utterance.
例えば、ナレーションの音声を収録した後、一部の音声に対して「もう少し元気な感じにしたい」などの要求が制作者からあった場合、ナレータに再度スタジオに来てもらって収録をやり直す必要がある。しかし、実際に再収録を行うには多大なコストが必要である。 For example, after recording the voice of a narration, if the producer requests that some of the audio be “like a little more cheerful”, the narrator needs to come back to the studio and start over. . However, enormous costs are required to actually re-record.
そのような場合の対策として、音声を強調する技術がある。従来、音声の明瞭度を向上させる技術として、特許文献1に示すような音声強調装置がある。図15は、特許文献1の音声強調装置の構成図である。
As a countermeasure for such a case, there is a technique for enhancing speech. Conventionally, as a technique for improving speech intelligibility, there is a speech enhancement apparatus as shown in
この音声強調装置は、音声復号器4からの強調前音声が入力される音声強調部1、マイク9からのアナログ信号S2から得られたディジタル信号が入力される雑音推定部3、音声復号器4および雑音推定部3からの信号に基づいて強調特性を決定する強調特性決定部2を備える。
The speech enhancement apparatus includes a
符号化データC1は、音声復号器4に入力され、強調前音声として音声強調部1および強調特性決定部2に入力される。
The encoded data C1 is input to the
一方、マイク9に入力されたアナログ信号S2(周囲雑音)は、A/D変換器8によりディジタル信号に変換され、送信信号として、音声符号器7および雑音推定部3に入力される。
On the other hand, the analog signal S2 (ambient noise) input to the
雑音推定部3は、送信信号が背景雑音区間であるか音声区間であるかを判定し、雑音区間の場合には、その雑音特性を推定し、該雑音特性を強調特性決定部2に与える。
The
強調特性決定部2は、強調前音声の特性および雑音特性の双方に基づいて強調特性を決定する。この強調特性は音声強調部1に入力され、音声強調部1は、強調特性に基づいて復号音声を強調処理し、強調した強調後音声をD/A変換器5に与える。強調後音声は、D/A変換器5によりアナログ信号に変換され、スピーカ6からアナログ信号S1として出力される。
The emphasis
このように、収音された周囲雑音の性質が推定され、該周囲雑音の性質および強調前音声の性質の双方に応じて適応的に音声が強調されることにより、明瞭度の高い音声を提供する。 In this way, the nature of the ambient noise collected is estimated, and the speech is adaptively enhanced according to both the nature of the ambient noise and the nature of the unenhanced speech, thereby providing highly clear speech. To do.
特許文献1の音声強調装置では、背景雑音や入力音声の特性(フォルマント中心周波数)に応じてフォルマントの強度を変化させることにより、音声を強調している。
In the speech enhancement device of
自然な発声が持つ声質は、音声の発話速度や発話内の位置、またはアクセント句内における位置など、さまざまな要因の影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭度高く発声するが、文末では発音の怠けが発生し、明瞭度が低下する傾向がある。また、発声時にある単語が強調されている場合は、その単語の声質は、強調されない場合と比較すると明瞭度が高くなる傾向がある。 The voice quality of a natural utterance is affected by various factors such as the utterance speed of the voice, the position within the utterance, or the position within the accent phrase. For example, in a natural utterance, the beginning of a sentence is clearly uttered with high clarity, but at the end of the sentence, there is a tendency for pronunciation to be negligible and the intelligibility tends to decrease. Further, when a word is emphasized at the time of utterance, the voice quality of the word tends to be higher in clarity than when not emphasized.
図1に、人間の声帯及びおよび声道を示す。以下、人間の音声の生成原理を説明する。人間の音声は、図1に示すように、声帯1601の振動により生成される音源波形が、声門1602から口唇1603までにより構成される声道1604を通過する際に、舌などの調音器官による狭めなどの影響を受けて生成される。分析合成型音声合成法は、このような音声の生成原理に基づいて、人間の音声を分析する。具体的には、音声を声道情報と音源情報に分離し、分離されたパラメータを変形することにより、合成音の声質を変換することが可能である。例えば、音声の分析方法として、音源声道モデルと呼ばれるモデルが使用される。音源声道モデルによる分析では、音声はその生成過程に基づいて音源情報と声道情報に分離される。分離された音源情報と声道情報をそれぞれ変形することにより声質を変えることができる。
FIG. 1 shows a human vocal cord and vocal tract. Hereinafter, the principle of human voice generation will be described. As shown in FIG. 1, human speech is narrowed by an articulator such as a tongue when a sound source waveform generated by vibration of the
図2は、同一話者による先行音素が同一である同じ母音の声道伝達特性を示す。図2において、横軸は周波数を表し、縦軸はスペクトル強度を表す。 FIG. 2 shows the vocal tract transfer characteristics of the same vowel with the same preceding phoneme by the same speaker. In FIG. 2, the horizontal axis represents frequency, and the vertical axis represents spectral intensity.
図2に示す曲線211は「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の母音部/a/が持つ声道伝達特性を示す。曲線212は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の母音部/a/が持つ声道伝達特性を示す。同じ先行音素を持つ母音同士を比較しても、共振周波数を示すフォルマント(上方向のピーク)の位置および強さが大きく異なることがわかる。
A
この要因としては、曲線211に対応する母音部/a/は文頭に近く、かつ内容語(content word)であるのに対して、曲線212に対応する母音部/a/は、文末に近く、かつ機能語(function word)であると言うことが挙げられる。また、聴感上においても、曲線211に対応する母音部/a/の方がより明瞭に聞こえる。
This is because the vowel part / a / corresponding to the
このように、自然な発話においては、文章内において発声の方法が異なる。つまり、「ハキハキと発声し、明瞭な音声」や「怠けて発声し、不明瞭な音声」といった意識的あるいは無意識の発声の仕方の違いがある。このような発声方法の違いを以後「発声様態」と呼ぶ。 Thus, in a natural utterance, the utterance method is different in the sentence. In other words, there is a difference in the way of conscious or unconscious utterance, such as “speech and clear speech” and “speaking and unclear speech”. Such a difference in utterance method is hereinafter referred to as “speech mode”.
このような発声様態は音韻環境だけではなく、その他の様々な言語的および生理的な影響を受けて変動している。 Such utterances vary not only in the phonological environment but also in various other linguistic and physiological influences.
特許文献1の音声強調装置は、そのような発声様態の変動を考慮することなく、背景雑音と入力音声のフォルマント中心周波数に基づいてフォルマントの強度の変換を行っているため、強調された音声の発声様態の時間的変化パターンは、入力音声とは異なったものとなる。
Since the speech enhancement device of
この発声様態の時間的変化について、図3の概念図を用いて説明する。図3(a)は、入力音声として発声された音声「めまいがします(/memaigashimasxu/)」に対して、音声に含まれる各母音の発声様態(明瞭度)の変化を示している。Xの領域は、はっきりした発声であり、明瞭度が高い音韻を示す。Yの領域は、怠けた発声であり明瞭度が低い音韻を示している。例えばこのように前半は、明瞭度が高い発声様態であり、後半は明瞭度が低い発声様態を示す。 The temporal change of the utterance mode will be described with reference to the conceptual diagram of FIG. FIG. 3A shows a change in the utterance state (intelligibility) of each vowel included in the voice with respect to the voice “/ meigashimashixu /” uttered as the input voice. The region of X is a clear utterance and shows a phoneme with high intelligibility. The area Y indicates a phonation that is lazy and has a low intelligibility. For example, in this way, the first half is an utterance mode with high clarity, and the second half shows an utterance mode with low clarity.
一方、図3(b)は、フォルマントの強調または弱めにより音声強調を行った場合の強調音声が持つ発声様態の時間的変化を示す。背景雑音と入力音声のフォルマント中心周波数のみによりフォルマント強度を変換しているため、発声様態の時間的な変動パターンを保持することができない。例えば、図3(b)のように発声様態が変動した場合、発声様態は、はっきりと明瞭度を高く発声する区間Xと、怠けて明瞭度を低く発声する区間Yが交互に繰り返すような強調音声が得られることになる。 On the other hand, FIG. 3B shows a temporal change in the utterance mode of the emphasized speech when speech enhancement is performed by emphasizing or weakening formants. Since the formant intensity is converted only by the background noise and the formant center frequency of the input speech, the temporal variation pattern of the utterance mode cannot be maintained. For example, when the utterance mode fluctuates as shown in FIG. 3B, the utterance mode is emphasized such that the section X that clearly utters with high clarity and the section Y that utters with low clarity and utterance alternates alternately. Voice will be obtained.
このように発声様態の時間的変化パターンが入力音声の時間的変化パターンと異なると、声質変換後の音声における発声様態の変化の自然性を保持することができなくなり、結果として声質変換後の音声の自然性が大きく劣化するという課題を有していた。 Thus, if the temporal change pattern of the utterance mode is different from the temporal change pattern of the input speech, the naturalness of the change of the utterance mode in the voice after voice quality conversion cannot be maintained, and as a result, the voice after voice quality conversion is lost. The problem was that the naturalness of the material deteriorated greatly.
本発明は、前記従来の課題を解決するもので、入力音声が保有する発声様態の時間パターンを保持しながら声質を変換することで、声質変換時の自然性、言い換えれば流暢さを低下させずに発声様態を変換することができる声質変換装置を提供することを目的とする。 The present invention solves the above-described conventional problem, and by converting the voice quality while maintaining the time pattern of the utterance mode possessed by the input voice, naturalness at the time of voice quality conversion, in other words, does not reduce fluency. An object of the present invention is to provide a voice quality conversion device capable of converting the utterance mode.
本発明のある局面に係る声質変換装置は、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記声道情報から、前記入力音声の発声時の口腔内の容積に対応する開口度を、前記入力音声の所定再生時刻毎に算出する開口度算出部と、開口度の変換度合いを示す発声様態変換度に基づいて、前記所定再生時刻毎の前記開口度の変換率を決定する開口度変換率決定部と、前記開口度変換率決定部により決定された前記変換率に基づいて、前記声道音源分離部により分離された前記声道情報を、前記開口度算出部により算出された前記開口度が当該変換率で変換された後の開口度に対応する声道情報に変換する声道情報変換部と、前記声道情報変換部による変換後の声道情報と、前記声道音源分離部により分離された前記音源情報とを用いて、合成音を生成する合成部とを備える。 A voice quality conversion device according to an aspect of the present invention includes a vocal tract sound source separation unit that separates input speech into vocal tract information and sound source information, and the input from the vocal tract information separated by the vocal tract sound source separation unit. Based on the opening degree calculation unit that calculates the opening degree corresponding to the volume in the oral cavity at the time of sound production for each predetermined reproduction time of the input sound, and the utterance mode conversion degree indicating the degree of conversion of the opening degree The opening degree conversion rate determining unit that determines the conversion rate of the opening degree for each reproduction time and the vocal tract sound source separating unit separated based on the conversion rate determined by the opening degree conversion rate determining unit A vocal tract information conversion unit that converts vocal tract information into vocal tract information corresponding to an opening degree after the opening degree calculated by the opening degree calculation unit is converted at the conversion rate; and the vocal tract information conversion Vocal tract information after conversion by the part, and the vocal tract source Using said sound source information separated by the section, and a synthesizing unit for generating synthetic speech.
この構成によると、入力音声の発声様態を変換する際に、入力音声における発声様態の時間パターンを保存することが可能となる。つまり、発声様態変換比率を大きくすると、開口度が相対的に大きくなり、はっきりと発声した音声となり、元気に発声されたように聞こえる。一方、発声様態変換比率を小さくすると、開口度が相対的に小さくなり、怠けて発声した音声となり、力なく発声されたように聞こえる。これにより、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、自然性(流暢さ)を劣化させない声質変換が可能となる。 According to this configuration, it is possible to save the time pattern of the utterance mode in the input voice when converting the utterance mode of the input voice. That is, when the utterance mode conversion ratio is increased, the opening degree is relatively increased, and the voice is clearly uttered and sounds as if uttered energetically. On the other hand, when the utterance mode conversion ratio is reduced, the opening degree becomes relatively small, and the voice is uttered lazyly and sounds as if uttered without power. As a result, the voice quality-converted voice stores the time pattern of the change in utterance mode, so that voice quality conversion without deteriorating naturalness (fluency) is possible.
なお、本発明は、このような特徴的な処理部を備える声質変換装置として実現することができるだけでなく、声質変換装置に含まれる特徴的な処理部が実行する処理をステップとする声質変換方法として実現することができる。また、声質変換装置に含まれる特徴的な処理部としてコンピュータを機能させるためのプログラムまたは声質変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、CD−ROM(Compact Disc−Read Only Memory)等のコンピュータ読取可能な非一時的な記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。 Note that the present invention can be realized not only as a voice quality conversion device including such a characteristic processing unit, but also as a voice quality conversion method including steps executed by the characteristic processing unit included in the voice quality conversion device. Can be realized. Also, it can be realized as a program for causing a computer to function as a characteristic processing unit included in the voice quality conversion device or a program for causing a computer to execute characteristic steps included in the voice quality conversion method. Such a program can be distributed via a computer-readable non-transitory recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet. .
本発明の声質変換装置によれば、入力音声の発声様態を変換する際に、入力音声における発声様態の時間的変化パターンを維持することが可能となる。つまり、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、自然性(流暢さ)を劣化させない声質変換が可能となる。 According to the voice quality conversion device of the present invention, it is possible to maintain the temporal change pattern of the utterance mode in the input voice when converting the utterance mode of the input voice. In other words, the voice quality-converted voice stores the time pattern of the change in utterance mode, so that voice quality conversion that does not deteriorate naturalness (fluency) is possible.
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも本発明の好ましい一具体例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。本発明は、特許請求の範囲だけによって限定される。よって、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、本発明の課題を達成するのに必ずしも必要ではないが、より好ましい形態を構成するものとして説明される。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Each of the embodiments described below shows a preferred specific example of the present invention. The numerical values, the constituent elements, the arrangement positions and connection forms of the constituent elements, the steps, the order of the steps, and the like shown in the following embodiments are examples, and are not intended to limit the present invention. The invention is limited only by the claims. Therefore, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims indicating the highest concept of the present invention are not necessarily required to achieve the object of the present invention. It will be described as constituting a preferred form.
本発明の一実施態様に係る声質変換装置は、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記声道情報から、前記入力音声の発声時の口腔内の容積に対応する開口度を、前記入力音声の所定再生時刻毎に算出する開口度算出部と、開口度の変換度合いを示す発声様態変換度に基づいて、前記所定再生時刻毎の前記開口度の変換率を決定する開口度変換率決定部と、前記開口度変換率決定部により決定された前記変換率に基づいて、前記声道音源分離部により分離された前記声道情報を、前記開口度算出部により算出された前記開口度が当該変換率で変換された後の開口度に対応する声道情報に変換する声道情報変換部と、前記声道情報変換部による変換後の声道情報と、前記声道音源分離部により分離された前記音源情報とを用いて、合成音を生成する合成部とを備える。 A voice quality conversion device according to an embodiment of the present invention includes: a vocal tract sound source separation unit that separates input speech into vocal tract information and sound source information; and the vocal tract information separated by the vocal tract sound source separation unit, Based on the opening degree calculation unit for calculating the opening degree corresponding to the volume in the oral cavity at the time of utterance of the input sound for each predetermined reproduction time of the input sound, and the utterance mode conversion degree indicating the degree of conversion of the opening degree, Based on the conversion rate determined by the openness conversion rate determination unit and the openness conversion rate determination unit that determines the conversion rate of the openness for each predetermined reproduction time, the vocal tract sound source separation unit A vocal tract information conversion unit that converts the vocal tract information into vocal tract information corresponding to an opening degree after the opening degree calculated by the opening degree calculation unit is converted at the conversion rate; and the vocal tract information The vocal tract information after conversion by the conversion unit and the vocal tract sound source Using said sound source information separated by the releasing unit, and a synthesizing unit for generating synthetic speech.
この構成によると、入力音声の発声様態を変換する際に、入力音声における発声様態の時間パターン(時間的な変化系列)を保存することが可能となる。つまり、発声様態変換比率を大きくすると、開口度が相対的に大きくなり、はっきりと発声した音声となり、元気に発声されたように聞こえる。一方、発声様態変換比率を小さくすると、開口度が相対的に小さくなり、怠けて発声した音声となり、力なく発声されたように聞こえる。これにより、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、自然性(流暢さ)を劣化させない声質変換が可能となる。 According to this configuration, when converting the utterance mode of the input voice, it is possible to save the time pattern (temporal change sequence) of the utterance mode in the input voice. That is, when the utterance mode conversion ratio is increased, the opening degree is relatively increased, and the voice is clearly uttered and sounds as if uttered energetically. On the other hand, when the utterance mode conversion ratio is reduced, the opening degree becomes relatively small, and the voice is uttered lazyly and sounds as if uttered without power. As a result, the voice quality-converted voice stores the time pattern of the change in utterance mode, so that voice quality conversion without deteriorating naturalness (fluency) is possible.
好ましくは、前記開口度算出部は、前記所定再生時刻毎に前記声道音源分離部により分離された前記声道情報から声道断面積関数を算出し、前記口腔内を複数の区間に分割した場合に、算出した前記声道断面積関数で示される各区間の声道断面積の和として、前記開口度を算出する。 Preferably, the opening degree calculation unit calculates a vocal tract cross-sectional area function from the vocal tract information separated by the vocal tract sound source separation unit at each predetermined reproduction time, and divides the oral cavity into a plurality of sections In this case, the opening degree is calculated as the sum of the vocal tract cross-sectional areas of the sections indicated by the calculated vocal tract cross-sectional area function.
さらに好ましくは、上述の声質変換装置は、さらに、前記入力音声に含まれる母音の時間区間である母音区間を抽出する母音区間抽出部を備え、前記声道情報変換部は、前記声道音源分離部により分離された前記声道情報のうち、前記母音区間抽出部により抽出された前記母音区間における声道情報のみを変換する。 More preferably, the above-described voice quality conversion device further includes a vowel section extraction unit that extracts a vowel section that is a time section of a vowel included in the input speech, and the vocal tract information conversion unit includes the vocal tract sound source separation. Only the vocal tract information in the vowel segment extracted by the vowel segment extraction unit is converted from the vocal tract information separated by the unit.
この構成によると、声道情報が時間的に早く変化する子音区間に対して開口度を変換しないことで、過度な声道形状の変換を防止することができるため、声質変換時の音質の劣化を抑圧することが可能となる。 According to this configuration, it is possible to prevent excessive conversion of the vocal tract shape by not converting the opening degree to the consonant section in which the vocal tract information changes quickly in time, so that the sound quality is deteriorated during the conversion of the voice quality. Can be suppressed.
また、前記開口度変換率決定部は、前記発声様態変換度を、前記所定再生時刻毎の前記変換率として決定しても良い。 The opening degree conversion rate determination unit may determine the utterance state conversion degree as the conversion rate for each predetermined reproduction time.
この構成によると、外部から入力された発声様態変換度を直接的に用いて、声道情報を変換することが可能となる。 According to this configuration, vocal tract information can be converted by directly using the utterance mode conversion degree inputted from the outside.
好ましくは、前記開口度変換率決定部は、前記所定再生時刻毎に、前記開口度算出部により算出された前記開口度の時間的な変化系列におけるダイナミックレンジと前記発声様態変換度との積が、変換後の開口度の時間的な変化系列におけるダイナミックレンジと一致するように、前記変換後の開口度を算出するために前記開口度算出部により算出された前記開口度に乗じる前記変換率を決定する。 Preferably, the opening degree conversion rate determining unit calculates a product of a dynamic range in the temporal change series of the opening degree calculated by the opening degree calculating unit and the utterance state conversion degree at each predetermined reproduction time. The conversion rate by which the opening degree calculated by the opening degree calculation unit is multiplied to calculate the opening degree after the conversion so as to coincide with the dynamic range in the temporal change sequence of the opening degree after conversion. decide.
この構成によると、外部から入力される発声様態変換度に基づいて、入力音声の開口度の時間パターン(時間的な変化系列)のダイナミックレンジを変換することができる。このため、よりメリハリの付いた音声に声質変換することが可能となる。 According to this configuration, it is possible to convert the dynamic range of the temporal pattern (temporal change series) of the opening degree of the input voice based on the utterance mode conversion degree input from the outside. For this reason, it is possible to convert the voice quality to a more crisp voice.
また、前記開口度変換率決定部は、前記所定再生時刻毎に、前記開口度算出部により算出された前記開口度の時間的な変化系列における開口度の平均値と前記発声様態変換度との積が、変換後の開口度の時間的な変化系列における開口度の平均値と一致するように、前記変換後の開口度を算出するために前記開口度算出部により算出された前記開口度に乗じる前記変換率を決定しても良い。 In addition, the opening degree conversion rate determination unit may calculate an average value of the opening degree in the temporal change series of the opening degree calculated by the opening degree calculation unit and the utterance state conversion degree at each predetermined reproduction time. The opening degree calculated by the opening degree calculating unit to calculate the opening degree after the conversion so that the product coincides with the average value of the opening degree in the temporal change series of the opening degree after the conversion. The conversion rate to be multiplied may be determined.
この構成によると、外部から入力される発声様態変換度に基づいて、入力音声の開口度の時間パターン(時間的な変化系列)の平均値を変換することができる。このため、平均的に発声様態が変換された声質変換することが可能となる。 According to this configuration, it is possible to convert the average value of the time pattern (temporal change series) of the opening degree of the input speech based on the utterance mode conversion degree input from the outside. For this reason, it is possible to perform voice quality conversion in which the utterance mode is converted on average.
また、前記声道情報変換部は、前記開口度変換率決定部により決定された前記変換率に基づいて、前記声道音源分離部により分離された前記声道情報を示す声道断面積を変換することにより、前記声道音源分離部により分離された前記声道情報を変換しても良い。 The vocal tract information conversion unit converts a vocal tract cross-sectional area indicating the vocal tract information separated by the vocal tract sound source separation unit based on the conversion rate determined by the opening degree conversion rate determination unit. By doing so, the vocal tract information separated by the vocal tract sound source separation unit may be converted.
好ましくは、前記声道情報変換部は、前記口腔内を複数の区間に分割した場合に、前記変換率に対応し、かつ区間ごとに定められる変換係数を、区間ごとの前記声道断面積に乗算することにより、前記声道音源分離部により分離された前記声道情報を変換する。 Preferably, the vocal tract information conversion unit, when dividing the oral cavity into a plurality of sections, converts the conversion coefficient corresponding to the conversion rate and determined for each section to the vocal tract cross-sectional area for each section. By multiplying, the vocal tract information separated by the vocal tract sound source separation unit is converted.
この構成によると、声道断面積関数を変形する際に、より自由度が高く変換することができるため、声質変換された音声の自然性の劣化を防止することが可能となる。 According to this configuration, when the vocal tract cross-sectional area function is deformed, conversion can be performed with a higher degree of freedom, and therefore it is possible to prevent deterioration of the naturalness of the voice whose voice quality has been converted.
さらに好ましくは、前記変換係数は、口唇に近い区間の前記変換係数ほど、隣接する区間の前記変換係数との差分の絶対値が大きい。 More preferably, the absolute value of the difference between the conversion coefficient in the section closer to the lip and the conversion coefficient in the adjacent section is larger as the conversion coefficient in the section closer to the lips.
この構成によると、声道断面積関数を変換する際に、より発声機構に合致した変形が可能となり、声質変換された音声の自然性の劣化を防止することが可能となる。 According to this configuration, when the vocal tract cross-sectional area function is converted, it becomes possible to perform a deformation that more closely matches the utterance mechanism, and it is possible to prevent deterioration of the naturalness of the voice whose voice quality has been converted.
(実施の形態)
本発明の実施の形態では、元となる音声(入力音声)に対して、後述する発声の様態を表す開口度を変換率に基づいて変換することにより声質変換を行う方法について説明する。
(Embodiment)
In the embodiment of the present invention, a method is described in which voice quality conversion is performed on an original voice (input voice) by converting a degree of opening representing an utterance mode described later based on a conversion rate.
既に述べたように、声質変換を行う際には、入力音声における発声様態の時間的な変動を保持することが重要である。発声様態とは、例えば、ハッキリと明瞭度の高い発声、または、怠けた明瞭度の低い発声である。 As already described, when performing voice quality conversion, it is important to maintain temporal variation of the utterance mode in the input voice. The utterance mode is, for example, utterance with clear and high intelligibility, or utterance with low intelligibility.
発声様態は、例えば音声の発話速度、発話内の位置、または、アクセント句内における位置に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭に発声するが、文末では怠けが発生し、明瞭度が低下する傾向がある。また、入力音声において、ある単語が強調されている場合の発声様態は、強調されない場合と異なる。 The utterance mode is affected by, for example, the speech rate, the position in the utterance, or the position in the accent phrase. For example, in a natural utterance, the beginning of a sentence is clearly and clearly uttered, but at the end of the sentence, lazyness occurs and the intelligibility tends to decrease. In addition, in the input speech, the utterance mode when a certain word is emphasized is different from the case where the word is not emphasized.
図4(a)は、前述の「めまいがします(/memaigashimasxu/)」と発声した際の「めまい」の/ma/の母音部/a/の対数声道断面積関数を示し、図4(b)は、「お湯が出ません(/oyugademaseN/)」と発声した際の/ma/の母音部/a/の対数声道断面積関数を示す。 FIG. 4 (a) shows the logarithmic vocal tract cross-sectional area function of / ma / vowel part / a / of “vertigo” when the above-mentioned “/ memaigasimasxu /” is spoken. (B) shows the logarithmic vocal tract cross-sectional area function of the vowel part / a / of / ma / when uttered “no hot water (/ oyugadaseN /)”.
図4(a)の母音部/a/は、文頭に近く、また内容語(自立語)に含まれる音であることから、発声様態としてはハッキリと明瞭に発話されている。一方、図4(b)の母音部/a/は、文末に近いことから、発声様態としては怠けが発生し、明瞭さが低い。 Since the vowel part / a / in FIG. 4A is a sound that is close to the beginning of a sentence and included in a content word (independent word), the utterance is clearly and clearly spoken. On the other hand, since the vowel part / a / in FIG. 4B is close to the end of the sentence, the utterance mode is lazy, and the clarity is low.
本願発明者らは、このような発声様態の違いと対数声道断面積関数の関係を注意深く観察することにより、発声様態が口腔内の容積と関連があるという知見を見出した。 The inventors of the present application have found that the voicing mode is related to the volume in the oral cavity by carefully observing the relationship between the voicing mode and the logarithmic vocal tract cross-sectional area function.
つまり、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向があり、逆に口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。 That is, as the volume in the oral cavity is larger, the utterance state tends to be clearer, and conversely, as the volume in the oral cavity is smaller, the utterance state tends to be lazy and have a lower clarity.
音声から算出可能な口腔内容積を開口度の指標とすることによって、その音声が持つ発声様態を制御することが可能となる。 By using the intraoral volume that can be calculated from the voice as an index of the opening degree, it is possible to control the utterance mode of the voice.
本実施の形態では、口腔内容積を示す開口度を用いることにより発声様態の時間的な変動を保存して声質変換を行うことで、自然性の劣化が少ない合成音を生成することができる。 In the present embodiment, a synthesized sound with little deterioration in naturalness can be generated by using the degree of opening indicating the intraoral volume to preserve the temporal variation of the vocalization mode and perform voice quality conversion.
図5は、実施の形態における声質変換装置の機能的な構成を示すブロック図である。声質変換装置は、声道音源分離部101と、開口度算出部102と、開口度変換率決定部105と、声道情報変換部103と、合成部104とを備える。
FIG. 5 is a block diagram illustrating a functional configuration of the voice quality conversion apparatus according to the embodiment. The voice quality conversion apparatus includes a vocal tract sound
声道音源分離部101は、入力音声を受け付ける。声道音源分離部101は、受け付けた入力音声を声道情報と音源情報に分離する。
The vocal tract sound
開口度算出部102は、声道音源分離部101により分離された声道情報を用いて、入力音声の各フレームにおける開口度を算出する。つまり、開口度算出部102は、声道音源分離部101により分離された声道情報から、入力音声の発声時の口腔内の容積に対応する開口度を、入力音声の所定再生時刻(フレーム)毎に算出する。
The opening
開口度変換率決定部105は、外部から入力される開口度の変換度合いを示す発声様態変換度に基づいて、開口度算出部102により算出された各フレームにおける開口度の変換率である率を算出する。
The opening degree conversion
声道情報変換部103は、開口度変換率決定部105により決定された開口度変換率に基づいて、声道音源分離部101により分離された声道情報を、開口度算出部102が算出した開口度が当該開口度変換率で変換された後の開口度に対応する声道情報に変換する。
The vocal tract
合成部104は、声道情報変換部103により変換された声道情報と、声道音源分離部101により分離された音源情報を用いて合成音を生成する。
The
以上のように構成された声質変換装置により、入力音声の発声様態の時間的な変動を保持しながら声質変換が可能となる。 With the voice quality conversion apparatus configured as described above, voice quality conversion can be performed while maintaining temporal variation of the utterance mode of the input voice.
以下、それぞれの構成要素について説明する。 Hereinafter, each component will be described.
<声道音源分離部101>
声道音源分離部101は、入力音声に対して、声道音源モデル(音声の発声機構をモデル化した音声生成モデル)を適用することにより、声道情報と音源情報の分離を行う。使用する声道音源モデルに制限はなく、どのようなモデルであっても良い。
<Vocal tract sound
The vocal tract sound
例えば、声道音源モデルとして線形予測モデル(LPCモデル)がある。線形予測モデルは、音声波形のある標本値s(n)をそれより前のp個の標本値から予測するものであり、標本値s(n)は、式1のように表せる。
For example, there is a linear prediction model (LPC model) as a vocal tract sound source model. The linear prediction model predicts a certain sample value s (n) of a speech waveform from p sample values before the sample value, and the sample value s (n) can be expressed as
p個の標本値に対する係数αi(i=1〜p)は、相関法や共分散法などを用いることにより算出できる。算出した係数αiを用いると入力された音声信号は、式2により生成することができる。
The coefficient α i (i = 1 to p) for p sample values can be calculated by using a correlation method, a covariance method, or the like. When the calculated coefficient α i is used, the input audio signal can be generated by
ここで、S(z)は音声信号s(n)のz変換後の値であり、U(z)は、は有声音源信号u(n)のz変換後の値であり、入力音声S(z)を声道情報1/A(z)で逆フィルタリングした信号を表す。
Here, S (z) is a value after the z conversion of the voice signal s (n), U (z) is a value after the z conversion of the voiced sound source signal u (n), and the input voice S ( z) represents a signal obtained by inverse filtering the
さらに、LPC分析により分析された線形予測係数αiを用いて、PARCOR係数(偏自己相関係数)を算出するようにしてもよい。PARCOR係数は、線形予測係数と比較して、補間特性が良いことが知られている。PARCOR係数は、Levinson−Durbin−Itakuraアルゴリズムを用いることにより算出することが可能である。なお、PARCOR係数は、次の特徴を保有する。 Further, the PARCOR coefficient (partial autocorrelation coefficient) may be calculated using the linear prediction coefficient α i analyzed by the LPC analysis. It is known that the PARCOR coefficient has better interpolation characteristics than the linear prediction coefficient. The PARCOR coefficient can be calculated by using the Levinson-Durbin-Itakura algorithm. The PARCOR coefficient has the following characteristics.
(特徴1)低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。 (Characteristic 1) The lower-order coefficient has a greater influence on the spectrum due to the fluctuation, and the higher the order, the smaller the influence of the fluctuation.
(特徴2)高次の係数の変動の影響は、平坦に全域にわたる。 (Characteristic 2) The influence of high-order coefficient fluctuations covers the entire area flatly.
以下の説明では、声道情報として、PARCOR係数を用いて説明する。なお、用いる声道情報はPARCOR係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対(LSP)を用いてもよい。 In the following description, the PARCOR coefficient is used as the vocal tract information. Note that the vocal tract information to be used is not limited to the PARCOR coefficient, and a linear prediction coefficient may be used. Further, a line spectrum pair (LSP) may be used.
また、声道音源モデルとしてARXモデル(Autoregressive with exogenous input)を用いてもよい。ARX分析は、音源として数式音源モデルを用いる点がLPC分析と大きく異なる。また、ARX分析では、LPC分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる(非特許文献1:「音源パルス列を考慮した頑健なARX音声分析法」、日本音響学会誌58巻7号、2002年、pp.386−397)。 Further, an ARX model (Autogressive with exogenous input) may be used as the vocal tract sound source model. ARX analysis is significantly different from LPC analysis in that a mathematical sound source model is used as a sound source. Also, in the ARX analysis, unlike the LPC analysis, the vocal tract and sound source information can be more accurately separated even when a plurality of basic periods are included in the analysis interval (Non-patent Document 1: “Sound source pulse train is considered. Robust ARX speech analysis method, ”Acoustical Society of Japan, Vol. 58, No. 7, 2002, pp. 386-397).
ARX分析では、音声は式3に示す生成過程により生成される。式3において、S(z)は音声信号s(n)のz変換後の値を表す。U(z)は有声音源信号u(n)のz変換後の値を表す。E(z)は無声雑音音源e(n)のz変換後の値を表す。つまり、ARX分析では、有声音は式3の右辺第1項により音声が生成され、無声音は右辺第2項により生成される。
In ARX analysis, speech is generated by the generation process shown in
このとき、有声音源信号u(t)=u(nTs)のモデルとして、式4に示す音モデルを用いる(Tsはサンプリング周期)。
At this time, the sound model shown in
ただし、AVは有声音源振幅、T0はピッチ周期、OQは声門開放率を表わす。有声音の場合は式4の右辺上段第1項が使用され、無声音の場合は式4の右辺上段第2項が使用される。声門開放率OQとは、1ピッチ周期における声門が開放されている割合を示す。声門開放率OQが大きいほどやわらかい音声となる傾向があることが知られている。
Where AV is the voiced sound source amplitude, T0 is the pitch period, and OQ is the glottal opening rate. In the case of voiced sound, the first term on the upper right side of
ARX分析は、LPC分析と比較して以下の利点がある。 The ARX analysis has the following advantages compared to the LPC analysis.
(利点1)分析窓内に複数のピッチ周期に対応した音源パルス列を配して分析を行っているため、女性または子供などの高ピッチ音声でも安定に声道情報を抽出できる。 (Advantage 1) Since the analysis is performed by arranging sound source pulse trains corresponding to a plurality of pitch periods in the analysis window, vocal tract information can be stably extracted even in high pitch sounds such as women or children.
(利点2)特に、ピッチ周波数F0と第1フォルマント周波数F1が接近している/i/、/u/などの狭母音の声道音源分離性能が高い。 (Advantage 2) Particularly, the vocal tract sound source separation performance of narrow vowels such as / i / and / u /, where the pitch frequency F0 and the first formant frequency F1 are close to each other, is high.
有声音区間では、LPC分析の場合と同様に、U(z)は、入力音声S(z)を声道情報1/A(z)で逆フィルタリングすることにより得ることができる。
In the voiced sound section, U (z) can be obtained by inverse filtering the input speech S (z) with the
ARX分析においても、声道情報1/A(z)は、LPC分析におけるシステム関数と同じ形式である。このことから、LPC分析と同様の方法により、PARCOR係数を求めても良い。
Also in the ARX analysis, the
<開口度算出部102>
開口度算出部102は、声道音源分離部101により分離された声道情報を用いて、入力音声の各音声フレームに対して口腔内の容積に対応する開口度を算出する。入力音声の各音声フレームには、入力音声が発声された時刻の情報が含まれる。
<
The opening
開口度算出部102は、所定再生時刻毎に声道音源分離部101により分離された声道情報から声道断面積関数を算出し、口腔内を複数の区間に分割した場合に、算出した声道断面積関数で示される各区間の声道断面積の和として、開口度を算出する。
The opening
具体的には、開口度算出部102は、声道情報として抽出されたPARCOR係数から式5を用いて、声道断面積関数を算出する。
Specifically, the opening
ここで、kiは、i次のPARCOR係数、Aiは、i番目の声道断面積を表し、AN+1=1とする。 Here, k i represents the i-th order PARCOR coefficient, A i represents the i-th vocal tract cross-sectional area, and A N + 1 = 1.
図6は、ある発声の母音/a/の対数声道断面積関数を示す図である。声門から口唇までの声道を11個の区間(セクション)に分割しており、セクション11が声門を表し、セクション1が口唇を表す。
FIG. 6 is a diagram illustrating a logarithmic vocal tract cross-sectional area function of a vowel / a / of a certain utterance. The vocal tract from the glottis to the lips is divided into 11 sections, where
図6において、網掛け領域は概ね口腔内と考えることができる。そこで、セクション1からセクションTまでを口腔内と考えると(図6ではT=5)、開口度Vは式6により定義することができる。Tは、LPC分析あるいはARX分析の次数に応じて変更することが望ましい。例えば10次のLPC分析の場合、3乃至5程度が望ましい。ただし、具体的な次数については限定するものではない。
In FIG. 6, the shaded area can be considered to be generally in the oral cavity. Therefore, when
開口度算出部102は、以上のように定義される開口度Vを入力音声の各フレームに対して算出する。
The opening
図7に、「めまいがします(/memaigashimasxu/)」という発声において、式6により算出された開口度の時間的な変化を示す。
FIG. 7 shows a temporal change in the degree of opening calculated by
このように開口度は、時間的に変動しており、この時間変動パターンを崩すと、自然性が劣化する。 As described above, the opening degree fluctuates with time. If this time fluctuation pattern is broken, the naturalness deteriorates.
このように声道断面積関数を用いて算出される開口度(口腔内の容積)を用いることにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状(例えば舌の位置)も考慮することができる。 By using the opening degree (volume in the oral cavity) calculated using the vocal tract cross-sectional area function in this way, not only the opening of the lips but also the shape of the oral cavity that cannot be observed directly from the outside (for example, the tongue) Position) can also be considered.
なお、上記の説明では、開口度の算出の単位はフレームとしたが、フレームに限定されるものではない。例えば、音素を単位として開口度を算出するようにしても良い。この場合、音素中心のフレームにおける開口度を、その音素の開口度としても良い。また、音素内の開口度の平均値を、その音素の開口度としても良い。音素を単位とした場合、各フレームにおける開口度は、当該フレームの前後の音素の開口度から内挿補間することにより算出することができる。開口度を算出する単位としては、このほかにモーラまたは音節などを用いるようにしても良い。 In the above description, the unit of calculation of the opening degree is the frame, but is not limited to the frame. For example, the aperture may be calculated in units of phonemes. In this case, the opening degree of the phoneme center frame may be the opening degree of the phoneme. Further, an average value of the opening degree in the phoneme may be used as the opening degree of the phoneme. When a phoneme is used as a unit, the opening degree in each frame can be calculated by interpolating from the opening degree of phonemes before and after the frame. In addition to this, a mora or a syllable may be used as a unit for calculating the opening degree.
<開口度変換率決定部105>
開口度変換率決定部105は、開口度算出部102により算出された各フレームiにおける開口度変換率riを算出する。これにより入力音声の発声様態を変化させることにより、入力音声とは異なる発声様態の音声を得ることができる。具体的には、よりハッキリと元気な発声様態への変換や、怠けた元気のない発声様態の変換などが可能となる。なお、開口度変換率riとは、開口度に乗算する係数のことであり、開口度に開口度変換率riを乗算することにより、開口度を変換することができる。
<Openness Conversion
The opening degree conversion
開口度変換率riの算出の方法としては、例えば発声様態変換度qを直接、フレーム毎の開口度変換率riとしてもよい。具体的には、開口度変換率決定部105は、各フレームの開口度変換率riを式7に従って、算出すればよい。
As a method of calculating the opening degree conversion rate r i , for example, the utterance mode conversion degree q may be directly used as the opening degree conversion rate r i for each frame. Specifically, the opening degree conversion
ここで、iは、フレーム番号を示す。 Here, i indicates a frame number.
このように算出された開口度変換率riを用いると、開口度算出部102が算出した開口度(図8(a)の破線)に対して、変換後の開口度V’i(図8(a)の実線)は式8により得ることができる。
When the aperture degree conversion rate r i calculated in this way is used, the aperture degree V ′ i after conversion (FIG. 8) with respect to the opening degree calculated by the opening degree calculating unit 102 (broken line in FIG. 8A). The solid line (a) can be obtained by
このように開口度を変換することにより、入力音声の開口度を発声様態変換度に応じて変換することになる。その結果、発声様態の異なる発声をした場合に相当する開口度パターンを生成することができる。 By converting the opening degree in this way, the opening degree of the input voice is converted according to the utterance mode conversion degree. As a result, it is possible to generate an opening degree pattern corresponding to a case where utterances having different utterance modes are made.
また、開口度の変化の時間パターンを保持したまま、開口度の変化系列におけるダイナミックレンジを調整するようにしてもよい。つまり、開口度変換率決定部105は、フレーム毎に、開口度算出部102が算出した開口度Viの時間的な変化系列におけるダイナミックレンジと発声様態変換度との積が、変換後の開口度V’iの時間的な変化系列におけるダイナミックレンジと一致するように、開口度変換率riを決定する。
Further, the dynamic range in the change sequence of the aperture may be adjusted while maintaining the time pattern of the change in the aperture. That is, the opening degree conversion
具体的には、図8(b)の破線に示すように開口度算出部102が算出した開口度の時間パターンをViとすると、開口度変換率決定部105は、式9により、入力音声の開口度のダイナミックレンジを変換する開口度変換率riを算出する。
Specifically, as shown by the broken line in FIG. 8B, when the aperture time pattern calculated by the
ここで、E(x)は、xの平均値を算出する関数を表す。開口度Viを、式9で算出されたriを用いて変換した後の開口度V’iは、ダイナミックレンジを式10で定義する。変換前のダイナミックレンジDRと変換後のダイナミックレンジDR’の関係は発声様態変換度qを用いると式11のように表される。このようにして算出された開口度変換率riを用いることにより、開口度の時間パターンの動きを保持しながらそのダイナミックレンジを変換することが可能となる。
Here, E (x) represents a function for calculating an average value of x. The opening degree V ′ i obtained by converting the opening degree V i using r i calculated by
このようにして算出された開口度変換率riを用いると、変換後の開口度V’iは式8により表現できる。
When the aperture degree conversion rate r i calculated in this way is used, the aperture degree V ′ i after conversion can be expressed by
以上のように変換された開口度の時間パターンは、図8(b)の実線のようになり、開口度の時間パターンのダイナミックレンジを変換することができる。 The aperture time pattern converted as described above is as shown by the solid line in FIG. 8B, and the dynamic range of the aperture time pattern can be converted.
例えば、発声様態変換度qが1よりも大きい場合は、開口度のパターンのダイナミックレンジが拡大される。よって、入力音声に含まれる開口度が大きい区間の音声は、より開口度が大きくなるように変換される。開口度が小さい区間の音声は、より開口度が小さくなるように変換される。その結果、入力音声に対して、メリハリがついた音声に変換することが可能となる。具体的には、開口度が大きくなると、はっきりと発声した音声となり、元気に発声されたように聞こえる。 For example, when the utterance state conversion degree q is larger than 1, the dynamic range of the pattern of the opening degree is expanded. Therefore, the voice of the section with a large opening degree included in the input voice is converted so that the opening degree becomes larger. Audio in a section with a small opening degree is converted so that the opening degree becomes smaller. As a result, it is possible to convert the input voice to a sharp voice. Specifically, when the opening degree increases, the voice is clearly uttered and sounds as if it was uttered energetically.
一方、発声様態変換度qが1よりも小さい場合は、ダイナミックレンジが縮小される。よって、入力音声に含まれる開口度が大きい区間の音声は、より開口度が小さくなるように変換される。このため、発声様態の変動が少なくなり、全体的にメリハリが少なく、落ち着いた音声に変換することが可能となる。具体的には、開口度が小さくなると、怠けて発声した音声となり、力なく発声されたように聞こえる。 On the other hand, when the utterance state conversion degree q is smaller than 1, the dynamic range is reduced. Therefore, the voice of the section with a large opening degree included in the input voice is converted so that the opening degree becomes smaller. For this reason, the variation of the utterance mode is reduced, and the whole voice is less crisp and can be converted into a calm voice. Specifically, when the opening degree is small, the voice is uttered lazyly and sounds as if it was uttered without power.
また、開口度変換率決定部105は、開口度の変化の時間パターンを保持したまま、開口度の変化系列における平均値をシフトするように開口度を調整するようにしてもよい。つまり、開口度変換率決定部105は、フレーム毎に、開口度算出部102が算出した開口度の時間的な変化系列における開口度Viの平均値と発声様態変換度との積が、変換後の開口度V’iの時間的な変化系列における開口度の平均値と一致するように、開口度変換率riを決定する。
Further, the opening degree conversion
具体的には、図8(c)の破線に示すように開口度算出部102が算出した開口度の時間パターンをViとすると、開口度変換率決定部105は、式12により、入力音声の開口度の平均値をシフトする(変換する)開口度変換率riを算出する。
Specifically, as shown by the broken line in FIG. 8C, when the aperture time pattern calculated by the
このようにして算出された開口度変換率riを用いると、変換後の開口度V’iは式8により表現できる。
When the aperture degree conversion rate r i calculated in this way is used, the aperture degree V ′ i after conversion can be expressed by
以上のように変換された開口度の時間パターンは、図8(c)の実線のようになり、開口度の時間パターンの平均値をシフトするように変換することができる。 The aperture time pattern converted as described above is as shown by the solid line in FIG. 8C, and can be converted so as to shift the average value of the aperture time pattern.
発声様態変換度qが1よりも大きい場合には、一様にはっきりと発声し、元気な感じの音声に変換することができる。発声様態変換度qが1よりも小さい場合には、一様に怠けて発声することにより、元気なく発声した音声に変換することができる。 When the utterance state conversion degree q is larger than 1, it can be uttered uniformly and clearly and converted into a sound with a healthy feeling. When the utterance mode conversion degree q is smaller than 1, it is possible to convert the voice into a voice uttered without any difficulty by uttering evenly lazy.
なお、開口度変換率riの算出方法は上述の方法に限るものではなく、何らかの方法で開口度の時間パターンを保持したままその大きさを変えるものであればよい。 Note that the calculation method of the aperture conversion rate r i is not limited to the above-described method, and any method may be used as long as the size of the aperture conversion is maintained while maintaining the time pattern of the aperture.
<声道情報変換部103>
声道情報変換部103は、以上のようにして算出したフレームiの開口度変換率riを用いて声道音源分離部101により算出された声道情報を変換する。つまり、声道情報変換部103は、開口度変換率決定部105により決定された開口度変換率に基づいて、声道音源分離部101により分離された声道情報を示す声道断面積を変換することにより、声道音源分離部101により分離された声道情報を変換する。
<Vocal tract
The vocal tract
具体的には、声道情報変換部103は、各フレームにおいて、声道断面積関数が示す声道断面積に対する変換係数を示す変換関数Ck iを式13により算出する。
Specifically, the vocal tract
ここで、kは、声道断面積関数におけるセクション番号であり、riは、口唇位置における開口度変換率を表す。また、βは、各セクションにおける開口度の変化の度合いの強さを表す予め定められた定数である。βが大きいほど、口唇側のセクションにおいてより変換関数Ck iが急峻な変化を示す。 Here, k is a section number in the vocal tract cross-sectional area function, and r i represents the opening degree conversion rate at the lip position. Further, β is a predetermined constant representing the strength of the degree of change in the opening degree in each section. The larger β is, the steeper change in the conversion function C k i is in the lip side section.
図9は、β=0.7とし、riを−0.4、−0.2,0,0.2,0.4、と変化させたときの変換関数Ck iが示す変換係数Ciを示すグラフである。 9, beta = 0.7 and the r i -0.4, -0.2,0,0.2,0.4, the conversion in the case of changing the function C k i is the transform coefficients shown Ci It is a graph which shows.
図からわかるように開口度変換率riが負の場合には、口唇に向けて変換係数Ciの値が小さくなることより徐々に声道断面積が狭まるように働き、開口度変換率ri正の場合には、変換係数Ciの値が大きくなることより逆に声道断面積が広がるように働く。このような変換係数Ciを式14に示すように、入力音声の声道断面積関数Aiに乗算することにより開口度を調整することが可能である。なお、式14では、変換関数Ck iに声道断面積関数Ai kを乗算した式を示している。 As can be seen from the figure, when the opening degree conversion rate r i is negative, the vocal tract cross-sectional area gradually decreases as the conversion coefficient Ci decreases toward the lips, and the opening degree conversion rate r i In the positive case, the vocal tract cross-sectional area increases as the conversion coefficient Ci increases. As shown in Expression 14, such a conversion coefficient Ci can be adjusted by multiplying the vocal tract cross-sectional area function A i of the input speech by opening. Note that Expression 14 shows an expression obtained by multiplying the conversion function C k i by the vocal tract cross-sectional area function A i k .
つまり、声道情報変換部103は、口腔内を複数の区間に分割した場合に、開口度変換率に対応し、かつ区間ごとに定められる変換係数を、区間ごとの声道断面積に乗算することにより、声道音源分離部101により分離された声道情報を変換する。また、変換関数は図9に示すような形状をしている。このため、変換係数は、口唇に近い区間の変換係数ほど、隣接する区間の変換係数との差分の絶対値が大きい。
In other words, when the oral cavity is divided into a plurality of sections, the vocal tract
なお、声道断面積関数Ai kに対する変換関数Ck iは式13に限定するものではなく、声道断面積関数Ai kに対して、口唇に近づくほど変換係数Ciの値が大きく変化するような関数であればよい。あるいは、口腔内に対応するセクションの断面積を一律に変換するように変換関数Ck iを設計してもよい。 Note that the conversion function C k i for the vocal tract cross-sectional area function A i k is not limited to Equation 13, and the value of the conversion coefficient C i greatly changes toward the lip for the vocal tract cross-sectional area function A i k . Any function can be used. Alternatively, the conversion function C k i may be designed so as to uniformly convert the cross-sectional area of the section corresponding to the oral cavity.
図10に、母音/a/に関して式14を用いて開口度を変換した際の声道断面積の変化の様子を示す。図10(a)は、ある発声された母音/a/の対数声道断面積関数である。横軸はセクション番号を示し、縦軸は声道断面積の値を示す。一方、図10(b)は、図10(a)の声道断面積関数に対して、式14により開口度を変換した場合の声道断面積関数である。横軸および縦軸は、図10(a)と同じである。図10からわかるように、変換前と変換後の声道断面積を比較した場合に、セクション5付近から口唇(セクション1)にかけて、声道断面積が徐々に狭まっている。このように声道断面積を変換することで、実際の発声時に伴う口腔内の動きを模擬する。つまり、口唇に近いほど声道断面積が大きく変化するという口腔内の動きを模擬している。
FIG. 10 shows how the vocal tract cross-sectional area changes when the aperture is converted using Equation 14 for the vowel / a /. FIG. 10A is a logarithmic vocal tract cross-sectional area function of a uttered vowel / a /. The horizontal axis indicates the section number, and the vertical axis indicates the value of the vocal tract cross-sectional area. On the other hand, FIG. 10B is a vocal tract cross-sectional area function when the opening degree is converted by Expression 14 with respect to the vocal tract cross-sectional area function of FIG. The horizontal axis and the vertical axis are the same as in FIG. As can be seen from FIG. 10, when comparing the vocal tract cross-sectional area before and after conversion, the vocal tract cross-sectional area gradually decreases from the vicinity of
図11は、以上のようにして得られた声道情報の声道伝達特性を示した図である。同図において横軸は周波数を示し、縦軸はスペクトル強度を示す。 FIG. 11 is a diagram showing the vocal tract transmission characteristics of the vocal tract information obtained as described above. In the figure, the horizontal axis indicates the frequency, and the vertical axis indicates the spectrum intensity.
図11において実線1101は、図10(a)の声道断面積関数に対応する声道伝達特性を示す。破線1102は、図10(b)の声道断面積関数に対応する声道伝達特性を示す。つまり、破線1102は、声道情報変換部103により変換された後の声道情報の声道伝達特性を示す。声道情報変換部103により開口度が小さくなるように変換したことにより、フォルマントの強度は弱まる傾向にある。一方、開口度の変換に伴い、破線1102で示される声道伝達特性のフォルマント中心周波数も変換前の声道伝達特性(実線1101)と比較すると移動している。このように従来の音声強調装置のようにフォルマント強度だけではなく、フォルマント中心周波数に対しても開口度を変換することにより変形することが可能となる。また、開口度の時間的な変動パターンは入力音声の変動パターンと同様の時間的変動を保持しているため、音声としての自然性も保持することができる。
In FIG. 11, a
<合成部104>
合成部104は、声道情報変換部103により変換された声道情報(声道断面積関数)A’i kと、声道音源分離部101により分離された音源情報を用いて、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてPARCOR係数を用いている場合は、声道断面積関数A’i kを式5を用いてPARCOR係数に変換し、PARCOR合成を用いればよい。あるいは、PARCOR係数からLPC係数に変換した後に合成してもよいし、フォルマントを抽出し、フォルマント合成により合成してもよい。さらにはPARCOR係数からLSP係数を算出しLSP合成により合成するようにしてもよい。
<Combining
The synthesizing
<フローチャート>
本実施の形態に係る声質変換装置の具体的な動作に関して図12に示すフローチャートを用いて説明する。
<Flowchart>
The specific operation of the voice quality conversion apparatus according to the present embodiment will be described with reference to the flowchart shown in FIG.
ステップS101において、声道音源分離部101は、入力音声を声道情報と音源情報とに分離する。
In step S101, the vocal tract sound
ステップS102において、開口度算出部102は、ステップS101で分離された声道情報を用いて、入力音声に含まれる各フレームにおける開口度を算出する。
In step S102, the opening
ステップS103において、開口度変換率決定部105は、ステップS102で算出された入力音声の各フレームの開口度と、別途入力される発声様態変換度に基づいて、開口度変換率を決定する。
In step S103, the opening degree conversion
ステップS104において、声道情報変換部103は、ステップS103で決定された開口度変換率に基づいて、ステップS101において算出された声道情報を変換する。
In step S104, the vocal tract
ステップS105において、合成部104は、ステップS104において変換された声道情報と、ステップS101において分離された音源情報を用いて合成音を生成する。
In step S105, the
<効果>
かかる構成によれば、入力音声の発声様態を変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、発声様態変換度に基づいて発声様態を変換することが可能となる。つまり、発声様態変換比率を大きくすると、開口度が相対的に大きくなり、はっきりと発声した音声となり、元気に発声されたように聞こえるという効果を有する。一方、発声様態変換比率を小さくすると、開口度が相対的に小さくなり、怠けて発声した音声となり、力なく発声されたように聞こえるという効果がある。また、実施の形態の声質変換装置により声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
<Effect>
According to this configuration, when converting the utterance mode of the input voice, it is possible to convert the utterance mode based on the utterance mode conversion degree while preserving the temporal change pattern of the utterance mode in the input voice. That is, when the utterance state conversion ratio is increased, the opening degree is relatively increased, and the voice is clearly uttered, and the sound can be heard as if uttered energetically. On the other hand, when the utterance mode conversion ratio is made small, the opening degree becomes relatively small, and there is an effect that the voice is uttered lazyly and sounds as if uttered without power. In addition, the voice quality-converted voice by the voice quality conversion apparatus according to the embodiment stores the time pattern of the change of the utterance mode, so that voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion becomes possible. .
具体的には、図8(a)〜図8(c)の破線に示すように、入力音声の発声様態(明瞭度)の変化と、実線に示すように、声質変換後の音声の発声様態の変化パターン(はっきりや怠けの時間パターン)とが同じになるため、音声の発声様態の不自然さに起因する音質の劣化が生じない。 Specifically, as shown by the broken lines in FIGS. 8A to 8C, the change in the utterance mode (intelligibility) of the input speech and the utterance mode of the voice after voice quality conversion as shown by the solid line Therefore, the sound quality is not deteriorated due to the unnaturalness of the voice utterance.
なお、本実施の形態では、日本語の音声により説明を行ったが、日本語に限るものではなく、英語をはじめ他の言語においても同様に声質変換を行うことができる。 In the present embodiment, the description is made using Japanese speech, but the present invention is not limited to Japanese, and voice quality conversion can be performed in other languages such as English as well.
例えば、通常発声した場合“Can I make a phone call from this plain?”と発声した場合の文末のplainの[ei]と、“May I have a thermometer?”と発声した場合の文頭のMayの[ei]との発声様態は異なる([]内は国際音声記号(IPAInternational Phonetic Alphabet))。また、日本語と同様に文内位置や、内容語もしくは機能語、または強調の有無などによりその発声様態は変化することから、フォルマント強度のみを変換すると、日本語と同様に発声様態の時間的変化パターンが崩れる。よって、声質変換音声の自然性は劣化する。したがって、英語においても開口度を基準に声質を変換することにより、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換ができる。 For example, when normal utterance is “Can I make a phone call this plain?”, The plain [ei] at the end of the sentence when uttered and “May I have a thermometer?” At the beginning of the sentence when saying “May I have a thermometer?” The utterance mode differs from ei] (inside [], an international phonetic symbol (IPA International Phonetic Alphabet)). In addition, as in Japanese, the utterance mode changes depending on the position in the sentence, the content word or function word, or the presence or absence of emphasis, so if only the formant intensity is converted, the utterance mode will change over time as in Japanese. The change pattern collapses. Therefore, the naturalness of the voice quality converted speech deteriorates. Therefore, even in English, by converting the voice quality based on the opening degree, it is possible to convert to the target voice quality while preserving the temporal change pattern of the utterance mode in the input voice. As a result, the voice quality-converted voice stores the time pattern of the change of the utterance mode, so that voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion can be performed.
(変形例)
次に、本実施の形態の変形例について説明する。本変形例では、入力音声の母音区間についての声質を変換する。
(Modification)
Next, a modification of the present embodiment will be described. In this modification, the voice quality of the vowel section of the input speech is converted.
図13は、本発明の実施の形態の声質変換装置の変形例を示す構成図である。図13において、図5と同じ構成要素については同じ符号を用い、説明を省略する。 FIG. 13: is a block diagram which shows the modification of the voice quality conversion apparatus of embodiment of this invention. In FIG. 13, the same components as those in FIG.
本変形例に係る声質変換装置は、図5に示した声質変換装置の構成において、母音区間抽出部201を新たに設け、声道情報変換部103の代わりに母音声道情報変換部202を用いた構成を有する。
The voice quality conversion device according to the present modification is provided with a new vowel
<母音区間抽出部201>
母音区間抽出部201は、入力された音声に含まれる母音の時間区間である母音区間を抽出する。母音区間の抽出方法は特に限定するものではない。例えば、母音区間抽出部201は、音声認識技術を用いて入力音声の音素系列を認識し、その認識結果から母音区間を抽出するようにすればよい。あるいは、母音区間抽出部201は、予め保持している母音の音声波形のテンプレートと、入力音声の音声波形の類似度を算出し、算出した類似度が予め設定した閾値よりも大きい場合に母音区間として抽出するようにしてもよい。
<Vowel
The vowel
<母音声道情報変換部202>
母音声道情報変換部202は、声道音源分離部101により分離された声道情報のうち、母音区間抽出部201が抽出した母音区間における声道情報のみを変換する。
具体的な声道情報の変換方法は、声道情報変換部103による声道情報の変換方法と同じである。このため、その詳細な説明は繰り返さない。
<Vowel vocal tract
The vowel vocal tract
A specific vocal tract information conversion method is the same as the vocal tract information conversion method performed by the vocal tract
<フローチャート>
本変形例に係る声質変換装置の具体的な動作に関して図14に示すフローチャートを用いて説明する。
<Flowchart>
The specific operation of the voice quality conversion apparatus according to this modification will be described with reference to the flowchart shown in FIG.
ステップS201において、母音区間抽出部201は、入力音声から母音区間を抽出する。
In step S201, the vowel
ステップS101において、声道音源分離部101は、入力音声を声道情報と音源情報とに分離する。
In step S101, the vocal tract sound
ステップS102において、開口度算出部102は、ステップS101で分離された声道情報を用いて、入力音声に含まれる各フレームにおける開口度を算出する。
In step S102, the opening
ステップS103において、開口度変換率決定部105は、ステップS102で算出された入力音声の各フレームの開口度と、別途入力される発声様態変換度に基づいて、開口度変換率を決定する。
In step S103, the opening degree conversion
ステップS202において、母音声道情報変換部202は、ステップS103で決定された開口度変換率に基づいて、ステップS101により算出された声道情報のうち、ステップS201において抽出された母音区間における声道情報を変換する。
In step S202, the vowel vocal tract
ステップS105において、合成部104は、ステップS202において変換された声道情報と、ステップS101において分離された音源情報を用いて合成音を生成する。子音区間については声道情報の変換が行われない。このため、合成部104は、子音区間については、声道音源分離部101により分離された声道情報と音源情報とを用いて合成音を生成する。
In step S105, the
<効果>
かかる構成によれば、入力音声の発声様態を変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、発声様態変換比率に基づいて発声様態を変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。加えて、子音区間は声道情報の変化が時間的に速く、また大きいため、比較的継続時間が長く、声道情報の動きが緩やかな母音区間と比べて声道情報の変形に伴う音質劣化が大きい。このことから、母音区間のみを変換することにより声質変換時の音質劣化を抑圧することができる。また、母音区間は子音区間よりも継続時間長が長いことから声質変換の効果を維持することが可能である。
<Effect>
According to this configuration, when converting the utterance mode of the input voice, it is possible to convert the utterance mode based on the utterance mode conversion ratio while preserving the temporal change pattern of the utterance mode in the input voice. As a result, the voice quality-converted speech stores the time pattern of the change in the utterance mode, so that it is possible to perform voice quality conversion without deteriorating the naturalness (fluency) at the time of voice quality conversion. In addition, since the vocal tract information changes quickly in time and is large in the consonant section, the sound quality deteriorates due to the deformation of the vocal tract information compared to the vowel section where the duration is relatively long and the movement of the vocal tract information is slow. Is big. From this, it is possible to suppress deterioration in sound quality during voice quality conversion by converting only the vowel section. Further, since the vowel section has a longer duration than the consonant section, it is possible to maintain the effect of voice quality conversion.
なお、図示しない入力音声取得部が入力音声を取得しても良い。入力音声取得部は、入力音声を取得した時刻と入力音声と対応付けて取得する。この時刻は、所定再生時刻に対応する。入力音声取得部は、声道音源分離部101に、取得した入力音声を送信する。入力音声取得部は、マイクロホン等で構成しても良い。または、入力音声取得部に含まれる記憶部に、入力音声を記憶しても良い。
An input voice acquisition unit (not shown) may acquire the input voice. The input sound acquisition unit acquires the time when the input sound is acquired and the input sound in association with each other. This time corresponds to a predetermined reproduction time. The input voice acquisition unit transmits the acquired input voice to the vocal tract sound
なお、上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクドライブ、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムとして構成されても良い。RAMまたはハードディスクドライブには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。 Note that each of the above devices may be specifically configured as a computer system including a microprocessor, a ROM, a RAM, a hard disk drive, a display unit, a keyboard, a mouse, and the like. A computer program is stored in the RAM or hard disk drive. Each device achieves its functions by the microprocessor operating according to the computer program. Here, the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
さらに、上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしても良い。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。RAMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。 Furthermore, some or all of the constituent elements constituting each of the above-described devices may be configured by one system LSI (Large Scale Integration). The system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. . A computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしても良い。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールは、上記の超多機能LSIを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしても良い。 Furthermore, some or all of the constituent elements constituting each of the above-described devices may be configured from an IC card that can be attached to and detached from each device or a single module. The IC card or module is a computer system that includes a microprocessor, ROM, RAM, and the like. The IC card or the module may include the super multifunctional LSI described above. The IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるディジタル信号であるとしても良い。 Further, the present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal that is formed by the computer program.
さらに、本発明は、上記コンピュータプログラムまたは上記ディジタル信号をコンピュータ読取可能な非一時的な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc(登録商標))、半導体メモリなどに記録したものとしても良い。また、これらの非一時的な記録媒体に記録されている上記ディジタル信号であるとしても良い。 Furthermore, the present invention relates to a non-transitory recording medium that can read the computer program or the digital signal, such as a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a BD ( It may be recorded on a Blu-ray Disc (registered trademark)), a semiconductor memory, or the like. The digital signal may be recorded on these non-temporary recording media.
また、本発明は、上記コンピュータプログラムまたは上記ディジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。 In the present invention, the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, data broadcasting, or the like.
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。 The present invention may be a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor operates according to the computer program.
また、上記プログラムまたは上記ディジタル信号を上記非一時的な記録媒体に記録して移送することにより、または上記プログラムまたは上記ディジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。 Further, by recording and transferring the program or the digital signal on the non-temporary recording medium, or transferring the program or the digital signal via the network or the like, another independent computer It may be implemented by the system.
さらに、上記実施の形態および上記変形例をそれぞれ組み合わせるとしても良い。 Furthermore, the above embodiment and the above modification examples may be combined.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
本発明に係る声質変換装置は、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換する機能を有し、多様な声質を必要とする情報機器や家電機器のユーザインタフェースや、自分用の声質に変換した着信音などのエンターテイメント等の用途において有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。 The voice quality conversion apparatus according to the present invention has a function of converting to a target voice quality while preserving the temporal change pattern of the utterance mode in the input voice, and is a user interface of information equipment and home appliances that require various voice qualities. In addition, it is useful in applications such as entertainment such as ringtones converted into personal voice quality. It can also be applied to voice changers in voice communications using mobile phones.
101 声道音源分離部
102 開口度算出部
103 声道情報変換部
104 合成部
105 開口度変換率決定部
201 母音区間抽出部
202 母音声道情報変換部
DESCRIPTION OF
Claims (11)
前記声道音源分離部により分離された前記声道情報から、前記入力音声の発声時の口腔内の容積に対応する開口度を、前記入力音声の所定再生時刻毎に算出する開口度算出部と、
開口度の変換度合いを示す発声様態変換度に基づいて、前記所定再生時刻毎の前記開口度の変換率を決定する開口度変換率決定部と、
前記開口度変換率決定部により決定された前記変換率に基づいて、前記声道音源分離部により分離された前記声道情報を、前記開口度算出部により算出された前記開口度が当該変換率で変換された後の開口度に対応する声道情報に変換する声道情報変換部と、
前記声道情報変換部による変換後の声道情報と、前記声道音源分離部により分離された前記音源情報とを用いて、合成音を生成する合成部と
を備える声質変換装置。 A vocal tract sound source separation unit that separates input speech into vocal tract information and sound source information;
An opening degree calculation unit that calculates an opening degree corresponding to a volume in the oral cavity at the time of utterance of the input sound from the vocal tract information separated by the vocal tract sound source separation part for each predetermined reproduction time of the input sound; ,
An opening degree conversion rate determining unit that determines a conversion rate of the opening degree for each predetermined reproduction time based on a utterance state conversion degree indicating a degree of opening degree conversion;
Based on the conversion rate determined by the opening degree conversion rate determination unit, the opening degree calculated by the opening degree calculation unit is used as the conversion rate of the vocal tract information separated by the vocal tract sound source separation unit. A vocal tract information conversion unit for converting into vocal tract information corresponding to the opening degree after being converted by
A voice quality conversion device comprising: a synthesis unit that generates a synthesized sound using the vocal tract information after conversion by the vocal tract information conversion unit and the sound source information separated by the vocal tract sound source separation unit.
請求項1に記載の声質変換装置。 The opening degree calculation unit calculates a vocal tract cross-sectional area function from the vocal tract information separated by the vocal tract sound source separation unit at each predetermined reproduction time, and when the oral cavity is divided into a plurality of sections, The voice quality conversion apparatus according to claim 1, wherein the opening degree is calculated as a sum of vocal tract cross-sectional areas of each section indicated by the calculated vocal tract cross-sectional area function.
前記声道情報変換部は、前記声道音源分離部により分離された前記声道情報のうち、前記母音区間抽出部により抽出された前記母音区間における声道情報のみを変換する
請求項1または2に記載の声質変換装置。 Furthermore, a vowel section extracting unit that extracts a vowel section that is a time section of a vowel included in the input speech is provided,
The vocal tract information conversion unit converts only the vocal tract information in the vowel segment extracted by the vowel segment extraction unit from the vocal tract information separated by the vocal tract sound source separation unit. The voice quality conversion device described in 1.
請求項1〜3のいずれか1項に記載の声質変換装置。 The voice quality conversion device according to any one of claims 1 to 3, wherein the opening degree conversion rate determination unit determines the utterance state conversion degree as the conversion rate for each predetermined reproduction time.
請求項1〜3のいずれか1項に記載の声質変換装置。 The opening degree conversion rate determination unit calculates a product of a dynamic range in the temporal change sequence of the opening degree calculated by the opening degree calculation unit and the utterance state conversion degree at each predetermined reproduction time after conversion. The conversion rate to be multiplied by the opening degree calculated by the opening degree calculating unit is determined to calculate the opening degree after the conversion so as to coincide with the dynamic range in the temporal change sequence of the opening degree. Item 4. The voice quality conversion device according to any one of Items 1 to 3.
請求項1〜3のいずれか1項に記載の声質変換装置。 The opening degree conversion rate determining unit calculates a product of an average value of the opening degree in the temporal change series of the opening degree calculated by the opening degree calculating unit and the utterance state conversion degree at each predetermined reproduction time. The opening degree calculated by the opening degree calculation unit to calculate the opening degree after the conversion so as to coincide with the average value of the opening degree in the temporal change series of the opening degree after the conversion. The voice quality conversion device according to claim 1, wherein a conversion rate is determined.
請求項1〜6のいずれか1項に記載の声質変換装置。 The vocal tract information conversion unit converts a vocal tract cross-sectional area indicating the vocal tract information separated by the vocal tract sound source separation unit based on the conversion rate determined by the opening degree conversion rate determination unit. The voice quality conversion apparatus according to claim 1, wherein the vocal tract information separated by the vocal tract sound source separation unit is converted.
請求項7に記載の声質変換装置。 The vocal tract information conversion unit, when dividing the oral cavity into a plurality of sections, multiplies the vocal tract cross-sectional area for each section by a conversion coefficient corresponding to the conversion rate and determined for each section. The voice quality conversion apparatus according to claim 7, wherein the vocal tract information separated by the vocal tract sound source separation unit is converted.
請求項8に記載の声質変換装置。 The voice quality conversion apparatus according to claim 8, wherein the conversion coefficient has a larger absolute value of a difference from the conversion coefficient in an adjacent section as the conversion coefficient in a section closer to the lips.
分離された前記声道情報から、前記入力音声の発声時の口腔内の容積に対応する開口度を、前記入力音声の所定再生時刻毎に算出するステップと、
開口度の変換度合いを示す発声様態変換度に基づいて、前記所定再生時刻毎の前記開口度の変換率を決定するステップと、
決定された前記変換率に基づいて、分離された前記声道情報を、算出された前記開口度が当該変換率で変換された後の開口度に対応する声道情報に変換するステップと、
変換後の声道情報と、分離された前記音源情報とを用いて、合成音を生成するステップと
を含む声質変換方法。 Separating input speech into vocal tract information and sound source information;
From the separated vocal tract information, calculating an opening degree corresponding to the volume in the oral cavity at the time of uttering the input sound for each predetermined reproduction time of the input sound;
Determining a conversion rate of the opening degree at each predetermined reproduction time based on a utterance state conversion degree indicating a conversion degree of the opening degree;
Converting the separated vocal tract information based on the determined conversion rate into vocal tract information corresponding to the open degree after the calculated open degree is converted at the conversion rate; and
A voice quality conversion method comprising: generating a synthesized sound using the converted vocal tract information and the separated sound source information.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011168623A JP2013033103A (en) | 2011-08-01 | 2011-08-01 | Voice quality conversion device and voice quality conversion method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011168623A JP2013033103A (en) | 2011-08-01 | 2011-08-01 | Voice quality conversion device and voice quality conversion method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2013033103A true JP2013033103A (en) | 2013-02-14 |
Family
ID=47789058
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011168623A Withdrawn JP2013033103A (en) | 2011-08-01 | 2011-08-01 | Voice quality conversion device and voice quality conversion method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2013033103A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015099363A (en) * | 2013-10-17 | 2015-05-28 | ヤマハ株式会社 | Voice processing apparatus |
| JPWO2020250828A1 (en) * | 2019-06-11 | 2020-12-17 | ||
| JP2020204661A (en) * | 2019-06-14 | 2020-12-24 | 株式会社コーエーテクモゲームス | Information processing unit, information processing method and program |
-
2011
- 2011-08-01 JP JP2011168623A patent/JP2013033103A/en not_active Withdrawn
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015099363A (en) * | 2013-10-17 | 2015-05-28 | ヤマハ株式会社 | Voice processing apparatus |
| JPWO2020250828A1 (en) * | 2019-06-11 | 2020-12-17 | ||
| WO2020250828A1 (en) * | 2019-06-11 | 2020-12-17 | パナソニックIpマネジメント株式会社 | Utterance section detection device, utterance section detection method, and utterance section detection program |
| US12387728B2 (en) | 2019-06-11 | 2025-08-12 | Panasonic Intellectual Property Management Co., Ltd. | Utterance section detection device, utterance section detection method, and storage medium |
| JP2020204661A (en) * | 2019-06-14 | 2020-12-24 | 株式会社コーエーテクモゲームス | Information processing unit, information processing method and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5039865B2 (en) | Voice quality conversion apparatus and method | |
| JP4355772B2 (en) | Force conversion device, speech conversion device, speech synthesis device, speech conversion method, speech synthesis method, and program | |
| JP4705203B2 (en) | Voice quality conversion device, pitch conversion device, and voice quality conversion method | |
| JP4246792B2 (en) | Voice quality conversion device and voice quality conversion method | |
| JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
| JP4490507B2 (en) | Speech analysis apparatus and speech analysis method | |
| Aryal et al. | Foreign accent conversion through voice morphing. | |
| JP2015161774A (en) | Sound synthesis method and sound synthesizer | |
| JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
| JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
| JP6330069B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
| WO2012160767A1 (en) | Fragment information generation device, audio compositing device, audio compositing method, and audio compositing program | |
| JPH0247700A (en) | Speech synthesizing method | |
| Pfitzinger | Unsupervised speech morphing between utterances of any speakers | |
| JP2011141470A (en) | Phoneme information-creating device, voice synthesis system, voice synthesis method and program | |
| Petrushin et al. | Whispered speech prosody modeling for TTS synthesis | |
| Klabbers et al. | Analysis of affective speech recordings using the superpositional intonation model. | |
| Ngo et al. | Toward a rule-based synthesis of vietnamese emotional speech | |
| Lavner et al. | Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions | |
| KR101567566B1 (en) | System and Method for Statistical Speech Synthesis with Personalized Synthetic Voice | |
| JP2001312300A (en) | Speech synthesizer | |
| WO2023182291A1 (en) | Speech synthesis device, speech synthesis method, and program | |
| JP2004004954A (en) | Voice synthesis device and voice synthesis method | |
| Kim et al. | On the Implementation of Gentle Phone’s Function Based on PSOLA Algorithm | |
| JP2007279219A (en) | Speech pitch mark setting device, speech synthesis device, speech pitch mark setting method, and speech synthesis method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141007 |