JP5039865B2 - 声質変換装置及びその方法 - Google Patents
声質変換装置及びその方法 Download PDFInfo
- Publication number
- JP5039865B2 JP5039865B2 JP2012502798A JP2012502798A JP5039865B2 JP 5039865 B2 JP5039865 B2 JP 5039865B2 JP 2012502798 A JP2012502798 A JP 2012502798A JP 2012502798 A JP2012502798 A JP 2012502798A JP 5039865 B2 JP5039865 B2 JP 5039865B2
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- information
- vocal tract
- opening degree
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
声道音源分離部101は、入力音声に対して、声道音源モデル(音声の発声機構をモデル化した音声生成モデル)を用いて、声道情報と音源情報の分離を行なう。分離に用いる声道音源モデルに制限はなく、どのようなモデルであっても良い。
開口度算出部102は、声道音源分離部101により分離された声道情報を用いて、入力音声に含まれる母音系列に対して、母音毎に口腔内の容積に対応する開口度を算出する。例えば「お湯が出ません(/oyugademaseN/)」という入力音声の場合、母音系列(Vn={/o/,/u/,/a/,/e/,/a/,/e/})に対して、母音毎に開口度を算出する。
目標母音DB記憶部103は、声質変換する際に目標となる声質の母音情報を記憶している記憶装置である。母音情報は予め準備され、目標母音DB記憶部103に記憶されているものとする。目標母音DB記憶部103に記憶されている母音情報の構築例について、図5のフローチャートを用いて説明する。
開口度一致度算出部104は、開口度算出部102により算出された入力音声に含まれる各母音の開口度(C)と、目標母音DB記憶部103に記憶されている入力音声に含まれる母音と同じ母音種類の母音情報とを比較して、開口度の一致度を算出する。
開口度一致度算出部104は、式8に示すように開口度算出部102により算出された開口度Ciと、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類の母音情報の開口度Cjとの差分により開口度一致度Sijを算出する。
開口度一致度算出部104は、式9に示すように、話者正規化開口度Ci Sと話者正規化開口度Cj Sとの差分により開口度一致度Sijを算出する。ここで、話者正規化開口度Ci Sは、開口度算出部102により算出された開口度Ciを、話者毎に入力音声の開口度の平均値および標準偏差により正規化した開口度である。また、話者正規化開口度Cj Sは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjを目標話者の開口度の平均値と標準偏差により正規化した開口度である。
開口度一致度算出部104は、式11に示すように音韻正規化開口度Ci Pと、音韻正規化開口度Cj Pとの差分により開口度一致度Sijを算出する。ここで、音韻正規化開口度Ci Pは、開口度算出部102により算出された開口度Ciを入力音声の当該母音の開口度の平均値および標準偏差により正規化した開口度である。また、音韻正規化開口度Cj Pは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjを目標話者の当該母音の開口度の平均値と標準偏差により正規化した開口度である。
開口度一致度算出部104は、式13に示すように開口度差分値Ci Dと、開口度差分値Cj Dとの差分により開口度一致度Sijを算出する。ここで、開口度差分値Ci Dは、開口度算出部102により算出された開口度Ciと入力音声の開口度Ciに対応する母音に先行する母音の開口度との差分を示す開口度である。また、開口度差分値Cj Dは、目標母音DB記憶部103に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Cjと、当該母音の先行母音の開口度との差分を示す開口度である。なお、第4の算出方法により開口度一致度を算出する場合には、図6に示す目標母音DB記憶部103の各母音情報に、開口度差分値Cj D、又は先行母音の開口度が含まれていることとする。
目標母音選択部105は、開口度一致度算出部104により算出された一致度に基づいて、入力音声に含まれる各母音に対して、目標母音DB記憶部103から母音情報を選択する。
母音変形部106は、入力音声に含まれる母音系列のそれぞれの母音の声道情報を、目標母音選択部105により選択された母音情報が持つ声道情報へ変形(変換)する。
音源生成部107は、声道音源分離部101により分離された音源情報を用いて声質変換後の合成音の音源情報を生成する。
合成部108は、母音変形部106により変換された声道情報と、音源生成部107により生成された音源情報を用いて、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてPARCOR係数を用いている場合は、PARCOR合成を用いればよい。あるいは、PARCOR係数からLPC係数に変換した後に合成してもよいし、フォルマントを抽出し、フォルマント合成により合成してもよい。さらにはPARCOR係数からLSP係数を算出しLSP合成により合成するようにしてもよい。
本実施の形態に係る声質変換装置の具体的な動作に関して図9に示すフローチャートを用いて説明する。
かかる構成によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性(流暢さ)を劣化させない声質変換が可能となる。
図10は、本発明の実施の形態の声質変換装置の変形例の機能的な構成を示すブロック図である。図10において、図2と同じ構成要素については同じ符号を用い、説明を省略する。
図10において、音韻環境距離算出部109は、互いに母音種類が一致する、入力音声に含まれる母音の音韻環境と、目標母音DB記憶部103に含まれる母音情報の音韻環境の距離を算出する。
目標母音選択部105は、開口度一致度算出部104により算出された一致度と、音韻環境距離算出部109により算出された音韻環境の距離とを用いて、入力音声に含まれる各母音に対して、目標母音DB記憶部103から母音情報を選択する。
本変形例に係る声質変換装置の具体的な動作に関して図11に示すフローチャートを用いて説明する。
図12は、本発明の実施の形態の変形例に係る声質変換システムの機能的な構成を示すブロック図である。図12において、図2と同じ構成要素については同じ符号を用い、説明を省略する。
102、102b 開口度算出部
103 目標母音DB記憶部
104 開口度一致度算出部
105 目標母音選択部
106 母音変形部
107 音源生成部
108 合成部
109 音韻環境距離算出部
110 目標話者音声収録部
111 母音区間抽出部
112 目標母音DB作成部
1701 声質変換装置
1702 母音情報作成装置
Claims (16)
- 入力音声の声質を変換する声質変換装置であって、
入力音声を声道情報と音源情報とに分離する声道音源分離部と、
前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出部と、
前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部と、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部と、
互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択部と、
前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
を備える声質変換装置。 - 前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項1に記載の声質変換装置。 - 前記目標母音選択部は、前記開口度一致度算出部が算出した一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
請求項1に記載の声質変換装置。 - 前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、算出した前記声道断面積関数で示される声道断面積の和として、前記開口度を算出する
請求項1に記載の声質変換装置。 - 前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、声道を複数の区間に分割した場合に、算出した前記声道断面積関数で示される各区間の声道断面積の和として、前記開口度を算出する
請求項4記載の声質変換装置。 - 前記開口度一致度算出部は、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
請求項1に記載の声質変換装置。 - 前記開口度一致度算出部は、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
請求項1に記載の声質変換装置。 - 前記開口度一致度算出部は、前記一致度として、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出する
請求項1に記載の声質変換装置。 - 前記母音変形部は、前記入力音声に含まれる母音の声道情報を、前記目標母音選択部が選択した母音情報に含まれる声道情報に、所定の変換比率で変形する
請求項1に記載の声質変換装置。 - 入力音声の声質を変換する声質変換装置であって、
入力音声を声道情報と音源情報とに分離する声道音源分離部と、
前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出部と、
目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む複数の母音情報を参照し、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部と、
前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択部と、
前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
を備える声質変換装置。 - 前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項10に記載の声質変換装置。 - 入力音声の声質を変換する声質変換方法であって、
入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出ステップと、
互いに母音の音素種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出ステップと、
前記開口度一致度算出ステップにおいて算出された一致度と、前記音韻環境距離算出ステップにおいて算出された距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択ステップと、
前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
を含む声質変換方法。 - 前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項12に記載の声質変換方法。 - 目標母音選択ステップでは、前記開口度一致度算出ステップで算出された一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
請求項12に記載の声質変換方法。 - 入力音声の声質を変換するためのコンピュータ実行可能なプログラムであって、
前記コンピュータは、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部を備え、
入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出ステップと、
互いに母音の音素種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出ステップと、
前記開口度一致度算出ステップにおいて算出された一致度と、前記音韻環境距離算出ステップにおいて算出された距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択ステップと、
前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
をコンピュータに実行させるためのプログラム。 - 前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項15に記載のプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012502798A JP5039865B2 (ja) | 2010-06-04 | 2011-03-16 | 声質変換装置及びその方法 |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010129466 | 2010-06-04 | ||
| JP2010129466 | 2010-06-04 | ||
| JP2012502798A JP5039865B2 (ja) | 2010-06-04 | 2011-03-16 | 声質変換装置及びその方法 |
| PCT/JP2011/001541 WO2011151956A1 (ja) | 2010-06-04 | 2011-03-16 | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP5039865B2 true JP5039865B2 (ja) | 2012-10-03 |
| JPWO2011151956A1 JPWO2011151956A1 (ja) | 2013-07-25 |
Family
ID=45066350
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012502798A Expired - Fee Related JP5039865B2 (ja) | 2010-06-04 | 2011-03-16 | 声質変換装置及びその方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20120095767A1 (ja) |
| JP (1) | JP5039865B2 (ja) |
| CN (1) | CN102473416A (ja) |
| WO (1) | WO2011151956A1 (ja) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103403797A (zh) * | 2011-08-01 | 2013-11-20 | 松下电器产业株式会社 | 语音合成装置以及语音合成方法 |
| CN103730117A (zh) * | 2012-10-12 | 2014-04-16 | 中兴通讯股份有限公司 | 一种自适应智能语音装置及方法 |
| US9640185B2 (en) * | 2013-12-12 | 2017-05-02 | Motorola Solutions, Inc. | Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder |
| JP6446993B2 (ja) | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | 音声制御装置およびプログラム |
| JP6428256B2 (ja) * | 2014-12-25 | 2018-11-28 | ヤマハ株式会社 | 音声処理装置 |
| US10706867B1 (en) * | 2017-03-03 | 2020-07-07 | Oben, Inc. | Global frequency-warping transformation estimation for voice timbre approximation |
| EP3631791A4 (en) | 2017-05-24 | 2021-02-24 | Modulate, Inc. | SYSTEM AND PROCEDURE FOR LANGUAGE-TO-LANGUAGE CONVERSION |
| CN112088404B (zh) * | 2018-05-10 | 2024-05-17 | 日本电信电话株式会社 | 基音强调装置、其方法、以及记录介质 |
| US11869494B2 (en) * | 2019-01-10 | 2024-01-09 | International Business Machines Corporation | Vowel based generation of phonetically distinguishable words |
| EP4226362A4 (en) | 2020-10-08 | 2025-01-01 | Modulate, Inc. | MULTI-LEVEL ADAPTIVE CONTENT MODERATION SYSTEM |
| WO2023235517A1 (en) | 2022-06-01 | 2023-12-07 | Modulate, Inc. | Scoring system for content moderation |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002215198A (ja) * | 2001-01-16 | 2002-07-31 | Sharp Corp | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
| JP2005189483A (ja) * | 2003-12-25 | 2005-07-14 | Advanced Telecommunication Research Institute International | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ |
| JP2005266349A (ja) * | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
| JP2007133328A (ja) * | 2005-11-14 | 2007-05-31 | Advanced Telecommunication Research Institute International | 調音パラメータ補間用データ生成装置及びコンピュータプログラム |
| JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
| WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
| WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
| JP2010014913A (ja) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | 声質変換音声生成装置および声質変換音声生成システム |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
| US6336092B1 (en) * | 1997-04-28 | 2002-01-01 | Ivl Technologies Ltd | Targeted vocal transformation |
| US7392190B1 (en) * | 1997-11-07 | 2008-06-24 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
| US7117155B2 (en) * | 1999-09-07 | 2006-10-03 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
| US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
| US7630897B2 (en) * | 1999-09-07 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | Coarticulation method for audio-visual text-to-speech synthesis |
| US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
| US6862568B2 (en) * | 2000-10-19 | 2005-03-01 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
| US6990450B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
| US6990449B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | Method of training a digital voice library to associate syllable speech items with literal text syllables |
| US6990451B2 (en) * | 2001-06-01 | 2006-01-24 | Qwest Communications International Inc. | Method and apparatus for recording prosody for fully concatenated speech |
| JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
| KR100706967B1 (ko) * | 2005-02-15 | 2007-04-11 | 에스케이 텔레콤주식회사 | 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템 |
| CN101004911B (zh) * | 2006-01-17 | 2012-06-27 | 纽昂斯通讯公司 | 用于生成频率弯曲函数及进行频率弯曲的方法和装置 |
-
2011
- 2011-03-16 JP JP2012502798A patent/JP5039865B2/ja not_active Expired - Fee Related
- 2011-03-16 WO PCT/JP2011/001541 patent/WO2011151956A1/ja not_active Ceased
- 2011-03-16 CN CN2011800026487A patent/CN102473416A/zh active Pending
- 2011-12-22 US US13/334,119 patent/US20120095767A1/en not_active Abandoned
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002215198A (ja) * | 2001-01-16 | 2002-07-31 | Sharp Corp | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
| JP2005189483A (ja) * | 2003-12-25 | 2005-07-14 | Advanced Telecommunication Research Institute International | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ |
| JP2005266349A (ja) * | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
| JP2007133328A (ja) * | 2005-11-14 | 2007-05-31 | Advanced Telecommunication Research Institute International | 調音パラメータ補間用データ生成装置及びコンピュータプログラム |
| JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
| WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
| WO2008149547A1 (ja) * | 2007-06-06 | 2008-12-11 | Panasonic Corporation | 声質編集装置および声質編集方法 |
| JP2010014913A (ja) * | 2008-07-02 | 2010-01-21 | Panasonic Corp | 声質変換音声生成装置および声質変換音声生成システム |
Non-Patent Citations (8)
| Title |
|---|
| CSNC201100862144; 楊 長盛: '声道形状の違いがフォルマント周波数の非一様性に及ぼす影響' 日本音響学会研究発表会議講演論文集 春I , 1996 * |
| CSNG200600972125; 北村 達也: '母音発声時の声道断面積関数の個人差について' 日本音響学会2004年春季研究発表会講演論文集-I- , 200403, 社団法人日本音響学会 * |
| CSNG200800479020; 内村 佳典: '声質制御への応用を目的とした声道断面積関数の分析' 情報処理学会研究報告 Vol.2008 No.12 第2008巻, 200802, 社団法人情報処理学会 * |
| JPN6012010512; 北村 達也: '母音発声時の声道断面積関数の個人差について' 日本音響学会2004年春季研究発表会講演論文集-I- , 200403, 社団法人日本音響学会 * |
| JPN6012010515; 内村 佳典: '声質制御への応用を目的とした声道断面積関数の分析' 情報処理学会研究報告 Vol.2008 No.12 第2008巻, 200802, 社団法人情報処理学会 * |
| JPN6012010517; K.Sreenivasa Rao, B.Yegnanarayana: 'Voice Conversion by Prosody and Vocal Tract Modification' Information Technology, 2006. ICIT '06. 9th International Conference on , 200612, IEEE Inc. * |
| JPN6012010518; Liliana, R.Lim, E.Kwan,: 'Voice conversion application (VOCAL)' Uncertainty Reasoning and Knowledge Engineering (URKE), 2011 International Conference on , 201108, IEEE Inc. * |
| JPN6012010520; 楊 長盛: '声道形状の違いがフォルマント周波数の非一様性に及ぼす影響' 日本音響学会研究発表会議講演論文集 春I , 1996 * |
Also Published As
| Publication number | Publication date |
|---|---|
| US20120095767A1 (en) | 2012-04-19 |
| CN102473416A (zh) | 2012-05-23 |
| WO2011151956A1 (ja) | 2011-12-08 |
| JPWO2011151956A1 (ja) | 2013-07-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5039865B2 (ja) | 声質変換装置及びその方法 | |
| Kain | High-resolution voice transformation | |
| CN101578659B (zh) | 音质转换装置及音质转换方法 | |
| US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
| JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
| Doi et al. | Alaryngeal speech enhancement based on one-to-many eigenvoice conversion | |
| US20070112570A1 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
| JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
| JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
| Ramani et al. | A multi-level GMM-based cross-lingual voice conversion using language-specific mixture weights for polyglot synthesis | |
| Deka et al. | Development of assamese text-to-speech system using deep neural network | |
| JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
| JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
| JPWO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
| JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
| Pfitzinger | Unsupervised speech morphing between utterances of any speakers | |
| JP3742206B2 (ja) | 音声合成方法及び装置 | |
| Salor et al. | Dynamic programming approach to voice transformation | |
| Hamza et al. | Enhancing Dysarthric Speech Intelligibility: A Review of Techniques | |
| KR101567566B1 (ko) | 개인 음색을 반영한 통계적 음성합성 시스템 및 방법 | |
| López | Methods for speaking style conversion from normal speech to high vocal effort speech | |
| Ramírez López | Methods for speaking style conversion from normal speech to high vocal effort speech | |
| Hinterleitner | Speech synthesis | |
| WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
| Espic Calderón | In search of the optimal acoustic features for statistical parametric speech synthesis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120709 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150713 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5039865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |