JP2013214063A - テキスト読み上げシステム - Google Patents
テキスト読み上げシステム Download PDFInfo
- Publication number
- JP2013214063A JP2013214063A JP2013056399A JP2013056399A JP2013214063A JP 2013214063 A JP2013214063 A JP 2013214063A JP 2013056399 A JP2013056399 A JP 2013056399A JP 2013056399 A JP2013056399 A JP 2013056399A JP 2013214063 A JP2013214063 A JP 2013214063A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- parameter set
- parameter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】方法は、入力されたテキストの話者を選択することと、入力されたテキストの話者属性を選択することと、音響モデルを用いて音響単位の系列を音声ベクトルの系列へと変換することと、選択された話者の声及び選択された話者属性を伴うオーディオとして音声ベクトルの系列を出力することとを具備する。音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、第1及び第2のパラメータ・セットは重複せず、話者の声を選択することは、第1のパラメータ・セットから話者の声を与えるパラメータを選択することを備え、話者属性を選択することは、第2のセットから選択された話者属性を与えるパラメータを選択することを備える。
【選択図】図4
Description
この出願は、2012年3月30日に提出された英国特許出願第1205791.5(これの全内容は参照によってここに組み込まれる)に基づいており、これによる優先権の利益を主張する。
スペクトル:1ストリーム、5状態、状態毎に1本の木×3クラス
対数F0:3ストリーム、ストリーム毎に5状態、状態及びストリーム毎に1本の木×3クラス
BAP:1ストリーム、5状態、状態毎に1本の木×3クラス
持続期間:1ストリーム、5状態、1本の木×3クラス(各木は全ての状態を横断して共有される)
合計:3×26=78本の決定木
上記のものに関して、声特性(例えば、話者)毎に各ストリームに以下の重みが適用される。
スペクトル:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
対数F0:3ストリーム、ストリーム毎に5状態、ストリーム毎に1個の重み×3クラス
BAP:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
持続期間:1ストリーム、5状態、状態及びストリーム毎に1個の重み×3クラス
合計:3×10=30個の重み
この例において示されるように、異なる決定木(スペクトル)に同一の重みを割り当てることも、同一の決定木(持続期間)に1個よりも多くの重みを割り当てることも、他の任意の組み合わせも可能である。ここで用いられるように、同じ重み付けが適用される決定木はサブクラスタを形成すると考えられる。
話者−表現依存の重みのセットλq(m) (s,e)
話者−表現依存のクラスタμc(m,x) (s,e)
線形変換のセット[Ar(m) (s,e),br(m) (s,e)](これらの変換は、話者にだけ依存するかもしれないし、表現のみに依存するかもしれないし、両方に依存するかもしれない。)
ステップS211において、全ての実行可能な話者依存の変換を適用した後に、話者s及び表現eについての確率分布mの平均ベクトルμ^ m (s,e)及び共分散行列Σ^ m (s,e)は、次のようになる。
3人の女性話者fs1、fs2及びfs3
3人の男性話者ms1、ms2及びms3
ここで、fs1及びfs2は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、fs3は、中国訛りを持ち、3ロットのデータ(ここで、あるデータセットはニュートラルな感情を示し、あるデータセットは幸福な感情を示し、あるデータセットは怒っている感情を示す)についての発話を記録されている。男性話者ms1は、アメリカ訛りを持ち、ニュートラルな感情を伴う発話を記録され、男性話者ms2は、スコットランド訛りを持ち、怒っている感情、幸福な感情及び悲しい感情を伴って話している3つのデータセットについて記録されている。第3の男性話者ms3は、中国訛りを持ち、ニュートラルな感情を伴う発話を記録されている。上記システムは、6人の話者のいずれかの声が記録された訛り及び感情の任意の組み合わせを伴って、声データが出力されることを可能にする。
Claims (20)
- 選択された話者の声及び選択された話者属性を持つ音声を出力するように構成されたテキスト読み上げ方法であって、前記方法は、
テキストを入力することと、
入力された前記テキストを音響単位の系列へと分割することと、
前記入力されたテキストの話者を選択することと、
前記入力されたテキストの話者属性を選択することと、
音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換することと、
選択された前記話者の声及び選択された話者属性を伴うオーディオとして前記音声ベクトルの系列を出力することと
を具備し、
前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
話者の声を選択することは、前記第1のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第2のセットから前記選択された話者属性を与えるパラメータを選択することを備える、
方法。 - 異なる複数の話者属性に関連する複数のパラメータ・セットがあり、当該複数のパラメータ・セットは重複しない、請求項1の方法。
- 前記音響モデルは、前記音響単位を前記音声ベクトルの系列に関連付ける確率分布関数を備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットの選択が確率分布を変形する、
請求項1の方法。 - 前記第2のパラメータ・セットは、前記第1のパラメータ・セットの少なくとも一部のパラメータに加えられるオフセットに関連する、請求項3の方法。
- 前記話者の声及び属性の制御は、前記確率分布の平均の重み付き和を介して達成され、
前記第1のパラメータ・セット及び第2のパラメータ・セットの選択は、使用される前記重みを制御する、
請求項3の方法。 - 前記第1のパラメータ・セット及び前記第2のパラメータ・セットは、クラスタ内で提供され、
各クラスタは、少なくとも1つのサブクラスタを備え、
重み付けは、サブクラスタ毎に導出される、
請求項5の方法。 - 前記話者の声が連続的な範囲に亘って可変であり、かつ、声属性が連続的な範囲に亘って可変であるように、パラメータ・セットが連続的である、請求項1の方法。
- 前記第1のパラメータ・セット及び第2のパラメータ・セットの値は、オーディオ、テキスト、外部エージェントまたはこれらの任意の組み合わせを用いて定義される、請求項1の方法。
- 前記方法は、第1の話者の音声から得られる第2のパラメータを第2の話者の音声に加えることによって、第1の話者から第2の話者へ音声属性を移植するように構成される、請求項4の方法。
- 前記第2のパラメータは、
移植される属性を伴って話している前記第1の話者から音声データを受け取ることと、
前記第2の話者の音声データに最も近い前記第1の話者の音声データを識別することと、
前記移植される属性を伴って話している前記第1の話者から得られる前記音声データと前記第2の話者の音声データに最も近い前記第1の話者の音声データとの間の差分を判定することと、
前記差分から前記第2のパラメータを判定することと
によって得られる、請求項9の方法。 - 前記差分は、前記音響単位を前記音声ベクトルの系列に関連付ける前記確率分布の平均同士で判定される、請求項10の方法。
- 前記第2のパラメータは、前記差分の関数として判定され、
前記関数は、線形関数である、
請求項10の方法。 - 前記第2の話者の前記音声データに最も近い前記第1の話者の音声データを識別することは、前記第1の話者の前記音声データ及び前記第2の話者の前記音声データの前記確率分布に依存する距離関数を最小化することを備える、請求項11の方法。
- 前記距離関数は、ユークリッド距離、バタチャリヤ距離、または、カルバックライブラ距離である、請求項13の方法。
- テキスト読み上げシステム用の音響モデル(当該音響モデルは音響単位の系列を音声ベクトルの系列に変換する)をトレーニングする方法であって、前記方法は、
複数の異なる属性を伴って話している複数の話者から音声データを受け取ることと、
受け取られた前記音声データから共通の属性を伴って話している話者に関連する音声データを分離することと、
共通の属性を伴って話している複数の話者から受け取られた前記音声データを用いて第1の音響サブモデルをトレーニングすること(当該トレーニングすることは第1のパラメータ・セットを導出することを備え、当該第1のパラメータ・セットは前記音響モデルを前記複数の話者の音声に適応させるために変更される)と、
残余の音声から第2の音響サブモデルをトレーニングすること(当該トレーニングすることは前記残余の音声から複数の属性を識別することと第2のパラメータ・セットを導出することとを備え、当該第2のパラメータ・セットは前記音響モデルを前記複数の属性の音声に適応させるために変更される)と、
合成された音響モデルが話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備えるように前記第1の音響サブモデル及び第2の音響サブモデルを合成することによって音響モデルを出力することと
を具備し、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
話者の声を選択することは、前記第1のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第2のセットから選択された前記話者属性を与えるパラメータを選択することを備える、
方法。 - 前記音響モデルは、前記音響単位を前記音声ベクトルの系列へと関連付ける確率分布関数を備え、
前記第1の音響サブモデルをトレーニングすることは、確率分布をクラスタに配置することを備え、各クラスタは、少なくとも1つのサブクラスタを備え、第1のパラメータは、サブクラスタあたり1つの重みがあるように適用される話者依存の重みであり、
前記第2の音響サブモデルをトレーニングすることは、確率分布をクラスタに配置することを備え、各クラスタは、少なくとも1つのサブクラスタを備え、第2のパラメータは、サブクラスタあたり1つの重みがあるように適用される属性依存の重みである、
請求項15の方法。 - 前記受け取られた音声データは、様々な、考慮される属性の各々を含んでいる、請求項16の方法。
- モデルをトレーニングすることは、収束基準が満足されるまで、繰り返し、前記第2の音響サブモデルのパラメータの部分を固定したまま前記第1の音響サブモデルのパラメータを再推定し、それから第1の音響モデルのパラメータの部分を固定したまま前記第2の音響サブモデルのパラメータを再推定することを備える、請求項16の方法。
- 選択された話者の声及び選択された話者属性、複数の異なる声特徴を持つ音声のシミュレート用のテキスト読み上げシステムであって、前記システムは、
入力テキストを受け取るためのテキスト入力と、
前記入力テキストを音響単位の系列へと分割し、前記入力テキストの話者を選択させ、前記入力テキストの話者属性を選択させ、音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換し(モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持つ)、選択された前記話者の声と選択された前記話者属性とを持つオーディオとして前記音声ベクトルの系列を出力するように構成されたプロセッサと、
前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットとを備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
話者の声を選択することは、前記第1のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第2のセットから前記選択された話者属性を与えるパラメータを選択することを備える、
システム。 - テキストを入力することと、
入力された前記テキストを音響単位の系列へと分割することと、
前記入力されたテキストの話者を選択することと、
前記入力されたテキストの話者属性を選択することと、
音響モデルを用いて前記音響単位の系列を音声ベクトルの系列へと変換することと、
選択された前記話者の声及び選択された前記話者属性を持つオーディオとして前記音声ベクトルの系列を出力することと
を具備し、
前記音響モデルは、話者の声に関連する第1のパラメータ・セットと話者属性に関連する第2のパラメータ・セットを備え、
前記第1のパラメータ・セット及び第2のパラメータ・セットは重複せず、
話者の声を選択することは、前記第1のパラメータ・セットから前記話者の声を与えるパラメータを選択することを備え、
前記話者属性を選択することは、第2のセットから選択された前記話者属性を与えるパラメータを選択することを備える、
方法
をコンピュータに行わせるように構成されたコンピュータ可読コードを備える記憶媒体。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| GB1205791.5 | 2012-03-30 | ||
| GB1205791.5A GB2501067B (en) | 2012-03-30 | 2012-03-30 | A text to speech system |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015096807A Division JP6092293B2 (ja) | 2012-03-30 | 2015-05-11 | テキスト読み上げシステム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2013214063A true JP2013214063A (ja) | 2013-10-17 |
Family
ID=46160121
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013056399A Pending JP2013214063A (ja) | 2012-03-30 | 2013-03-19 | テキスト読み上げシステム |
| JP2015096807A Active JP6092293B2 (ja) | 2012-03-30 | 2015-05-11 | テキスト読み上げシステム |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015096807A Active JP6092293B2 (ja) | 2012-03-30 | 2015-05-11 | テキスト読み上げシステム |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US9269347B2 (ja) |
| EP (1) | EP2650874A1 (ja) |
| JP (2) | JP2013214063A (ja) |
| CN (1) | CN103366733A (ja) |
| GB (1) | GB2501067B (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018168032A1 (ja) * | 2017-03-15 | 2018-09-20 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
Families Citing this family (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10088976B2 (en) * | 2009-01-15 | 2018-10-02 | Em Acquisition Corp., Inc. | Systems and methods for multiple voice document narration |
| GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
| GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
| GB2517212B (en) | 2013-08-16 | 2018-04-25 | Toshiba Res Europe Limited | A Computer Generated Emulation of a subject |
| US9311430B2 (en) * | 2013-12-16 | 2016-04-12 | Mitsubishi Electric Research Laboratories, Inc. | Log-linear dialog manager that determines expected rewards and uses hidden states and actions |
| CN104765591A (zh) * | 2014-01-02 | 2015-07-08 | 腾讯科技(深圳)有限公司 | 一种软件配置参数更新的方法、终端服务器及系统 |
| GB2524503B (en) * | 2014-03-24 | 2017-11-08 | Toshiba Res Europe Ltd | Speech synthesis |
| GB2524505B (en) * | 2014-03-24 | 2017-11-08 | Toshiba Res Europe Ltd | Voice conversion |
| US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
| US9892726B1 (en) * | 2014-12-17 | 2018-02-13 | Amazon Technologies, Inc. | Class-based discriminative training of speech models |
| CN104485100B (zh) * | 2014-12-18 | 2018-06-15 | 天津讯飞信息科技有限公司 | 语音合成发音人自适应方法及系统 |
| US9685169B2 (en) * | 2015-04-15 | 2017-06-20 | International Business Machines Corporation | Coherent pitch and intensity modification of speech signals |
| RU2632424C2 (ru) | 2015-09-29 | 2017-10-04 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для синтеза речи по тексту |
| EP3151239A1 (en) * | 2015-09-29 | 2017-04-05 | Yandex Europe AG | Method and system for text-to-speech synthesis |
| US10148808B2 (en) | 2015-10-09 | 2018-12-04 | Microsoft Technology Licensing, Llc | Directed personal communication for speech generating devices |
| US10262555B2 (en) | 2015-10-09 | 2019-04-16 | Microsoft Technology Licensing, Llc | Facilitating awareness and conversation throughput in an augmentative and alternative communication system |
| US9679497B2 (en) | 2015-10-09 | 2017-06-13 | Microsoft Technology Licensing, Llc | Proxies for speech generating devices |
| CN105635158A (zh) * | 2016-01-07 | 2016-06-01 | 福建星网智慧科技股份有限公司 | 一种基于sip的语音电话自动告警方法 |
| GB2546981B (en) * | 2016-02-02 | 2019-06-19 | Toshiba Res Europe Limited | Noise compensation in speaker-adaptive systems |
| US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
| CN107704482A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 方法、装置以及程序 |
| US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
| JP6805037B2 (ja) * | 2017-03-22 | 2020-12-23 | 株式会社東芝 | 話者検索装置、話者検索方法、および話者検索プログラム |
| CN107316635B (zh) * | 2017-05-19 | 2020-09-11 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
| US10943601B2 (en) * | 2017-05-31 | 2021-03-09 | Lenovo (Singapore) Pte. Ltd. | Provide output associated with a dialect |
| JP7082357B2 (ja) * | 2018-01-11 | 2022-06-08 | ネオサピエンス株式会社 | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 |
| US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
| CN108615533B (zh) * | 2018-03-28 | 2021-08-03 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
| US10810993B2 (en) * | 2018-10-26 | 2020-10-20 | Deepmind Technologies Limited | Sample-efficient adaptive text-to-speech |
| JP6737320B2 (ja) | 2018-11-06 | 2020-08-05 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
| JP6747489B2 (ja) | 2018-11-06 | 2020-08-26 | ヤマハ株式会社 | 情報処理方法、情報処理システムおよびプログラム |
| CN109523986B (zh) * | 2018-12-20 | 2022-03-08 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置、设备以及存储介质 |
| US10957304B1 (en) * | 2019-03-26 | 2021-03-23 | Audible, Inc. | Extracting content from audio files using text files |
| CN110097890B (zh) * | 2019-04-16 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
| US11062691B2 (en) | 2019-05-13 | 2021-07-13 | International Business Machines Corporation | Voice transformation allowance determination and representation |
| US11996086B2 (en) * | 2019-08-19 | 2024-05-28 | Nippon Telegraph And Telephone Corporation | Estimation device, estimation method, and estimation program |
| CN110718208A (zh) * | 2019-10-15 | 2020-01-21 | 四川长虹电器股份有限公司 | 基于多任务声学模型的语音合成方法及系统 |
| CN111583900B (zh) * | 2020-04-27 | 2022-01-07 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
| CN113808576A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音转换方法、装置及计算机系统 |
| US11605370B2 (en) | 2021-08-12 | 2023-03-14 | Honeywell International Inc. | Systems and methods for providing audible flight information |
| CN114283782B (zh) * | 2021-12-31 | 2025-05-02 | 中国科学技术大学 | 语音合成方法及装置、电子设备和存储介质 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006285115A (ja) * | 2005-04-05 | 2006-10-19 | Hitachi Ltd | 情報提供方法および情報提供装置 |
| WO2010142928A1 (en) * | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
| JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
| US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
| US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
| US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
| EP1345207B1 (en) * | 2002-03-15 | 2006-10-11 | Sony Corporation | Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus |
| US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
| US7596499B2 (en) * | 2004-02-02 | 2009-09-29 | Panasonic Corporation | Multilingual text-to-speech system with limited resources |
| WO2007138944A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
| CN101295504B (zh) * | 2007-04-28 | 2013-03-27 | 诺基亚公司 | 用于仅文本的应用的娱乐音频 |
| WO2009021183A1 (en) * | 2007-08-08 | 2009-02-12 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
| US20090326948A1 (en) * | 2008-06-26 | 2009-12-31 | Piyush Agarwal | Automated Generation of Audiobook with Multiple Voices and Sounds from Text |
| US8660835B2 (en) * | 2009-10-30 | 2014-02-25 | International Business Machines Corporation | System and a method for automatically detecting text type and text orientation of a bidirectional (BIDI) text |
| TWI413105B (zh) * | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
-
2012
- 2012-03-30 GB GB1205791.5A patent/GB2501067B/en active Active
-
2013
- 2013-03-15 EP EP13159582.9A patent/EP2650874A1/en not_active Withdrawn
- 2013-03-15 US US13/836,146 patent/US9269347B2/en active Active
- 2013-03-19 JP JP2013056399A patent/JP2013214063A/ja active Pending
- 2013-04-01 CN CN2013101101486A patent/CN103366733A/zh active Pending
-
2015
- 2015-05-11 JP JP2015096807A patent/JP6092293B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006285115A (ja) * | 2005-04-05 | 2006-10-19 | Hitachi Ltd | 情報提供方法および情報提供装置 |
| WO2010142928A1 (en) * | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
| JP2011028130A (ja) * | 2009-07-28 | 2011-02-10 | Panasonic Electric Works Co Ltd | 音声合成装置 |
Non-Patent Citations (3)
| Title |
|---|
| CSNG201200104027; 金川 裕紀: 'HMM音声合成における不特定話者スタイル変換の検討' 電子情報通信学会技術研究報告 Vol.111、No.364, 201112, pp.191-196, 社団法人電子情報通信学会 * |
| JPN6014004143; 金川 裕紀: 'HMM音声合成における不特定話者スタイル変換の検討' 電子情報通信学会技術研究報告 Vol.111、No.364, 201112, pp.191-196, 社団法人電子情報通信学会 * |
| JPN6015003624; Heiga Zen, et al.: 'Statistical Parametric Speech Synthesis Based on Speaker and Language Factorization' IEEE Transactions on Audio, Speech, and Language Processing Vol. 20, No. 6, 20120207, pp.1713-1724, IEEE * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018168032A1 (ja) * | 2017-03-15 | 2018-09-20 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
| JP2018155774A (ja) * | 2017-03-15 | 2018-10-04 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| GB201205791D0 (en) | 2012-05-16 |
| EP2650874A1 (en) | 2013-10-16 |
| JP6092293B2 (ja) | 2017-03-08 |
| US20130262119A1 (en) | 2013-10-03 |
| GB2501067B (en) | 2014-12-03 |
| US9269347B2 (en) | 2016-02-23 |
| GB2501067A (en) | 2013-10-16 |
| CN103366733A (zh) | 2013-10-23 |
| JP2015172769A (ja) | 2015-10-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6092293B2 (ja) | テキスト読み上げシステム | |
| JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
| EP2846327B1 (en) | Acoustic model training method and system | |
| JP5768093B2 (ja) | 音声処理システム | |
| JP6109901B2 (ja) | コンピュータ生成ヘッド | |
| JP5398909B2 (ja) | テキスト音声合成方法及びシステム | |
| EP3304544A1 (en) | Speech recognition system and method using an adaptive incremental learning approach | |
| JP2016029576A (ja) | コンピュータ生成ヘッド | |
| JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
| GB2524505A (en) | Voice conversion | |
| Yamagishi et al. | Model adaptation approach to speech synthesis with diverse voices and styles |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140124 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140407 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140711 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150210 |