JP2018155774A - 音声合成装置、音声合成方法およびプログラム - Google Patents
音声合成装置、音声合成方法およびプログラム Download PDFInfo
- Publication number
- JP2018155774A JP2018155774A JP2017049801A JP2017049801A JP2018155774A JP 2018155774 A JP2018155774 A JP 2018155774A JP 2017049801 A JP2017049801 A JP 2017049801A JP 2017049801 A JP2017049801 A JP 2017049801A JP 2018155774 A JP2018155774 A JP 2018155774A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speaker parameter
- parameter value
- registered
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
図1は、第1実施形態に係る音声合成装置の機能的な構成例を示すブロック図である。図1に示すように、本実施形態の音声合成装置は、音声合成部10と、音声合成モデル記憶部20と、表示・入力制御部30と、話者パラメータ制御部40と、話者パラメータ記憶部50と、利用可否判定部60とを備える。
次に、第2実施形態について説明する。上述の第1実施形態においては、音声合成装置とは別の装置を用いて話者パラメータ値の登録を行うことを前提としていたが、話者パラメータ値の設定や利用を行う音声合成装置を用いて話者パラメータ値の登録を行うこともできれば、利用者の使い勝手が向上する。そこで、本実施形態では、話者パラメータを登録する機能を音声合成装置に持たせるようにしている。
Diff(Pin,P(j))≦(THRE(j)+THREin) ・・・(2)
Diff(Pin,P(j))≦THRE(j)・・・(3)
Diff(Pin subset,P(j))>(THRE(j)+THREin)(j=0,1,・・・,C−1) ・・・(4)
そして、利用可否判定部60は、この調整された話者パラメータ値Pin subsetを話者パラメータ制御部40に渡すとともに、この調整された話者パラメータ値Pin subsetを登録するか否かの問い合わせを話者パラメータ制御部40に要請する。この要請に応じて、話者パラメータ制御部40は、調整されたパラメータ値Pin subsetを登録するか否かを利用者に問い合わせることを表示・入力制御部30に指示し、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から調整された話者パラメータ値Pin subsetの登録要請があると、話者パラメータ制御部40が調整された話者パラメータ値Pin subsetの登録を話者パラメータ登録部70に指示する。
Diff(Pin,P(j))>(THRE(j)+THREin subset)(j=0,1,・・・,C−1) ・・・(5)
この場合、利用可否判定部60は、この代替案THREin subsetを話者パラメータ制御部40に渡すとともに、登録範囲を狭くして話者パラメータ値Pinを登録するか否かの問い合わせを話者パラメータ制御部40に要請する。この要請に応じて、話者パラメータ制御部40は、登録範囲を狭くして話者パラメータ値Pinを登録するかを利用者に問い合わせることを表示・入力制御部30に指示し、表示・入力制御部30が提供するユーザインタフェースを通じて、利用者に対する問い合わせが行われる。そして、利用者から登録範囲を狭くした話者パラメータ値Pinの登録要請があると、話者パラメータ制御部40が、登録範囲を狭くした話者パラメータ値Pinの登録を話者パラメータ登録部70に指示する。
Diff(Pin,P(j))≦Dadj ・・・(6)
次に、第3実施形態について説明する。上述の第1実施形態においては、話者パラメータ値そのものを用いて入力された話者パラメータ値と登録済み話者パラメータ値との差異を求めたが、この場合、音声合成モデルの更新などによって、話者パラメータの定義や値の種類が変わった場合、変更前後での話者パラメータ値の比較ができず、変更前に登録された話者パラメータ値が変更後には使えなくなってしまう。そこで、本実施形態では、入力された話者パラメータ値と登録済み話者パラメータ値との差異を求める際に、その値そのものを使うのではなく、比較する話者パラメータ値のそれぞれを、共通する別のパラメータ空間に写像して、そのパラメータ空間において差異を算出する。
Diff(P1 SA,P2 SB)=DiffSX(mapSA→SX(P1 SA),mapSB→SX(P2 SB)) ・・・(7)
ただし、DiffSXはパラメータ空間SXに写像された話者パラメータ間での差異を表す。
上述の各実施形態の音声合成装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いて実現することが可能である。すなわち、上述の各実施形態の音声合成装置の各部の機能は、汎用のコンピュータに搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータにあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
11 選択部
12 加算部
20 音声合成モデル記憶部
30 表示・入力制御部
40 話者パラメータ制御部
50 話者パラメータ記憶部
60 利用可否判定部
70 話者パラメータ登録部
80 課金処理部
Claims (15)
- 話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成部と、
登録済み話者パラメータ値を記憶する話者パラメータ記憶部と、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定する利用可否判定部と、
前記利用可否判定部により利用不可と判定された話者パラメータ値の利用を禁止または制限する話者パラメータ制御部と、
を備える音声合成装置。 - ベースとなる話者性をモデル化したベースモデルと、話者性の各要素の特徴をモデル化した話者性制御モデルと、を含む音声合成モデルを記憶する音声合成モデル記憶部をさらに備え、
前記音声合成部は、前記ベースモデルと前記話者性制御モデルから複数の統計量を選択する選択部と、指定された話者パラメータ値に従って、前記統計量を重み付き加算する加算部とを含み、前記加算部によって重み付き加算された統計量を用いて前記合成音の音声波形を生成する
請求項1に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第1閾値以下である場合に、入力された話者パラメータ値を利用不可と判定する
請求項1または2に記載の音声合成装置。 - 前記話者パラメータ記憶部は、登録済み話者パラメータ値に固有の前記第1閾値をさらに記憶する
請求項3に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値のそれぞれを共通の話者パラメータ空間に写像し、該話者パラメータ空間上で入力された話者パラメータ値と登録済み話者パラメータ値との差異を算出する
請求項3または4に記載の音声合成装置。 - 入力された話者パラメータ値を前記話者パラメータ記憶部に登録する話者パラメータ登録部をさらに備え、
前記話者パラメータ制御部は、利用者からの登録要請に基づき、前記話者パラメータ登録部に対して話者パラメータ値の登録指示を出す
請求項1乃至5のいずれか一項に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値の登録可否をさらに判定し、
前記話者パラメータ制御部は、前記利用可否判定部により登録可と判定された場合に、前記話者パラメータ登録部に対して、入力された話者パラメータ値の登録指示を出す
請求項6に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値と登録済み話者パラメータ値との差異を所定の関数によって算出し、算出した差異が、登録済み話者パラメータ値の登録範囲を示す第1閾値に対し、入力された話者パラメータ値の登録範囲を示す第2閾値を加算して得られた第3閾値以下である場合に、入力された話者パラメータ値を登録不可と判定する
請求項7に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値との差異が前記第1閾値を超えるが前記第3閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第3閾値を超えるように調整された話者パラメータ値を登録するか否かを利用者に問い合わせ、
前記パラメータ制御部は、利用者から前記調整された話者パラメータ値の登録要請があった場合に、前記話者パラメータ登録部に対して、前記調整された話者パラメータ値の登録指示を出す
請求項8に記載の音声合成装置。 - 前記利用可否判定部は、入力された話者パラメータ値との差異が前記第1閾値を超えるが前記第3閾値以下となるような登録済み話者パラメータ値があった場合、前記差異が前記第3閾値を超えるように、入力された話者パラメータ値の登録範囲を狭くして登録するか否かを利用者に問い合わせ、
前記パラメータ制御部は、利用者から登録範囲を狭くした話者パラメータの登録要請があった場合に、前記話者パラメータ登録部に対して、登録範囲を狭くした話者パラメータ値の登録指示を出す
請求項8に記載の音声合成装置。 - 前記利用可否判定部は、さらに、話者パラメータ値を登録する場合の登録料を算出し、
話者パラメータ値が前記話者パラメータ記憶部に登録された場合に、前記登録料に基づいた課金処理を行う課金処理部をさらに備える
請求項6乃至10のいずれか一項に記載の音声合成装置。 - 前記利用可否判定部は、登録する話者パラメータ値と、登録済み話者パラメータ値の分布との関係に基づいて、前記登録料を算出する
請求項11に記載の音声合成装置。 - 前記話者パラメータ記憶部は、登録済み話者パラメータ値の所有者の情報と利用条件に関わる情報の少なくとも一方をさらに記憶する
請求項1乃至12のいずれか一項に記載の音声合成装置。 - 話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置において実行される音声合成方法であって、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
を含む音声合成方法。 - コンピュータを、話者性に関するパラメータの値である話者パラメータ値に基づいて、合成音の話者性を制御可能な音声合成装置として機能させるためのプログラムであって、
前記コンピュータに、
入力された話者パラメータ値を登録済み話者パラメータ値の各々と比較した結果に基づいて、入力された話者パラメータ値の利用可否を判定するステップと、
利用不可と判定された話者パラメータ値の利用を禁止または制限するステップと、
を実行させるプログラム。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017049801A JP2018155774A (ja) | 2017-03-15 | 2017-03-15 | 音声合成装置、音声合成方法およびプログラム |
| CN201780088311.XA CN110431621A (zh) | 2017-03-15 | 2017-09-26 | 声音合成装置、声音合成方法及程序 |
| PCT/JP2017/034648 WO2018168032A1 (ja) | 2017-03-15 | 2017-09-26 | 音声合成装置、音声合成方法およびプログラム |
| US16/561,584 US20200066250A1 (en) | 2017-03-15 | 2019-09-05 | Speech synthesis device, speech synthesis method, and computer program product |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017049801A JP2018155774A (ja) | 2017-03-15 | 2017-03-15 | 音声合成装置、音声合成方法およびプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018155774A true JP2018155774A (ja) | 2018-10-04 |
Family
ID=63522880
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017049801A Pending JP2018155774A (ja) | 2017-03-15 | 2017-03-15 | 音声合成装置、音声合成方法およびプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20200066250A1 (ja) |
| JP (1) | JP2018155774A (ja) |
| CN (1) | CN110431621A (ja) |
| WO (1) | WO2018168032A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023015640A (ja) * | 2021-07-20 | 2023-02-01 | Nttテクノクロス株式会社 | 音声合成システム、音声合成方法、及びプログラム |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200119217A (ko) * | 2019-04-09 | 2020-10-19 | 네오사피엔스 주식회사 | 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템 |
| KR102663669B1 (ko) * | 2019-11-01 | 2024-05-08 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
| US12431154B2 (en) * | 2022-01-14 | 2025-09-30 | Descript, Inc. | Training machine learning frameworks to generate studio-quality recordings through manipulation of noisy audio signals |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0863188A (ja) * | 1994-08-18 | 1996-03-08 | Nec Corp | 音声合成装置 |
| JP2004295379A (ja) * | 2003-03-26 | 2004-10-21 | Seiko Epson Corp | データ提供システム及びデータ提供方法並びにデータ提供プログラム |
| JP2013109274A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 目標話者学習方法、その装置及びプログラム |
| JP2013214063A (ja) * | 2012-03-30 | 2013-10-17 | Toshiba Corp | テキスト読み上げシステム |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
| CN106067996B (zh) * | 2015-04-24 | 2019-09-17 | 松下知识产权经营株式会社 | 语音再现方法、语音对话装置 |
-
2017
- 2017-03-15 JP JP2017049801A patent/JP2018155774A/ja active Pending
- 2017-09-26 CN CN201780088311.XA patent/CN110431621A/zh active Pending
- 2017-09-26 WO PCT/JP2017/034648 patent/WO2018168032A1/ja not_active Ceased
-
2019
- 2019-09-05 US US16/561,584 patent/US20200066250A1/en not_active Abandoned
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0863188A (ja) * | 1994-08-18 | 1996-03-08 | Nec Corp | 音声合成装置 |
| JP2004295379A (ja) * | 2003-03-26 | 2004-10-21 | Seiko Epson Corp | データ提供システム及びデータ提供方法並びにデータ提供プログラム |
| JP2013109274A (ja) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 目標話者学習方法、その装置及びプログラム |
| JP2013214063A (ja) * | 2012-03-30 | 2013-10-17 | Toshiba Corp | テキスト読み上げシステム |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023015640A (ja) * | 2021-07-20 | 2023-02-01 | Nttテクノクロス株式会社 | 音声合成システム、音声合成方法、及びプログラム |
| JP7729682B2 (ja) | 2021-07-20 | 2025-08-26 | Nttテクノクロス株式会社 | 音声合成システム、音声合成方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20200066250A1 (en) | 2020-02-27 |
| CN110431621A (zh) | 2019-11-08 |
| WO2018168032A1 (ja) | 2018-09-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11017788B2 (en) | System and method for creating timbres | |
| CN111785246B (zh) | 虚拟角色语音处理方法、装置及计算机设备 | |
| US20200066250A1 (en) | Speech synthesis device, speech synthesis method, and computer program product | |
| WO2020145353A1 (ja) | コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法 | |
| JPWO2008149547A1 (ja) | 声質編集装置および声質編集方法 | |
| US20160086622A1 (en) | Speech processing device, speech processing method, and computer program product | |
| JP2004037721A (ja) | 音声応答システム、音声応答プログラム及びそのための記憶媒体 | |
| CN105957515A (zh) | 声音合成方法、声音合成装置和存储声音合成程序的介质 | |
| US10872597B2 (en) | Speech synthesis dictionary delivery device, speech synthesis system, and program storage medium | |
| CN105718503B (zh) | 声音检索装置以及声音检索方法 | |
| JP7069819B2 (ja) | コード特定方法、コード特定装置およびプログラム | |
| US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
| JP2020060633A (ja) | 音響モデル学習装置、音声合成装置、及びプログラム | |
| Li et al. | A perceptual dissimilarities based nonlinear sound quality model for range hood noise | |
| JP2005275601A (ja) | 音声による情報検索システム | |
| JP2021131594A (ja) | インタフェース提供装置、インタフェース提供方法およびプログラム | |
| JP2021032947A (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム | |
| JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
| JP2004117662A (ja) | 音声合成システム | |
| CN118098237A (zh) | 智能语音鼠标的控制方法及智能语音鼠标 | |
| JP6400526B2 (ja) | 音声合成装置、その方法、およびプログラム | |
| CN108780634A (zh) | 声音信号处理方法及声音信号处理装置 | |
| JP6748607B2 (ja) | 音声合成学習装置、音声合成装置、これらの方法及びプログラム | |
| CN114822497B (en) | Training of speech synthesis model, speech synthesis method, device, equipment and medium | |
| CN113066476A (zh) | 合成语音处理方法及相关装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20170904 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20170905 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20190903 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190903 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200124 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20200615 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200615 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210713 |