JP2018180459A - 音声合成システム、音声合成方法、及び音声合成プログラム - Google Patents
音声合成システム、音声合成方法、及び音声合成プログラム Download PDFInfo
- Publication number
- JP2018180459A JP2018180459A JP2017084095A JP2017084095A JP2018180459A JP 2018180459 A JP2018180459 A JP 2018180459A JP 2017084095 A JP2017084095 A JP 2017084095A JP 2017084095 A JP2017084095 A JP 2017084095A JP 2018180459 A JP2018180459 A JP 2018180459A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- data
- feature
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
<システム構成>
図1は、本実施形態に係る音声合成システム10の構成の一例を説明する図である。本実施形態の音声合成システム10は、入力されたテキスト(文章や句)に対する適切な発話スタイル(会話調である、感情がこもっているといった、発声上の特徴。例えば、声の抑揚、大きさ、リズム、速さ、間の長さといった要素によって特徴付けられる発声上の特徴。)を推定し、推定した発話スタイルに従った音声を合成する。
は無線の通信網である。
制御を司るプロセッサ1102と、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ1103と、スピーカー等の音声出力装置1104と、有線LANカ
ード、無線LANカード、モデム等の通信装置1105と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置1106とを備える。なお、サーバ20は、キ
ーボード、マウス、タッチパネル等の入力装置や、モニタ(ディスプレイ)等の出力装置を備えていてもよい。以上の各装置は、バス1117によって互いに接続されている。
1108と、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ1109と、キーボード、マウス、タッチパネル等の入力装置1111と、有線LANカー
ド、無線LANカード、モデム等の通信装置1112とを備える。なお、端末30は、HD
D(Hard Disk Drive)、SSD(Solid State Drive)、FD(フレキシブルディスク)、フラッシュメモリ等の記憶装置や、モニタ(ディスプレイ)等の出力装置を備えていてもよい。以上の各装置は、バス1118によって互いに接続されている。
次に、各情報処理装置が備える機能について説明する。
具体的には、前記音声特徴量算出部231は、前記音声の特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する。
また、前記音声特徴量算出部231は、前記音声コーパス(音声コーパスDB60)から前記複数の音声データ(音声データ61)を取得し、取得した前記音声データに基づき前記音声特徴量を算出する。すなわち、音声特徴量算出部231は、音声コーパスDB60における音声データ61のクラスタリングを行う。
また、前記音声特徴量算出部231は、前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とする。
また、前記音声特徴量算出部231は、前記音声特徴量として、感情、年齢、又は性別
に関する特徴量を算出する。
なお、前記発話スタイル予測モデル生成部235は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する。
また、前記発話スタイル予測モデル生成部235は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する。
<音声合成処理>
図3は、音声合成システム10において行われる、入力テキスト50に対応する合成音声90を生成する処理(以下、音声合成処理という。)の一例を説明するフローチャートである。この処理は、例えば、サーバ20が、端末30から入力テキスト50を受信したことを契機に開始される。
<音声特徴付き対応文字データ>
図4は、音声特徴付き対応文字データ75の一例を示す図である。同図に示すように、音声特徴付き対応文字データ75は、分類済み音声データに対応する文字列(対応文字データ62)の情報が格納されるテキスト項目751、及び分類済み音声データ(音声データ61)の音声特徴量の情報が格納される音声項目752の各項目を有する、少なくとも1つ以上のレコードで構成されるデータベースである。
文字データ75に基づき、発話スタイル予測モデル80を生成する処理(以下、発話スタイル予測モデル生成処理という。)を行う。この処理の詳細は後述する。
以上で音声合成処理は終了する(s150)。
<音声データ分類処理>
まず、音声データ分類処理について説明する。
図5は、音声データ分類処理の一例を説明するフローチャートである。同図に示すように、まずサーバ20の初期化部2311が、初期化を行う。すなわち、初期化部2311は、発話スタイルに基づき暫定的に分類された音声データ(以下、音声データセット120という。)を生成する(s11)。具体的には、例えば、初期化部2311は、音声コーパスDB60に記録されている各音声データ61をランダムに分類する。
:HMM)、ディープニューラルネットワーク(Delay Neural Network:DNN)に基づき行
われる。特に、HMMを用いた場合、生成確率計算部2313は、後述する生成確率を容易
に算出することができる。
算出する。算出された音声特徴量(生成確率)は、例えば所定のデータベース(以下、音声特徴量DBという。)に記憶される。
様に、怒り生成確率は「0.5」であり、悲しみ生成確率は「0.3」である。
。すなわち、生成確率計算部2313は、音声(発話内容)から生成される各遷移状態の時系列データのうち、その出力確率及び状態遷移確率が最大となる最適な各遷移状態の時系列を探索し(遷移状態の最大化を行い)、その最適な各遷移状態の時系列から算出された出力確率と状態遷移確率との総和を、該当音声の生成確率とする。
であり、悲しみ生成確率が「0.3」である音声データ61があった場合、その音声データ
61は、s14の処理により、音声データセット120の怒音声セット122の項目に分類される。また、s14の処理前に、喜び生成確率は「0.5」であり、怒り生成確率が「0.1」であり、悲しみ生成確率が「0.09」である音声データ61があった場合、その音声データ61は、s14の処理により、音声データセット120の喜音声セット121の項目に分類される。
徴量DB140の一例を示す図)に示されるように、修正された音声特徴量DB140においては、音声IDが「003」の音声データ61の喜び生成確率は「0.075」に、怒り生成確率が「0.015」に、悲しみ生成確率が「0.169」にそれぞれ修正される。これにより、修正前には喜音声セット121の項目に分類されていた音声ID「003」の音声データ61
は、修正後には、悲音声セット123の項目に分類される。
<発話スタイルモデル生成処理>
図11は、発話スタイル予測モデル生成処理の一例を説明する図である。同図に示すように、サーバ20の発話スタイル予測モデル生成部235は、対応文字データ62の特徴量(テキスト特徴量)を算出する(s71)。
以上で発話スタイル予測モデル生成処理は終了する。
<発話スタイル推定処理>
図12は、発話スタイル推定処理の一例を説明する図である。同図に示すように、発話スタイル推定部251は、入力テキスト50のテキスト特徴量を算出する(s81)。なお、この入力テキスト50のテキスト特徴量は、発話スタイル予測モデル生成処理において算出したテキスト特徴量と同じ種類のテキスト特徴量である。
スタイル予測モデル80に、入力テキスト50(具体的には、例えば、s81で算出したテキスト特徴量)を入力することにより、入力テキスト50に対応する音声の特徴(具体的には、例えば、音声特徴量又は生成確率。以下、発話スタイル特徴量ともいう。)を算出する(s83)。
発話スタイル推定部251は、入力テキスト50における喜び生成確率を「0.01」とし、怒り生成確率を「0.6」とし、悲しみ生成確率を「0.08」とする。
以上で発話スタイル推定処理は終了する。
<音声合成処理>
音声合成処理は、発話スタイル特徴推定処理で算出した入力テキスト50の音声特徴量に基づき、音声を合成する処理である。音声合成処理には、例えば、以下に説明するモデル選択型、モデル融合型、又は波形融合型等があり、例えば、これらの処理のうち少なくとも1つ以上が行われればよい。
図14は、音声合成処理のうち、音声合成用データ70を予め選択することにより音声を合成する処理(以下、モデル選択型という。)の一例を説明する図である。同図に示すように、モデル選択型においては、サーバ20の音声合成部252は、音声合成用データ70における音声データ(以下、合成用データという。)のうち、発話スタイル推定処理で算出した入力テキスト50の音声特徴量(具体的には、発話スタイル特徴量)に最も近い音声特徴量を有する音声データの合成用データMを選択する(s111)。
図15は、音声合成処理のうち、音声合成用データ70における各合成用データを融合したデータに基づき音声を合成する処理(以下、モデル融合型という。)の一例を説明する図である。同図に示すように、モデル融合型においては、音声合成部252は、音声合成用データ70における各合成用データとs90で推定した発話スタイル(具体的には、発話スタイル特徴量)とに基づき、新たな合成用データ72を生成する(s115)。具体的には、例えば、音声合成部252は、スタイル(特徴)mの合成用データm(m=1、2、…N)のそれぞれに、そのそれぞれに対応する、発話スタイルに係る所定の案分比Wmを乗算し、この乗算により得られた各算出値を合計することにより、新たな合成用データ72を生成する。
話スタイルにおける特徴(スタイル)mの生成確率Fmを、生成確率の合計値(F1+F2+・・・+FN)で除算することにより求められる。
合成部252は、各スタイルの合成用データを、HMMモデルで定義されている発話スタイ
ルの分布(正規分布)に適合するように混合する。
図17は、音声合成処理のうち、音声合成用データ70における各合成用データを融合したデータに基づき音声を合成する処理(以下、波形融合型という。)の一例を説明する図である。同図に示すように、波形融合型においては、音声合成部252は、音声合成用データ70における各合成用データ(具体的には、各スタイル(特徴)の合成用データ)のそれぞれに対して、それぞれに対応する各スタイル(特徴)の合成音声73を生成する(s118)。
以上で本音声合成処理は終了する。
Claims (15)
- プロセッサ及びメモリを備え、入力された文字に対応する音声を合成する音声合成システムであって、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出部と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成部と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定部と、
前記推定した音声の特徴を有する音声を合成する音声合成部と、
を備える、音声合成システム。 - 前記音声特徴量算出部は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する、請求項1に記載の音声合成システム。
- 前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶部を備え、
前記音声特徴量算出部は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出し、
前記発話スタイル予測モデル生成部は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する、
請求項1に記載の音声合成システム。 - 前記音声特徴量算出部は、前記音声特徴量として、感情、年齢、又は性別に関する特徴量を算出する、請求項1に記載の音声合成システム。
- 前記発話スタイル予測モデル生成部は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する、請求項1に記載の音声合成システム。
- 前記音声特徴量算出部は、前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とする、請求項1に記載の音声合成システム。
- 前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶部を備え、
前記音声特徴量算出部は、
前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出し、
前記音声特徴量として、感情、年齢、又は性別に関する特徴量を算出し、
前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出し、
前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とするものであり、
前記発話スタイル予測モデル生成部は、
前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出し、
前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する、
請求項1に記載の音声合成システム。 - 入力された文字に対応する音声を合成する音声合成方法であって、
プロセッサ及びメモリを備える情報処理装置が、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出処理と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成処理と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定処理と、
前記推定した音声の特徴を有する音声を合成する音声合成処理と、
を実行する、音声合成方法。 - 前記音声特徴量算出部は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する処理を含む、請求項8に記載の音声合成方法。
- 前記情報処理装置は、前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶処理を実行し、
前記音声特徴量算出処理は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出する処理を含み、
前記発話スタイル予測モデル生成処理は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する処理を含む、
請求項8に記載の音声合成方法。 - 前記発話スタイル予測モデル生成処理は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する処理を含む、請求項8に記載の音声合成方法。
- 入力された文字に対応する音声を合成する音声合成プログラムであって、
プロセッサ及びメモリを備える情報処理装置に、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出処理と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成処理と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定処理と、
前記推定した音声の特徴を有する音声を合成する音声合成処理と、
を実行させる、音声合成プログラム。 - 前記音声特徴量算出処理は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する処理を含む、請求項12に記載の音声合成プログラム。
- 前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶処理を実行させ、
前記音声特徴量算出処理は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出する処理を含み、
前記発話スタイル予測モデル生成処理は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する処理を含む、
請求項12に記載の音声合成プログラム。 - 前記発話スタイル予測モデル生成処理は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する処理を含む、請求項12に記載の音声合成プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017084095A JP6806619B2 (ja) | 2017-04-21 | 2017-04-21 | 音声合成システム、音声合成方法、及び音声合成プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017084095A JP6806619B2 (ja) | 2017-04-21 | 2017-04-21 | 音声合成システム、音声合成方法、及び音声合成プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018180459A true JP2018180459A (ja) | 2018-11-15 |
| JP6806619B2 JP6806619B2 (ja) | 2021-01-06 |
Family
ID=64275308
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017084095A Active JP6806619B2 (ja) | 2017-04-21 | 2017-04-21 | 音声合成システム、音声合成方法、及び音声合成プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6806619B2 (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20190104941A (ko) * | 2019-08-22 | 2019-09-11 | 엘지전자 주식회사 | 감정 정보 기반의 음성 합성 방법 및 장치 |
| CN111833842A (zh) * | 2020-06-30 | 2020-10-27 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
| CN111951778A (zh) * | 2020-07-15 | 2020-11-17 | 天津大学 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
| CN114187891A (zh) * | 2022-01-14 | 2022-03-15 | 百果园技术(新加坡)有限公司 | 一种语音合成模型的训练、语音合成方法及相关装置 |
| CN116825090A (zh) * | 2023-08-30 | 2023-09-29 | 世优(北京)科技有限公司 | 语音合成模型的训练方法、装置及语音合成方法、装置 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003302992A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 音声合成方法及び装置 |
| WO2009125710A1 (ja) * | 2008-04-08 | 2009-10-15 | 株式会社エヌ・ティ・ティ・ドコモ | メディア処理サーバ装置およびメディア処理方法 |
| WO2010070839A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
| JP2014056235A (ja) * | 2012-07-18 | 2014-03-27 | Toshiba Corp | 音声処理システム |
| JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
-
2017
- 2017-04-21 JP JP2017084095A patent/JP6806619B2/ja active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003302992A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 音声合成方法及び装置 |
| WO2009125710A1 (ja) * | 2008-04-08 | 2009-10-15 | 株式会社エヌ・ティ・ティ・ドコモ | メディア処理サーバ装置およびメディア処理方法 |
| WO2010070839A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
| JP2014056235A (ja) * | 2012-07-18 | 2014-03-27 | Toshiba Corp | 音声処理システム |
| JP2015215626A (ja) * | 2015-07-03 | 2015-12-03 | 株式会社東芝 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
Non-Patent Citations (1)
| Title |
|---|
| 森田 眞弘, 外2名: "多様な声や感情を豊かに表現できる音声合成技術", 東芝レビュー, vol. 第68巻, 第9号, JPN6020037613, 1 September 2013 (2013-09-01), pages 10 - 13, ISSN: 0004360740 * |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20190104941A (ko) * | 2019-08-22 | 2019-09-11 | 엘지전자 주식회사 | 감정 정보 기반의 음성 합성 방법 및 장치 |
| KR102740698B1 (ko) * | 2019-08-22 | 2024-12-11 | 엘지전자 주식회사 | 감정 정보 기반의 음성 합성 방법 및 장치 |
| CN111833842A (zh) * | 2020-06-30 | 2020-10-27 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
| CN111833842B (zh) * | 2020-06-30 | 2023-11-03 | 讯飞智元信息科技有限公司 | 合成音模板发现方法、装置以及设备 |
| CN111951778A (zh) * | 2020-07-15 | 2020-11-17 | 天津大学 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
| CN111951778B (zh) * | 2020-07-15 | 2023-10-17 | 天津大学 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
| CN114187891A (zh) * | 2022-01-14 | 2022-03-15 | 百果园技术(新加坡)有限公司 | 一种语音合成模型的训练、语音合成方法及相关装置 |
| CN116825090A (zh) * | 2023-08-30 | 2023-09-29 | 世优(北京)科技有限公司 | 语音合成模型的训练方法、装置及语音合成方法、装置 |
| CN116825090B (zh) * | 2023-08-30 | 2023-12-05 | 世优(北京)科技有限公司 | 语音合成模型的训练方法、装置及语音合成方法、装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6806619B2 (ja) | 2021-01-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20240153489A1 (en) | Data driven dialog management | |
| US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
| US10311858B1 (en) | Method and system for building an integrated user profile | |
| JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
| JP7132090B2 (ja) | 対話システム、対話装置、対話方法、及びプログラム | |
| US8635070B2 (en) | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types | |
| JP4478939B2 (ja) | 音声処理装置およびそのためのコンピュータプログラム | |
| JP6884947B2 (ja) | 対話システム及びそのためのコンピュータプログラム | |
| Koriyama et al. | Statistical parametric speech synthesis based on Gaussian process regression | |
| JP6806619B2 (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
| JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
| US10930264B2 (en) | Voice quality preference learning device, voice quality preference learning method, and computer program product | |
| JP2018146715A (ja) | 音声対話装置、その処理方法及びプログラム | |
| KR20180121831A (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
| US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
| JP6165657B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
| JP2017125921A (ja) | 発話選択装置、方法、及びプログラム | |
| CN110223134B (zh) | 基于语音识别的产品推荐方法及相关设备 | |
| JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
| CN114072786A (zh) | 说话解析装置、说话解析方法以及程序 | |
| US10978076B2 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
| JP2018081169A (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
| Vanmassenhove et al. | Prediction of Emotions from Text using Sentiment Analysis for Expressive Speech Synthesis. | |
| Chen et al. | Speaker and expression factorization for audiobook data: Expressiveness and transplantation | |
| Wang et al. | Normalization through Fine-tuning: Understanding Wav2vec 2.0 Embeddings for Phonetic Analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200124 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200916 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201006 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201120 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201204 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6806619 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |