[go: up one dir, main page]

JP2019008120A - 声質変換システム、声質変換方法、及び声質変換プログラム - Google Patents

声質変換システム、声質変換方法、及び声質変換プログラム Download PDF

Info

Publication number
JP2019008120A
JP2019008120A JP2017123363A JP2017123363A JP2019008120A JP 2019008120 A JP2019008120 A JP 2019008120A JP 2017123363 A JP2017123363 A JP 2017123363A JP 2017123363 A JP2017123363 A JP 2017123363A JP 2019008120 A JP2019008120 A JP 2019008120A
Authority
JP
Japan
Prior art keywords
voice
voice quality
quality
conversion
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017123363A
Other languages
English (en)
Inventor
拓也 藤岡
Takuya Fujioka
拓也 藤岡
慶華 孫
Keika Son
慶華 孫
藤田 雄介
Yusuke Fujita
雄介 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017123363A priority Critical patent/JP2019008120A/ja
Publication of JP2019008120A publication Critical patent/JP2019008120A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】声質変換を正確に行うことが可能な声質変換システム、声質変換方法及び声質変換プログラムを提供する。【解決手段】声質変換サーバ1000は、第1の声質を有する音声、及び第2の声質を有する音声をそれぞれ認識する音声認識部200と、認識した第1の声質の音声及び第2の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定部203と、認識した第1の声質の音声及び第2の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定部204と、推定した第1の声質の音声における有声部分、無声部分、及びアクセントの特徴と、推定した第2の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成部2151と、生成した変換モデルに基づき、入力された第1の声質を有する音声を、第2の声質を有する音声に変換する声質変換部215とを備える。【選択図】図3

Description

本発明は、声質変換システム、声質変換方法、及び声質変換プログラムに関する。
音声信号処理を用いて、ある話者の音声の声質を他の目標話者の音声の声質に変換する手法として、声質変換と呼ばれる技術がある。この技術の適用例として、サービスロボットのオペレーションや、コールセンタにおけるコンピュータによる自動応答がある。このうち、サービスロボットのオペレーションによる対話は、例えば、サービスロボットが音声認識を用いて相手話者の音声を聞き取り、聞き取った音声に対する適切な応答内容を推定すると共に音声合成を行って応答音声を生成することにより実現される。
このような対話において、環境ノイズによって音声認識が成功しなかった場合や、相手話者の質問が難解であり適切な応答の内容推定が成功しなかった場合には、遠隔地にいるオペレータが相手話者の発話を聞き取り、そのオペレータの発話により応答することで相手話者との対話を継続するために、サービスロボットによる自動応答音声がオペレータによる応答音声に切り替わる。
この際、オペレータの発話と同じ内容を有するサービスボットの音声を新たに合成して出力する(例えば、オペレータの発話を音声認識し、これによりサービスロボットの音声を新たに合成する)ことで、相手話者に違和感を与えないようにすることができる。しかしながら、新たに音声を合成すると、オペレータが発話してから合成音声が生成されるまでに時間がかかる(数秒程度)ため、円滑なコミュニケーションの妨げとなる。また、オペレータの発話内容を正しく認識した上で、その意図を確実に表現できる音声を合成すること自体も技術的に容易ではない。そこで、新たな音声を生成することなく、オペレータの発話をサービスロボットの音声と同じ声質に変換することで、相手話者に違和感を与えないようにすることが好ましい。このように、サービスロボットのオペレーションによる対話では声質変換の技術が重要となっている。
一方、声質変換の他の適用例である、コールセンタにおける自動応答では、所定の対話システム又は音声合成システムが、相手話者の発話に対して音声認識を行い、応答音声を生成する。このような自動応答システムの構成の例としては、特許文献1がある。しかし、このような自動応答でも正しく対応できない場合には、最終的には人間のオペレータにより、相手話者に対する応答を行うことになる。しかし、相手話者は、コンピュータによる自動応答よりも人間のオペレータと会話をすることを望む傾向がある。そこで、相手話者がコールセンタにおける応答が自動応答なのか人間のオペレータによる応答なのかの区別をつけられないようにすれば、人間のオペレータによる応答の件数を結果として減らすことができると考えられる。
そのため、前記のサービスロボットのオペレーションの場合と同様、コールセンタにおける自動応答についても、オペレータの発話音声を自動応答の音声と同じ声質に変換する構成が有効であると考えられる。
声質変換を実現するための基礎的な技術として、有声部分と無声部分との識別がある。例えば、特許文献2には、その基礎技術として、変換元話者のスペクトル包絡と変換先話者のスペクトル包絡とに関する周波数ワーピング関数を求め、声質変換時には、「有声音区間/無声音区間」の平均値を利用した平均周波数ワーピング関数を用いて、変換元話者のスペクトル包絡を変換先話者のスペクトル包絡に変換することにより、声質変換を行う
旨が記載されている。また、特許文献3には、携帯電話における音声のうち有声部分と無声部分とを判別する技術として、入力された狭帯域音声信号に対し線形予測分析を行って抽出した声道伝達特性を帯域拡張する際に、フィルタ係数として有声音用と無声音用を用意した補間フィルタを利用し、入力音声が有声音であるか無声音であるかを判別することが開示されている。
特開2015−70371号公報 特開2001−282300号公報 特開2015−206958号公報
しかしながら、声質変換の実際の適用においては、話者ごとに音声データベース(例えば、パラレルコーパス)が利用されることが多い。すなわち、音声の声質を変換するために、事前に、変換元の話者の音声の音声データベースと、変換後の話者の音声データベースとを含むパラレルコーパスを用いる。このようなパラレルコーパスにおける2つの音声データベースの間の非話者性の音声特徴量(音声に含まれる話者性以外の情報)の一致性が高ければ高いほど、高精度な声質変換が可能となる。
しかし、同じ意味内容を表す発声をした場合でも、話者によって、その発声におけるアクセントのパターンや、有声部分及び無声部分の出現位置、さらに、ポーズ位置及び調音位置のパターンが大きく異なる。したがって、パラレルコーパスにおいて、このような要素による非話者性の音声特徴量が一致していないと、声質変換を行った際に、誤った音韻に知覚されたり、無声化が起きたり、アクセントが付いたりすることがあるので、このような点を適切に考慮した声質変換の技術の開発が望まれている。
本発明はこのような背景に鑑みてなされたものであり、その目的は、声質変換を正確に行うことが可能な声質変換システム、声質変換方法、及び声質変換プログラムを提供することにある。
以上の課題を解決するための本発明の一つは、入力された音声の音質を異なる声質に変換する、プロセッサ及びメモリを備える声質変換システムであって、第1の声質を有する音声、及び第2の声質を有する音声をそれぞれ認識する音声認識部と、前記認識した、第1の声質の音声及び第2の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定部と、前記認識した、第1の声質の音声及び第2の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定部と、前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第2の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成部と、前記生成した変換モデルに基づき、入力された前記第1の声質を有する音声を、前記第2の声質を有する音声に変換する声質変換部とを備える。
本発明によれば、声質変換を正確に行うことができる。
図1は、実施例1に係る声質変換システム10の構成の一例を説明する図である。 図2は、声質変換サーバ1000の機能の概要を説明する図である。 図3は、声質変換サーバ1000が備える機能の一例を説明する図である。 図4は、声質変換処理の一例を説明するフローチャートである。 図5は、音声認識部200の処理の詳細を説明する図である。 図6は、音声データにおけるフレーム、フレームに対応する読み、及び読みに対する確信度の間の関係を説明する図である。 図7は、有声無声推定部203の処理の詳細を説明する図である。 図8は、時間アライメント処理部208が行う処理の詳細を説明する図である。 図9は、低確信度フレーム除去部211が行う処理の詳細を説明する図である。 図10は、除去フレームの特定方法を説明する図である。 図11は、実施例2に係る声質変換サーバ1000の機能の概要を説明する図である。 図12は、実施例2に係る低確信度フレーム除去部211の機能の一例を説明する図である。 図13は、実施例2に係る低確信度フレーム除去部211が出力する情報の一例を示す図である。
−−実施例1−−
<システム構成>
図1は、実施例1に係る声質変換システム10の構成の一例を説明する図である。同図に示すように、声質変換システム10は、入力された音声に対応する応答音声を出力することにより所定の話者との対話を行うサービスロボット20と、当該話者との対話をサービスロボット20と共に行う者(人間)であるオペレータが使用する端末であって、当該オペレータの音声が入力されるオペレータ端末30と、オペレータ端末30に入力されたオペレータの音声の声質をサービスロボット20の音声の声質に変換し、又は、サービスロボット20の音声の声質をオペレータの声質に変換する声質変換サーバ1000とを含んで構成されている。サービスロボット20、オペレータ端末30、及び声質変換サーバ1000はいずれも情報処理装置(コンピュータ)である。
サービスロボット20は、CPU(Central Processing Unit)などのプロセッサ21
と、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ22と、他の装置と通信を行う通信I/F23と(I/F:Interface。以下において同様。)、
HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置24と、キーボード、マウス、タッチパネル、及びモニタ(ディスプレイ)等からなる入出力装置25と、相手の話者等の音声が入力される、マイク等の音声入力I/F26と、音声を出力するスピーカー等の音声出力I/F27とを有し、これらはバス28によって相互に接続されている。
オペレータ端末30は、サービスロボット20と同様に、CPU(Central Processing
Unit)などのプロセッサ31と、RAM(Random Access Memory)、ROM(Read Only
Memory)等のメモリ32と、他の装置と通信を行う通信I/F33と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置34と、キーボード、マウス、
タッチパネル、及びモニタ(ディスプレイ)等からなる入出力装置35と、オペレータ等の音声が入力される、マイク等の音声入力I/F36と、音声を出力するスピーカー等の音声出力I/F37とを有し、これらはバス38によって相互に接続されている。
声質変換サーバ1000は、CPU(Central Processing Unit)などのプロセッサ1
001と、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ1002と、他の装置と通信を行う通信I/F1003と、HDD(Hard Disk Drive)、
SSD(Solid State Drive)等の記憶装置1004と、キーボード、マウス、タッチパ
ネル、及びモニタ(ディスプレイ)等からなる入出力装置1005とを有し、これらはバス1006によって相互に接続されている。
なお、声質変換サーバ1000、オペレータ端末30、及びサービスロボット20の間は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インター
ネット、専用線等からなるネットワーク50により通信可能に接続されている。
<声質変換サーバの機能>
まず、声質変換サーバ1000の機能の概要を説明する。
図2は、声質変換サーバ1000の機能の概要を説明する図である。同図に示すように、声質変換サーバ1000は、声質変換モデル102に基づき、変換元話者音声103を目標話者音声104に変換する。すなわち、声質変換サーバ1000は、オペレータの音声の声質をサービスロボット20の音声の声質に変換し、又は、サービスロボット20の音声の声質をオペレータの音声の声質に変換することができる。
声質変換モデル102は、オペレータの音声(発話音声)が記憶されている変換元話者音声データベース100と、サービスロボット20が発する音声の音声(以下、ロボット音声という。)が記憶されている目標話者音声データベース101とに基づき生成される。変換元話者音声データベース100及び目標話者音声データベース101はパラレルコーパスである。すなわち、ある意味内容を有する音声に関して、変換元話者音声データベース100にはその音声に対応するオペレータの音声が記憶され、目標話者音声データベース101にはその音声に対応するロボット音声が記憶され、これらの音声が互いに対応づけられている。
次に、声質変換サーバ1000の機能の詳細を説明する。
図3は、声質変換サーバ1000が備える機能の一例を説明する図である。同図に示すように、声質変換サーバ1000は、音声認識部200と、有声無声推定部203と、アクセント推定部204と、音声合成部206と、時間アライメント処理部208と、低確信度フレーム除去部211と、声質変換部215と、音声出力部217とを備える。
音声認識部200は、第1の声質を有する音声(変換元話者音声データベース100における音声)、及び第2の声質を有する音声(目標話者音声データベース101における音声)をそれぞれ認識する。
音声認識部200は、確信度算出部2001を備える。
確信度算出部2001は、前記第1の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する。
具体的には、前記確信度算出部2001は、前記第1の音声の確信度を、前記第1の音声の音韻の認識の確からしさとして算出する。
有声無声推定部203は、音声認識部200が前記認識した、第1の声質の音声及び第2の声質の音声における有声部分及び無声部分の特徴を推定する。
アクセント推定部204は、音声認識部200が前記認識した、第1の声質の音声及び第2の声質の音声におけるアクセントの部分の特徴を推定する。
音声合成部206は、有声無声推定部203及びアクセント推定部204が前記推定した第1の音声における有声部分、無声部分、及びアクセントの特徴を有する、前記第2の声質の合成音声を生成する。
時間アライメント処理部208は、前記第1の声質の音声又は前記第2の声質の音声における発音のタイミングを、有声無声推定部203及びアクセント推定部204が前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正する。
低確信度フレーム除去部211は、確信度算出部2001が前記算出した確信度に基づき、前記第1の声質の音声のうち前記確信度が所定の条件を満たさない部分の音声を除去する。
具体的には、前記低確信度フレーム除去部211は、前記第1の声質の音声を、音素の種類に応じて複数のグループに分類し、分類した前記グループのそれぞれの音声のうち前記確信度が所定の条件を満たさない部分の音声を除去する。
声質変換部215は、前記生成した変換モデルに基づき、入力された前記第1の声質を有する音声を、前記第2の声質を有する音声に変換する。
声質変換部215は、変換モデル生成部2151を備える。
変換モデル生成部2151は、有声無声推定部203及びアクセント推定部204が前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの特徴と、有声無声推定部203及びアクセント推定部204が前記推定した第2の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデル(声質変換モデル102)を生成する。
具体的には、前記変換モデル生成部2151は、低確信度フレーム除去部211が前記部分を除去した第1の声質の音声に基づき、前記変換モデルを生成する。
また、前記変換モデル生成部2151は、変換モデル生成部2151が前記生成した合成音声に基づき、前記変換モデルを生成する。
また、前記変換モデル生成部2151は、時間アライメント処理部208が前記修正した前記第1の声質の音声又は前記第2の声質の音声に基づき、前記変換モデルを生成する。
音声出力部217は、変換モデル生成部2151が前記変換した第2の声質を有する音声を出力する。
以上に説明した各情報処理装置の機能は、各情報処理装置のハードウェアによって、もしくは、各情報処理装置のプロセッサが、メモリや記憶装置に記憶されている各プログラムを読み出して実行することにより実現される。なお、このプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、又は、ICカード、SDカード、DVDなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。
次に、声質変換システム10において行われる処理を説明する。
<声質変換処理>
図4は、声質変換システム10が行う処理のうち、変換元話者音声103を目標話者音声104に変換する処理(以下、声質変換処理という。)の一例を説明するフローチャートである。この処理は、例えば、予め設定されたタイミング(例えば、所定の時間間隔、又は所定の時刻)で、もしくは、変換元話者音声データベース100又は目標話者音声データベース101が更新されたことを契機に開始される。
なお、本実施例では、変換元話者音声103はオペレータの音声であり、目標話者音声104はサービスロボット20の音声であるものとする。
まず、音声認識部200は、変換元話者音声データベース100に記録されている音声を認識し、認識した音声に対応する文字列201を出力する。具体的には、例えば、音声認識部200は、音声の波形データを、所定の長さを有する複数のフレームに分割し、分割したフレームごとに音声を認識し、認識した音声に対する最適な読み(文字列)を出力する。また、音声認識部200は、各フレームに対する音声認識の確信度202を算出する。
ここで、音声認識部200の処理の詳細について説明する。
図5は、音声認識部200の処理の詳細を説明する図である。同図に示すように、音声認識部200は、変換元話者音声データベース100における各フレームの音声について、その音声に対して可能な全ての読み(例えば、「あ」、「い」、「う」、…)に対する尤度を算出する(s214)。そして、音声認識部200は、算出した各尤度のうち、最も尤度が高い読みの尤度216を特定し(s215)、特定した尤度216の読みに対応する文字列201を生成する。さらに、音声認識部200は、特定した尤度216を、確信度202に変換する(s217)。具体的には、例えば、音声認識部200は、尤度216の値の対数を確信度202とする。なお、尤度216をそのまま確信度202としてもよい。
なお、図6は、音声データにおけるフレーム、フレームに対応する読み、及び読みに対する確信度の間の関係を説明する図である。同図に示すように、互いにフレームの範囲を所定時間ずらした複数のフレーム部分501、502、503のそれぞれに対して全ての読みに対する尤度がそれぞれ算出され、これらの尤度を最も高く算出する読み504が、正しい読みとして特定される。そして、この読み504に対応した、フレーム部分501、502、503のそれぞれに対する確信度505、506、507が算出される。例えば、フレーム部分501、502、503のそれぞれが、「こ」なる読みの部分に対応し、フレーム部分508、509のそれぞれは「ん」なる読みの部分に対応している。
次に、図3に示すように、有声無声推定部203は、文字列201、及び変換元話者音声データベース100に基づき、変換元話者音声データベース100に記録されている音声における有声部分及び無声部分の特徴を推定し、推定した特徴を示す情報(以下、有声無声情報という。)を文字列201に付加する。
ここで、有声無声推定部203の処理の詳細を説明する。
図7は、有声無声推定部203の処理の詳細を説明する図である。同図に示すように、有声無声推定部203は、変換元話者音声データベース100の音声波形における各フレーム(例えば、フレーム部分501、502、504、508、509)に対するケプストラムを算出する(s218)。ケプストラムは、例えば、以下の式により算出される。
c(t)=ift(log (|ft(x(t))|))
ここで、c(t)はケプストラム、iftは逆フーリエ変換、ftはフーリエ変換、x(t)は変換元
話者音声データベース100における各フレームの音声波形である。
有声無声推定部203は、算出した各ケプストラムがピークを有するか否かをそれぞれ判定し、その結果を示す情報を文字列情報205として生成する。例えば、あるケプストラムがピークを有する場合、有声無声推定部203は、そのケプストラムに対応する音声部分が有声である旨を示す文字列情報205を生成する。一方、あるケプストラムがピークを有しない場合、有声無声推定部203は、そのケプストラムに対応する音声部分が無声である旨を示す文字列情報205を生成する。
次に、図3に示すように、アクセント推定部204は、変換元話者音声データベース100、及び文字列201に基づき、変換元話者音声データベース100に記録されている音声におけるアクセントの部分の特徴を推定し、推定した特徴を示す情報(以下、アクセント情報という。)を文字列201に付加することで、文字列情報205を生成する。
例えば、アクセント推定部204は、変換元話者音声データベース100における音声波形における振幅又は韻律に基づきアクセントの部分を推定し、推定したアクセントの部分と、文字列201における音素の部分とを対応づける。アクセント推定部204は、その結果を示す情報をアクセント情報として生成する。
具体的には、例えば、アクセント推定部204は、文字列201からある一文字を選択し、選択した文字に対応する、変換元話者音声データベース100のフレームについて、そのフレームにおける振幅の平均値及び基本周波数の平均値を求める。そして、アクセント推定部204は、これらの平均値を、選択した文字の前後の文字に対応するフレームの振幅の平均値及び基本周波数の平均値と比較することにより、選択した文字に対応する音声におけるアクセントの有無を判別する。
次に、音声合成部206は、前記のようにして、文字列201に有声無声情報及びアクセント情報が付加された文字列情報205に基づき、目標話者音声データベース101を修正したデータベース(目標話者音声データベース207)を生成する。すなわち、音声合成部206は、変換元話者音声データベース100における音声の声質(有声部分、無声部分、及びアクセント部分)と同様の声質の音声の目標話者音声データベース101のデータベースを生成する。
そして、時間アライメント処理部208は、音声合成部206が生成した目標話者音声データベース207に基づき、時間アライメントを行ったパラレルコーパスを生成する(例えば、同じ時間位置において同じ音素の発音が行われるように調節された2つの音声波形を生成する)。すなわち、時間アライメント処理部208は、相互に時間アライメントを調節した、変換元話者音声データベース100(すなわち、変換元話者音声データベース209)及び目標話者音声データベース207(すなわち、目標話者音声データベース210)を生成する。
ここで、時間アライメント処理部208が行う処理の詳細を説明する。
図8は、時間アライメント処理部208が行う処理の詳細を説明する図である。同図に示すように、まず時間アライメント処理部208は、変換元話者音声データベース100及び目標話者音声データベース207のメルケプストラム(例えば、メル周波数ケプストラム(MFCC):Mel-Frequency Cepstral Coefficients)を生成する。
具体的には、例えば、時間アライメント処理部208は、変換元話者音声データベース100及び目標話者音声データベース207の各音声波形をフーリエ変換することにより、スペクトルを算出する(s223)。そして、時間アライメント処理部208は、算出
した各スペクトルに対して、メルフィルタバンクを掛けることにより、メル周波数スペクトルを算出する(s224)。さらに、時間アライメント処理部208は、算出した各メル周波数スペクトルに対して、離散コサイン変換を行うことにより、変換元話者音声データベース100に対応するメルケプストラム226、及び、目標話者音声データベース207に対応するメルケプストラム227を生成する。
そして、時間アライメント処理部208は、生成した各メルケプストラムに対して、時間アライメントを行う(s228)。例えば、動的計画法によるマッチング(DPマッチング:Dynamic Programming)に基づき時間アライメントが行われる。これにより、変換
元話者音声データベース209、及び目標話者音声データベース210が生成される。
ここで、音声認識部200による文字列201の推定には、誤りが含まれている可能性がある。文字列201に誤りが存在すると、変換元話者音声データベース100と目標話者音声データベース207の内容が一致しないこととなり、適切な声質変換を行うことができなくなる。
そこで、図4に示すように、低確信度フレーム除去部211は、変換元話者音声データベース209、及び目標話者音声データベース210の音声データのうち確信度202の低い部分を除去することにより、補正した変換元話者音声データベース209(変換元話者音声データベース212)、及び補正した目標話者音声データベース210(目標話者音声データベース213)を生成する。
ここで、低確信度フレーム除去部211が行う処理の詳細を説明する。
図9は、低確信度フレーム除去部211が行う処理の詳細を説明する図である。同図に示すように低確信度フレーム除去部211は、変換元話者音声データベース209における全フレームに対して、各フレームを構成する音素の種類(分布)に応じたクラスタリングを行う(s220)。これにより、各フレームはN個(N>=2)以上のクラスタに分類される。
なお、このクラスタリングは、例えば、k-meansクラスタリング、音韻情報に基づいた
決定木クラスタリングである。音韻情報に基づいて決定木クラスタリングを行った場合には、低確信度フレーム除去部211は、現在どのような音韻的特徴を持つフレームが不足しているのかを示す情報を出力することにより、ユーザに、変換元話者音声データベース100の拡張を促してもよい。
次に、低確信度フレーム除去部211は、s220で分類されたクラスタごとに、確信度202の高いフレームを特定し、それ以外のフレームを「除去フレーム」として特定し、その除外フレームを変換元話者音声データベース209から除外する(s221)。
なお、図10は、除去フレームの特定方法を説明する図である。同図に示すように、低確信度フレーム除去部211は、変換元話者音声データベース209における全フレームを、n個のクラスタ(クラスタ1、クラスタ2、クラスタ3、...クラスタn)に分類する。そして、低確信度フレーム除去部211は、各クラスタについて、そのフレームにおける各フレームを確信度202が高い順に並べ、確信度が高い上位m個のフレームを除いた下位のフレーム(以下、除去フレームという。)を全て、変換元話者音声データベース209から除外する。なお、除外フレームの特定方法はこれに限らず、例えば、確信度が所定の閾値未満の、(各クラスタにおける)全フレームとしてもよい。
低確信度フレーム除去部211は、s221で特定した除去フレームのそれぞれに時間的に対応する、目標話者音声データベース210における各フレーム(以下、対応除去フ
レームという。)を全て特定する(s222)。
そして、低確信度フレーム除去部211は、変換元話者音声データベース209から除去フレームを除去することにより、変換元話者音声データベース212を生成する。また、低確信度フレーム除去部211は、目標話者音声データベース210から対応除去フレームを除去することにより、目標話者音声データベース213を生成する。これにより、確信度の低いフレームが除去された、すなわち修正されたパラレルコーパスが作成される。
なお、低確信度フレーム除去部211が、s220でクラスタリングを行ってから除去フレームを除去する理由は、各データベース内に存在する音素のバランスをとるためである。適切な声質変換を行うためには、全ての音素がバランスよくデータベースに含まれていることが理想的だからである。
次に、図4に示すように、声質変換部215(変換モデル生成部2151)は、変換元話者音声データベース212、及び目標話者音声データベース213を機械学習することにより、声質変換モデル102を生成する。
このようにして、声質変換モデル102が生成されると、声質変換サーバ1000は、オペレータ端末30から、ネットワーク50を経由した音声の入力を受け付ける。
声質変換サーバ1000が、オペレータ端末30から音声の入力を受け付けると、すなわち声質変換部215に変換元話者音声103が入力されると、声質変換部215は、入力された変換元話者音声103の声質を、目標話者音声データベース101の声質を有する音声(目標話者音声104)に変換する。
そして、音声出力部217は、変換した目標話者音声104を、ネットワーク50を経由してサービスロボット20に送信し、サービスロボット20は音声出力I/F27により目標話者音声104を出力する(サービスロボット20の声質の音声を発する)。これにより、変換元話者音声103から目標話者音声104への声質変換がなされたことになる。
以上のように、本実施例の声質変換システム10は、第1の声質(変換元話者音声データベース100における音声の声質)及び第2の声質(目標話者音声データベース101における音声の声質)の音声における有声部分、無声部分、及びアクセントの部分の特徴を推定し、第1の声質及び第2の声質の音声における有声部分、無声部分、及びアクセントの特徴の間の関係を推定する変換モデル(声質変換モデル102)を生成し、生成した変換モデルに基づき、入力された第1の声質の音声を第2の声質の音声に変換するので、入力された音声の音質を、有声部分、無声部分、及びアクセントの特徴を維持した異なる声質の音声に変換することができる。これにより、声質の異なる音声の間における声質変換を正確に行うことができる。
例えば、本実施例の声質変換システム10によれば、オペレータの発話音声が不自然に無声化したり、不要なアクセントが付いたりすることがなく、また、ユーザによって意図しない箇所で別の音韻に知覚されたりすることもなく、オペレータの発話音声をサービスロボット20が発する音声の声質に変換することができる。
なお、本実施例の声質変換システム10は、第2の声質を有する音声を出力するので、声質変換システム10の利用者等は、第1の声質の特徴を備えた、正確に声質変換された音声を聴くことができる。
また、本実施例の声質変換システム10は、第1の音声を認識する際に、認識の確からしさを示す値である確信度に基づき、第1の声質の音声のうち所定の条件を満たない部分を除去し(低確信度フレーム除去部211)、除去した部分を除いた第1の声質の音声に基づき、変換モデルを生成するので、第1の音声の音声認識の正確性を向上させることができる。これにより、より高精度な声質変換を実現することができる。
特に、本実施例の声質変換システム10は、第1の音声の確信度を、第1の音声の音韻の認識の確からしさとして算出するので、より自然に聞こえる声質の音声に変換することができる。
また、本実施例の声質変換システム10は、第1の声質の音声を、音素の種類に応じて複数のグループに分類し(クラスタリングを行い)、分類したグループのそれぞれの音声の部分のうち所定の割合の部分を除去するので、各グループにつき音素のバランスをとることができる。これにより、安定した声質の音声に変換することができる。
なお、本実施例の声質変換システム10は、第1の音声における有声部分、無声部分、及びアクセントの特徴を有する、第2の声質を有する合成音声を生成し、生成した合成音声に基づき変換モデルを生成するので、合成音声を利用した様々な意味内容を有する音声に変換することができる。
また、本実施例の声質変換システム10は、第1の声質の音声又は第2の声質の音声における発音のタイミングを、第1の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正し、修正した音声に基づき変換モデルを生成する(時間アライメント処理部208)ので、第1の声質の音声及び第2の声質の音声の対応関係を正確に把握し、正確な声質変換を行うことができる。
−−実施例2−−
本実施例の声質変換システム10は、変換元話者音声データベース100に対する音声認識の精度が低い場合にその旨を出力することによって、声質変換の精度に関してユーザに警告を発する。
<構成及び機能>
図11は、実施例2に係る声質変換サーバ1000の機能の概要を説明する図である。同図に示すように、実施例2に係る声質変換サーバ1000は、実施例1に係る声質変換サーバ1000とほぼ同様の機能を備えるが、低確信度フレーム除去部211の内容は実施例1と異なる。
すなわち、前記低確信度フレーム除去部211は、前記第1の音声を複数の部分に分割し、分割した部分のそれぞれに対して前記確信度を算出し、算出した各前記確信度に基づき音声認識の精度が充分であるか否かを判定し、音声認識の精度が充分でないと判定した場合にはその旨を示す情報を出力する。
なお、その他の要素(声質変換システム10の構成、オペレータ端末30の機能、及びサービスロボット20の機能)は実施例1と同様である。
ここで、本実施例の低確信度フレーム除去部211について説明する。
<低確信度フレーム除去部211>
図12は、実施例2に係る低確信度フレーム除去部211の機能の一例を説明する図である。まず、低確信度フレーム除去部211が各フレームに対してクラスタリングを行う
点(s220)、除去フレームを変換元話者音声データベース209から除外する点(s221)は実施例1と同様である。例えば、低確信度フレーム除去部211は、k-means
クラスタリング、又は音韻情報に基づいた決定木クラスタリングを行う。
次に、低確信度フレーム除去部211は、s221で除外フレームを除外した残りのフレームに基づき、音声認識部200が行った音声認識の精度が充分であるか否かを判定する(s300)。
具体的には、例えば、低確信度フレーム除去部211は、s220でクラスタリングを行った各フレームについて、そのフレームの確信度が所定の閾値以上であるか否かを確認する。そして、確信度が所定の閾値以上(例えば、70%以上)であったフレームの割合が所定割合、又は確信度が所定の閾値以上であったフレームの数が所定数以上であった場合には、低確信度フレーム除去部211は、音声認識の精度が充分であると判定し、そうでない場合には、音声認識の精度が充分でなかったと判定する。そして、音声認識の精度が充分でなかったと判定した場合、低確信度フレーム除去部211は、その旨を示す情報を出力する(例えば、入出力装置1005により表示し、ユーザに提示する)。
例えば、s220において音韻情報に基づいて決定木クラスタリングを行った場合、低確信度フレーム除去部211は、どのような音韻的特徴を持つフレームが不足しているのかを示す情報を出力することにより、ユーザに、変換元話者音声データベース100の拡張を促す。
なお、図13は、実施例2に係る低確信度フレーム除去部211が出力する情報の一例を示す図である。同図に示すように、低確信度フレーム除去部211は、確信度が70%以上であるフレームが3つ以下であるクラスタが存在する場合(同図では「クラスタ2」)、そのクラスタに係る音声認識の精度が充分でないことを示す表示300(例えば、ハイライト表示、文章による警告等)を入出力装置1005のモニタやディスプレイ等により行う。なお、この表示300は、オペレータ端末30やその他の端末が行ってもよい。
このように、本実施例の声質変換システム10は、第1の音声(変換元話者音声データベース100における音声)を複数の部分に分割し、分割した部分のそれぞれに対して確信度202を算出し、音声認識の精度が充分でない場合にはその旨を示す情報を出力するので、高精度な声質変換が行われない可能性がある場合にはその旨をユーザに警告することができる。
以上の各実施例の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。
10 声質変換システム、1000 声質変換サーバ、200 音声認識部、203 有声無声推定部、204 アクセント推定部、215 声質変換部、2151 変換モデル生成部

Claims (15)

  1. 入力された音声の音質を異なる声質に変換する、プロセッサ及びメモリを備える声質変換システムであって、
    第1の声質を有する音声、及び第2の声質を有する音声をそれぞれ認識する音声認識部と、
    前記認識した、第1の声質の音声及び第2の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定部と、
    前記認識した、第1の声質の音声及び第2の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定部と、
    前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第2の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成部と、
    前記生成した変換モデルに基づき、入力された前記第1の声質を有する音声を、前記第2の声質を有する音声に変換する声質変換部とを備える、声質変換システム。
  2. 前記第1の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出部と、
    前記算出した確信度に基づき、前記第1の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去部とを備え、
    前記変換モデル生成部は、前記所定の条件を満たさない部分の音声を除去した前記第1の声質の音声に基づき、前記変換モデルを生成する、
    請求項1に記載の声質変換システム。
  3. 前記変換した第2の声質を有する音声を出力する音声出力部を備える、請求項1に記載の声質変換システム。
  4. 前記低確信度フレーム除去部は、前記第1の声質の音声を、音素の種類に応じて複数のグループに分類し、分類した前記グループのそれぞれの音声のうち前記確信度が所定の条件を満たさない部分の音声を除去する、請求項2に記載の声質変換システム。
  5. 前記確信度算出部は、前記第1の音声の確信度を、前記第1の音声の音韻の認識の確からしさとして算出する、請求項2に記載の声質変換システム。
  6. 前記推定した第1の音声における有声部分、無声部分、及びアクセントの特徴を有する、前記第2の声質の合成音声を生成する音声合成部を備え、
    前記変換モデル生成部は、前記生成した合成音声に基づき、前記変換モデルを生成する、請求項1に記載の声質変換システム。
  7. 前記低確信度フレーム除去部は、前記第1の音声を複数の部分に分割し、分割した部分のそれぞれに対して前記確信度を算出し、算出した各前記確信度に基づき前記音声認識の精度が充分であるか否かを判定し、音声認識の精度が充分でないと判定した場合にはその旨を示す情報を出力する、請求項2に記載の声質変換システム。
  8. 前記第1の声質の音声又は前記第2の声質の音声における発音のタイミングを、前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正する時間アライメント処理部を備え、
    前記変換モデル生成部は、前記修正した前記第1の声質の音声又は前記第2の声質の音声に基づき、前記変換モデルを生成する、
    請求項1に記載の声質変換システム。
  9. 前記変換した第2の声質を有する音声を出力する音声出力部と、
    前記第1の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出部と、
    前記算出した確信度に基づき、前記第1の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去部と、
    前記第1の声質の音声又は前記第2の声質の音声における発音のタイミングを、前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正する時間アライメント処理部と、
    前記推定した第1の音声における有声部分、無声部分、及びアクセントの特徴を有する、前記第2の声質の合成音声を生成する音声合成部とを備え、
    前記確信度算出部は、前記第1の音声の確信度を、前記第1の音声の音韻の認識の確からしさとして算出し、
    前記低確信度フレーム除去部は、
    前記第1の声質の音声を、音素の種類に応じて複数のグループに分類し、分類した前記グループのそれぞれの音声のうち前記確信度が所定の条件を満たさない部分の音声を除去し、
    前記第1の音声を複数の部分に分割し、分割した部分のそれぞれに対して前記確信度を算出し、算出した各前記確信度に基づき音声認識の精度が充分であるか否かを判定し、音声認識の精度が充分でないと判定した場合にはその旨を示す情報を出力し、
    前記変換モデル生成部は、前記発音のタイミングを修正した前記第1の声質の音声又は前記第2の声質の音声、前記確信度が所定の条件を満たさない部分を除去した前記第1の声質の音声、及び、前記生成した合成音声に基づき、前記変換モデルを生成する、
    請求項1に記載の声質変換システム。
  10. 入力された音声の音質を異なる声質に変換する声質変換方法であって、
    プロセッサ及びメモリを備える情報処理装置が、
    第1の声質を有する音声、及び第2の声質を有する音声をそれぞれ認識する音声認識処理と、
    前記認識した、第1の声質の音声及び第2の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定処理と、
    前記認識した、第1の声質の音声及び第2の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定処理と、
    前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第2の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成処理と、
    前記生成した変換モデルに基づき、入力された前記第1の声質を有する音声を、前記第2の声質を有する音声に変換する声質変換処理とを実行する、声質変換方法。
  11. 前記第1の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出処理と、
    前記算出した確信度に基づき、前記第1の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去処理とを実行し、
    前記変換モデル生成処理は、前記所定の条件を満たさない部分の音声を除去した前記第1の声質の音声に基づき、前記変換モデルを生成する、
    請求項10に記載の声質変換方法。
  12. 前記変換した第2の声質を有する音声を出力する音声出力処理を実行する、請求項10に記載の声質変換方法。
  13. 入力された音声の音質を異なる声質に変換する声質変換プログラムであって、
    プロセッサ及びメモリを備える情報処理装置に、
    第1の声質を有する音声、及び第2の声質を有する音声をそれぞれ認識する音声認識処理と、
    前記認識した、第1の声質の音声及び第2の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定処理と、
    前記認識した、第1の声質の音声及び第2の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定処理と、
    前記推定した第1の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第2の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成処理と、
    前記生成した変換モデルに基づき、入力された前記第1の声質を有する音声を、前記第2の声質を有する音声に変換する声質変換処理とを実行させる、声質変換プログラム。
  14. 前記第1の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出処理と、
    前記算出した確信度に基づき、前記第1の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去処理とを実行させ、
    前記変換モデル生成処理は、前記所定の条件を満たさない部分の音声を除去した前記第1の声質の音声に基づき、前記変換モデルを生成する、
    請求項13に記載の声質変換プログラム。
  15. 前記変換した第2の声質を有する音声を出力する音声出力処理を実行させる、請求項13に記載の声質変換プログラム。
JP2017123363A 2017-06-23 2017-06-23 声質変換システム、声質変換方法、及び声質変換プログラム Pending JP2019008120A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017123363A JP2019008120A (ja) 2017-06-23 2017-06-23 声質変換システム、声質変換方法、及び声質変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017123363A JP2019008120A (ja) 2017-06-23 2017-06-23 声質変換システム、声質変換方法、及び声質変換プログラム

Publications (1)

Publication Number Publication Date
JP2019008120A true JP2019008120A (ja) 2019-01-17

Family

ID=65029482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017123363A Pending JP2019008120A (ja) 2017-06-23 2017-06-23 声質変換システム、声質変換方法、及び声質変換プログラム

Country Status (1)

Country Link
JP (1) JP2019008120A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223542A (zh) * 2021-04-26 2021-08-06 北京搜狗科技发展有限公司 音频的转换方法、装置、存储介质及电子设备
JP2021148942A (ja) * 2020-03-19 2021-09-27 株式会社日立ソリューションズ・テクノロジー 声質変換システムおよび声質変換方法
CN113678200A (zh) * 2019-02-21 2021-11-19 谷歌有限责任公司 端到端语音转换
JP2022046731A (ja) * 2021-06-22 2022-03-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声生成方法、装置、電子機器及び記憶媒体
JPWO2023166557A1 (ja) * 2022-03-01 2023-09-07

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113678200A (zh) * 2019-02-21 2021-11-19 谷歌有限责任公司 端到端语音转换
JP2022521289A (ja) * 2019-02-21 2022-04-06 グーグル エルエルシー エンドツーエンドの音声変換
JP7244665B2 (ja) 2019-02-21 2023-03-22 グーグル エルエルシー エンドツーエンドの音声変換
US12300216B2 (en) 2019-02-21 2025-05-13 Google Llc End-to-end speech conversion
JP2021148942A (ja) * 2020-03-19 2021-09-27 株式会社日立ソリューションズ・テクノロジー 声質変換システムおよび声質変換方法
CN113223542A (zh) * 2021-04-26 2021-08-06 北京搜狗科技发展有限公司 音频的转换方法、装置、存储介质及电子设备
CN113223542B (zh) * 2021-04-26 2024-04-12 北京搜狗科技发展有限公司 音频的转换方法、装置、存储介质及电子设备
JP2022046731A (ja) * 2021-06-22 2022-03-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声生成方法、装置、電子機器及び記憶媒体
JPWO2023166557A1 (ja) * 2022-03-01 2023-09-07
WO2023166557A1 (ja) * 2022-03-01 2023-09-07 日本電気株式会社 音声認識システム、音声認識方法、及び記録媒体
JP7691027B2 (ja) 2022-03-01 2025-06-11 日本電気株式会社 音声認識システム、音声認識方法、及び記録媒体

Similar Documents

Publication Publication Date Title
KR102769179B1 (ko) 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
US7593849B2 (en) Normalization of speech accent
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP4914295B2 (ja) 力み音声検出装置
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
CN104081453A (zh) 用于声学变换的系统和方法
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
US20160260425A1 (en) Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program
JP2019008120A (ja) 声質変換システム、声質変換方法、及び声質変換プログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP4129989B2 (ja) テキスト音声合成を支援するシステム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2013195928A (ja) 音声素片切出装置
Gibson Two-pass decision tree construction for unsupervised adaptation of HMM-based synthesis models
US20220270503A1 (en) Pronunciation assessment with dynamic feedback
Ijima et al. Statistical model training technique based on speaker clustering approach for HMM-based speech synthesis
JP2018041116A (ja) 音声合成装置、音声合成方法およびプログラム
Dzibela et al. Hidden-Markov-Model Based Speech Enhancement
EP1422691A1 (en) Method for adapting a speech recognition system
Chunwijitra et al. Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis