JP2019008120A

JP2019008120A - 声質変換システム、声質変換方法、及び声質変換プログラム

Info

Publication number: JP2019008120A
Application number: JP2017123363A
Authority: JP
Inventors: 拓也藤岡; Takuya Fujioka; 慶華孫; Keika Son; 藤田　雄介; Yusuke Fujita; 雄介藤田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2019-01-17

Abstract

【課題】声質変換を正確に行うことが可能な声質変換システム、声質変換方法及び声質変換プログラムを提供する。【解決手段】声質変換サーバ１０００は、第１の声質を有する音声、及び第２の声質を有する音声をそれぞれ認識する音声認識部２００と、認識した第１の声質の音声及び第２の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定部２０３と、認識した第１の声質の音声及び第２の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定部２０４と、推定した第１の声質の音声における有声部分、無声部分、及びアクセントの特徴と、推定した第２の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成部２１５１と、生成した変換モデルに基づき、入力された第１の声質を有する音声を、第２の声質を有する音声に変換する声質変換部２１５とを備える。【選択図】図３

Description

本発明は、声質変換システム、声質変換方法、及び声質変換プログラムに関する。

音声信号処理を用いて、ある話者の音声の声質を他の目標話者の音声の声質に変換する手法として、声質変換と呼ばれる技術がある。この技術の適用例として、サービスロボットのオペレーションや、コールセンタにおけるコンピュータによる自動応答がある。このうち、サービスロボットのオペレーションによる対話は、例えば、サービスロボットが音声認識を用いて相手話者の音声を聞き取り、聞き取った音声に対する適切な応答内容を推定すると共に音声合成を行って応答音声を生成することにより実現される。

このような対話において、環境ノイズによって音声認識が成功しなかった場合や、相手話者の質問が難解であり適切な応答の内容推定が成功しなかった場合には、遠隔地にいるオペレータが相手話者の発話を聞き取り、そのオペレータの発話により応答することで相手話者との対話を継続するために、サービスロボットによる自動応答音声がオペレータによる応答音声に切り替わる。

この際、オペレータの発話と同じ内容を有するサービスボットの音声を新たに合成して出力する（例えば、オペレータの発話を音声認識し、これによりサービスロボットの音声を新たに合成する）ことで、相手話者に違和感を与えないようにすることができる。しかしながら、新たに音声を合成すると、オペレータが発話してから合成音声が生成されるまでに時間がかかる（数秒程度）ため、円滑なコミュニケーションの妨げとなる。また、オペレータの発話内容を正しく認識した上で、その意図を確実に表現できる音声を合成すること自体も技術的に容易ではない。そこで、新たな音声を生成することなく、オペレータの発話をサービスロボットの音声と同じ声質に変換することで、相手話者に違和感を与えないようにすることが好ましい。このように、サービスロボットのオペレーションによる対話では声質変換の技術が重要となっている。

一方、声質変換の他の適用例である、コールセンタにおける自動応答では、所定の対話システム又は音声合成システムが、相手話者の発話に対して音声認識を行い、応答音声を生成する。このような自動応答システムの構成の例としては、特許文献１がある。しかし、このような自動応答でも正しく対応できない場合には、最終的には人間のオペレータにより、相手話者に対する応答を行うことになる。しかし、相手話者は、コンピュータによる自動応答よりも人間のオペレータと会話をすることを望む傾向がある。そこで、相手話者がコールセンタにおける応答が自動応答なのか人間のオペレータによる応答なのかの区別をつけられないようにすれば、人間のオペレータによる応答の件数を結果として減らすことができると考えられる。

そのため、前記のサービスロボットのオペレーションの場合と同様、コールセンタにおける自動応答についても、オペレータの発話音声を自動応答の音声と同じ声質に変換する構成が有効であると考えられる。

声質変換を実現するための基礎的な技術として、有声部分と無声部分との識別がある。例えば、特許文献２には、その基礎技術として、変換元話者のスペクトル包絡と変換先話者のスペクトル包絡とに関する周波数ワーピング関数を求め、声質変換時には、「有声音区間／無声音区間」の平均値を利用した平均周波数ワーピング関数を用いて、変換元話者のスペクトル包絡を変換先話者のスペクトル包絡に変換することにより、声質変換を行う
旨が記載されている。また、特許文献３には、携帯電話における音声のうち有声部分と無声部分とを判別する技術として、入力された狭帯域音声信号に対し線形予測分析を行って抽出した声道伝達特性を帯域拡張する際に、フィルタ係数として有声音用と無声音用を用意した補間フィルタを利用し、入力音声が有声音であるか無声音であるかを判別することが開示されている。

特開２０１５−７０３７１号公報特開２００１−２８２３００号公報特開２０１５−２０６９５８号公報

しかしながら、声質変換の実際の適用においては、話者ごとに音声データベース（例えば、パラレルコーパス）が利用されることが多い。すなわち、音声の声質を変換するために、事前に、変換元の話者の音声の音声データベースと、変換後の話者の音声データベースとを含むパラレルコーパスを用いる。このようなパラレルコーパスにおける２つの音声データベースの間の非話者性の音声特徴量（音声に含まれる話者性以外の情報）の一致性が高ければ高いほど、高精度な声質変換が可能となる。

しかし、同じ意味内容を表す発声をした場合でも、話者によって、その発声におけるアクセントのパターンや、有声部分及び無声部分の出現位置、さらに、ポーズ位置及び調音位置のパターンが大きく異なる。したがって、パラレルコーパスにおいて、このような要素による非話者性の音声特徴量が一致していないと、声質変換を行った際に、誤った音韻に知覚されたり、無声化が起きたり、アクセントが付いたりすることがあるので、このような点を適切に考慮した声質変換の技術の開発が望まれている。

本発明はこのような背景に鑑みてなされたものであり、その目的は、声質変換を正確に行うことが可能な声質変換システム、声質変換方法、及び声質変換プログラムを提供することにある。

以上の課題を解決するための本発明の一つは、入力された音声の音質を異なる声質に変換する、プロセッサ及びメモリを備える声質変換システムであって、第１の声質を有する音声、及び第２の声質を有する音声をそれぞれ認識する音声認識部と、前記認識した、第１の声質の音声及び第２の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定部と、前記認識した、第１の声質の音声及び第２の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定部と、前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第２の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成部と、前記生成した変換モデルに基づき、入力された前記第１の声質を有する音声を、前記第２の声質を有する音声に変換する声質変換部とを備える。

本発明によれば、声質変換を正確に行うことができる。

図１は、実施例１に係る声質変換システム１０の構成の一例を説明する図である。図２は、声質変換サーバ１０００の機能の概要を説明する図である。図３は、声質変換サーバ１０００が備える機能の一例を説明する図である。図４は、声質変換処理の一例を説明するフローチャートである。図５は、音声認識部２００の処理の詳細を説明する図である。図６は、音声データにおけるフレーム、フレームに対応する読み、及び読みに対する確信度の間の関係を説明する図である。図７は、有声無声推定部２０３の処理の詳細を説明する図である。図８は、時間アライメント処理部２０８が行う処理の詳細を説明する図である。図９は、低確信度フレーム除去部２１１が行う処理の詳細を説明する図である。図１０は、除去フレームの特定方法を説明する図である。図１１は、実施例２に係る声質変換サーバ１０００の機能の概要を説明する図である。図１２は、実施例２に係る低確信度フレーム除去部２１１の機能の一例を説明する図である。図１３は、実施例２に係る低確信度フレーム除去部２１１が出力する情報の一例を示す図である。

−−実施例１−−
＜システム構成＞
図１は、実施例１に係る声質変換システム１０の構成の一例を説明する図である。同図に示すように、声質変換システム１０は、入力された音声に対応する応答音声を出力することにより所定の話者との対話を行うサービスロボット２０と、当該話者との対話をサービスロボット２０と共に行う者（人間）であるオペレータが使用する端末であって、当該オペレータの音声が入力されるオペレータ端末３０と、オペレータ端末３０に入力されたオペレータの音声の声質をサービスロボット２０の音声の声質に変換し、又は、サービスロボット２０の音声の声質をオペレータの声質に変換する声質変換サーバ１０００とを含んで構成されている。サービスロボット２０、オペレータ端末３０、及び声質変換サーバ１０００はいずれも情報処理装置（コンピュータ）である。

サービスロボット２０は、ＣＰＵ（Central Processing Unit）などのプロセッサ２１
と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ２２と、他の装置と通信を行う通信Ｉ／Ｆ２３と（Ｉ／Ｆ：Interface。以下において同様。）、
ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記憶装置２４と、キーボード、マウス、タッチパネル、及びモニタ（ディスプレイ）等からなる入出力装置２５と、相手の話者等の音声が入力される、マイク等の音声入力Ｉ／Ｆ２６と、音声を出力するスピーカー等の音声出力Ｉ／Ｆ２７とを有し、これらはバス２８によって相互に接続されている。

オペレータ端末３０は、サービスロボット２０と同様に、ＣＰＵ（Central Processing
Unit）などのプロセッサ３１と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only
Memory）等のメモリ３２と、他の装置と通信を行う通信Ｉ／Ｆ３３と、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の記憶装置３４と、キーボード、マウス、
タッチパネル、及びモニタ（ディスプレイ）等からなる入出力装置３５と、オペレータ等の音声が入力される、マイク等の音声入力Ｉ／Ｆ３６と、音声を出力するスピーカー等の音声出力Ｉ／Ｆ３７とを有し、これらはバス３８によって相互に接続されている。

声質変換サーバ１０００は、ＣＰＵ（Central Processing Unit）などのプロセッサ１
００１と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ１００２と、他の装置と通信を行う通信Ｉ／Ｆ１００３と、ＨＤＤ（Hard Disk Drive）、
ＳＳＤ（Solid State Drive）等の記憶装置１００４と、キーボード、マウス、タッチパ
ネル、及びモニタ（ディスプレイ）等からなる入出力装置１００５とを有し、これらはバス１００６によって相互に接続されている。

なお、声質変換サーバ１０００、オペレータ端末３０、及びサービスロボット２０の間は、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インター
ネット、専用線等からなるネットワーク５０により通信可能に接続されている。

＜声質変換サーバの機能＞
まず、声質変換サーバ１０００の機能の概要を説明する。
図２は、声質変換サーバ１０００の機能の概要を説明する図である。同図に示すように、声質変換サーバ１０００は、声質変換モデル１０２に基づき、変換元話者音声１０３を目標話者音声１０４に変換する。すなわち、声質変換サーバ１０００は、オペレータの音声の声質をサービスロボット２０の音声の声質に変換し、又は、サービスロボット２０の音声の声質をオペレータの音声の声質に変換することができる。

声質変換モデル１０２は、オペレータの音声（発話音声）が記憶されている変換元話者音声データベース１００と、サービスロボット２０が発する音声の音声（以下、ロボット音声という。）が記憶されている目標話者音声データベース１０１とに基づき生成される。変換元話者音声データベース１００及び目標話者音声データベース１０１はパラレルコーパスである。すなわち、ある意味内容を有する音声に関して、変換元話者音声データベース１００にはその音声に対応するオペレータの音声が記憶され、目標話者音声データベース１０１にはその音声に対応するロボット音声が記憶され、これらの音声が互いに対応づけられている。

次に、声質変換サーバ１０００の機能の詳細を説明する。
図３は、声質変換サーバ１０００が備える機能の一例を説明する図である。同図に示すように、声質変換サーバ１０００は、音声認識部２００と、有声無声推定部２０３と、アクセント推定部２０４と、音声合成部２０６と、時間アライメント処理部２０８と、低確信度フレーム除去部２１１と、声質変換部２１５と、音声出力部２１７とを備える。

音声認識部２００は、第１の声質を有する音声（変換元話者音声データベース１００における音声）、及び第２の声質を有する音声（目標話者音声データベース１０１における音声）をそれぞれ認識する。

音声認識部２００は、確信度算出部２００１を備える。
確信度算出部２００１は、前記第１の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する。

具体的には、前記確信度算出部２００１は、前記第１の音声の確信度を、前記第１の音声の音韻の認識の確からしさとして算出する。

有声無声推定部２０３は、音声認識部２００が前記認識した、第１の声質の音声及び第２の声質の音声における有声部分及び無声部分の特徴を推定する。

アクセント推定部２０４は、音声認識部２００が前記認識した、第１の声質の音声及び第２の声質の音声におけるアクセントの部分の特徴を推定する。

音声合成部２０６は、有声無声推定部２０３及びアクセント推定部２０４が前記推定した第１の音声における有声部分、無声部分、及びアクセントの特徴を有する、前記第２の声質の合成音声を生成する。

時間アライメント処理部２０８は、前記第１の声質の音声又は前記第２の声質の音声における発音のタイミングを、有声無声推定部２０３及びアクセント推定部２０４が前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正する。

低確信度フレーム除去部２１１は、確信度算出部２００１が前記算出した確信度に基づき、前記第１の声質の音声のうち前記確信度が所定の条件を満たさない部分の音声を除去する。

具体的には、前記低確信度フレーム除去部２１１は、前記第１の声質の音声を、音素の種類に応じて複数のグループに分類し、分類した前記グループのそれぞれの音声のうち前記確信度が所定の条件を満たさない部分の音声を除去する。

声質変換部２１５は、前記生成した変換モデルに基づき、入力された前記第１の声質を有する音声を、前記第２の声質を有する音声に変換する。

声質変換部２１５は、変換モデル生成部２１５１を備える。
変換モデル生成部２１５１は、有声無声推定部２０３及びアクセント推定部２０４が前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの特徴と、有声無声推定部２０３及びアクセント推定部２０４が前記推定した第２の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデル（声質変換モデル１０２）を生成する。

具体的には、前記変換モデル生成部２１５１は、低確信度フレーム除去部２１１が前記部分を除去した第１の声質の音声に基づき、前記変換モデルを生成する。

また、前記変換モデル生成部２１５１は、変換モデル生成部２１５１が前記生成した合成音声に基づき、前記変換モデルを生成する。

また、前記変換モデル生成部２１５１は、時間アライメント処理部２０８が前記修正した前記第１の声質の音声又は前記第２の声質の音声に基づき、前記変換モデルを生成する。

音声出力部２１７は、変換モデル生成部２１５１が前記変換した第２の声質を有する音声を出力する。

以上に説明した各情報処理装置の機能は、各情報処理装置のハードウェアによって、もしくは、各情報処理装置のプロセッサが、メモリや記憶装置に記憶されている各プログラムを読み出して実行することにより実現される。なお、このプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤなどの記憶デバイス、又は、ＩＣカード、ＳＤカード、ＤＶＤなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。

次に、声質変換システム１０において行われる処理を説明する。
＜声質変換処理＞

図４は、声質変換システム１０が行う処理のうち、変換元話者音声１０３を目標話者音声１０４に変換する処理（以下、声質変換処理という。）の一例を説明するフローチャートである。この処理は、例えば、予め設定されたタイミング（例えば、所定の時間間隔、又は所定の時刻）で、もしくは、変換元話者音声データベース１００又は目標話者音声データベース１０１が更新されたことを契機に開始される。

なお、本実施例では、変換元話者音声１０３はオペレータの音声であり、目標話者音声１０４はサービスロボット２０の音声であるものとする。

まず、音声認識部２００は、変換元話者音声データベース１００に記録されている音声を認識し、認識した音声に対応する文字列２０１を出力する。具体的には、例えば、音声認識部２００は、音声の波形データを、所定の長さを有する複数のフレームに分割し、分割したフレームごとに音声を認識し、認識した音声に対する最適な読み（文字列）を出力する。また、音声認識部２００は、各フレームに対する音声認識の確信度２０２を算出する。

ここで、音声認識部２００の処理の詳細について説明する。
図５は、音声認識部２００の処理の詳細を説明する図である。同図に示すように、音声認識部２００は、変換元話者音声データベース１００における各フレームの音声について、その音声に対して可能な全ての読み（例えば、「あ」、「い」、「う」、…）に対する尤度を算出する（ｓ２１４）。そして、音声認識部２００は、算出した各尤度のうち、最も尤度が高い読みの尤度２１６を特定し（ｓ２１５）、特定した尤度２１６の読みに対応する文字列２０１を生成する。さらに、音声認識部２００は、特定した尤度２１６を、確信度２０２に変換する（ｓ２１７）。具体的には、例えば、音声認識部２００は、尤度２１６の値の対数を確信度２０２とする。なお、尤度２１６をそのまま確信度２０２としてもよい。

なお、図６は、音声データにおけるフレーム、フレームに対応する読み、及び読みに対する確信度の間の関係を説明する図である。同図に示すように、互いにフレームの範囲を所定時間ずらした複数のフレーム部分５０１、５０２、５０３のそれぞれに対して全ての読みに対する尤度がそれぞれ算出され、これらの尤度を最も高く算出する読み５０４が、正しい読みとして特定される。そして、この読み５０４に対応した、フレーム部分５０１、５０２、５０３のそれぞれに対する確信度５０５、５０６、５０７が算出される。例えば、フレーム部分５０１、５０２、５０３のそれぞれが、「こ」なる読みの部分に対応し、フレーム部分５０８、５０９のそれぞれは「ん」なる読みの部分に対応している。

次に、図３に示すように、有声無声推定部２０３は、文字列２０１、及び変換元話者音声データベース１００に基づき、変換元話者音声データベース１００に記録されている音声における有声部分及び無声部分の特徴を推定し、推定した特徴を示す情報（以下、有声無声情報という。）を文字列２０１に付加する。

ここで、有声無声推定部２０３の処理の詳細を説明する。
図７は、有声無声推定部２０３の処理の詳細を説明する図である。同図に示すように、有声無声推定部２０３は、変換元話者音声データベース１００の音声波形における各フレーム（例えば、フレーム部分５０１、５０２、５０４、５０８、５０９）に対するケプストラムを算出する（ｓ２１８）。ケプストラムは、例えば、以下の式により算出される。

c(t)=ift(log (|ft(x(t))|))

ここで、c(t)はケプストラム、iftは逆フーリエ変換、ftはフーリエ変換、x(t)は変換元
話者音声データベース１００における各フレームの音声波形である。

有声無声推定部２０３は、算出した各ケプストラムがピークを有するか否かをそれぞれ判定し、その結果を示す情報を文字列情報２０５として生成する。例えば、あるケプストラムがピークを有する場合、有声無声推定部２０３は、そのケプストラムに対応する音声部分が有声である旨を示す文字列情報２０５を生成する。一方、あるケプストラムがピークを有しない場合、有声無声推定部２０３は、そのケプストラムに対応する音声部分が無声である旨を示す文字列情報２０５を生成する。

次に、図３に示すように、アクセント推定部２０４は、変換元話者音声データベース１００、及び文字列２０１に基づき、変換元話者音声データベース１００に記録されている音声におけるアクセントの部分の特徴を推定し、推定した特徴を示す情報（以下、アクセント情報という。）を文字列２０１に付加することで、文字列情報２０５を生成する。

例えば、アクセント推定部２０４は、変換元話者音声データベース１００における音声波形における振幅又は韻律に基づきアクセントの部分を推定し、推定したアクセントの部分と、文字列２０１における音素の部分とを対応づける。アクセント推定部２０４は、その結果を示す情報をアクセント情報として生成する。

具体的には、例えば、アクセント推定部２０４は、文字列２０１からある一文字を選択し、選択した文字に対応する、変換元話者音声データベース１００のフレームについて、そのフレームにおける振幅の平均値及び基本周波数の平均値を求める。そして、アクセント推定部２０４は、これらの平均値を、選択した文字の前後の文字に対応するフレームの振幅の平均値及び基本周波数の平均値と比較することにより、選択した文字に対応する音声におけるアクセントの有無を判別する。

次に、音声合成部２０６は、前記のようにして、文字列２０１に有声無声情報及びアクセント情報が付加された文字列情報２０５に基づき、目標話者音声データベース１０１を修正したデータベース（目標話者音声データベース２０７）を生成する。すなわち、音声合成部２０６は、変換元話者音声データベース１００における音声の声質（有声部分、無声部分、及びアクセント部分）と同様の声質の音声の目標話者音声データベース１０１のデータベースを生成する。

そして、時間アライメント処理部２０８は、音声合成部２０６が生成した目標話者音声データベース２０７に基づき、時間アライメントを行ったパラレルコーパスを生成する（例えば、同じ時間位置において同じ音素の発音が行われるように調節された２つの音声波形を生成する）。すなわち、時間アライメント処理部２０８は、相互に時間アライメントを調節した、変換元話者音声データベース１００（すなわち、変換元話者音声データベース２０９）及び目標話者音声データベース２０７（すなわち、目標話者音声データベース２１０）を生成する。

ここで、時間アライメント処理部２０８が行う処理の詳細を説明する。
図８は、時間アライメント処理部２０８が行う処理の詳細を説明する図である。同図に示すように、まず時間アライメント処理部２０８は、変換元話者音声データベース１００及び目標話者音声データベース２０７のメルケプストラム（例えば、メル周波数ケプストラム（MFCC）：Mel-Frequency Cepstral Coefficients）を生成する。

具体的には、例えば、時間アライメント処理部２０８は、変換元話者音声データベース１００及び目標話者音声データベース２０７の各音声波形をフーリエ変換することにより、スペクトルを算出する（ｓ２２３）。そして、時間アライメント処理部２０８は、算出
した各スペクトルに対して、メルフィルタバンクを掛けることにより、メル周波数スペクトルを算出する（ｓ２２４）。さらに、時間アライメント処理部２０８は、算出した各メル周波数スペクトルに対して、離散コサイン変換を行うことにより、変換元話者音声データベース１００に対応するメルケプストラム２２６、及び、目標話者音声データベース２０７に対応するメルケプストラム２２７を生成する。

そして、時間アライメント処理部２０８は、生成した各メルケプストラムに対して、時間アライメントを行う（ｓ２２８）。例えば、動的計画法によるマッチング（ＤＰマッチング：Dynamic Programming）に基づき時間アライメントが行われる。これにより、変換
元話者音声データベース２０９、及び目標話者音声データベース２１０が生成される。

ここで、音声認識部２００による文字列２０１の推定には、誤りが含まれている可能性がある。文字列２０１に誤りが存在すると、変換元話者音声データベース１００と目標話者音声データベース２０７の内容が一致しないこととなり、適切な声質変換を行うことができなくなる。

そこで、図４に示すように、低確信度フレーム除去部２１１は、変換元話者音声データベース２０９、及び目標話者音声データベース２１０の音声データのうち確信度２０２の低い部分を除去することにより、補正した変換元話者音声データベース２０９（変換元話者音声データベース２１２）、及び補正した目標話者音声データベース２１０（目標話者音声データベース２１３）を生成する。

ここで、低確信度フレーム除去部２１１が行う処理の詳細を説明する。
図９は、低確信度フレーム除去部２１１が行う処理の詳細を説明する図である。同図に示すように低確信度フレーム除去部２１１は、変換元話者音声データベース２０９における全フレームに対して、各フレームを構成する音素の種類（分布）に応じたクラスタリングを行う（ｓ２２０）。これにより、各フレームはＮ個（Ｎ＞＝２）以上のクラスタに分類される。

なお、このクラスタリングは、例えば、k-meansクラスタリング、音韻情報に基づいた
決定木クラスタリングである。音韻情報に基づいて決定木クラスタリングを行った場合には、低確信度フレーム除去部２１１は、現在どのような音韻的特徴を持つフレームが不足しているのかを示す情報を出力することにより、ユーザに、変換元話者音声データベース１００の拡張を促してもよい。

次に、低確信度フレーム除去部２１１は、ｓ２２０で分類されたクラスタごとに、確信度２０２の高いフレームを特定し、それ以外のフレームを「除去フレーム」として特定し、その除外フレームを変換元話者音声データベース２０９から除外する（ｓ２２１）。

なお、図１０は、除去フレームの特定方法を説明する図である。同図に示すように、低確信度フレーム除去部２１１は、変換元話者音声データベース２０９における全フレームを、ｎ個のクラスタ（クラスタ１、クラスタ２、クラスタ３、．．．クラスタｎ）に分類する。そして、低確信度フレーム除去部２１１は、各クラスタについて、そのフレームにおける各フレームを確信度２０２が高い順に並べ、確信度が高い上位ｍ個のフレームを除いた下位のフレーム（以下、除去フレームという。）を全て、変換元話者音声データベース２０９から除外する。なお、除外フレームの特定方法はこれに限らず、例えば、確信度が所定の閾値未満の、（各クラスタにおける）全フレームとしてもよい。

低確信度フレーム除去部２１１は、ｓ２２１で特定した除去フレームのそれぞれに時間的に対応する、目標話者音声データベース２１０における各フレーム（以下、対応除去フ
レームという。）を全て特定する（ｓ２２２）。

そして、低確信度フレーム除去部２１１は、変換元話者音声データベース２０９から除去フレームを除去することにより、変換元話者音声データベース２１２を生成する。また、低確信度フレーム除去部２１１は、目標話者音声データベース２１０から対応除去フレームを除去することにより、目標話者音声データベース２１３を生成する。これにより、確信度の低いフレームが除去された、すなわち修正されたパラレルコーパスが作成される。

なお、低確信度フレーム除去部２１１が、ｓ２２０でクラスタリングを行ってから除去フレームを除去する理由は、各データベース内に存在する音素のバランスをとるためである。適切な声質変換を行うためには、全ての音素がバランスよくデータベースに含まれていることが理想的だからである。

次に、図４に示すように、声質変換部２１５（変換モデル生成部２１５１）は、変換元話者音声データベース２１２、及び目標話者音声データベース２１３を機械学習することにより、声質変換モデル１０２を生成する。

このようにして、声質変換モデル１０２が生成されると、声質変換サーバ１０００は、オペレータ端末３０から、ネットワーク５０を経由した音声の入力を受け付ける。

声質変換サーバ１０００が、オペレータ端末３０から音声の入力を受け付けると、すなわち声質変換部２１５に変換元話者音声１０３が入力されると、声質変換部２１５は、入力された変換元話者音声１０３の声質を、目標話者音声データベース１０１の声質を有する音声（目標話者音声１０４）に変換する。

そして、音声出力部２１７は、変換した目標話者音声１０４を、ネットワーク５０を経由してサービスロボット２０に送信し、サービスロボット２０は音声出力Ｉ／Ｆ２７により目標話者音声１０４を出力する（サービスロボット２０の声質の音声を発する）。これにより、変換元話者音声１０３から目標話者音声１０４への声質変換がなされたことになる。

以上のように、本実施例の声質変換システム１０は、第１の声質（変換元話者音声データベース１００における音声の声質）及び第２の声質（目標話者音声データベース１０１における音声の声質）の音声における有声部分、無声部分、及びアクセントの部分の特徴を推定し、第１の声質及び第２の声質の音声における有声部分、無声部分、及びアクセントの特徴の間の関係を推定する変換モデル（声質変換モデル１０２）を生成し、生成した変換モデルに基づき、入力された第１の声質の音声を第２の声質の音声に変換するので、入力された音声の音質を、有声部分、無声部分、及びアクセントの特徴を維持した異なる声質の音声に変換することができる。これにより、声質の異なる音声の間における声質変換を正確に行うことができる。

例えば、本実施例の声質変換システム１０によれば、オペレータの発話音声が不自然に無声化したり、不要なアクセントが付いたりすることがなく、また、ユーザによって意図しない箇所で別の音韻に知覚されたりすることもなく、オペレータの発話音声をサービスロボット２０が発する音声の声質に変換することができる。

なお、本実施例の声質変換システム１０は、第２の声質を有する音声を出力するので、声質変換システム１０の利用者等は、第１の声質の特徴を備えた、正確に声質変換された音声を聴くことができる。

また、本実施例の声質変換システム１０は、第１の音声を認識する際に、認識の確からしさを示す値である確信度に基づき、第１の声質の音声のうち所定の条件を満たない部分を除去し（低確信度フレーム除去部２１１）、除去した部分を除いた第１の声質の音声に基づき、変換モデルを生成するので、第１の音声の音声認識の正確性を向上させることができる。これにより、より高精度な声質変換を実現することができる。

特に、本実施例の声質変換システム１０は、第１の音声の確信度を、第１の音声の音韻の認識の確からしさとして算出するので、より自然に聞こえる声質の音声に変換することができる。

また、本実施例の声質変換システム１０は、第１の声質の音声を、音素の種類に応じて複数のグループに分類し（クラスタリングを行い）、分類したグループのそれぞれの音声の部分のうち所定の割合の部分を除去するので、各グループにつき音素のバランスをとることができる。これにより、安定した声質の音声に変換することができる。

なお、本実施例の声質変換システム１０は、第１の音声における有声部分、無声部分、及びアクセントの特徴を有する、第２の声質を有する合成音声を生成し、生成した合成音声に基づき変換モデルを生成するので、合成音声を利用した様々な意味内容を有する音声に変換することができる。

また、本実施例の声質変換システム１０は、第１の声質の音声又は第２の声質の音声における発音のタイミングを、第１の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正し、修正した音声に基づき変換モデルを生成する（時間アライメント処理部２０８）ので、第１の声質の音声及び第２の声質の音声の対応関係を正確に把握し、正確な声質変換を行うことができる。

−−実施例２−−
本実施例の声質変換システム１０は、変換元話者音声データベース１００に対する音声認識の精度が低い場合にその旨を出力することによって、声質変換の精度に関してユーザに警告を発する。

＜構成及び機能＞
図１１は、実施例２に係る声質変換サーバ１０００の機能の概要を説明する図である。同図に示すように、実施例２に係る声質変換サーバ１０００は、実施例１に係る声質変換サーバ１０００とほぼ同様の機能を備えるが、低確信度フレーム除去部２１１の内容は実施例１と異なる。

すなわち、前記低確信度フレーム除去部２１１は、前記第１の音声を複数の部分に分割し、分割した部分のそれぞれに対して前記確信度を算出し、算出した各前記確信度に基づき音声認識の精度が充分であるか否かを判定し、音声認識の精度が充分でないと判定した場合にはその旨を示す情報を出力する。

なお、その他の要素（声質変換システム１０の構成、オペレータ端末３０の機能、及びサービスロボット２０の機能）は実施例１と同様である。

ここで、本実施例の低確信度フレーム除去部２１１について説明する。
＜低確信度フレーム除去部２１１＞
図１２は、実施例２に係る低確信度フレーム除去部２１１の機能の一例を説明する図である。まず、低確信度フレーム除去部２１１が各フレームに対してクラスタリングを行う
点（ｓ２２０）、除去フレームを変換元話者音声データベース２０９から除外する点（ｓ２２１）は実施例１と同様である。例えば、低確信度フレーム除去部２１１は、k-means
クラスタリング、又は音韻情報に基づいた決定木クラスタリングを行う。

次に、低確信度フレーム除去部２１１は、ｓ２２１で除外フレームを除外した残りのフレームに基づき、音声認識部２００が行った音声認識の精度が充分であるか否かを判定する（ｓ３００）。

具体的には、例えば、低確信度フレーム除去部２１１は、ｓ２２０でクラスタリングを行った各フレームについて、そのフレームの確信度が所定の閾値以上であるか否かを確認する。そして、確信度が所定の閾値以上（例えば、７０％以上）であったフレームの割合が所定割合、又は確信度が所定の閾値以上であったフレームの数が所定数以上であった場合には、低確信度フレーム除去部２１１は、音声認識の精度が充分であると判定し、そうでない場合には、音声認識の精度が充分でなかったと判定する。そして、音声認識の精度が充分でなかったと判定した場合、低確信度フレーム除去部２１１は、その旨を示す情報を出力する（例えば、入出力装置１００５により表示し、ユーザに提示する）。

例えば、ｓ２２０において音韻情報に基づいて決定木クラスタリングを行った場合、低確信度フレーム除去部２１１は、どのような音韻的特徴を持つフレームが不足しているのかを示す情報を出力することにより、ユーザに、変換元話者音声データベース１００の拡張を促す。

なお、図１３は、実施例２に係る低確信度フレーム除去部２１１が出力する情報の一例を示す図である。同図に示すように、低確信度フレーム除去部２１１は、確信度が７０％以上であるフレームが３つ以下であるクラスタが存在する場合（同図では「クラスタ２」）、そのクラスタに係る音声認識の精度が充分でないことを示す表示３００（例えば、ハイライト表示、文章による警告等）を入出力装置１００５のモニタやディスプレイ等により行う。なお、この表示３００は、オペレータ端末３０やその他の端末が行ってもよい。

このように、本実施例の声質変換システム１０は、第１の音声（変換元話者音声データベース１００における音声）を複数の部分に分割し、分割した部分のそれぞれに対して確信度２０２を算出し、音声認識の精度が充分でない場合にはその旨を示す情報を出力するので、高精度な声質変換が行われない可能性がある場合にはその旨をユーザに警告することができる。

以上の各実施例の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。

１０声質変換システム、１０００声質変換サーバ、２００音声認識部、２０３有声無声推定部、２０４アクセント推定部、２１５声質変換部、２１５１変換モデル生成部

Claims

入力された音声の音質を異なる声質に変換する、プロセッサ及びメモリを備える声質変換システムであって、
第１の声質を有する音声、及び第２の声質を有する音声をそれぞれ認識する音声認識部と、
前記認識した、第１の声質の音声及び第２の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定部と、
前記認識した、第１の声質の音声及び第２の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定部と、
前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第２の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成部と、
前記生成した変換モデルに基づき、入力された前記第１の声質を有する音声を、前記第２の声質を有する音声に変換する声質変換部とを備える、声質変換システム。
前記第１の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出部と、
前記算出した確信度に基づき、前記第１の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去部とを備え、
前記変換モデル生成部は、前記所定の条件を満たさない部分の音声を除去した前記第１の声質の音声に基づき、前記変換モデルを生成する、
請求項１に記載の声質変換システム。
前記変換した第２の声質を有する音声を出力する音声出力部を備える、請求項１に記載の声質変換システム。
前記低確信度フレーム除去部は、前記第１の声質の音声を、音素の種類に応じて複数のグループに分類し、分類した前記グループのそれぞれの音声のうち前記確信度が所定の条件を満たさない部分の音声を除去する、請求項２に記載の声質変換システム。
前記確信度算出部は、前記第１の音声の確信度を、前記第１の音声の音韻の認識の確からしさとして算出する、請求項２に記載の声質変換システム。
前記推定した第１の音声における有声部分、無声部分、及びアクセントの特徴を有する、前記第２の声質の合成音声を生成する音声合成部を備え、
前記変換モデル生成部は、前記生成した合成音声に基づき、前記変換モデルを生成する、請求項１に記載の声質変換システム。
前記低確信度フレーム除去部は、前記第１の音声を複数の部分に分割し、分割した部分のそれぞれに対して前記確信度を算出し、算出した各前記確信度に基づき前記音声認識の精度が充分であるか否かを判定し、音声認識の精度が充分でないと判定した場合にはその旨を示す情報を出力する、請求項２に記載の声質変換システム。
前記第１の声質の音声又は前記第２の声質の音声における発音のタイミングを、前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正する時間アライメント処理部を備え、
前記変換モデル生成部は、前記修正した前記第１の声質の音声又は前記第２の声質の音声に基づき、前記変換モデルを生成する、
請求項１に記載の声質変換システム。
前記変換した第２の声質を有する音声を出力する音声出力部と、
前記第１の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出部と、
前記算出した確信度に基づき、前記第１の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去部と、
前記第１の声質の音声又は前記第２の声質の音声における発音のタイミングを、前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの部分のタイミングに基づき修正する時間アライメント処理部と、
前記推定した第１の音声における有声部分、無声部分、及びアクセントの特徴を有する、前記第２の声質の合成音声を生成する音声合成部とを備え、
前記確信度算出部は、前記第１の音声の確信度を、前記第１の音声の音韻の認識の確からしさとして算出し、
前記低確信度フレーム除去部は、
前記第１の声質の音声を、音素の種類に応じて複数のグループに分類し、分類した前記グループのそれぞれの音声のうち前記確信度が所定の条件を満たさない部分の音声を除去し、
前記第１の音声を複数の部分に分割し、分割した部分のそれぞれに対して前記確信度を算出し、算出した各前記確信度に基づき音声認識の精度が充分であるか否かを判定し、音声認識の精度が充分でないと判定した場合にはその旨を示す情報を出力し、
前記変換モデル生成部は、前記発音のタイミングを修正した前記第１の声質の音声又は前記第２の声質の音声、前記確信度が所定の条件を満たさない部分を除去した前記第１の声質の音声、及び、前記生成した合成音声に基づき、前記変換モデルを生成する、
請求項１に記載の声質変換システム。
入力された音声の音質を異なる声質に変換する声質変換方法であって、
プロセッサ及びメモリを備える情報処理装置が、
第１の声質を有する音声、及び第２の声質を有する音声をそれぞれ認識する音声認識処理と、
前記認識した、第１の声質の音声及び第２の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定処理と、
前記認識した、第１の声質の音声及び第２の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定処理と、
前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第２の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成処理と、
前記生成した変換モデルに基づき、入力された前記第１の声質を有する音声を、前記第２の声質を有する音声に変換する声質変換処理とを実行する、声質変換方法。
前記第１の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出処理と、
前記算出した確信度に基づき、前記第１の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去処理とを実行し、
前記変換モデル生成処理は、前記所定の条件を満たさない部分の音声を除去した前記第１の声質の音声に基づき、前記変換モデルを生成する、
請求項１０に記載の声質変換方法。
前記変換した第２の声質を有する音声を出力する音声出力処理を実行する、請求項１０に記載の声質変換方法。
入力された音声の音質を異なる声質に変換する声質変換プログラムであって、
プロセッサ及びメモリを備える情報処理装置に、
第１の声質を有する音声、及び第２の声質を有する音声をそれぞれ認識する音声認識処理と、
前記認識した、第１の声質の音声及び第２の声質の音声における有声部分及び無声部分の特徴を推定する有声無声推定処理と、
前記認識した、第１の声質の音声及び第２の声質の音声におけるアクセントの部分の特徴を推定するアクセント推定処理と、
前記推定した第１の声質の音声における有声部分、無声部分、及びアクセントの特徴と、前記推定した第２の声質の音声における有声部分、無声部分、及びアクセントの特徴との関係を推定する変換モデルを生成する変換モデル生成処理と、
前記生成した変換モデルに基づき、入力された前記第１の声質を有する音声を、前記第２の声質を有する音声に変換する声質変換処理とを実行させる、声質変換プログラム。
前記第１の音声を認識する際に、音声認識の確からしさを示す値である確信度を算出する前記確信度算出処理と、
前記算出した確信度に基づき、前記第１の声質の音声のうち所定の条件を満たさない部分の音声を除去する低確信度フレーム除去処理とを実行させ、
前記変換モデル生成処理は、前記所定の条件を満たさない部分の音声を除去した前記第１の声質の音声に基づき、前記変換モデルを生成する、
請求項１３に記載の声質変換プログラム。
前記変換した第２の声質を有する音声を出力する音声出力処理を実行させる、請求項１３に記載の声質変換プログラム。