JP5039865B2

JP5039865B2 - 声質変換装置及びその方法

Info

Publication number: JP5039865B2
Application number: JP2012502798A
Authority: JP
Inventors: 良文廣瀬; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2010-06-04
Filing date: 2011-03-16
Publication date: 2012-10-03
Anticipated expiration: 2031-03-16
Also published as: US20120095767A1; CN102473416A; WO2011151956A1; JPWO2011151956A1

Description

本発明は、音声の声質を変換する声質変換装置に関する。特に、声道情報を変換することにより音声の声質を変換する声質変換装置に関する。

近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となっている。しかし、従来の合成音の用途は、ニュース文をアナウンサー調で読み上げる等の画一的な用途が中心である。

一方、携帯電話のサービスなどでは、携帯電話の着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されている。このように、特徴のある音声がコンテンツとして流通している。例えば、特徴のある音声とは、個人再現性の高い合成音、子供などの年代による、又は、地域特有のなまりなどの特徴的な韻律及び声質をもつ合成音などがある。このように個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作ることに対する要求が高まっている。

人間の音声は、図１７に示すように声帯１６０１の振動により生成される音源波形が、声門１６０２から口唇１６０３までにより構成される声道１６０４を通過する際に、舌などの調音器官による狭めなどの影響を受けることにより生成される。分析合成型音声合成法は、このような音声の生成原理に基づいて音声を分析することにより、音声を声道情報と音源情報に分離し、分離された声道情報と音源情報を変形することにより、合成音の声質を変換することが可能である。例えば、音声の分析方法として、声道音源モデルと呼ばれるモデルが使用される。声道音源モデルによる分析では、音声はその生成過程に基づいて音源情報と声道情報に分離される。分離された音源情報と声道情報をそれぞれ変形することにより声質を変換することができる。

従来、少量の音声を用いて話者特徴を変換する方法として、母音スペクトル包絡を変換するための写像関数を母音毎に複数用意しておき、前後音素の種類（音韻環境）に基づいて選択した写像関数を用いてスペクトル包絡を変換することにより声質変換する声質変換装置が知られている（例えば、特許文献１参照）。図１８に、特許文献１に記載された従来の声質変換装置の機能的な構成を示す。

図１８に示す従来の声質変換装置は、スペクトル包絡抽出部１１と、スペクトル包絡変換部１２と、音声合成部１３と、音声ラベル付与部１４と、音声ラベル情報記憶部１５と、変換ラベル作成部１６と、音素間変換テーブル推定部１７と、変換テーブル選択部１８、スペクトル包絡変換テーブル記憶部１９とを備える。

スペクトル包絡抽出部１１は、変換元話者の入力音声からスペクトル包絡を抽出する。スペクトル包絡変換部１２は、スペクトル包絡抽出部１１により抽出されたスペクトル包絡を変換する。音声合成部１３は、スペクトル包絡変換部１２により変換されたスペクトル包絡から変換先話者の音声を合成する。

音声ラベル付与部１４は、音声ラベル情報を与える。音声ラベル情報記憶部１５は、音声ラベル付与部１４により与えられる上記音声ラベル情報を記憶する。変換ラベル作成部１６は、音声ラベル情報記憶部１５に記憶された上記音声ラベル情報に基づいて、スペクトル包絡を変換するための制御情報を表す変換ラベルを作成する。音素間変換テーブル推定部１７は、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する。変換テーブル選択部１８は、変換ラベル作成部１６により作成された変換ラベルに基づいて、後述するスペクトル包絡変換テーブル記憶部１９からスペクトル包絡変換テーブルを選択する。スペクトル包絡変換テーブル記憶部１９は、学習済みの母音のスペクトル包絡変換規則としての母音スペクトル包絡変換テーブル１９ａおよび子音のスペクトル包絡変換規則としての子音スペクトル包絡変換テーブル１９ｂを記憶している。

変換テーブル選択部１８は、母音スペクトル包絡変換テーブル１９ａおよび子音スペクトル包絡変換テーブル１９ｂから、変換元話者の入力音声を構成する音素の母音及び子音に対応するスペクトル包絡変換テーブルを、それぞれ選択する。音素間変換テーブル推定部１７は、選択されたスペクトル包絡変換テーブルに基づいて、変換元話者の入力音声を構成する音素間のスペクトル包絡変換テーブルを推定する。スペクトル包絡変換部１２は、上記選択されたスペクトル包絡変換テーブルと、推定された音素間のスペクトル包絡変換テーブルとに基づいて、変換元話者の入力音声からスペクトル包絡抽出部１１により抽出されたスペクトル包絡を変換する。音声合成部１３は、変換されたスペクトル包絡から、変換先話者の声質の音声を合成する。

特開２００２−２１５１９８号公報

前記特許文献１の声質変換装置では、声質変換を行なうために、スペクトル包絡を変換するための変換規則を変換元話者の発声した音声の前後の音素の情報である音韻環境に基づいて選択し、選択された変換規則を入力音声のスペクトル包絡に適用することにより入力音声の声質を変換している。

しかしながら、目標となる音声が保有すべき声質は、音韻環境だけから決定することは困難である。

自然な発声における声質は、音声の発話速度、発話内の位置、あるいはアクセント句内における位置など、さまざまな要因に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭度高く発声するが、文末では発音の怠けが発生し、明瞭度が低下する傾向がある。あるいは、変換元話者の発話において、ある単語が強調されている場合は、その単語の声質は、協調されない場合と比較すると明瞭度が高くなる傾向がある。

図１９は、同一話者による先行音素が同一である同じ母音の声道伝達特性を示すグラフである。図１９において、横軸は周波数を表し、縦軸はスペクトル強度を表す。

曲線２０１は「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」と発声した際の「めまい」の／ｍａ／の／ａ／が持つ声道伝達特性を示す。曲線２０２は、「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」と発声した際の／ｍａ／の／ａ／が持つ声道伝達特性を示す。このグラフによると、共振周波数を示すフォルマント（上方向のピーク）の位置及び強さが同じ先行音素を持つ母音同士で比較しても、声道伝達特性が大きく異なることがわかる。

この要因としては、曲線２０１で示される声道伝達特性を有する母音／ａ／は、文頭に近く、かつ内容語（content word）に含まれる音素であるのに対して、曲線２０２で示される声道伝達特性を有する母音／ａ／は、文末に近く、かつ機能語（function word）に含まれる音素であると言うことが挙げられる。また、聴感上においても、曲線２０１で示される声道伝達特性を有する母音／ａ／の方がより明瞭に聞こえる。ここで、機能語とは、文法的な役割を有する語であり、英語においては、前置詞（preposition）、接続詞（conjunction）、冠詞（article）、助動詞（adverb）などが含まれる。また、内容語とは、それ以外の一般的な意味を有する語であり、英語においては、名詞（noun）、形容詞（adjective）、動詞（verb）、副詞（adverb）などが含まれる。

このように、自然な発話においては、文章内の位置により発声方法が異なる。つまり、「ハキハキと発声し、明瞭な音声」又は「怠けて発声し、不明瞭な音声」といった意識的あるいは無意識の発声方法の違いがある。このような発声方法の違いを以後「発声様態」と呼ぶ。

発声様態は音韻環境だけではなく、その他の様々な言語的及び生理的な影響を受けて変動している。

特許文献１の声質変換装置は、そのような発声様態の変動を考慮することなく、音韻環境を用いて写像関数を選択し、声質変換を行っているため、声質変換後の音声の発声様態は、変換元話者の発声が持つ発声様態とは異なるものとなる。その結果、声質変換後の音声における発声様態の時間変化パターンは、変換元話者の発声の時間変化パターンとは異なったものとなり、非常に不自然な音声となる。

この発声様態の時間変化について、図２０の概念図を用いて説明する。図２０（ａ）は、入力音声として発声された音声「めまいがします／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／」に対して、音声に含まれる各母音の発声様態（明瞭度）の変化を示している。Ｘの領域は、はっきりした発声であり、明瞭度が高い音韻を示す。Ｙの領域は、怠けた発声であり明瞭度が低い音韻を示している。例えば、このように前半は、明瞭度が高い発声様態であり、後半は明瞭度が低い発声様態を示す。

一方、図２０（ｂ）は、音韻環境のみによって変換規則を選択し声質変換を行なった場合の変換音声が持つ発声様態の時間変化のイメージ図である。音韻環境のみを基準に変換規則を選択しているため、発声様態は入力音声の特徴と関係なく変動する。例えば、図２０（ｂ）のように発声様態が変動した場合、はっきりと明瞭度を高く発声する母音（／ａ／）と、怠けて明瞭度を低く発声する母音（／ｅ／、／ｉ／）が交互に繰り返すような発声様態の変換音声が得られることになる。

また、図２１は、「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」と発声した音声に対して、ハッキリと明瞭度高く発声した場合の／ａ／を用いて声質変換した場合のフォルマント４０１の動きの一例を示している。

図２１において、横軸は時刻、縦軸はフォルマント周波数を示し、周波数の低い方から第１、第２及び第３フォルマントを表している。／ｍａ／において、別の発声様態（ハッキリと明瞭度高く発声）の母音／ａ／への変換を行った後のフォルマント４０２は、元の発声のフォルマント４０１と周波数が大きく異なることがわかる。このようにフォルマント周波数が大きく異なる変換を実施する場合には、図中の破線に示すように各フォルマント４０２の時間的な動きが大きくなることから、声質が異なるだけでなく声質変換後の音質も劣化する。

このように発声様態の時間変化パターンが入力音声の時間変化パターンと異なると、声質変換後の音声における発声様態の変化の自然性を保持することができなくなり、結果として声質変換音声の自然性が大きく劣化するという課題を有している。

本発明は、前記従来の課題を解決するもので、変換元話者の発声が保有する発声様態の時間的変動を保持しながら声質を変換することで、声質変換時の自然性、言い換えれば流暢さが低下しない声質変換装置を提供することを目的とする。

本発明のある局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出部と、前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部と、互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部と、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択部と、前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部とを備える。

この構成によると、入力音声の開口度と一致する開口度を有する母音情報が選択される。このため、入力音声と、発声様態（ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声）が同一の母音を選択することができる。したがって、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性（流暢さ）を劣化させない声質変換が可能となる。

また、音韻環境の距離と開口度の一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。

また、母音情報を選択する際に、目標母音データベース記憶部に記憶されている母音情報の数が大きいほど、音韻環境の距離の重みを大きくしている。これにより、目標母音データベース記憶部に記憶されている母音情報の数が少ない場合には、開口度の一致度を優先することにより、音韻環境の類似性が高い母音がない場合においても、開口度一致度の高い母音の母音情報を選択することにより、発声様態が一致した母音情報が選択される。これにより、全体として自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。

一方、目標母音データベース記憶部に記憶されている母音情報の数が多い場合には、音韻環境の距離と開口度の一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、従来の音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。

好ましくは、前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する。

この構成によると、話者毎に正規化した開口度を用いて開口度の一致度を算出している。このため、発声様態の異なる話者（例えば、はっきりと明瞭にしゃべる話者と、こもった声でぼそぼそとしゃべる話者）を区別した上で一致度を算出することができる。よって、話者の発声様態に合致した適切な母音情報を選択することができるため、話者毎に自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。

また、前記開口度一致度算出部は、互いに母音種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出してもよい。

この構成によると、母音の種類毎に正規化した開口度を用いて開口度の一致度を算出している。このため、母音の種類を区別した上で一致度を算出することができる。よって、母音毎に適切な母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。

さらに、前記開口度一致度算出部は、前記一致度として、互いに母音種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出してもよい。

この構成によると、開口度の変化に基づいて開口度の一致度を算出することができる。このため、先行する母音の開口度を加味した上で母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。

本発明の他の局面に係る声質変換装置は、入力音声の声質を変換する声質変換装置であって、入力音声を声道情報と音源情報とに分離する声道音源分離部と、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出部と、目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む複数の母音情報を参照し、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部と、前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択部と、前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部とを備える。

なお、本発明は、このような特徴的な処理部を備える声質変換装置として実現することができるだけでなく、声質変換装置に含まれる特徴的な処理部が実行する処理をステップとする声質変換方法として実現することができる。また、声質変換方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログラムを、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等のコンピュータ読取可能な不揮発性の記録媒体又はインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

本発明に係る声質変換装置によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを維持することが可能となる。つまり、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、自然性（流暢さ）を劣化させない声質変換が可能となる。

図１は、発声様態による声道断面積関数の違いを示す図である。図２は、本発明の実施の形態に係る声質変換装置の機能的な構成を示すブロック図である。図３は、声道断面積関数の例を示す図である。図４は、発声内における開口度の時間変化パターンを示す図である。図５は、目標母音ＤＢ記憶部に記憶される目標母音の構築方法を示すフローチャートである。図６は、目標母音ＤＢ記憶部に記憶されている母音情報の例を示す図である。図７は、母音変形部により変換された母音区間のＰＡＲＣＯＲ係数を示す図である。図８は、母音変形部により変換された母音の声道断面積関数を示す図である。図９は、本発明の実施の形態に係る声質変換装置が実行する処理のフローチャートである。図１０は、本発明の実施の形態の変形例１に係る声質変換装置の機能的な構成を示すブロック図である。図１１は、本発明の実施の形態の変形例１に係る声質変換装置が実行する処理のフローチャートである。図１２は、本発明の実施の形態の変形例２に係る声質変換システムの機能的な構成を示すブロック図である。図１３は、本発明を実施するための声質変換装置の最小構成を示すブロック図である。図１４は、目標母音ＤＢ記憶部に記憶されている母音情報の最小構成を示す図である。図１５は、声質変換装置の外観図である。図１６は、声質変換装置のハードウェア構成を示すブロック図である。図１７は、人間の顔の断面図である。図１８は、従来の声質変換装置の機能的な構成を示すブロック図である。図１９は、発声様態による声道伝達特性の違いを示す図である。図２０は、発声様態の時間的変動を示す概念図である。図２１は、発声様態の違いによるフォルマント周波数の違いの一例を示す図である。

以下、本発明の実施の形態について、図面を参照しながら説明する。

ここでは目標となる音声（目標音声）の特性を有する母音の母音情報を選択し、変換元の音声（入力音声）の母音区間の特性に対して、所定の演算を行うことにより声質変換を行う方法を例に取り説明を行う。

既に述べたように、声質変換を行なう際には、入力音声における発声様態（ハッキリと明瞭度の高い発声又は怠けた明瞭度の低い発声）の時間的な変動を保持することが重要である。

発声様態は、例えば音声の発話速度、発話内の位置、あるいは、アクセント句内における位置に影響を受ける。例えば、自然な発話においては、文頭ははっきりと明瞭に発声するが、文末では怠けが発生し、明瞭度が低下する傾向がある。また、変換元話者の発話において、ある単語が強調されている場合の発声様態は、強調されていない場合の発声様態と異なる。

しかしながら、従来技術のように入力音声における音韻環境を考慮した上で、それに加えて発話内位置、アクセント句内位置、単語の強調などの情報を全て考慮した母音選択法を実現することは困難である。なぜならば、それら全てのパターンを網羅すると、目標音声の情報を大量に用意する必要があるからである。

例えば、素片接続型の音声規則合成システムでは、素片データベースを構築する際に数時間から数十時間の音声を用意することも珍しくない。声質変換においてもそのような大量の目標音声を収集することは考えられる。しかし、それが可能であるならば声質変換技術を用いるまでもなく、収集した目標音声を用いて素片接続型音声合成システムを構築すれば良い。

すなわち、声質変換技術の利点は、素片接続型音声合成システムと比較して少量の目標音声を用いて目標声質の合成音を得ることにある。

本実施の形態に示す声質変換装置によると、少量の目標音声を用い、かつ前述の発声様態を考慮すると言う、相反する課題を克服することが可能である。

図１（ａ）は、前述の「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」と発声した際の「めまい」の／ｍａ／の／ａ／の対数声道断面積関数を示し、図１（ｂ）は、「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」と発声した際の／ｍａ／の／ａ／の対数声道断面積関数を示す。

図１（ａ）の／ａ／は、文頭に近く、また内容語（自立語）であることから、発声様態としてはハッキリと明瞭に発話されている。一方、図１（ｂ）の／ａ／は、文末に近く、発声様態としては怠けが発生し、明瞭さが低い。

本願発明者らは、このような発声様態の違いと対数声道断面積関数の関係を注意深く観察することにより、発声様態が口腔内の容積と関連がある知見を見出した。

つまり、口腔内の容積が大きいほど、発声様態はハッキリと明瞭である傾向があり、逆に口腔内の容積が小さいほど、発声様態は怠けを伴い、明瞭度が低い傾向がある。

音声から算出可能な口腔内容積を開口度の指標とすることによって、目標音声データから所望の発声様態を有する母音を探し出すことが可能となる。発声様態を口腔内容積と言う一つの値で表すことにより、発話内位置、アクセント句内位置、又は強調の有無と言った多様な組み合わせの情報を考慮する必要がなくなるため、少量の目標音声データから所望の特性を有する母音を探し出すことが可能になる。さらに、音韻環境を全ての音素で区別するのではなく、特性が近い音素を一つのカテゴリとして音韻環境の種類を削減することにより、目標音声データの必要量を少なくすることが可能となる。

一言で言うと、本発明では、口腔内の容積を用いることにより発声様態の時間的な変動を保存し、自然性の劣化が少ない声質変換を実現する。

図２は、本発明の実施の形態に係る声質変換装置の機能的な構成を示すブロック図である。

声質変換装置は、声道音源分離部１０１と、開口度算出部１０２と、目標母音ＤＢ（データベース）記憶部１０３と、開口度一致度算出部１０４と、目標母音選択部１０５と、母音変形部１０６と、音源生成部１０７と、合成部１０８とを備える。

声道音源分離部１０１は、入力音声を声道情報と音源情報に分離する。

開口度算出部１０２は、声道音源分離部１０１により分離された母音の声道情報を用いて、入力音声の各時刻における声道断面積から開口度を算出する。つまり、開口度算出部１０２は、声道音源分離部１０１により分離された入力音声の声道情報から口腔内の容積に対応する開口度を算出する。

目標母音ＤＢ記憶部１０３は、目標となる声質の母音情報を複数記憶している記憶装置である。つまり、目標母音ＤＢ記憶部１０３は、入力音声の声質を変換する目標となる目標話者に関する、母音種類と開口度の情報と声道情報とを含む母音情報を複数記憶している。母音情報の詳細は後述する。

開口度一致度算出部１０４は、互いに母音種類が一致する、開口度算出部１０２が算出した開口度と、目標母音データベース記憶部１０３に記憶されている各母音情報に含まれる開口度との一致度を算出する。

目標母音選択部１０５は、開口度一致度算出部１０４により算出された一致度に基づいて、目標母音ＤＢ記憶部１０３に記憶されている母音情報の中から、入力音声に含まれる母音の声道情報を変換するための母音情報を選択する。

母音変形部１０６は、目標母音選択部１０５により選択された母音情報に含まれる声道情報を用いて、入力音声の各母音の声道情報を変形することにより、声質を変換する。

音源生成部１０７は、声道音源分離部１０１により分離された音源情報を用いて、音源波形を生成する。

合成部１０８は、母音変形部１０６により声質変換された声道情報と、音源生成部１０７により生成された音源波形を用いて、合成音を生成する。

以上のように構成された声質変換装置により、入力音声の発声様態の時間的な変動を保持しながら目標母音ＤＢ記憶部１０３が保持する声質への変換が可能となる。

以下、それぞれの構成要素について詳しく説明する。

＜声道音源分離部１０１＞
声道音源分離部１０１は、入力音声に対して、声道音源モデル（音声の発声機構をモデル化した音声生成モデル）を用いて、声道情報と音源情報の分離を行なう。分離に用いる声道音源モデルに制限はなく、どのようなモデルであっても良い。

例えば、声道音源モデルとして線形予測モデル（ＬＰＣモデル）を用いた場合、音声波形のある標本値ｓ（ｎ）をそれより前のｐ個の標本値から予測するものであり、標本値ｓ（ｎ）は、式１のように表せる。

ｐ個の標本値に対する係数α_i（ｉ＝ｎ−１〜ｎ−ｐ）は、相関法又は共分散法などを用いることにより算出できる。算出した係数を用いると入力された音声信号は、式２により生成することができる。

ここで、Ｓ（ｚ）は音声信号ｓ（ｎ）のｚ変換後の値であり、Ｕ（ｚ）は、は音源信号ｕ（ｎ）のｚ変換後の値であり、入力音声Ｓ（ｚ）を声道情報１／Ａ（ｚ）で逆フィルタリングした信号を表す。

声道音源分離部１０１は、さらに、ＬＰＣ分析により分析された線形予測係数を用いて、ＰＡＲＣＯＲ係数（偏自己相関係数）を算出するようにしてもよい。ＰＡＲＣＯＲ係数は、線形予測係数と比較して、補間特性が良いことが知られている。ＰＡＲＣＯＲ係数は、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ−Ｉｔａｋｕｒａアルゴリズムを用いることにより算出することが可能である。なお、ＰＡＲＣＯＲ係数は、次の２つの特徴を有する。

（特徴１）低次の係数ほどその変動によるスペクトルへの影響が大きく、高次になるにつれて変動の影響が小さくなる。

（特徴２）高次の係数の変動の影響は、平坦に全域にわたる。

以下の説明では、声道情報として、ＰＡＲＣＯＲ係数を用いて説明する。なお、用いる声道情報はＰＡＲＣＯＲ係数に限らず、線形予測係数を用いても良い。さらには線スペクトル対（ＬＳＰ）を用いてもよい。

また、声道音源分離部１０１は、声道音源モデルとしてＡＲＸモデルを用いた場合、ＡＲＸ(Autoregressive with exogenous input)分析を用いて、声道と音源を分離する。ＡＲＸ分析は、音源として数式音源モデルを用いる点がＬＰＣ分析と大きく異なる。また、ＡＲＸ分析では、ＬＰＣ分析と異なり、分析区間内に複数の基本周期を含んだ場合においても、より正確に声道と音源の情報を分離できる（非特許文献１：大塚、粕谷、「音源パルス列を考慮した頑健なＡＲＸ音声分析法」、日本音響学会誌５８巻７号、２００２年、ｐｐ．３８６−３９７）。

ＡＲＸ分析では、音声は式３に示す生成過程により生成される。式３において、Ｓ（ｚ）は、音声信号ｓ（ｎ）のｚ変換後の値を表す。Ｕ（ｚ）は、有声音源信号ｕ（ｎ）のｚ変換後の値を表す。Ｅ（ｚ）は、無声雑音音源ｅ（ｎ）のｚ変換後の値を表す。つまり、ＡＲＸ分析では、有声音は式３の右辺第１項により音声が生成され、無声音は右辺第２項により生成される。

このとき、有声音源信号ｕ（ｔ）＝ｕ（ｎＴｓ）のモデルとして、式４に示す音モデルを用いる。ここで、Ｔｓは、サンプリング周期を示す。

ただし、ＡＶは有声音源振幅、Ｔ０は基本周期、ＯＱは声門開放率を表わす。有声音の場合は式４の第１項が使用され、無声音の場合は式４の第２項が使用される。声門開放率ＯＱは、１基本周期における声門が開放されている割合を示す。声門開放率ＯＱの値が大きいほどやわらかい音声となる傾向があることが知られている。

ＡＲＸ分析は、ＬＰＣ分析と比較して以下の利点がある。

（利点１）分析窓内に複数の基本周期に対応した音源パルス列を配して分析を行っているため、女性又は子供など高ピッチ音声でも安定に声道情報を抽出できる。

（利点２）特に、基本周波数Ｆ０と第１フォルマント周波数Ｆ１とが接近している／ｉ／、／ｕ／などの狭母音の声道音源分離性能が高い。

有声音区間では、ＬＰＣ分析の場合と同様に、Ｕ（ｚ）は、入力音声Ｓ（ｚ）を声道情報１／Ａ（ｚ）で逆フィルタリングすることにより得ることができる。

ＬＰＣ分析の場合と同様に、ＡＲＸ分析においても、声道情報１／Ａ（ｚ）は、ＬＰＣ分析におけるシステム関数と同じ形式である。このことから、声道音源分離部１０１は、ＬＰＣ分析と同様の方法により、声道情報をＰＡＲＣＯＲ係数に変換するようにしても良い。

＜開口度算出部１０２＞
開口度算出部１０２は、声道音源分離部１０１により分離された声道情報を用いて、入力音声に含まれる母音系列に対して、母音毎に口腔内の容積に対応する開口度を算出する。例えば「お湯が出ません（／ｏｙｕｇａｄｅｍａｓｅＮ／）」という入力音声の場合、母音系列（Ｖｎ＝｛／ｏ／，／ｕ／，／ａ／，／ｅ／，／ａ／，／ｅ／｝）に対して、母音毎に開口度を算出する。

具体的には、開口度算出部１０２は、声道情報として抽出されたＰＡＲＣＯＲ係数から式５を用いて、声道断面積関数を算出する。

ここで、ｋ_iは、ｉ次のＰＡＲＣＯＲ係数、Ａ_iは、ｉ番目の声道断面積を表し、Ａ_N+1＝１とする。

図３は、ある発声の母音／ａ／の対数声道断面積関数を示す図である。声門から口唇までの声道を１１個の区間（セクション）に分割しており（Ｎ＝１０）、横軸がセクション番号を示し、縦軸が対数声道断面積を示す。また、セクション１１が声門を表し、セクション１が口唇を表す。

この図において、網掛け領域は概ね口腔内と考えることができる。そこで、セクション１からセクションＴまでを口腔内と考えると（図３ではＴ＝５）、開口度Ｃは式６により定義することができる。ここでＴは、ＬＰＣ分析あるいはＡＲＸ分析の次数に応じて変更することが望ましい。例えば１０次のＬＰＣ分析の場合、３乃至５程度が望ましい。ただし、具体的な次数については限定するものではない。

開口度算出部１０２は、式６で定義される開口度Ｃを入力音声に含まれる各母音に対して算出する。または、式７に示すように対数断面積和により算出するようにしてもよい。

図４に、「めまいがします（／ｍｅｍａｉｇａｓｈｉｍａｓｘｕ／）」という発声において、式６に従って算出された開口度の時間的な変化を示す。

このように開口度は、時間的に変動しており、この時間変化パターンを崩すと、自然性が劣化する。

このように声道断面積関数を用いて算出される開口度（口腔内の容積）を用いることにより、単に口唇の開き具合だけではなく、外界から直接観測できない、口腔内の形状（例えば舌の位置）も考慮することができる。

＜目標母音ＤＢ記憶部１０３＞
目標母音ＤＢ記憶部１０３は、声質変換する際に目標となる声質の母音情報を記憶している記憶装置である。母音情報は予め準備され、目標母音ＤＢ記憶部１０３に記憶されているものとする。目標母音ＤＢ記憶部１０３に記憶されている母音情報の構築例について、図５のフローチャートを用いて説明する。

ステップＳ１０１では、目標となる声質を持つ話者に文章を発話してもらい文セットが収録される。文章数は限定するものではないが、数文から数十文規模の音声が収録される。１種類の母音に対して少なくとも２個以上の発声が得られるように音声が収録される。

ステップＳ１０２では、収録した文セットの音声に対して声道音源分離が行われる。具体的には、声道音源分離部１０１を用いて発話された文セットの音声の声道情報が分離される。

ステップＳ１０３では、ステップＳ１０２において分離された声道情報から、母音に相当する区間が抽出される。抽出方法は特に限定しない。人により母音区間を抽出しても良いし、自動ラベリング手法を用いて、母音区間を自動抽出しても良い。

ステップＳ１０４では、ステップＳ１０３において抽出された各母音区間に対して、開口度が算出される。具体的には、開口度算出部１０２を用いて開口度を算出する。開口度算出部１０２は、抽出した母音区間の中心部における開口度を算出するようにする。もちろん中心部だけではなく、母音区間の特徴を全て算出するようにしても良いし、母音区間の開口度の平均値を算出しても良い。あるいは、母音区間の開口度の中央値を算出しても良い。

ステップＳ１０５では、ステップＳ１０４において算出された母音の開口度と、声質変換を行なう際に用いられる情報とが母音毎に母音情報として目標母音ＤＢ記憶部１０３に登録される。具体的には、図６に示すように、母音情報は、母音情報を識別する母音番号、母音種類、母音区間の声道情報であるＰＡＲＣＯＲ係数、開口度、母音の音韻環境（例えば前後音素情報、前後音節情報、又は前後音素の調音点など）、母音区間における音源情報（スペクトル傾斜又は声門開放度など）、及び韻律情報（基本周波数、パワーなど）を含む。

＜開口度一致度算出部１０４＞
開口度一致度算出部１０４は、開口度算出部１０２により算出された入力音声に含まれる各母音の開口度（Ｃ）と、目標母音ＤＢ記憶部１０３に記憶されている入力音声に含まれる母音と同じ母音種類の母音情報とを比較して、開口度の一致度を算出する。

本実施の形態において、開口度一致度Ｓ_ijは、以下のいずれかの算出方法により算出することができる。なお、開口度一致度Ｓ_ijは、２つの開口度が一致するほど小さい値を示し、一致しないほど大きな値を示す。なお、開口度一致度の値が大きいほど、開口度が一致しているように、開口度一致度を設定することもできる。

（第１の算出方法）
開口度一致度算出部１０４は、式８に示すように開口度算出部１０２により算出された開口度Ｃ_iと、目標母音ＤＢ記憶部１０３に記憶された入力音声に含まれる母音と同じ母音種類の母音情報の開口度Ｃ_jとの差分により開口度一致度Ｓ_ijを算出する。

（第２の算出方法）
開口度一致度算出部１０４は、式９に示すように、話者正規化開口度Ｃ_i ^Sと話者正規化開口度Ｃ_j ^Sとの差分により開口度一致度Ｓ_ijを算出する。ここで、話者正規化開口度Ｃ_i ^Sは、開口度算出部１０２により算出された開口度Ｃ_iを、話者毎に入力音声の開口度の平均値および標準偏差により正規化した開口度である。また、話者正規化開口度Ｃ_j ^Sは、目標母音ＤＢ記憶部１０３に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Ｃ_jを目標話者の開口度の平均値と標準偏差により正規化した開口度である。

第２の算出方法によると、話者毎に正規化した開口度を用いて開口度一致度を算出している。このため、発声様態の異なる話者（例えば、はっきりと明瞭にしゃべる話者と、こもった声でぼそぼそとしゃべる話者）を区別した上で開口度一致度を算出することができる。よって、話者の発声様態に合致した適切な母音情報を選択することができるため、話者毎に自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。

正規化した開口度（Ｃ_i ^S）は、例えば、式１０により算出することができる。

ただし、μ^Sは対象話者の開口度の平均値、σ^Sは標準偏差を示す。

（第３の算出方法）
開口度一致度算出部１０４は、式１１に示すように音韻正規化開口度Ｃ_i ^Pと、音韻正規化開口度Ｃ_j ^Pとの差分により開口度一致度Ｓ_ijを算出する。ここで、音韻正規化開口度Ｃ_i ^Pは、開口度算出部１０２により算出された開口度Ｃ_iを入力音声の当該母音の開口度の平均値および標準偏差により正規化した開口度である。また、音韻正規化開口度Ｃ_j ^Pは、目標母音ＤＢ記憶部１０３に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Ｃ_jを目標話者の当該母音の開口度の平均値と標準偏差により正規化した開口度である。

音韻正規化開口度Ｃ_i ^Pは、例えば、式１２により算出することができる。

ただし、μ^Pは対象話者の対象母音の開口度の平均値、σ^Pは標準偏差を示す。

第３の算出方法によると、母音の種類毎に正規化した開口度を用いて開口度一致度を算出している。このため、母音の種類を区別した上で開口度一致度を算出することができる。よって、母音毎に適切な母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。

（第４の算出方法）
開口度一致度算出部１０４は、式１３に示すように開口度差分値Ｃ_i ^Dと、開口度差分値Ｃ_j ^Dとの差分により開口度一致度Ｓ_ijを算出する。ここで、開口度差分値Ｃ_i ^Dは、開口度算出部１０２により算出された開口度Ｃ_iと入力音声の開口度Ｃ_iに対応する母音に先行する母音の開口度との差分を示す開口度である。また、開口度差分値Ｃ_j ^Dは、目標母音ＤＢ記憶部１０３に記憶された入力音声に含まれる母音と同じ母音種類のデータの開口度Ｃ_jと、当該母音の先行母音の開口度との差分を示す開口度である。なお、第４の算出方法により開口度一致度を算出する場合には、図６に示す目標母音ＤＢ記憶部１０３の各母音情報に、開口度差分値Ｃ_j ^D、又は先行母音の開口度が含まれていることとする。

開口度差分値Ｃ_i ^Dは、例えば、式１４により算出することができる。

ただし、Ｃ_i-1は、Ｃ_iの一つ前の母音の開口度を示す。

第４の算出方法によると、開口度の変化に基づいて開口度一致度を算出することができる。このため、先行する母音の開口度を加味した上で母音情報を選択することができるため、自然な発声様態の時間変化パターンを再現することができ、自然性の高い声質変換音声を得ることができる。

＜目標母音選択部１０５＞
目標母音選択部１０５は、開口度一致度算出部１０４により算出された一致度に基づいて、入力音声に含まれる各母音に対して、目標母音ＤＢ記憶部１０３から母音情報を選択する。

具体的には、目標母音選択部１０５は、入力音声に含まれる母音系列に対して、開口度一致度算出部１０４が算出した開口度一致度が最小になる母音情報を目標母音ＤＢ記憶部１０３から選択する。つまり、目標母音選択部１０５は、入力音声に含まれる母音系列に対して、母音毎に最も開口度が一致している母音情報を、目標母音ＤＢ記憶部１０３に記憶されている母音情報の中から選択する。

＜母音変形部１０６＞
母音変形部１０６は、入力音声に含まれる母音系列のそれぞれの母音の声道情報を、目標母音選択部１０５により選択された母音情報が持つ声道情報へ変形（変換）する。

詳細な変換方法を以下に説明する。

母音変形部１０６は、入力音声に含まれる母音系列の各母音に対して、母音区間のＰＡＲＣＯＲ係数で表現された声道情報の各次元の系列を、式１５に示す多項式により近似する。例えば１０次のＰＡＲＣＯＲ係数は、それぞれの次数において、式１５に示す多項式により近似される。これにより、１０種類の多項式を得ることができる。多項式の次数は特に限定するものではなく、適当な次数を設定することができる。

ここで、

は、多項式により近似されたＰＡＲＣＯＲ係数、ａ_iは多項式の係数、ｘは時刻を示す。

このとき、多項式近似を適用する単位としては、例えば、一つの音素区間を近似の単位とすることができる。また、音素区間ではなく、音素中心から次音素中心までを時間幅を近似の単位とするようにしても良い。なお、以下の説明では、音素区間を単位として説明を行う。

多項式の次数としては、例えば、５次が想定されるが、多項式の次数は５次でなくとも良い。なお、多項式による近似以外にも音素単位時間毎の回帰直線により近似するようにしても良い。

同様に、母音変形部１０６は、目標母音選択部１０５により選択された母音情報においてＰＡＲＣＯＲ係数で表現された声道情報を、式１６に示す多項式により近似し、多項式の係数ｂ_iを取得する。

ここで、

は、多項式により近似されたＰＡＲＣＯＲ係数、ｂ_iは多項式の係数、ｘは時刻を示す。

次に、母音変形部１０６は、入力音声に含まれる母音のＰＡＲＣＯＲ係数の多項式の係数（ａ_i）と、目標母音選択部１０５で選択された母音情報のＰＡＲＣＯＲ係数の多項式の係数（ｂ_i）と、変換比率（ｒ）とを用いて、変形後のＰＡＲＣＯＲ係数の多項式の係数ｃ_iを式１７により求める。

通常、変換比率ｒは、−１≦ｒ≦１の範囲で指定される。

しかし、変換比率ｒがその範囲を超える場合においても、式１７により係数を変換することは可能である。ｒが１を超える場合は、被変換声道情報（ａ_i）と目標母音声道情報（ｂ_i）との差分をさらに強調するような変換になる。一方、変換比率ｒが負の値の場合は、被変換声道情報（ａ_i）と目標母音声道情報（ｂ_i）との差分を逆方向にさらに強調するような変換になる。

母音変形部１０６は、算出した変換後の多項式の係数ｃ_iを用いて、変形後の声道情報を式１８で求める。

以上の変換をＰＡＲＣＯＲ係数の各次元において計算することにより、目標母音選択部１０５により選択された母音情報のＰＡＲＣＯＲ係数へ、指定された変換比率での変換が可能になる。

実際に、母音／ａ／に対して、上記の変換を行った例を図７に示す。同図において、横軸は、正規化された時間を表し、縦軸は、１次元目のＰＡＲＣＯＲ係数を表す。正規化された時間とは、母音区間の継続時間長で、時間を正規化することにより、０から１までの値をとる時刻のことである。これは、被変換音声の母音継続時間と、目標母音選択部１０５により選択された母音情報（以下、「目標母音情報」と言う。）の継続時間とが異なる場合において、時間軸をそろえるための処理である。図７の（ａ）は男性話者の／ａ／の発声の係数の推移を示している。同様に（ｂ）は女性話者の／ａ／の発声の係数の推移を示している。（ｃ）は上記変換方法を用いて、男性話者の係数を女性話者の係数に変換比率０．５で変換した際の係数の推移を示している。図７から分かるように、上記の変形方法により、話者間のＰＡＲＣＯＲ係数を補間できていることがわかる。

音素境界でＰＡＲＣＯＲ係数の値が不連続になるのを防止するために、母音変形部１０６は、音素境界において適当な過渡区間を設けて補間処理を行う。補間の方法は特に限定するものではないが例えば線形補間によりＰＡＲＣＯＲ係数の不連続を解消してもよい。

図８に変換した母音区間の時間的な中心における声道断面積を示す。図８は、図７に示したＰＡＲＣＯＲ係数の時間的な中心点におけるＰＡＲＣＯＲ係数を式５により声道断面積に変換した後の、声道断面積のグラフである。

図８（ａ）は変換元の男性話者の声道断面積を示すグラフであり、図８（ｂ）は目標話者の女性の声道断面積を示すグラフであり、図８（ｃ）は変換比率０．５で変換したときの声道断面積を示すグラフである。この図からも、図８（ｃ）は変換元と変換先の間の中間の声道形状を表していることがわかる。

＜音源生成部１０７＞
音源生成部１０７は、声道音源分離部１０１により分離された音源情報を用いて声質変換後の合成音の音源情報を生成する。

具体的には、音源生成部１０７は、入力音声の基本周波数又はパワーを変更することにより、目標となる声質の音源情報を生成する。基本周波数又はパワーの変更方法は特に限定するものではないが、音源生成部１０７は、例えば、目標母音情報に含まれる平均基本周波数および平均パワーが一致するように入力音声の音源情報の基本周波数およびパワーを変更する。具体的には平均基本周波数を変換する場合には、ＰＳＯＬＡ法（pitch synchronous overlap add）（非特許文献２：「Diphone Synthesis using an Overlap-Add technique for Speech Waveforms Concatenation」Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing. 1997, pp.2015-2018）を用いることにより音源情報の基本周波数を変更することができる。また、ＰＳＯＬＡ法により基本周波数を変更する際にピッチ波形毎にパワーを調整することで、入力音声のパワーを変換することができる。

＜合成部１０８＞
合成部１０８は、母音変形部１０６により変換された声道情報と、音源生成部１０７により生成された音源情報を用いて、音声を合成する。合成の方法は特に限定するものではないが、声道情報としてＰＡＲＣＯＲ係数を用いている場合は、ＰＡＲＣＯＲ合成を用いればよい。あるいは、ＰＡＲＣＯＲ係数からＬＰＣ係数に変換した後に合成してもよいし、フォルマントを抽出し、フォルマント合成により合成してもよい。さらにはＰＡＲＣＯＲ係数からＬＳＰ係数を算出しＬＳＰ合成により合成するようにしてもよい。

（フローチャート）
本実施の形態に係る声質変換装置の具体的な動作に関して図９に示すフローチャートを用いて説明する。

声道音源分離部１０１は、入力音声を声道情報と音源情報とに分離する（ステップＳ１０１）。開口度算出部１０２は、ステップＳ１０１で分離された声道情報を用いて、入力音声に含まれる母音系列の開口度を算出する（ステップＳ００２）。

開口度一致度算出部１０４は、ステップＳ００２で算出された入力音声に含まれる母音系列の各母音の開口度と、目標母音ＤＢ記憶部１０３に記憶されている目標母音候補（母音種類が入力音声に含まれる母音と一致する母音情報）の開口度との開口度一致度を算出する（ステップＳ００３）。

目標母音選択部１０５は、ステップＳ００３において算出された開口度一致度に基づいて、入力音声に含まれる母音系列のそれぞれの母音に対して目標母音の母音情報を選択する（ステップＳ００４）。つまり、目標母音選択部１０５は、入力音声に含まれる母音系列に対して、母音毎に最も開口度が一致している母音情報を、目標母音ＤＢ記憶部１０３に記憶されている母音情報の中から選択する。

母音変形部１０６は、入力音声に含まれる母音系列のそれぞれの母音に対して、ステップＳ００４で選択された目標母音の母音情報を用いて、声道情報を変形する（ステップＳ００５）。

音源生成部１０７は、ステップＳ００１において分離された入力音声の音源情報を用いて、音源波形を生成する（ステップＳ００６）。

合成部１０８は、ステップＳ００５において変形された声道情報と、ステップＳ００６において生成された音源波形を用いて、音声を合成する（ステップＳ００７）。

（効果）
かかる構成によれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性（流暢さ）を劣化させない声質変換が可能となる。

例えば、図２０（ａ）に示すような入力音声に含まれる各母音の発声様態（明瞭度）の変化パターン（はっきり又は怠けの時間パターン）と、声質変換後の音声の発声様態の変化パターンとが、同じになる。このため、音声の発声様態の不自然さに起因する音質の劣化が生じない。

また、目標母音の選択基準として、入力音声に含まれる母音系列における口腔内の容積（開口度）を用いているため、入力音声の言語的、生理的な諸条件を直接考慮した場合と比較すると、目標母音ＤＢ記憶部１０３に記憶される母音情報のサイズを小さくできるという効果も有する。

なお、本実施の形態では、日本語の音声について説明を行なったが、本発明の適用範囲は日本語に限るものではなく、英語をはじめ他の言語においても同様に声質変換を行なうことができる。

例えば、“ＣａｎＩｍａｋｅａｐｈｏｎｅｃａｌｌｆｒｏｍｔｈｉｓｐｌａｎｅ？”と発声した場合において、文末のｐｌａｎｅの／ｅ／と、“ＭａｙＩｈａｖｅａｔｈｅｒｍｏｍｅｔｅｒ？”の文頭のＭａｙの／ｅ／との発声様態は異なる。また、日本語と同様に文内位置、内容語若しくは機能語の種別、又は強調の有無などによりその発声様態は変化することから、音韻環境のみから目標母音の母音情報を選択すると、日本語と同様に発声様態の時間的変化パターンが崩れる。このことに起因し、声質変換音声の自然性は劣化する。したがって、英語においても開口度を基準に目標母音の母音情報を選択することにより、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声には、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性（流暢さ）を劣化させない声質変換ができる。

（変形例１）
図１０は、本発明の実施の形態の声質変換装置の変形例の機能的な構成を示すブロック図である。図１０において、図２と同じ構成要素については同じ符号を用い、説明を省略する。

本変形例では、目標母音選択部１０５が目標母音ＤＢ記憶部１０３から目標母音の母音情報を選択する際に、開口度一致度算出部１０４により算出される開口度一致度だけではなく、入力音声に含まれる母音の音韻環境と、目標母音ＤＢ記憶部１０３に含まれる各母音の音韻環境の距離に基づいて目標母音の母音情報を選択することが異なる。

本変形例に係る声質変換装置は、図２に示した声質変換装置の構成に加えて、さらに、音韻環境距離算出部１０９を備えている。

＜音韻環境距離算出部１０９＞
図１０において、音韻環境距離算出部１０９は、互いに母音種類が一致する、入力音声に含まれる母音の音韻環境と、目標母音ＤＢ記憶部１０３に含まれる母音情報の音韻環境の距離を算出する。

具体的には、前後音素種類の一致性を調べることにより距離を算出する。

例えば、音韻環境距離算出部１０９は、先行音素種類が一致しない場合にはペナルティｄを距離に加算する。同様に後続音素種類が一致しない場合はペナルティｄを距離に加算する。ペナルティｄは、同じ値でなくとも良く、例えば先行音素の一致度を優先するようにしても良い。

あるいは、先行音素が一致しない場合においても、音素の類似度によりペナルティの大きさを変更するようにしても良い。例えば、音素カテゴリ（破裂音、摩擦音など）が同一の場合はペナルティを小さくするようにしても良い。また、調音位置（歯茎音、口蓋音など）が同一の場合はペナルティを小さくするようにしても良い。

＜目標母音選択部１０５＞
目標母音選択部１０５は、開口度一致度算出部１０４により算出された一致度と、音韻環境距離算出部１０９により算出された音韻環境の距離とを用いて、入力音声に含まれる各母音に対して、目標母音ＤＢ記憶部１０３から母音情報を選択する。

具体的には、目標母音選択部１０５は、式１９に示すように入力音声に含まれる母音系列に対して、開口度一致度算出部１０４が算出した開口度一致度Ｓ_ijと、音韻環境距離算出部１０９が算出した音韻環境の距離Ｄ_ijとの重み付け和が最小になる母音（ｊ）の母音情報を目標母音ＤＢ記憶部１０３から選択する。

重みｗの設定方法は特に限定するものではなく、事前に適宜決定する。なお、目標母音ＤＢ記憶部１０３のデータサイズに応じて、重みを変化させるようにしても良い。具体的には、目標母音ＤＢ記憶部１０３に記憶される母音情報の数が大きいほど、音韻環境距離算出部１０９により算出される音韻環境の距離の重みを大きくするようにしてもよい。このような重み付けを行うのは、母音情報の数が多い場合には、音韻環境が一致している母音情報の中から、開口度が一致するものを選ぶほうが、より自然な声質変換を行うことができるからである。一方、母音情報の数が少ない場合には、入力音声の音韻環境に一致する音韻環境の母音情報が得られない場合がある。このような場合に、無理に音韻環境が類似する母音情報を選択しても、より自然な声質変換を行うことができる母音情報が得られない場合があるため、開口度が一致する母音情報を優先して選択したほうが、より自然な声質変換を行うことができる。

（フローチャート）
本変形例に係る声質変換装置の具体的な動作に関して図１１に示すフローチャートを用いて説明する。

声道音源分離部１０１は、入力音声を声道情報と音源情報に分離する（ステップＳ１０１）。開口度算出部１０２は、ステップＳ１０１で分離された声道情報を用いて、入力音声に含まれる母音系列の開口度を算出する（ステップＳ１０２）。

開口度一致度算出部１０４は、ステップＳ００２で算出された入力音声に含まれる母音系列の各母音の開口度と、目標母音ＤＢ記憶部１０３に記憶されている目標母音候補の開口度との開口度一致度を算出する（ステップＳ１０３）。

音韻環境距離算出部１０９は、入力音声に含まれる母音系列の各母音の音韻環境と、目標母音ＤＢ記憶部１０３に記憶されている目標母音候補との音韻環境の距離を算出する（ステップＳ１０４）。

目標母音選択部１０５は、ステップＳ１０３において算出された開口度一致度と、ステップＳ１０４において算出された音韻環境の距離に基づいて、入力音声に含まれる母音系列のそれぞれの母音に対して目標母音の母音情報を選択する（ステップＳ１０５）。

母音変形部１０６は、入力音声に含まれる母音系列のそれぞれの母音に対して、ステップＳ１０５で選択された目標母音の母音情報を用いて、声道情報を変形する（ステップＳ１０６）。

音源生成部１０７は、ステップＳ１０１において分離された入力音声の音源情報を用いて、音源波形を生成する（ステップＳ１０７）。

合成部１０８は、ステップＳ１０６において変形された声道情報と、ステップＳ１０７において生成された音源波形を用いて、音声を合成する（ステップＳ１０８）。

以上の処理により、入力音声の声質を目標音声の声質に変換する際に、音韻性を維持しながら、且つ、発声様態の時間変化パターンを保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化パターンを保存することが可能となるため、自然性（流暢さ）を劣化させない高音質の声質変換が可能となる。

また、この構成によれば少量の目標音声データを用いても発声様態の時間変化パターンを損なわない声質変換が可能であるため、あらゆる利用形態において有用性の高いものとなる。例えば、複数の音声メッセージが蓄積された情報機器の出力を、ユーザが少量の発声を行うことによって自分の声質に変換することが可能になる。

また、目標母音選択部１０５により目標母音の母音情報を選択する際に、目標母音ＤＢ記憶部１０３のデータサイズに応じて、重みを調整している（目標母音ＤＢ記憶部１０３に記憶される母音情報数が大きいほど、音韻環境距離算出部１０９により算出される音韻環境の距離の重みを大きくする）。これにより、目標母音ＤＢ記憶部１０３のデータサイズが小さい場合には、開口度一致度を優先することにより、音韻環境の類似性が高い母音がない場合においても、開口度一致度の高い母音の母音情報を選択することにより、発声様態が一致した母音情報が選択される。これにより、全体として自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。

一方、目標母音ＤＢ記憶部１０３のデータサイズが大きい場合には、音韻環境距離と開口度一致度の双方を考慮しながら目標母音の母音情報を選択することにより、音韻環境を考慮した上で、さらに開口度を考慮することができる。このため、従来の音韻環境のみで母音情報を選択する場合と比較して、自然な発声様態の時間変化パターンを再現することができるため、自然性の高い声質変換音声を得ることができる。

（変形例２）
図１２は、本発明の実施の形態の変形例に係る声質変換システムの機能的な構成を示すブロック図である。図１２において、図２と同じ構成要素については同じ符号を用い、説明を省略する。

声質変換システムは、声質変換装置１７０１と、母音情報作成装置１７０２とを含む。声質変換装置１７０１と母音情報作成装置１７０２とは有線又は無線により直接接続されていても良いし、インターネット又はＬＡＮ（Local Area Network）などのネットワークを介して接続されていても良い。

声質変換装置１７０１は、図２に示した実施の形態１に係る声質変換装置と同様の構成を有する。

母音情報作成装置１７０２は、目標話者音声収録部１１０と、声道音源分離部１０１ｂと、母音区間抽出部１１１と、開口度算出部１０２ｂと、目標母音ＤＢ作成部１１２とを備える。なお、母音情報作成装置１７０２において、必須の構成要素は、声道音源分離部１０１ｂと、開口度算出部１０２ｂと、目標母音ＤＢ作成部１１２とである。

目標話者音声収録部１１０は、目標話者の音声を数文から数十文規模で収録する。母音区間抽出部１１１は、収録された音声から母音区間を抽出する。目標母音ＤＢ作成部１１２は、目標話者音声収録部１１０により収録された目標話者の音声を用いて、母音情報を生成し目標母音ＤＢ記憶部１０３に書き込む。

声道音源分離部１０１ｂ及び開口度算出部１０２ｂは、図２に示した声道音源分離部１０１及び開口度算出部１０２とそれぞれ同様の構成を有する。このため、その詳細な説明はここでは繰り返さない。

目標母音ＤＢ記憶部１０３に記憶される母音情報の作成方法を図５のフローチャートを用いて説明する。

目標となる声質を持つ話者に文章を発話してもらい、目標話者音声収録部１１０は、発話した音声からなる文セットを収録する（ステップＳ１０１）。文章数は限定するものではないが、数文から数十文規模の音声を収録する。目標話者音声収録部１１０は、１種類の母音に対して少なくとも２個以上の発声が得られるように音声を収録する。

声道音源分離部１０１ｂは、収録した文セットの音声に対して声道音源分離を行なう（ステップＳ１０２）。

母音区間抽出部１１１は、ステップＳ１０２において分離された声道情報から、母音に相当する区間を抽出する（ステップＳ１０３）。抽出方法は特に限定しない。例えば、自動ラベリング手法を用いて、母音区間を自動抽出しても構わない。

開口度算出部１０２ｂは、ステップＳ１０３において抽出された各母音区間に対して、開口度を算出する（ステップＳ１０４）。開口度は、抽出した母音区間の中心部における開口度を算出するようにする。もちろん中心部だけではなく、母音区間の特徴を全て算出するようにしても良いし、母音区間の開口度の平均値を算出しても良い。あるいは、母音区間の開口度の中央値を算出しても良い。

目標母音ＤＢ作成部１１２は、ステップＳ１０４により算出した各母音の開口度と、声質変換を行なう際に用いられる各情報を母音毎に母音情報として目標母音ＤＢ記憶部１０３に登録する（ステップＳ１０５）。具体的には、図６に示すように、母音情報は、母音情報を識別する母音番号、母音種類、母音区間の声道情報であるＰＡＲＣＯＲ係数、開口度、母音の音韻環境（例えば前後音素情報、前後音節情報、又は前後音素の調音点など）、母音区間における音源情報（スペクトル傾斜又は声門開放度など）、及び韻律情報（基本周波数、パワーなど）を含む。

以上の処理により、母音情報作成装置において、目標話者の音声を収録し、目標母音ＤＢ記憶部１０３に記憶される母音情報を作成することが可能になる。このため、目標声質を随時更新することが可能となる。

以上のように作成した目標母音ＤＢ記憶部１０３を用いることで、入力音声の声質を目標音声の声質に変換する際に、音韻性を維持しながら、且つ、発声様態の時間変化パターンを保存することが可能となる。結果として、各母音の音韻性と発声様態の時間変化パターンを保存することが可能となるため、自然性（流暢さ）を劣化させない高音質の声質変換が可能となる。

なお、声質変換装置１７０１と母音情報作成装置１７０２とが同一装置内にあってもよい。この場合には、声道音源分離部１０１ｂは、声道音源分離部１０１を用いるように設計しても良い。同様に開口度算出部１０２ｂは、開口度算出部１０２を用いるように設計しても良い。

なお、本発明を実施するための最小構成要素は以下となる。

図１３は、本発明を実施するための声質変換装置の最小構成を示すブロック図である。図１３において、声質変換装置は、声道音源分離部１０１と、開口度算出部１０２と、目標母音ＤＢ記憶部１０３と、開口度一致度算出部１０４と、目標母音選択部１０５と、母音変形部１０６と、合成部１０８とを含む。つまり、図２に示した声質変換装置の構成において、音源生成部１０７を備えない構成となっている。図１３に示す声質変換装置の合成部１０８は、音源生成部１０７で生成された音源情報を用いて音声を合成するのではなく、声道音源分離部１０１で分離された音源情報を用いて音声を合成する。つまり、音声合成に用いられる音源情報は、本発明においては特に限定されるものではない。

また、図１４は、目標母音ＤＢ記憶部１０３に記憶されている母音情報の最小構成を示す図である。つまり、母音情報は、母音種類と、声道情報（ＰＡＲＣＯＲ係数）と、開口度とを含む。この母音情報があれば、開口度に基づいて声道情報の選択を行うことができ、声道情報の変形を行うことができる。

母音の声道情報が開口度に基づき適切に選択されていれば、入力音声の声質を目標声質に変換する際に、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換することが可能となる。結果として、声質変換された音声は、発声様態の変化の時間パターンが保存されているため、声質変換時の自然性（流暢さ）を劣化させない声質変換が可能となる。

なお、目標母音ＤＢ記憶部１０３は、声質変換装置の外部に備えられていても良く、その場合には、声質変換装置の必須の構成要素とはならない。

以上、本発明の実施の形態に係る声質変換装置及び声質変換システムについて説明したが、本発明は、この実施の形態に限定されるものではない。

例えば、上述の実施の形態及び変形例で説明した各装置は、コンピュータにより実現することが可能である。

図１５は、声質変換装置２０の外観図である。声質変換装置２０は、コンピュータ３４と、コンピュータ３４に指示を与えるためのキーボード３６およびマウス３８と、コンピュータ３４の演算結果等の情報を提示するためのディスプレイ３２と、コンピュータ３４で実行されるプログラムを読み取るためのＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）装置４０および通信モデム（図示せず）とを含む。

声質変換をするためのプログラムは、コンピュータで読取可能な媒体であるＣＤ−ＲＯＭ４２に記憶され、ＣＤ−ＲＯＭ装置４０で読み取られる。または、コンピュータネットワーク２６を通じて通信モデムで読み取られる。

図１６は、声質変換装置２０のハードウェア構成を示すブロック図である。コンピュータ３４は、ＣＰＵ（Central Processing Unit）４４と、ＲＯＭ（Read Only Memory）４６と、ＲＡＭ（Random Access Memory）４８と、ハードディスク５０と、通信モデム５２と、バス５４とを含む。

ＣＰＵ４４は、ＣＤ−ＲＯＭ装置４０または通信モデム５２を介して読み取られたプログラムを実行する。ＲＯＭ４６は、コンピュータ３４の動作に必要なプログラム又はデータを記憶する。ＲＡＭ４８は、プログラム実行時のパラメータなどのデータを記憶する。ハードディスク５０は、プログラム又はデータなどを記憶する。通信モデム５２は、コンピュータネットワーク２６を介して他のコンピュータとの通信を行なう。バス５４は、ＣＰＵ４４、ＲＯＭ４６、ＲＡＭ４８、ハードディスク５０、通信モデム５２、ディスプレイ３２、キーボード３６、マウス３８およびＣＤ−ＲＯＭ装置４０を相互に接続する。

なお、母音情報作成装置も同様にコンピュータにより実現することが可能である。

また、上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしても良い。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。ＲＡＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

さらにまた、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしても良い。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカードまたはモジュールは、上記の超多機能ＬＳＩを含むとしても良い。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしても良い。

また、本発明は、上記に示す方法であるとしても良い。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしても良いし、前記コンピュータプログラムからなるデジタル信号であるとしても良い。

さらに、本発明は、上記コンピュータプログラムまたは上記デジタル信号をコンピュータ読み取り可能な不揮発性の記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Blu-ray Disc（登録商標））、半導体メモリなどに記録したものとしても良い。また、これらの不揮発性の記録媒体に記録されている上記デジタル信号であるとしても良い。

また、本発明は、上記コンピュータプログラムまたは上記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしても良い。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしても良い。

また、上記プログラムまたは上記デジタル信号を上記不揮発性の記録媒体に記録して移送することにより、または上記プログラムまたは上記デジタル信号を上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしても良い。

さらに、上記実施の形態及び上記変形例をそれぞれ組み合わせるとしても良い。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

本発明に係る声質変換装置は、入力音声における発声様態の時間的変化パターンを保存しながら、目標の声質に変換する機能を有し、多様な声質を必要とする情報機器若しくは家電機器のユーザインタフェース、又は自分用の声質に変換した着信音などのエンターテイメント等の用途において有用である。また、携帯電話などによる音声通信におけるボイスチェンジャー等の用途にも応用できる。

１０１、１０１ｂ声道音源分離部
１０２、１０２ｂ開口度算出部
１０３目標母音ＤＢ記憶部
１０４開口度一致度算出部
１０５目標母音選択部
１０６母音変形部
１０７音源生成部
１０８合成部
１０９音韻環境距離算出部
１１０目標話者音声収録部
１１１母音区間抽出部
１１２目標母音ＤＢ作成部
１７０１声質変換装置
１７０２母音情報作成装置

Claims

入力音声の声質を変換する声質変換装置であって、
入力音声を声道情報と音源情報とに分離する声道音源分離部と、
前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出部と、
前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部と、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部と、
互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択部と、
前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
を備える声質変換装置。
前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項１に記載の声質変換装置。
前記目標母音選択部は、前記開口度一致度算出部が算出した一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
請求項１に記載の声質変換装置。
前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、算出した前記声道断面積関数で示される声道断面積の和として、前記開口度を算出する
請求項１に記載の声質変換装置。
前記開口度算出部は、前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から声道断面積関数を算出し、声道を複数の区間に分割した場合に、算出した前記声道断面積関数で示される各区間の声道断面積の和として、前記開口度を算出する
請求項４記載の声質変換装置。
前記開口度一致度算出部は、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、話者毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
請求項１に記載の声質変換装置。
前記開口度一致度算出部は、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度とを、母音の種類毎に正規化し、前記一致度として、正規化後の開口度同士の一致度を算出する
請求項１に記載の声質変換装置。
前記開口度一致度算出部は、前記一致度として、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度の時間方向の差分と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度の時間方向の差分との一致度を算出する
請求項１に記載の声質変換装置。
前記母音変形部は、前記入力音声に含まれる母音の声道情報を、前記目標母音選択部が選択した母音情報に含まれる声道情報に、所定の変換比率で変形する
請求項１に記載の声質変換装置。
入力音声の声質を変換する声質変換装置であって、
入力音声を声道情報と音源情報とに分離する声道音源分離部と、
前記声道音源分離部により分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出部と、
目標母音データベース記憶部に記憶されている、各々が、前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む複数の母音情報を参照し、互いに母音の音素種類が一致する、前記開口度算出部が算出した開口度と、各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出部と、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出部と、
前記開口度一致度算出部が算出した一致度と、前記音韻環境距離算出部が算出した距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択部と、
前記目標母音選択部が選択した母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形部と、
前記母音変形部において母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離部で分離された前記音源情報とを用いて、音声を合成する合成部と
を備える声質変換装置。
前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項１０に記載の声質変換装置。
入力音声の声質を変換する声質変換方法であって、
入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出ステップと、
互いに母音の音素種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出ステップと、
前記開口度一致度算出ステップにおいて算出された一致度と、前記音韻環境距離算出ステップにおいて算出された距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択ステップと、
前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
を含む声質変換方法。
前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項１２に記載の声質変換方法。
目標母音選択ステップでは、前記開口度一致度算出ステップで算出された一致度に基づいて、前記入力音声に含まれる母音の開口度と最も一致する開口度を有する母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する
請求項１２に記載の声質変換方法。
入力音声の声質を変換するためのコンピュータ実行可能なプログラムであって、
前記コンピュータは、母音の音素種類と開口度の情報と声道情報と前記母音の音韻環境とを含む母音情報を複数記憶している目標母音データベース記憶部を備え、
入力音声を声道情報と音源情報とに分離する声道音源分離ステップと、
前記声道音源分離ステップにおいて分離された前記入力音声に含まれる母音の声道情報から、母音の音素種類毎に、口腔内の容積である開口度を算出する開口度算出ステップと、
互いに母音の音素種類が一致する、前記開口度算出ステップにおいて算出された開口度と、前記入力音声の声質を変換する目標となる目標話者に関する、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる開口度との一致度を算出する開口度一致度算出ステップと、
互いに母音の音素種類が一致する、前記入力音声の音韻環境と、前記目標母音データベース記憶部に記憶されている各前記母音情報に含まれる音韻環境との間の距離を算出する音韻環境距離算出ステップと、
前記開口度一致度算出ステップにおいて算出された一致度と、前記音韻環境距離算出ステップにおいて算出された距離とを用いて、前記目標母音データベース記憶部に記憶されている前記母音情報の数が多いほど、前記一致度に対する前記距離の重みを大きくして、重み付けされた前記一致度及び前記距離に基づいて、前記入力音声に含まれる母音の声道情報を変換するための母音情報を、前記目標母音データベース記憶部に記憶されている複数の母音情報の中から選択する目標母音選択ステップと、
前記目標母音選択ステップにおいて選択された母音情報に含まれる声道情報を用いて、前記入力音声に含まれる母音の声道情報を変形する母音変形ステップと、
前記母音変形ステップにおいて母音の声道情報が変形された後の前記入力音声の声道情報と、前記声道音源分離ステップにおいて分離された前記音源情報とを用いて、音声を合成する合成ステップと
をコンピュータに実行させるためのプログラム。
前記口腔内の容積である開口度は、声道断面積関数の複数区間の和である
請求項１５に記載のプログラム。