JP7468495B2

JP7468495B2 - 情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラム

Info

Publication number: JP7468495B2
Application number: JP2021190167A
Authority: JP
Inventors: 真段城
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2021-03-18
Filing date: 2021-11-24
Publication date: 2024-04-16
Anticipated expiration: 2041-11-24
Also published as: JP2022145465A

Description

本発明は、歌声などの音声を出力する情報処理装置、電子楽器、情報処理システム、情報処理方法、及びプログラムに関する。

記憶された歌詞データに基づいて音韻データベースから対応するパラメータと調音結合パラメータとを読み出しフォルマント合成音源部により対応する音声を合成出力すると共に、無声子音はＰＣＭ音源により発声させることにより、歌詞データに対応して高品質の歌唱音を合成する従来技術が知られている（例えば特許文献１）。

特許第３２３３０３６号公報

人間の歌声音域は一般的に２オクターブ程度である。このため、６１鍵盤を有する電子キーボードに上述の従来技術を適用しようとした場合、全鍵に単一人物の歌声を割り当てようとすると、一人の歌声ではカバーしきれない音域が発生してしまう。これに対して、複数の歌声でカバーしようとしても、歌声のキャラクターが切り替わる箇所での不自然な違和感が発生してしまう。

そこで、本発明は、音域に適した音声データの生成を可能とすることを目的とする。

態様の一例の情報処理装置は、指定された音高を検出し、前記指定された音高が、第１音声モデルに対応する第１音域と第２音声モデルに対応する第２音域の間に設けられる前記第１音域及び前記第２音域に重ならない第３音域に含まれる場合に、前記第１音声モデルが出力する第１データ及び、前記第２音声モデルが出力する第２データに基づいて、前記指定された音高に応じた第３データを生成する。

本発明によれば、音域に適した音声データを生成することが可能となる。

第１の実施形態の動作説明図である。第１の実施形態の動作概要を示すフローチャートである。第２の実施形態における電子鍵盤楽器の外観例を示す図である。第２の実施形態における電子鍵盤楽器の制御システムのハードウェア構成例を示すブロック図である。第２の実施形態における音声合成ＬＳＩの構成例を示すブロック図である。第２の実施形態におけるフォルマント補間処理部の動作説明図である。第２の実施形態においてＣＰＵが実行する歌声合成のメイン処理の例を示すフローチャートである。第２、第３、及び第４の実施形態において音声合成ＬＳＩの音声合成部が実行する音声合成処理の例を示すフローチャートである。第２、第３、及び第４の実施形態において音声合成ＬＳＩ４０５のフォルマント補間処理部が実行する歌声最適化処理の詳細例を示すフローチャートである。音声合成部と電子鍵盤楽器が個別に動作する第３の実施形態の接続形態を示す図である。音声合成部と電子鍵盤楽器が個別に動作する第３の実施形態における音声合成部のハードウェア構成例を示す図である。第３及び第４の実施形態における歌声合成のメイン処理の例を示すフローチャートである。音声合成部の一部と電子鍵盤楽器が個別に動作する第４の実施形態の接続形態を示す図である。音声合成部の一部と電子鍵盤楽器が個別に動作する第４の実施形態における音声合成部のハードウェア構成例を示す図である。第４の実施形態における音声合成ＬＳＩ及び音声合成部の一部の構成例を示すブロック図である。

以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。まず、第１の実施形態について説明する。

音声の一例である人間の歌声の音域は一般的に２オクターブ程度である。一方、例えば情報処理装置として歌声機能を実現しようとした場合に、音域の指定が人間の歌声音域を超えて、例えば５オクターブ程度に及ぶ可能性がある。

そこで、第１の実施形態では、例えば図１に示されるように、低音側の２オクターブ分の音域１には、ピッチ音が低い例えば男性の歌声をモデル化した第１歌声モデルを割り当て、高音側の２オクターブ分の音域２には、ピッチ音が高い例えば女性の歌声をモデル化した第２歌声モデルを割り当てる。

更に、第１の実施形態では、例えば図１に示されるように、音域１と音域２に挟まれた中央の２オクターブ分程度の重ならない音域３には、音域１の第１音域歌声と音域２の第２音域歌声からモーフィングされる男女中間の歌声を割り当てる。

図２は、第１の実施形態の情報処理装置の少なくとも１つのプロセッサ（以下「プロセッサ」と記載）が実行する音声生成処理（例えば歌声生成処理）の例を示すフローチャートである。

まず、プロセッサは、指定された音高を検出する（ステップＳ２０１）。情報処理装置が例えば電子楽器として実装される場合、この電子楽器は例えば演奏操作子２１０を備える。そして、プロセッサは例えば、演奏操作子２１０が検出する音高指定データ２１１に基づいて、上記指定された音高を検出する。

ここで、情報処理装置は、例えばデータベースシステムである音声モデル２２０を備える。そして、プロセッサは、第１音声モデル２２１の第１音声データ（第１データ）２２３と、第２音声モデル２２２の第２音声データ（第２データ）２２４を、上記音声モデル２２０の例えばデータベースシステムから読み出す。そして、プロセッサは、上記第１音声データ２２３及び第２音声データ２２４に基づいて、モーフィングデータ（第３データ）を生成する（以上、ステップＳ２０２）。より具体的には、上記音声モデル２２０が人間の歌声モデルである場合、プロセッサは、上記モーフィングデータを、第１音声データ２２３に対応する第１歌声データのフォルマント周波数と第２音声データ２２４に対応する第２歌声データのフォルマント周波数の間の補間演算に基づいて生成する。

ここで例えば、音声モデル２２０として記憶される第１音声モデル２２１は、第１の音声（例えば、第１歌手の歌声）を学習した学習済みモデルを含み、同様に音声モデル２２０として記憶される第２音声モデル２２２は、第２の音声（例えば、第２歌手の歌声）を学習した学習済みモデルを含んでよい。

プロセッサは、ステップＳ２０２で生成したモーフィングデータに基づく音声を出力する（ステップＳ２０３）。

ここで例えば、第１音声モデル２２１に対応する第１音域と、第２音声モデル２２２に対応する第２音域の間に、重ならない音域を有し、ステップＳ２０１で検出される音高は上述の重ならない音域に含まれてよい。そして、ステップＳ２０２で生成されるモーフィングデータは、指定された曲の音域に対応する音声モデルが無い場合に、生成されてよい。もっとも前記第１音域と前記第２音域に重なる音域があったとしても本発明を適用して、複数の音声モデルそれぞれの音声データに基づいてモーフィングデータを生成しもよい。

上述した第１の実施形態の音声生成処理において、楽曲が例えば図１の低音側の音域１に属していれば、プロセッサは、その音域１に予め割り当てられている例えば人間の男性らしい歌声の第１音声モデル２２１に対応する第１歌声モデルからフォルマント周波数を推定して、それに対応する第１音域の歌声を音声出力する。
また、楽曲が例えば図１の高音側の音域２に属していれば、プロセッサは、その音域２に予め割り当てられている例えば人間の女性らしい歌声の第２音声モデル２２２に対応する第２歌声モデルからフォルマント周波数を推定して、それに対応する第２音域の歌声を音声出力する。

一方、楽曲が例えば図１の音域１と２の中間の音域３に属していれば、プロセッサは、図２のステップＳ２０２の処理により、例えば人間の、男性らしい歌声の第１音声モデル２２１に対応する第１歌声モデルの第１音声データ２２３に対応する第１歌声データと、女性らしい歌声の第２音声モデル２２２に対応する第２歌声モデルの第２音声データ２２４に対応する第２歌声データに基づいて、モーフィングデータを生成して音声出力する。

以上の処理の結果、楽曲の鍵域によく合った最適な音域の例えば歌声を出力させることが可能となる。

次に、第２の実施形態について説明する。第２の実施形態は、図２の音声モデル２２０に対応するモデルとして、人間の歌声をモデル化した歌声モデルを対象とする。図３は、第２の実施形態における電子鍵盤楽器３００の外観例を示す図である。電子鍵盤楽器３００は、操作子としての複数の鍵からなる鍵盤３０１と、音量の指定、歌詞自動再生のテンポ設定、歌詞自動再生開始等の各種設定を指示する第１のスイッチパネル３０２と、ソングの選曲や楽器音色の選択等を行う第２のスイッチパネル３０３を備える。また、鍵盤３０１の各鍵は、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ：発光ダイオード）３０４を備える。このＬＥＤ３０４は、それが含まれる鍵が歌詞自動再生時に次に指定されるべき鍵であるときには最大輝度で光り、その鍵が歌詞自動再生時に次の次に指定されるべき鍵であるときには最大輝度の半分の輝度で光る。更に、電子鍵盤楽器３００は、特には図示しないが、演奏により生成された楽音や歌声を放音するスピーカを裏面部、側面部、又は背面部等に備える。

図４は、第２の実施形態における図３の電子鍵盤楽器３００の制御システム４００のハードウェア構成例を示す図である。図４において、制御システム４００は、ＣＰＵ（中央演算処理装置）４０１、ＲＯＭ（リードオンリーメモリ）４０２、ＲＡＭ（ランダムアクセスメモリ）４０３、音源ＬＳＩ（大規模集積回路）４０４、音声合成ＬＳＩ４０５、図３の鍵盤３０１、第１のスイッチパネル３０２と第２のスイッチパネル３０３が接続されるキースキャナ４０６、及び図３の鍵盤３０１上の各鍵が備えるＬＥＤ３０４が接続されるＬＥＤコントローラ４０７、外部のネットワークとＭＩＤＩデータ等のやりとりを行うネットワークインタフェース４０８が、それぞれシステムバス４０９に接続されている。また、ＣＰＵ４０１には、歌声データの自動再生のシーケンスを制御するためのタイマ４１０が接続される。更に、音源ＬＳＩ４０４及び音声合成ＬＳＩ４０５からそれぞれ出力される楽音出力データ４１８及び歌声音声出力データ４１７は、Ｄ／Ａコンバータ４１１、４１２によりそれぞれアナログ楽音出力信号及びアナログ歌声音声出力信号に変換される。アナログ楽音出力信号及びアナログ歌声音声出力信号は、ミキサ４１３で混合され、その混合信号がアンプ４１４で増幅された後に、特には図示しないスピーカ又は出力端子から出力される。

ＣＰＵ４０１は、ＲＡＭ４０３をワークメモリとして使用しながらＲＯＭ４０２に記憶された制御プログラムを実行することにより、図３の電子鍵盤楽器３００の制御動作を実行する。また、ＲＯＭ４０２は、上記制御プログラム及び各種制御データのほか、歌詞データを含む後述する演奏ガイドデータを記憶する。

ＣＰＵ４０１には、タイマ４１０が実装されており、例えば電子鍵盤楽器３００における演奏ガイドデータの自動再生の進行をカウントする。

音源ＬＳＩ４０４は、ＣＰＵ４０１からの発音制御指示に従って、例えば特には図示しない波形ＲＯＭから楽音波形データを読み出し、Ｄ／Ａコンバータ４１１に出力する。音源ＬＳＩ４０４は、同時に最大２５６ボイスを発音させる能力を有する。

音声合成ＬＳＩ４０５は、ＣＰＵ４０１から、歌詞のテキストデータである歌詞情報と音高に関する音高情報を歌声データ４１５として与えられると、それに対応する歌声の音声データである歌声音声出力データ４１７を合成し、Ｄ／Ａコンバータ４１２に出力する。

キースキャナ４０６は、図３の鍵盤３０１の押鍵／離鍵状態、第１のスイッチパネル３０２、及び第２のスイッチパネル３０３のスイッチ操作状態を定常的に走査し、ＣＰＵ４０１に割込みをかけて状態変化を伝える。

ＬＥＤコントローラ４０７は、図３の鍵盤３０１上の各鍵が備える各ＬＥＤ３０４の表示状態を制御するＩＣ（集積回路）である。

図５は、第２の実施形態における音声合成部５００の構成例を示すブロック図である。音声合成部５００は、図４の音声合成ＬＳＩ４０５が実行する一機能である。

音声合成部５００は、図４のＣＰＵ４０１から指示される歌詞情報、音高情報、及び音域情報を含む歌声データ４１５を入力することにより、歌声音声出力データ４１７を合成し出力する。このとき音声合成部５００のプロセッサは、音響モデル部５０１に設定されている音響モデルに対して、ＣＰＵ４０１により入力される歌詞情報と音高情報と音域情報を含む歌声データ４１５に応じて、音響モデル部５０１から出力された目標音源情報５１２と、音響モデル部５０１からフォルマント補間処理部５０６を介して出力された目標スペクトル情報５１３とに基づいて、歌い手の歌声を推論した歌声音声出力データ４１７を出力する発声処理を実行する。音声合成部５００は、例えば下記特許文献に記載の技術をベースとして実装される。

（特許文献）：第６６１０７１４号特許公報
音声合成部５００の基本的な動作の詳細は上記特許文献に開示されているが、第２の実施形態独自の動作を含む音声合成部５００の動作について以下に説明する。

音声合成部５００は、テキスト解析部５０２と音響モデル部５０１と発声モデル部５０３とフォルマント補間処理部５０６とを含む。フォルマント補間処理部５０６は、第２の実施形態における独自の機能に関する部分である。

第２の実施形態において、音声合成部５００は、歌詞のテキストである歌詞と音高と音域とを含む歌声データ４１５に対応する歌声音声出力データ４１７を、音響モデル部５０１に設定された音響モデルという統計モデルを用いて予測することにより合成する、統計的音声合成処理を実行する。

テキスト解析部５０２は、図４のＣＰＵ４０１より指定される歌詞、音高、及び音域等に関する情報を含む歌声データ４１５を入力し、そのデータを解析する。この結果、テキスト解析部５０２は、歌声データ４１５内の歌詞に対応する音素、品詞、単語等を表現する言語特徴量系列５０７と、歌声データ４１５内の音高に対応する音高情報５０８とを夫々生成して、音響モデル部５０１に与える。

また、テキスト解析部５０２は、歌声データ４１５中の音域に対応する音域情報５０９を生成して、フォルマント補間処理部５０６に与える。フォルマント補間処理部５０６は、音域情報５０９が示す音域が、現在設定されている音域である第１音域の範囲に入っていれば、音響モデル部５０１に第１音域のスペクトル情報５１０（以下「第１音域スペクトル情報５１０」と記載）を要求する。
第１音域スペクトル情報５１０は、第１スペクトル情報、第１スペクトルデータ、第１音声データ或いは、第１データ、等と表現されてもよい。
一方、フォルマント補間処理部５０６は、音域情報５０９が示す音域が、現在の音域である第１音域の範囲には入っていないが、他の新たな音域の範囲に入っていれば、その新たな音域を第１音域に置き換えて、音響モデル部５０１に第１音域スペクトル情報５１０を要求する。
更に他方、フォルマント補間処理部５０６は、音域情報５０９が示す音域が、第１音域を含む何れの音域の範囲にも入っていないが、上記第１音域ともう１つの第２音域の間の音域の範囲に入っている場合には、音響モデル部５０１に第１音域スペクトル情報５１０と第２音域のスペクトル情報５１１（以下「第２音域スペクトル情報５１１」と記載）の両方を要求する。
第２音域スペクトル情報５１１は、第２スペクトル情報、第２スペクトルデータ、第２音声データ或いは、第２データ、等と表現されてもよい。

音響モデル部５０１は、テキスト解析部５０２から前述の言語特徴量系列５０７及び音高情報５０８を入力すると共に、フォルマント補間処理部５０６からの上述した音域を指定した要求を入力する。
この結果、音響モデル部５０１は、例えば機械学習により学習結果として設定された音響モデルを用いて、生成確率を最大にするような音素に対応する第１音域スペクトル、又は第１音域スペクトル／第２音域スペクトルを推定し、夫々を第１音域スペクトル情報５１０、又は第１音域スペクトル情報５１０／第２音域スペクトル情報５１１として、フォルマント補間処理部５０６に与える。
また、音響モデル部５０１は、上記音響モデルを用いて、生成確率を最大にするような上記音素に対応する音源を推定し、それを目標音源情報５１２として、発声モデル部５０３内の音源生成部５０４に与える。

フォルマント補間処理部５０６は、第１音域スペクトル情報５１０、又は第１音域スペクトル情報５１０と第２音域スペクトル情報５１１とを補間して得られるスペクトル情報（以下「補間スペクトル情報」と記載）の何れかを、目標スペクトル情報５１３として発声モデル部５０３内の合成フィルタ部５０５に与える。
目標スペクトル情報５１３は、モーフィングデータ或いは、第３データ、等と表現されてもよい。

発声モデル部５０３は、音響モデル部５０１から出力される目標音源情報５１２と、フォルマント補間処理部５０６から出力される目標スペクトル情報５１３とを入力することにより、歌声データ４１５に対応する歌声音声出力データ４１７を生成する。歌声音声出力データ４１７は、図４のＤ／Ａコンバータ４１２からミキサ４１３及びアンプ４１４を介して出力され、特には図示しないスピーカから放音される。

音響モデル部５０１が出力する音響特徴量は、人間の声道をモデル化したスペクトル情報と、人間の声帯をモデル化した音源情報とを含む。スペクトル情報のパラメータとしては例えば、人間の声道特性である複数のフォルマント周波数を効率的にモデル化することができる線スペクトル対（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒｓ：ＬＳＰ）、線スペクトル周波数（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｉｅｓ：ＬＳＦ）、又はそれらを改良したメルＬＳＰ等（以下「ＬＳＰ」と記載）を採用できる。従って、音響モデル部５０１から出力される第１音域スペクトル情報５１０又は第２音域スペクトル情報５１１、或いは、フォルマント補間処理部５０６から出される目標スペクトル情報５１３は、例えば上述のＬＳＰに基づく周波数パラメータとすることができる。
スペクトル情報のパラメータの他の例として、ケプストラムやメルケプストラムが採用されてもよい。
音源情報としては、人間の音声のピッチ周波数を示す基本周波数（Ｆ０）とそのパワー値（有声音音素の場合）、又はホワイトノイズのパワー値（無声音音素の場合）を採用できる。従って、音響モデル部５０１から出力される目標音源情報５１２は、上述のようなＦ０及びパワー値のパラメータとすることができる。
発声モデル部５０３は、音源生成部５０４と合成フィルタ部５０５とを含む。音源生成部５０４は、人間の声帯をモデル化した部分であり、音響モデル部５０１から入力する目標音源情報５１２の系列を順次入力することにより、例えば、目標音源情報５１２に含まれる基本周波数（Ｆ０）及びパワー値で周期的に繰り返されるパルス列（有声音音素の場合）、又は目標音源情報５１２に含まれるパワー値を有するホワイトノイズ（無声音音素の場合）、或いはそれらが混合された信号からなる音源入力データ５１４を生成する。
合成フィルタ部５０５は、人間の声道をモデル化した部分であり、音響モデル部５０１からフォルマント補間処理部５０６を介して順次入力する目標スペクトル情報５１３に含まれるＬＳＰ周波数パラメータに基づいて声道をモデル化するＬＳＰデジタルフィルタを形成する。音源生成部５０４から入力する音源入力データ５１４を励振源信号として上記デジタルフィルタが励振されることにより、合成フィルタ部５０５からデジタル信号のフィルタ出力データ５１５が出力される。このフィルタ出力データ５１５は、図４のＤ／Ａコンバータ４１２によりアナログ歌声音声出力信号に変換された後、ミキサ４１３で音源ＬＳＩ４０４からＤ／Ａコンバータ４１１を介して出力されるアナログ楽音出力信号と混合され、その混合信号がアンプ４１４で増幅された後に、特には図示しないスピーカ又は出力端子から出力される。

歌声音声出力データ４１７に対するサンプリング周波数は、例えば１６ＫＨｚ（キロヘルツ）である。また、第１音域スペクトル情報５１０、第２音域スペクトル情報５１１、及び目標スペクトル情報５１３のパラメータとして、例えばＬＳＰ分析処理により得られるＬＳＦパラメータが採用される場合、その更新フレーム周期は、例えば５ミリ秒、分析窓長は例えば２５ミリ秒、窓関数は例えばブラックマン窓、分析次数は例えば１０次である。

図３、図４、及び図５の構成のもとでの、第２の実施形態の全体的な動作の概略について説明する。まず、ＣＰＵ４０１は、歌詞情報と音高情報とタイミング情報を少なくとも含む演奏ガイドデータに基づき、演奏者による楽曲の演奏をガイドする。具体的には、図４において、ＣＰＵ４０１は、メモリであるＲＯＭ４０２に記憶されている自動再生のための歌詞情報と音高情報とタイミング情報とを少なくとも含む一連の演奏ガイドデータの組を順次読み出しながら、その演奏ガイドデータの組に含まれるタイミング情報に対応するタイミングでその演奏ガイドデータの組に含まれる歌詞情報と音高情報とを自動再生する。上記タイミングは、例えば設定された演奏テンポに同期した図４のタイマ４１０による割込み処理に基づいて制御することができる。

このとき、ＣＰＵ４０１は、自動再生される音高情報に対応する鍵盤３０１上の鍵を指示することで、自動再生に同期してユーザが押鍵操作して演奏レッスン（演奏練習）することをガイドする。より具体的には、ＣＰＵ４０１は、この演奏ガイドの処理において、自動再生のタイミングに同期させて、例えば図３の２つのＬＥＤ３０４が光っている鍵として示されるように、次に自動再生される音高情報に対応する鍵（操作子）が備えるＬＥＤ３０４を強い輝度例えば最大輝度で光らせると共に、次の次に自動再生される音高情報に対応する鍵が備えるＬＥＤ３０４を弱い輝度例えば最大輝度の半分の輝度で光らせる。

次に、ＣＰＵ４０１は、上記演奏ガイドに従って、演奏者が図３の鍵盤３０１上の鍵を押鍵又は離鍵する演奏操作に関する情報である演奏情報を取得する。

続いて、ＣＰＵ４０１は、演奏レッスンにおける鍵盤３０１上の鍵の押鍵タイミング（操作タイミング）及び鍵の押鍵音高（操作音高）が自動再生されるタイミング情報及び音高情報に正しく対応している場合に、その押鍵タイミングで、自動再生される歌詞情報と音高情報とを歌声データ４１５として図５のテキスト解析部５０２に入力する。この結果、前述したようにして、音響モデル部５０１から出力される目標音源情報５１２が設定される音源生成部５０４が出力する音源入力データ５１４によって、音響モデル部５０１からフォルマント補間処理部５０６を介して出力される目標スペクトル情報５１３に基づいて形成される合成フィルタ部５０５のデジタルフィルタを励振させることにより、フィルタ出力データ５１５を出力し、そのフィルタ出力データ５１５を図４の歌声音声出力データ４１７として出力させる。

歌声データ４１５は、歌詞（テキストデータ）と、音節のタイプ（開始音節、中間音節、終了音節など）と、歌詞インデックスと、対応する声高（正解の声高）と、対応する発音期間（例えば、発音開始タイミング、発音終了タイミング、発音の長さ（ｄｕｒａｔｉｏｎ））（正解の発音期間）と、の少なくとも１つを含む情報であってもよい。
例えば、図５に例示されるように、歌声データ４１５は、第ｎ（ｎ＝１、２、３、４、・・・）音符に対応する第ｎ歌詞の歌声データと、第ｎ音符が再生されるべき規定のタイミング（第ｎ歌声再生位置）と、の情報を含んでもよい。

歌声データ４１５は、当該歌詞に対応する伴奏（ソングデータ）を演奏するための情報（特定の音声ファイルフォーマットのデータ、ＭＩＤＩデータなど）を含んでもよい。歌声データがＳＭＦフォーマットで示される場合、歌声データ４１５は、歌声に関するデータが格納されるトラックチャンクと、伴奏に関するデータが格納されるトラックチャンクと、を含んでもよい。歌声データ４１５は、ＲＯＭ４０２からＲＡＭ４０３に読み込まれてもよい。歌声データ４１５は、メモリ（例えば、ＲＯＭ４０２、ＲＡＭ４０３）に演奏前から記憶されている。

なお、電子鍵盤楽器３００は、歌声データ４１５によって示されるイベント（例えば、歌詞の発声タイミングと音高を指示するメタイベント（タイミング情報）、ノートオン又はノートオフを指示するＭＩＤＩイベント、又は拍子を指示するメタイベントなど）に基づいて、自動伴奏の進行などを制御してもよい。

ここで、音響モデル部５０１には、例えば機械学習による学習結果として歌声の音響モデルが設定されるが、第１の実施形態で前述したように、人間の歌声音域は一般的に２オクターブ程度である。一方、図３の鍵盤３０１として示される例えば６１鍵は、５オクターブに及ぶ。
そこで、第２の実施形態では、６１鍵の鍵盤３０１のうち、低音側の２オクターブ分の鍵域１には、ピッチ音が低い例えば男性の歌声を機械学習により学習させた結果としての音響モデルを割り当て、高音側の２オクターブ分の鍵域２には、ピッチ音が高い例えば女性の歌声を機械学習により学習させた結果としての音響モデルを割り当てる。
更に、第１の実施形態では、６１鍵の鍵盤３０１のうち、中央の２オクターブ分の鍵域３には、鍵域１の第１音域歌声と鍵域２の第２音域歌声からモーフィングされる男女中間の歌声を割り当てる。

ここで、例えばＲＯＭ４０２からＲＡＭ４０３に予めロードされる歌声データ４１５において、例えば先頭のメタイベントとして、その歌声データ４１５が含まれる楽曲全体が平均して、図１に例示した鍵域１、２、３のうちどの鍵域に属するかを示す鍵域データを保持してよい。そして、図５のテキスト解析部５０２は、歌声合成の開始時に、ＣＰＵ２０１から、歌声データ４１５の一部として、鍵域データを受け取ってよい。そして、テキスト解析部５０２は、この鍵域データに対応する音域情報５０９を、歌声合成の開始時に、フォルマント補間処理部５０６に与える。

フォルマント補間処理部５０６は、歌声合成の開始時に、音域情報５０９が示す音域がどの図１に例示される鍵域１、２、３のどの音域に属するかを判別する。そして、フォルマント補間処理部５０６は、音源情報３１９が示す音域が図１の例示の鍵域１又は鍵域２の何れかの鍵域に属すると判別した場合には、その鍵域１又は２を第１音域に設定し、以後、その第１音域の音響モデルにアクセスするように、音響モデル部５０１に要求する。

この結果、音響モデル部５０１は、歌声合成の開始以降、フォルマント補間処理部５０６から要求された第１音域の音響モデルを用いて、テキスト解析部５０２から受信している言語特徴量系列５０７及び音高情報５０８に対して生成確率を最大にするような音素に対応する第１音域スペクトルを推定し、第１音域スペクトル情報５１０としてフォルマント補間処理部５０６に与える。

上述の制御動作により、楽曲が全体として図３の鍵盤３０１の低音側の鍵域１に属していれば、音響モデル部５０１は、その鍵域１に予め割り当てられている例えば男性らしい歌声の音響モデルからスペクトルを推定して、それに対応する第１音域スペクトル情報５１０を出力する。そして、フォルマント補間処理部５０６は、音響モデル部５０１から出力される第１音域スペクトル情報５１０をそのまま、目標スペクトル情報５１３として、発声モデル部５０３内の合成フィルタ部５０５に与える。
また、楽曲が全体として例えば図１の高い音側の鍵域２に属していれば、音響モデル部５０１は、その鍵域２に予め割り当てられている例えば女性らしい歌声の音響モデルからスペクトルを推定して、それに対応する第１音域スペクトル情報５１０を出力する。そして、フォルマント補間処理部５０６は、音響モデル部５０１から出力される第１音域スペクトル情報５１０をそのまま、目標スペクトル情報５１３として、発声モデル部５０３内の合成フィルタ部５０５に与える。

一方、楽曲が全体として例えば図１の中間の鍵域３に属していれば、フォルマント補間処理部５０６は、その鍵域３の両側の鍵域１及び鍵域２をそれぞれ第１音域及び第２音域に設定し、以後、第１音域と第２音域の両方の音響モデルにアクセスするように、音響モデル部５０１に要求する。

音響モデル部５０１は、鍵域３の両側の鍵域１と２に予め割り当てられている、男性らしい歌声の音響モデルから推定したスペクトルに対応する第１音域スペクトル情報５１０と、女性らしい歌声の音響モデルから推定したスペクトルに対応する第２音域スペクトル情報５１１の、２つのスペクトル情報を出力する。そして、フォルマント補間処理部５０６は、上記第１音域スペクトル情報５１０と第２音域スペクトル情報５１１との間の補間処理によって補間スペクトル情報を算出し、その補間スペクトル情報をモーフィングされた目標スペクトル情報５１３として、発声モデル部５０３内の合成フィルタ部５０５に与える。
目標スペクトル情報５１３は、モーフィングデータ（第３音声データ）、第３スペクトル情報等と表現してもよい。

以上の処理の結果、合成フィルタ部５０５からは、楽曲全体の鍵域によく合った最適な鍵域の歌声を機械学習させた結果としての音響モデルに基づく目標スペクトル情報５１３によって合成されたフィルタ出力データ５１５を、歌声音声出力データ４１７として出力させることが可能となる。

図６は、フォルマント補間処理部５０６の動作説明図である。図６に示される各グラフにおいて、横軸は周波数［Ｈｚ］、縦軸はパワー［ｄＢ］である。

図６（ａ）の６０１は、図１に例示した鍵域１の例えば男性らしい或る有声音韻の声道スペクトル特性を模式的に示したグラフである。鍵域１の声道スペクトル特性６０１は、ＬＳＰ分析によって算出されるＬＳＰパラメータＬ_１［ｉ］（１≦ｉ≦Ｎ、ＮはＬＳＰ分析次数）に基づいて形成されるＬＳＰデジタルフィルタによって形成することができる。なお、図６において、説明の簡単のためＬＳＰ分析次数Ｎ＝６として示してあるが、実際には例えばＮ＝１０である。声道スペクトル特性６０１において、Ｆ_１［１］は鍵域１の第１フォルマント周波数、Ｆ_１［２］は鍵域１の第２フォルマント周波数である。フォルマント周波数は、声道スペクトル特性において極を形成する周波数で、人間の声道を通して発音される「あ」「い」「う」「え」「お」等の有声音韻の違いを決定づけると共に、男性と女性の声質の違いも決定づける。実際には、より高次のフォルマント周波数も存在するが、ここでは説明の簡単のため３次以上の高次フォルマント周波数は省略してある。ＬＳＰパラメータＬ_１［ｉ］の相互の周波数間隔により、人間の声道のスペクトル特性を良くモデル化することができ、特にフォルマント周波数における極の鋭さ（極の山の裾野部分の周波数間隔の狭さ）と強さ（パワー）は、隣り合うＬＳＰパラメータＬ_１［ｉ］の周波数間隔によって表現することができる。
楽曲が全体として例えば図１の低音側の鍵域１に属していれば、音響モデル部５０１は、その鍵域１に予め割り当てられている例えば男性らしい歌声の音響モデルからスペクトルを推定して、そのスペクトルに対応するＬＳＰパラメータＬ_１［ｉ］（１≦ｉ≦Ｎ）を第１音域スペクトル情報５１０として出力する。そして、フォルマント補間処理部５０６は、音響モデル部５０１から出力される第１音域スペクトル情報５１０の上記ＬＳＰパラメータをそのまま、目標スペクトル情報５１３のＬＳＰパラメータとして、発声モデル部５０３内の合成フィルタ部５０５に与える。

図６（ｂ）の６０２は、図６（ａ）と同じ有声音韻につき、図１に例示した鍵域２の例えば女性らしい声の声道スペクトル特性を模式的に示したグラフである。鍵域２の声道スペクトル特性６０２は、ＬＳＰ分析に基づいて算出されるＬＳＰパラメータＬ_２［ｉ］（１≦ｉ≦Ｎ、ＮはＬＳＰ分析次数）によって形成されるＬＳＰデジタルフィルタで実現することができる。声道スペクトル特性６０２で、Ｆ_２［１］は鍵域２の第１フォルマント周波数、Ｆ_２［２］は鍵域２の第２フォルマント周波数である。図６（ｂ）における各諸元は図６（ａ）の場合と同様である。
楽曲が全体として例えば図１の低音側の鍵域２に属していれば、音響モデル部５０１は、その鍵域２に予め割り当てられている例えば女性らしい歌声の音響モデルからスペクトルを推定して、そのスペクトルに対応するＬＳＰパラメータＬ_２［ｉ］（１≦ｉ≦Ｎ）を第１音域スペクトル情報５１０として出力する。そして、フォルマント補間処理部５０６は、音響モデル部５０１から出力される第１音域スペクトル情報５１０の上記ＬＳＰパラメータをそのまま、目標スペクトル情報５１３のＬＳＰパラメータとして、発声モデル部５０３内の合成フィルタ部５０５に与える。

図６（ａ）と図６（ｂ）を比較するとわかるように、図１の鍵域１における男性らしい声と鍵域２における女性らしい声の差は、図５の目標音源情報５１２におけるピッチ周波数の差（女性が男性の２倍程度）として顕著に表れる。また、フォルマント周波数に関しても、鍵域２の女性らしい声の第１フォルマント周波数Ｆ_２［１］と第２フォルマント周波数Ｆ_２［２］のほうが夫々、鍵域１の男性らしい声の第１フォルマント周波数Ｆ_１［１］と第２フォルマント周波数Ｆ_１［２］よりも、高い周波数であることが知られている（下記文献を参照）。
[粕谷他，“年齢，性別による日本語５母音のピッチ周波数とホルマント周波数の変化，”，音響学会誌２４，６（１９６８）]
なお、説明をわかりやすくするために、同じ有声音韻に対する図６（ａ）の声道スペクトル特性６０１と図６（ｂ）の声道スペクトル特性６０２は、フォルマント周波数の違いを少し誇張して描いてある。

図６（ｃ）の６０３は、図６（ａ）、（ｂ）と同じ有声音韻につき、図１に例示した鍵域３の例えば男女中間の声の声道スペクトル特性を模式的に示したグラフである。鍵域３の声道スペクトル特性６０３における第１フォルマント周波数Ｆ_３［１］は、鍵域１の男性らしい声の第１フォルマント周波数Ｆ_１［１］と鍵域２の女性らしい声の第１フォルマント周波数Ｆ_２［１］の中間の周波数を有している。同様に、鍵域３の声道スペクトル特性６０３における第２フォルマント周波数Ｆ_３［２］は、鍵域１の男性らしい声の第２フォルマント周波数Ｆ_１［２］と鍵域２の女性らしい声の第２フォルマント周波数Ｆ_２［２］の中間の周波数を有している。

つまり、鍵域３の男女中間の歌声の声道スペクトル特性６０３は、鍵域１の男性らしい声の声道スペクトル特性６０１と鍵域２の女性らしい声の声道スペクトル特性６０２とから、周波数域での補間処理によって算出できることがわかる。

具体的には、上述のＬＳＰパラメータは、周波数の次元を有することにより、周波数域での補間特性に優れていることが知られている。そこで、第２の実施形態では、楽曲が全体として例えば図１の中間の鍵域３に属している場合には、前述したように、音響モデル部５０１が、その鍵域３の両側の鍵域１と２に予め割り当てられている、男性らしい歌声の音響モデルから推定したスペクトルに対応する第１音域スペクトル情報５１０と、女性らしい歌声の音響モデルから推定したスペクトルに対応する第２音域スペクトル情報５１１の、２つのスペクトル情報を出力する。
そして、フォルマント補間処理部５０６は、上記第１音域スペクトル情報５１０のＬＳＰパラメータＬ_１［ｉ］と、上記第２音域スペクトル情報５１１のＬＳＰパラメータＬ_２［ｉ］との間で、下記（１）式で示される補間処理の演算を実行することにより、補間スペクトル情報である鍵域３のＬＳＰパラメータＬ_３［ｉ］を算出する。ただし、ＮはＬＳＰ分析次数である。
Ｌ_３［ｉ］＝（Ｌ_１［ｉ］＋Ｌ_２［ｉ］）／２（１≦ｉ≦Ｎ）・・・（１）
図５のフォルマント補間処理部５０６は、上記（１）式の演算により算出したＬＳＰパラメータＬ_３［ｉ］（１≦ｉ≦Ｎ）を、図５の目標スペクトル情報５１３として発声モデル部５０３内の合成フィルタ部５０５に与える。

以上の処理の結果、合成フィルタ部５０５からは、楽曲全体の鍵域によく合った最適な声道スペクトル特性を有する目標スペクトル情報５１３によって合成されたフィルタ出力データ５１５を、歌声音声出力データ４１７として出力させることが可能となる。

図３から図５の構成を有する第２の実施形態の詳細動作について、以下に説明する。図７は、第２の実施形態における歌声合成のメイン処理の例を示すフローチャートである。この処理は、図４のＣＰＵ４０１が、ＲＯＭ４０２に記憶された歌声合成プログラムをＲＡＭ４０３にロードして実行する処理である。

まず、ＣＰＵ４０１は、歌詞の現在位置を示すＲＡＭ４０３上の変数である歌詞インデックス変数ｎに初期値「１」を代入すると共に、ＲＡＭ４０３上の変数である現在の音域を示す第１音域変数に、例えば図１の鍵域１を示す値を初期設定する（ステップＳ７０１）。なお、歌詞を途中から始める（例えば、前回の記憶位置から始める）場合には、歌詞インデックス変数ｎには「０」以外の値が代入されてもよい。

歌詞インデックス変数ｎは、歌詞全体を文字列とみなしたときの、先頭から何音節目（又は何文字目）の音節（又は文字）に対応するかを示す変数であってよい。例えば、歌詞インデックス変数ｎは、図５で示した歌声データ４１５の、第ｎ再生位置の歌声データを示すことができる。なお、本開示において、１つの歌詞の位置（歌詞インデックス変数ｎの値）に対応する歌詞は、１音節を構成する１又は複数の文字に該当してもよい。歌声データに含まれる音節は、母音のみ、子音のみ、子音＋母音など、種々の音節を含んでもよい。

次に、ＣＰＵ４０１は、歌声合成の開始前に、音声合成ＬＳＩ４０５に、これから再生する歌声合成の楽曲全体が平均して、図１に例示した鍵域１、２、３のうちどの鍵域に属するかを示す鍵域データをＲＡＭ４０３から読み出して、その鍵域データを音域を指定する歌声データ４１５に含ませて、その歌声データ４１５を図４の音声合成ＬＳＩ４０５に送信する（ステップＳ７０２）。

その後、ＣＰＵ４０１は、ステップＳ７０７で歌詞インデックス変数ｎの値を＋１ずつインクリメントしながら、ステップＳ７１０で歌声データの再生が終了した（新たな歌詞インデックス変数ｎの値に対応する歌声データが無くなった）と判定するまで、ステップＳ７０３からＳ７１０の一連の処理を繰り返し実行することにより、歌声合成処理を進行させる。

ステップＳ７０３からＳ７１０の一連の繰返し処理において、ＣＰＵ４０１はまず、図４のキースキャナ４０６が図３の鍵盤３０１をスキャンした結果、新たな押鍵が有るか否かを判定する（ステップＳ７０３）。

ステップＳ７０３の判定がＹＥＳの場合、ＣＰＵ４０１は、ＲＡＭ４０３上の歌詞インデックス変数ｎの値が示す第ｎ歌詞の歌声データを、ＲＡＭ４０３から読み出す（ステップＳ７０４）。

次に、ＣＰＵ４０１は、ステップＳ７０４で読み出した歌声データを含む歌声の進行を指示する歌声データ４１５を、音声合成ＬＳＩ４０５に送信する（ステップＳ７０５）。

更に、ＣＰＵ４０１は、キースキャナ４０６が検出した演奏者による鍵盤３０１の何れかの鍵の押鍵に応じた音高を指定すると共に、演奏者が図３のスイッチパネル３０３で予め指定した楽器音を指定する発音指示を、発音制御データ４１６として音源ＬＳＩ４０４に送信する（ステップＳ７０６）。
この結果、音源ＬＳＩ４０４は、上記発音制御データ４１６に対応する楽音出力データ４１８を生成する。この楽音出力データ４１８は、Ｄ／Ａコンバータ４１１によりアナログ楽音出力信号に変換される。このアナログ楽音出力信号は、ミキサ４１３で、音声合成ＬＳＩ４０５からＤ／Ａコンバータ４１２を介して出力されたアナログ歌声音声出力信号と混合され、その混合信号がアンプ４１４で増幅された後に、特には図示しないスピーカ又は出力端子から出力される。
なお、ステップＳ７０６の処理は、無くてもよい。この場合には、演奏者による押鍵操作に応じた楽音の発声は無く、押鍵操作は歌声合成の進行のためだけに使用される。

そして、ＣＰＵ４０１は、歌詞インデックス変数ｎの値を＋１インクリメントする（ステップＳ７０７）。

上記ステップＳ７０７の処理の後、又はステップＳ７０３の判定がＮＯとなった後、ＣＰＵ４０１は、図４のキースキャナ４０６が図３の鍵盤３０１をスキャンした結果、新たな離鍵が有るか否かを判定する（ステップＳ７０８）。

ステップＳ７０８の判定がＹＥＳならば、ＣＰＵ４０１は、キースキャナ４０６が検出した離鍵の音高に対応する歌声の消音を音声合成ＬＳＩ４０５に指示すると共に、上記音高に対応する楽音の消音を音源ＬＳＩ４０４に指示する（ステップＳ７０９）。この結果、音声合成ＬＳＩ４０５及び音源ＬＳＩ４０４において、対応する消音動作が実行される。

ステップＳ７０９の処理の後、又はステップＳ７０８の判定がＮＯの場合に、ＣＰＵ４０１は、ステップＳ７０７でインクリメントされた歌詞インデックス変数ｎの値に対応する歌声データがＲＡＭ４０３上に無く、歌声データの再生が終了したか否かを判定する（ステップＳ７１０）。

ステップＳ７１０の判定がＮＯならば、ＣＰＵ４０１は、ステップＳ７０３の処理に戻って、歌声合成の処理を進行させる。

ステップＳ７１０の判定がＹＥＳになったら、ＣＰＵ４０１は、図７のフローチャートで例示される歌声合成の処理を終了する。

図８は、第２の実施形態において図４の音声合成ＬＳＩ４０５の特には図示しないプロセッサが実行する音声合成処理の例を示すフローチャートである。この処理は、上記プロセッサが、音声合成ＬＳＩ４０５内の特には図示しないメモリに記憶された音声合成処理プログラムを実行する処理である。或いは、この処理は、ＤＳＰ（デジタル信号プロセッサ）又はＦＰＧＡ（フィールドプログラマブルゲートアレイ）等によるハードウェアとソフトウェアによるハイブリッド処理であってもよい。
音声合成ＬＳＩ４０５の上記プロセッサは、例えば上記音声合成処理プログラムを実行することにより、図５に示される各部の機能を実現する。以下の各処理の説明は、実際には上記プロセッサが実行するが、説明をわかりやすくするため図５の各部が実行する処理として説明する。

まず、図５のテキスト解析部５０２は、図４のＣＰＵ４０１から、歌声データ４１５を受信したか否かを判定する処理を繰り返す待機状態にある（ステップＳ８０１の判定処理がＮＯの繰返し）。

ＣＰＵ４０１から歌声データ４１５が受信されてステップＳ８０１の判定がＹＥＳになると、テキスト解析部５０２は、受信された歌声データ４１５によって音域指定（図７のステップＳ７０２を参照）がなされているか否かを判定する（ステップＳ８０２）。

ステップＳ８０２の判定がＹＥＳの場合、テキスト解析部５０２からフォルマント補間処理部５０６に音域情報５０９が引き渡される。これ以降、フォルマント補間処理部５０６の動作となる。

フォルマント補間処理部５０６は、歌声最適化処理を実行する（以上、ステップＳ８０３）。この処理の詳細については、図９のフローチャートを用いて後述する。ステップＳ８０３の歌声最適化処理の後、テキスト解析部５０２によるステップＳ８０１の歌声データ４１５の待機処理に戻る。

再び、歌声データ４１５が受信されてステップＳ８０１の判定がＹＥＳとなった後、テキスト解析部５０２においてステップＳ８０２の判定がＮＯとなった場合には、受信された歌声データ４１５は歌詞の進行を指示している（図７のステップＳ７０５を参照）。テキスト解析部５０２は、歌声データ４１５に含まれる歌詞と音高を解析する。この結果、テキスト解析部５０２は、歌声データ４１５内の歌詞に対応する音素、品詞、単語等を表現する言語特徴量系列５０７と、歌声データ４１５内の音高に対応する音高情報５０８とを夫々生成して、音響モデル部５０１に与える。
一方、歌声合成の開始前に実行されたステップＳ８０３の歌声最適化処理によって、フォルマント補間処理部５０６から音響モデル部５０１には、第１音域スペクトル情報５１０の取得要求又は第１音域スペクトル情報５１０と第２音域スペクトル情報５１１の取得要求が出されている。
上述の各情報に基づいて、フォルマント補間処理部５０６は、音響モデル部５０１から、後述するステップＳ８０３の歌声最適化処理内の図９のステップＳ９０３又はＳ９０８で音響モデル部５０１に対して要求した第１音域スペクトル情報５１０の各ＬＳＰパラメータを取得して、ＲＡＭ４０３に記憶する（ステップＳ８０４）。

次に、フォルマント補間処理部５０６は、後述するステップＳ８０３の歌声最適化処理で、ＲＡＭ４０３に記憶されている補間フラグに値「１」がセットされているか否か、即ち補間処理を実行する状態になっているか否かを判定する（ステップＳ８０５）。

ステップＳ８０５の判定がＮＯ（補間処理を実行しない）であれば、フォルマント補間処理部５０６は、ステップＳ８０４で音響モデル部５０１から取得してＲＡＭ４０３に記憶している第１音域スペクトル情報５１０の各ＬＳＰパラメータをそのまま、ＲＡＭ４０３上の目標スペクトル情報５１３の配列変数にセットする（ステップＳ８０６）。

ステップＳ８０５の判定がＹＥＳ（補間処理を実行する）であれば、フォルマント補間処理部５０６は、音響モデル部５０１から、後述するステップＳ８０３の歌声最適化処理内の図９のステップＳ９０８で音響モデル部５０１に対して要求した第２音域スペクトル情報５１１の各ＬＳＰパラメータを取得して、ＲＡＭ４０３に記憶する（ステップＳ８０７）。

その後、フォルマント補間処理部５０６は、フォルマント補間処理を実行する（ステップＳ８０８）。具体的には、フォルマント補間処理部５０６は、ステップＳ８０４によりＲＡＭ４０３に記憶した第１音域スペクトル情報５１０のＬＳＰパラメータＬ_１［ｉ］と、ステップＳ８０７によりＲＡＭ４０３に記憶した第２音域スペクトル情報５１１のＬＳＰパラメータＬ_２［ｉ］との間で、前述した（１）式の補間処理演算を実行することによって、補間スペクトル情報のＬＳＰパラメータＬ_３［ｉ］を算出し、それらをＲＡＭ４０３に記憶する。

ステップＳ８０８の後、フォルマント補間処理部５０６は、ステップＳ８０８でＲＡＭ４０３に記憶している補間スペクトル情報の各ＬＳＰパラメータＬ_３［ｉ］を、ＲＡＭ４０３上の目標スペクトル情報５１３の配列変数にセットする（ステップＳ８０９）。

ステップＳ８０６又はＳ８０９の後、フォルマント補間処理部５０６は、音響モデル部５０１から出力されている目標音源情報５１２を、発声モデル部５０３の音源生成部５０４に与える。これと共に、フォルマント補間処理部５０６は、ステップＳ８０６又はＳ８０９でＲＡＭ４０３に記憶した目標スペクトル情報５１３の各ＬＳＰパラメータを、発声モデル部５０３内の合成フィルタ部５０５のＬＳＰデジタルフィルタにセットする（以上、ステップＳ８１０）。その後、ＣＰＵ４０１は、テキスト解析部５０２が実行するステップＳ８０１の歌声データ４１５の待機処理に戻る。

以上の処理の結果、発声モデル部５０３は、上記目標スペクトル情報５１３がセットされた合成フィルタ部５０５のＬＳＰデジタルフィルタを、上記目標音源情報５１２がセットされた音源生成部５０４から出力される音源入力データ５１４によって励振させることにより、フィルタ出力データ５１５を歌声音声出力データ４１７として出力する。

図９は、図８のステップＳ８０３の歌声最適化処理の詳細例を示すフローチャートである。この処理は、図５のフォルマント補間処理部５０６によって実行される。

まず、フォルマント補間処理部５０６は、テキスト解析部５０２から引き渡された音域情報５０９に設定されている音域（鍵域）の情報を取得する（ステップＳ９０１）。

次に、フォルマント補間処理部５０６は、ステップＳ９０１で取得した歌声データ４１５に設定されている楽曲全体の音域（ステップＳ７０２の説明を参照）が、ＲＡＭ４０３に記憶されている第１音域変数に設定されている現在の音域である第１音域の範囲内であるか否かを判定する（ステップＳ９０２）。
なお、第１音域変数には、例えば図１の鍵域１が初期設定されている（図７のステップＳ７０１参照）。

ステップＳ９０２の判定がＹＥＳならば、フォルマント補間処理部５０６は、音響モデル部５０１に第１音域変数に設定されている第１音域に対応するスペクトル情報を要求する（ステップＳ９０３）。

その後、フォルマント補間処理部５０６は、ＲＡＭ４０３上の補間フラグ変数に、補間処理を実行しないことを示す値「０」をセットする（ステップＳ９０４）。この補間フラグ変数は、前述した音声合成処理を例示する図８のステップＳ８０５で参照されたときに、ステップＳ８０５の判定がＮＯとなって、補間処理は実行されない。その後、フォルマント補間処理部５０６は、図９のフローチャートで例示される図８のステップＳ８０３の歌声最適化処理を終了する。

ステップＳ９０１で取得した歌声データ４１５に設定されている楽曲全体の音域が、第１音域の範囲内ではなく、ステップＳ９０２の判定がＮＯならば、フォルマント補間処理部５０６は、上記楽曲全体の音域が含まれる第１音域以外の新音域（例えば図１の鍵域２）があるか否かを判定する（ステップＳ９０５）。

ステップＳ９０５の判定がＹＥＳならば、フォルマント補間処理部５０６は、ＲＡＭ４０３上の現在の音域を示す第１音域変数の値を、新音域を示す値に置き換える（ステップＳ９０６）。

その上で、フォルマント補間処理部５０６は、音響モデル部５０１に第１音域変数に設定されている第１音域に対応するスペクトル情報を要求し（ステップＳ９０３）、ＲＡＭ４０３上の補間フラグ変数に値「０」をセットする（ステップＳ９０４）。その後、フォルマント補間処理部５０６は、図９のフローチャートで例示される図８のステップＳ８０３の歌声最適化処理を終了する。

ステップＳ９０１で取得した歌声データ４１５に設定されている楽曲全体の音域が、第１音域の範囲内にはなく（ステップＳ９０２の判定がＮＯ）、第１音域以外の新音域もない（ステップＳ９０５の判定もＮＯ）の場合には、フォルマント補間処理部５０６は、上記楽曲全体の音域が、第１音域変数が示す現在の音域と、他の第２音域との間にあるか否かを判定する（ステップＳ９０７）。

ステップＳ９０７の判定がＹＥＳの場合には、フォルマント補間処理部５０６は、音響モデル部５０１に、第１音域変数に設定されている第１音域に対応するスペクトル情報とステップＳ９０７で判定した第２音域に対応するスペクトル情報の２つを要求する（ステップＳ９０８）。

その後、フォルマント補間処理部５０６は、ＲＡＭ４０３上の補間フラグ変数に、補間処理を実行することを示す値「１」をセットする（ステップＳ９０９）。この補間フラグ変数は、前述した音声合成処理を例示する図８のステップＳ８０５で参照されたときに、ステップＳ８０５の判定がＹＥＳとなって、ステップＳ８０８で補間処理が実行される。その後、フォルマント補間処理部５０６は、図９のフローチャートで例示される図８のステップＳ８０３の歌声最適化処理を終了する。

ステップＳ９０７の判定がＮＯの場合には、フォルマント補間処理部５０６は、音域を判断できない。このときは、フォルマント補間処理部５０６は、現在の音域を維持して、音響モデル部５０１に第１音域変数に設定されている第１音域に対応するスペクトル情報を要求し（ステップＳ９０３）、ＲＡＭ４０３上の補間フラグ変数に値「０」をセットする（ステップＳ９０４）。その後、フォルマント補間処理部５０６は、図９のフローチャートで例示される図８のステップＳ８０３の歌声最適化処理を終了する。

上述の第２の実施形態では、歌声合成の開始前に、音域を指定する歌声データ４１５を図４の音声合成ＬＳＩ４０５に送信し、音声合成ＬＳＩ４０５では、歌声合成の開始前に、フォルマント補間処理部５０６が、テキスト解析部５０２を介して受信した上記音域を指定する歌声データ４１５に基づいて、歌声最適化処理を実行することにより、音響モデル部５０１に要求する音域を制御した。これに対して、音声合成ＬＳＩ４０５のフォルマント補間処理部５０６は、発声される歌声毎に、歌声データ４１５に含まれる音高に基づいて、その歌声の音域を制御するようにしてもよい。この処理により、例えば歌声合成される楽曲の音域が例えば図１の鍵域１、２、３の広い範囲に跨がるような場合でも、発声時点の歌声データ４１５に基づいて、適切な音響モデルを選択して発声モデル部５０３で発声させることが可能となる。

また、上述の第２の実施形態において、フォルマント補間処理部５０６が実行する図９のフローチャートで例示される歌声最適化処理では、音域情報５０９として与えられる音域がどの音域に属するかを判別するための判別処理（図９のステップＳ９０２、Ｓ９０５、又はＳ９０７等）が必要であった。これに対して、図４のＲＯＭ４０２等に予め、音域（例えば図１の鍵域１、２、３）の夫々毎に、鍵域１単一（音域が鍵域１である場合）、鍵域２単一（音域が鍵域２である場合）でよいか、或いは、鍵域１と２の間の補間処理が必要か（音域が鍵域３である場合）等が設定されたテーブルが用意されるようにしてもよい。そして、フォルマント補間処理部５０６は、そのテーブルを参照することにより、歌声最適化処理を実行するようにしてもよい。このような実施形態により、鍵域の設定や補間設定が複雑になる場合であっても、補間有無等設定テーブルを参照することにより、音域の選択と補間処理の有無の判別を常に適切に行うことが可能となる。

更に、上述の第２の実施形態では、発声モデル部５０３において、合成フィルタ部５０５を励振させる音源入力データ５１４は、音響モデル部５０１からの目標音源情報５１２に基づいて図５の音源生成部５０４が生成していた。これに対して、音源入力データ５１４が、音源生成部５０４によって生成されるものではなく、図４の音源ＬＳＩ４０４が特定の発音チャネルを用いて生成する発声音源用の楽音出力データ４１８の一部であってもよい。このような構成により、歌声音声出力データ４１７として、音源ＬＳＩ４０４が生成する特定の楽音の特性をおもしろく残した歌声音声を生成することが可能となる。

以上説明した第２の実施形態では、音響モデル部５０１に設定される音響モデルは、学習用歌詞情報、学習用音高情報、及び学習用音域情報を含む学習用楽譜データと、歌い手の学習用歌声データと、を用いた機械学習処理により学習させることにより得られる。しかし、音響モデルとしては、機械学習によるもののほかに、一般的な音素データベースを用いたものなどを採用することができる。

以上説明した第２の実施形態は、本発明による情報処理装置である図４及び図５に示した音声合成ＬＳＩ４０５及びその一機能である音声合成部５００が電子鍵盤楽器３００の制御システム４００に内蔵されている実施形態であった。一方、音声合成ＬＳＩ及びその一機能である音声合成部（以下これらを総称して「音声合成部」と呼ぶ）と電子楽器は、夫々個別の装置であってもよい。図１０及び図１１は夫々、音声合成部と電子鍵盤楽器が個別に動作する第３の実施形態における、音声合成部と電子鍵盤楽器の接続形態、及び音声合成部のハードウェア構成例を示す図である。

図１０に示されるように、第３の実施形態では、第２の実施形態における図４で示した音声合成ＬＳＩ４０５及びその一機能である図５で示した音声合成部５００が、例えばタブレット端末やスマートフォン（以下「タブレット端末等」と記載）１００１に専用ハードウェア又はソフトウェア（アプリ）として実装され、電子楽器は例えば音声合成機能を持たない電子鍵盤楽器１００２として構成することができる。

図１１は、図１０に示される接続形態を有する第３の実施形態におけるタブレット端末等１００１のハードウェア構成例を示す図である。図１１において、ＣＰＵ１１０１、ＲＯＭ１１０２、及びＲＡＭ１１０３、音声合成ＬＳＩ１１０６、Ｄ／Ａコンバータ１１０７、及びアンプ１１０８は、図４のＣＰＵ４０１、ＲＯＭ４０２、ＲＡＭ４０３、音声合成ＬＳＩ４０５、Ｄ／Ａコンバータ４１２、及びアンプ４１４と同様の機能を有する。アンプ１１０８の出力は、タブレット端末等１００１に内蔵の特には図示しないスピーカやイヤホン端子に接続される。図３のスイッチパネル３０２、３０３の一部と同等の機能は、タッチパネルディスプレイ１１０４によって提供される。

図１０及び図１１の構成例を有する第３の実施形態において、タブレット端末等１００１と電子鍵盤楽器１００２は、ＭＩＤＩｏｖｅｒＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ（以下「ＢＬＥ－ＭＩＤＩ」と記載）と呼ばれる規格に基づいて無線通信する。ＢＬＥ－ＭＩＤＩは、無線規格ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ（登録商標）上で楽器間の通信の標準規格ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ：楽器デジタルインタフェース）で通信が行えるようにした楽器間無線通信規格である。電子鍵盤楽器１００２は、ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ規格でタブレット端末等１００１のＢＬＥ－ＭＩＤＩ通信インタフェース１１０５（図１１）に接続することができる。その状態で、電子鍵盤楽器１００２で演奏指定された音高情報を含む押鍵情報又は離鍵情報が、ＢＬＥ－ＭＩＤＩを介して、タブレット端末等１００１上で実行される歌声合成アプリにリアルタイムで通知される。

なお、ＢＬＥ－ＭＩＤＩ通信インタフェース１１０５の代わりに、有線のＭＩＤＩケーブルで電子鍵盤楽器１００２に接続するＭＩＤＩ通信インタフェースが用いられてもよい。

第３の実施形態では、図１０の電子鍵盤楽器１００２は音声合成ＬＳＩを内蔵せず、タブレット端末等１００１が音声合成ＬＳＩ１１０６（図１１）を内蔵している。そして、図１１において、タブレット端末等１００１のＣＰＵ１１０１は、例えば歌声合成アプリの処理として、第２の実施形態の図７に例示されるフローチャートと同様の図１２のフローチャートで例示されるメイン処理を実行することにより、図７のフローチャートで説明したのと同様の歌声合成の制御処理を実行している。図１２に例示されるフローチャートにおいて、図７に例示されるフローチャートと同じステップ番号が付されたステップは、図７の場合と同じ処理を実行する。図１２に例示されるフローチャートでは、図７に例示されるフローチャートから、図４の音源ＬＳＩ４０４に対するステップＳ７０６及びステップＳ７０９の処理の一部が省かれている。

そして、ＣＰＵ１１０１は、ＢＬＥ－ＭＩＤＩ通信インタフェース１１０５を介して電子鍵盤楽器１００２から押鍵情報及び離鍵情報を受信したか否かを監視している。

ＣＰＵ１１０１は、電子鍵盤楽器１００２から押鍵情報を受信すると、図７のステップＳ７０３及びＳ７０４と同様の処理を実行する。即ち、ステップＳ１２０１の判定がＹＥＳの場合、ＣＰＵ１１０１は、ＲＡＭ１１０３上の歌詞インデックス変数ｎの値が示す第ｎ歌詞の歌声データを、ＲＡＭ４０３から読み出す（図１２のステップＳ７０４）。

そして、ＣＰＵ１１０１は、図１２のステップＳ７０４で読み出した歌声データを含む歌声の進行を指示する歌声データ４１５（図５参照）を、タブレット端末等１００１が内蔵する図１１の音声合成ＬＳＩ１１０６に送信する（図１２のステップＳ７０５）。

一方、ＣＰＵ１１０１は、電子鍵盤楽器１００２から離鍵情報を受信すると、図７のステップＳ７０９の一部の処理と同様の処理を実行する。即ち、図１２において、ステップＳ１２０２の判定がＹＥＳの場合、ＣＰＵ１１０１は、離鍵情報に含まれる離鍵の音高に対応する歌声の消音を、タブレット端末等１００１が内蔵する図１１の音声合成ＬＳＩ１１０６に指示する（図１２のステップＳ１２０３）。

上述の図１２のステップＳ７０５及びＳ１２０３の制御処理の繰返しにより、タブレット端末等１００１が内蔵する図１１の音声合成ＬＳＩ１１０６は、第２の実施形態で前述した図５の音声合成部５００と同様の図８、図９に例示されるフローチャートの処理を実行する。この結果、例えば音声合成ＬＳＩ１１０６において、第２の実施形態における歌声音声出力データ４１７と同等の歌声音声出力データが生成される。この歌声音声出力データは、タブレット端末等１００１の内蔵スピーカから出力され、又は、タブレット端末等１００１から電子鍵盤楽器１００２に送信されて電子鍵盤楽器１００２の内蔵スピーカから出力されるので、電子鍵盤楽器１００２での演奏操作に同期した音声の発声を行うことができる。

次に、第４の実施形態について説明する。図１３は、音声合成部の一部と電子鍵盤楽器が個別に動作する第４の実施形態の接続形態を示す図、図１４は第４の実施形態における音声合成部に対応するタブレット端末等１３０１のハードウェア構成例を示す図、図１５は第４の実施形態における音声合成ＬＳＩ及び音声合成部の一部の構成例を示すブロック図である。

前述した図５のブロック構成を有する第２の実施形態では、音声合成部５００は、図４の制御システム４００を含む電子鍵盤楽器が内蔵する音声合成ＬＳＩ４０５の機能として実装された。一方、前述した第３の実施形態では、図５の音声合成部５００は、図１０のタブレット端末等１００１が内蔵する図１１の音声合成ＬＳＩ１１０６の機能として実装された。第３の実施形態においてタブレット端末等１００１が内蔵する図１１の音声合成ＬＳＩ１１０６は、第２の実施形態において図４の制御システム４００を含む電子鍵盤楽器が内蔵する音声合成ＬＳＩ４０５と同等の機能を有する。

第４の実施形態では、電子鍵盤楽器１３０２とタブレット端末等１３０１とが例えばＵＳＢケーブル１３０３により接続される。この場合、電子鍵盤楽器１３０２の制御システムは、図４に例示される第２の実施形態における電子鍵盤楽器３００の制御システム４００と同等のブロック構成を有し、音声合成ＬＳＩ４０５を内蔵する。一方、第４の実施形態において、タブレット端末等１３０１は、第３の実施形態の場合とは異なり、音声合成ＬＳＩは内蔵せず、一般的な端末コンピュータでよい。図１４は、第４の実施形態における図１３のタブレット端末等１３０１のハードウェア構成例を示す図である。図１４において、ＣＰＵ１４０１、ＲＯＭ１４０２、ＲＡＭ１４０３、及びタッチパネルディスプレイ１４０４は、第３の実施形態に係る図１１のＣＰＵ１１０１、ＲＯＭ１１０２、ＲＡＭ１１０３、及びタッチパネルディスプレイ１１０４と同様の機能を有する。ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）通信インタフェース１４０５は、図１３に示されるように、タブレット端末等１３０１と電子鍵盤楽器１３０２とを接続するＵＳＢケーブル１３０３を使った電子鍵盤楽器１３０２との間の信号の送受信を駆動する。特には図示しないが、電子鍵盤楽器１３０２の側にも同様のＵＳＢ通信インタフェースが実装されている。

なお、データ容量が許せば、有線のＵＳＢ通信インタフェースの代わりに、Ｂｌｕｅｔｏｏｔｈ（米国ＢｌｕｅｔｏｏｔｈＳＩＧ，Ｉｎｃ．の登録商標）やＷｉ－Ｆｉ（米国Ｗｉ－ＦｉＡｌｌｉａｎｃｅの登録商標）などの無線通信インタフェースが用いられてもよい。

第４の実施形態に係る図１５において、図５のブロック図の各ブロックの参照番号と同じ参照番号を有するブロックは、図５の場合と同じ機能を有する。第４の実施形態に係る図１５の発声モデル部５０３（音声合成フィルタ部）は、音声合成部１５０１から分離されて、第２の実施形態の場合と同様の構成を有する図４の制御システム４００内の音声合成ＬＳＩ４０５に内蔵されている。

一方、第４の実施形態に係る図１５の音声合成部１５０１における音響モデル部５０１、テキスト解析部５０２、及びフォルマント補間処理部５０６の各機能部は、前述した第２の実施形態に係る図５の音声合成部５００におけるテキスト解析部５０２、及びフォルマント補間処理部５０６の各機能部と同様である。

具体的には、これらの処理は、タブレット端末等１３０１の図１４のＣＰＵ１４０１がＲＯＭ１４０２からＲＡＭ１４０３に読み出した音声合成プログラムを実行する処理である。ＣＰＵ１４０１は、この音声合成プログラムを実行することにより、第３の実施形態において図１２のフローチャートで例示したのと同様のメイン処理を実行する。また、第２の実施形態では音声合成ＬＳＩ４０５内のプロセッサがそれぞれ実行していた、図８のフローチャートで例示される音声合成処理と、図８のステップＳ８０３の詳細である図９のフローチャートで例示される歌声最適化処理とを、第４の実施形態ではＣＰＵ１４０１が実行する。

ただし、ＣＰＵ１４０１は、図１２のステップＳ７０５においては、図１２のステップＳ７０４で読み出した歌声データを含む歌声の進行を指示する歌声データ４１５（図５参照）を、音声合成ＬＳＩに送信するのではなく、図８のフローチャートで例示される音声合成処理に引き渡す。

そして、図１５に示されるように、ＣＰＵ１４０１は、図８のフローチャートで例示される音声合成処理のステップＳ８１０において、図８のステップＳ８０６又はＳ８０９で生成された目標スペクトル情報５１３を、音響モデル部５０１より出力される目標音源情報５１２と共に、図１４のＵＳＢ通信インタフェース１４０５から図１３のＵＳＢケーブル１３０３を介して、電子鍵盤楽器１３０２内の音声合成ＬＳＩ４０５（図４参照）で動作する発声モデル部５０３に送信する。

この結果、電子鍵盤楽器１３０２内の音声合成ＬＳＩ４０５（図４）において、歌声音声出力データ４１７が生成される。この歌声音声出力データ４１７は、第２の実施形態と同様の図４において、Ｄ／Ａコンバータ４１２によりアナログ歌声音声出力信号に変換される。このアナログ歌声音声出力信号は、ミキサ４１３でアナログ楽音出力信号と混合され、その混合信号がアンプ４１４で増幅された後に、特には図示しないスピーカ又は出力端子から出力される。

以上のようにして、第４の実施形態では、電子鍵盤楽器１３０２が有する音声合成ＬＳＩ４０５の機能と、タブレット端末等１３０１が有する歌声合成の機能とを組み合わせて、電子鍵盤楽器１３０２での演奏操作に同期した音声の発声を行うことが可能となる。
なお、学習済みモデル部を含む音響モデル部５０１はタブレット端末等１３０１やサーバ装置等の情報処理装置側に内蔵され、フォルマント補間処理部５０６等の第３音声データを生成する生成部は電子鍵盤楽器１３０２側に内蔵されていてもよい。この場合、情報処理装置から電子鍵盤楽器１３０２側には第１音域スペクトル情報５１０と、第２音域スペクトル情報５１１が送信される。

以上、開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができる。

その他、本発明は上述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、上述した実施形態で実行される機能は可能な限り適宜組み合わせて実施しても良い。上述した実施形態には種々の段階が含まれており、開示される複数の構成要件による適宜の組み合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、効果が得られるのであれば、この構成要件が削除された構成が発明として抽出され得る。

以上の実施形態に関して、更に以下の付記を開示する。
（付記１）
指定された音高を検出し、
第１音声モデルが出力する第１データ及び、前記第１音声モデルとは異なる第２音声モデルが出力する第２データに基づいて、前記指定された音高に応じた第３データを生成する、
情報処理装置。
（付記２）
前記第１音声モデルは、第１歌手の歌声を学習した学習済みモデルを含み、
前記第２音声モデルは、前記第１歌手とは異なる第２歌手の歌声を学習した学習済みモデルを含む、
付記１に記載の情報処理装置。
（付記３）
前記第３データを、前記第１データに応じたフォルマント周波数と前記第２データに応じたフォルマント周波数の間の補間演算に基づいて生成する、
付記１又は２に記載の情報処理装置。
（付記４）
前記第３データは、指定された曲の音域に対応する音声モデルで無い場合に、生成される、
付記１乃至３の何れかに記載の情報処理装置。
（付記５）
前記第１音声モデルは第１音域に対応し、
前記第２音声モデルは前記第１音域とは異なる第２音域に対応し、
前記第１音域と前記第２音域の間に重ならない音域を有し、
前記指定された音高は、前記重ならない音域に含まれる、
付記１乃至４の何れかに記載の情報処理装置。
（付記６）
付記１乃至５の何れかに記載の情報処理装置と、
音高を指定するための演奏操作子と、
を備える電子楽器。
（付記７）
音高を指定するための演奏操作子と、
前記指定された音高に応じた音高データを情報処理装置に出力し、
出力に応じて前記情報処理装置から、第１歌手の歌声を学習した第１音声モデル及び第２歌手の歌声を学習した第２音声モデルに応じたデータを取得し、
取得した前記データに基づいて、音声を合成する、
電子楽器。
（付記８）
前記データは、前記第１音声モデルが出力した第１データと、前記第２音声モデルが出力した第２データと、に基づいて前記情報処理装置が生成した第３データを含み、
前記第３データに基づいて、前記音声を合成する、
付記７に記載の電子楽器。
（付記９）
前記データは、前記第１音声モデルが出力する第１データと、前記第２音声モデルが出力する第２データと、を含み、
前記第１データ及び前記第２データに基づいて、第３データを生成し、
生成された前記第３データに基づいて、前記音声を合成する、
付記７に記載の電子楽器。
（付記１０）
付記７乃至９の何れかに記載の電子楽器と、
前記電子楽器が送信した前記音高データの取得に応じて、前記第１音声モデル及び前記第２音声モデルに応じたデータを前記電子楽器に向けて送信する情報処理装置と、
を備える情報処理システム。
（付記１１）
情報処理装置が、
第１音声モデルの第１データ及び、第２音声モデルの第２データに基づいて、指定された音高に応じた第３データを生成する、
方法。
（付記１２）
情報処理装置に、
第１音声モデルの第１データ及び、第２音声モデルの第２データに基づいて、指定された音高に応じた第３データを生成する、
機能を実現させるプログラム。

３００電子鍵盤楽器
３０１鍵盤
３０２第１のスイッチパネル
３０３第２のスイッチパネル
３０４ＬＥＤ
４００制御システム
４０１、１１０１、１４０１ＣＰＵ
４０２、１１０２、１４０２ＲＯＭ
４０３、１１０３、１４０３ＲＡＭ
４０４音源ＬＳＩ
４０５、１１０６音声合成ＬＳＩ
４０６キースキャナ
４０７ＬＥＤコントローラ
４０８ネットワークインタフェース
４０９システムバス
４１０タイマ
４１１、４１２、１１０７Ｄ／Ａコンバータ
４１３ミキサ
４１４、１１０８アンプ
４１５歌声データ
４１６発音制御データ
４１７歌声音声出力データ
４１８楽音出力データ
５００音声合成部
５０１音響モデル部
５０２テキスト解析部
５０３発声モデル部
５０４音源生成部
５０５合成フィルタ部
５０６フォルマント補間処理部
５０７言語特徴量系列
５０８音高情報
５０９音域情報
５１０第１音域スペクトル情報
５１１第２音域スペクトル情報
５１２目標音源情報
５１３目標スペクトル情報
５１４音源信号
５１５フィルタ出力データ
１００１、１３０１タブレット端末等
１００２、１３０２電子鍵盤楽器
１１０４、１４０４タッチパネルディスプレイ
１１０５ＢＬＥ－ＭＩＤＩ通信インタフェース
１４０５ＵＳＢ通信インタフェース

Claims

指定された音高を検出し、
前記指定された音高が、第１音声モデルに対応する第１音域と第２音声モデルに対応する第２音域の間に設けられる前記第１音域及び前記第２音域に重ならない第３音域に含まれる場合に、前記第１音声モデルが出力する第１データ及び、前記第２音声モデルが出力する第２データに基づいて、前記指定された音高に応じた第３データを生成する、
情報処理装置。
前記第１音声モデルは、第１歌手の歌声を学習した学習済みモデルを含み、
前記第２音声モデルは、前記第１歌手とは異なる第２歌手の歌声を学習した学習済みモデルを含む、
請求項１に記載の情報処理装置。
前記第３データを、前記第１データに応じたフォルマント周波数と前記第２データに応じたフォルマント周波数の間の補間演算に基づいて生成する、
請求項１又は２に記載の情報処理装置。
前記第３データは、指定された曲の音域に対応する音声モデルで無い場合に、生成される、
請求項１乃至３の何れかに記載の情報処理装置。
請求項１乃至４の何れかに記載の情報処理装置と、
音高を指定するための演奏操作子と、
を備える電子楽器。
音高を指定するための演奏操作子と、
制御部と、を備え、前記制御部は、
前記指定された音高に応じた音高データを情報処理装置に出力し、
前記指定された音高が、第１音声モデルに対応する第１音域と第２音声モデルに対応する第２音域の間に設けられる前記第１音域及び前記第２音域に重ならない第３音域に含まれる場合に、前記情報処理装置から、前記第１音声モデルが出力する第１データ及び前記第２音声モデルが出力する第２データに基づくデータを取得し、
取得した前記データに基づいて、音声を合成する、
電子楽器。
前記データは、前記第１音声モデルが出力した第１データと、前記第２音声モデルが出力した第２データと、に基づいて前記情報処理装置が生成した第３データを含み、
前記制御部は、
前記第３データに基づいて、前記音声を合成する、
請求項６に記載の電子楽器。
前記データは、前記第１音声モデルが出力する第１データと、前記第２音声モデルが出力する第２データと、を含み、
前記制御部は、
前記第１データ及び前記第２データに基づいて、第３データを生成し、
生成された前記第３データに基づいて、前記音声を合成する、
請求項６に記載の電子楽器。
請求項６乃至８の何れかに記載の電子楽器と、
前記電子楽器が送信する前記音高データの取得に応じて、前記第１データ及び前記第２データに基づくデータを前記電子楽器に向けて送信する情報処理装置と、
を備える情報処理システム。
情報処理装置が、
指定された音高を検出し、
前記指定された音高が、第１音声モデルに対応する第１音域と第２音声モデルに対応する第２音域の間に設けられる前記第１音域及び前記第２音域に重ならない第３音域に含まれる場合に、前記第１音声モデルが出力する第１データ及び前記第２音声モデルが出力する第２データに基づいて、前記指定された音高に応じた第３データを生成する、
方法。
情報処理装置に、
指定された音高を検出させ、
前記指定された音高が、第１音声モデルに対応する第１音域と第２音声モデルに対応する第２音域の間に設けられる前記第１音域及び前記第２音域に重ならない第３音域に含まれる場合に、前記第１音声モデルが出力する第１データ及び前記第２音声モデルが出力する第２データに基づいて、前記指定された音高に応じた第３データを生成させる、
機能を実現させるプログラム。