[第1の実施の形態]
以下、本発明を用いたテレビ会議システムを例に説明する。IPネットワーク回線を用いたテレビ会議システムは、ネットワークで接続された二以上の拠点のそれぞれが、マイクロホンアレイ及びスピーカなどから構成される電話会議設備を用いて交信し、各拠点に存在する話者間の会話を実現する。以下、任意拠点を中心としたテレビ会議システムについて説明する。なお、該拠点を近端と記し、近端と接続される近端以外の拠点を遠端と記す。
図1は、本発明の第1の実施の形態におけるテレビ会議システムのハードウェア構成を示した図である。
テレビ会議システムは、二以上のマイクロホン素子からなるマイクロホンアレイ101、A/D−D/A変換装置102、中央演算装置103、揮発性メモリ104、記憶媒体105、抑圧量表示部106、雑音除去操作入力部107、スピーカ108、カメラ109、画像表示装置110、ハブ111、オーディオケーブル112、デジタルケーブル113、デジタルケーブル114、デジタルケーブル115、オーディオケーブル116、デジタルケーブル117、モニタケーブル118、及びLANケーブル119から構成される。
A/D−D/A変換装置102は、マイクロホンアレイ101から出力される音圧のアナログ信号をデジタルデータに変換する。中央演算装置103は、A/D−D/A変換装置102の出力を管理する。記憶媒体105は、プログラム及びマイクロホンアレイ101の各マイク素子の物理座標などの情報を記憶し、また、中央演算装置103と接続されている。
マイクロホンアレイ101の各マイクロホン素子で収集された多チャンネル音圧データは、オーディオケーブル112を介してA/D−D/A変換装置102に出力される。前記多チャンネル音圧データは、A/D−D/A変換装置102によって多チャンネルデジタル音圧データに変換される。前述した変換は、各マイクロホン素子から出力される音圧信号の間で変換タイミングを同期して実行される。
変換された多チャンネルデジタル音圧データは、デジタルケーブル113を介して中央演算装置103に出力される。中央演算装置103は、入力された多チャンネルデジタル音圧データに音響信号処理を実行する。音響信号処理が実行された信号は、LANケーブル119及びハブ111を介して、ネットワークへ送信される。
ネットワークを介して遠端から受信したデジタル音圧データは、ハブ111及びLANケーブル119を介して、中央演算装置103に出力され、前記中央演算装置103で音響信号処理が実行される。前記音声処理がされたデジタル音圧データは、デジタルケーブル113を介して、A/D−D/A変換装置102に出力される。出力されたデジタル音圧データは、A/D−D/A変換装置102によってアナログ音圧データに変換され、オーディオケーブル116を介して変換されたアナログ音圧データがスピーカ108から出力される。
雑音除去操作入力部107は、収集された多チャンネル音圧データに含まれる各方向から到来する音声を抑圧するか否かを示す抑圧方向データをユーザが設定する入力部である。雑音除去操作入力部107は、例えば、複数のボタンが円筒状筐体の側面を一周するように設置された装置である。前記ボタンを操作することによって、前記ボタンが配置された方向から到来する音声を抑圧するか否かを設定することができる。例えば、ある方向から到来する音声を抑圧する場合はその方向のボタンのLEDを点灯させ、ある方向から到来する音声を抑圧しない時はその方向のボタンのLEDが消灯させることによって、どの方向の音声が抑圧されているかをユーザに提示できる。設定された抑圧方向のデータは、デジタルケーブル115を介して中央演算装置103に送信される。
マイクロホンアレイ101で収集され、中央演算装置103に出力された多チャンネルデジタル音圧データXには、スピーカ108から出力された音声が音響エコーとして含まれる。
中央演算装置103は、多チャンネルデジタル音圧データX、及びハブ111から出力されたデジタル音圧データに基づいて、前記音響エコーを除去するための多チャンネルデジタルフィルタを各時刻に更新し、更新された前記デジタルフィルタを揮発性メモリ104に記憶し、各時間帯に更新された前記デジタルフィルタを用いて前記音響エコーを除去する。さらに、中央演算装置103は、雑音除去操作入力部107から出力された抑圧方向データと、記憶媒体105に記憶されているマイクロホンアレイ101の各マイク素子の物理座標とを参照し、音響エコーを除去した後の多チャンネル音圧データYに対し、雑音除去処理を実行する。
また、中央演算装置103は、前記多チャンネルデジタル音圧データXを用いて、前記多チャンネルデジタル音圧データXに含まれる各到来方向の音量P_Xを算出する。さらに、中央演算装置103は、前記多チャンネルのデジタル音圧データXと前記雑音除去処理が実行されたデジタル音圧データYとを用いて、前記雑音除去処理が実行されたデジタル音圧データYに含まれる各到来方向の音量P_Yを算出する。算出された音量P_X及び算出された音量P_Yは、中央演算装置103から、デジタルケーブル14を介して、抑圧量表示部106に出力される。
抑圧量表示部106は、算出された音量P_X及び算出された音量P_Yを表示する。
カメラ109で撮影された画像信号は、デジタルケーブル117を介して、中央演算装置103に出力される。中央演算装置103は、入力された画像信号に画像信号処理を実行する。画像信号処理が実行された画像信号は、LANケーブル119及びハブ111を介してネットワーク上に送信される。
遠端から送信された前記画像信号は、ハブ111及びLANケーブル119を介して、中央演算装置に出力される。中央演算装置103は、入力された前記画像信号に画像信号処理を実行し、画像信号処理が実行された前記画像信号はモニタケーブル118を介して画像表示装置110に出力し、画像表示装置110の画面に画像を表示する。
デジタルケーブル113、デジタルケーブル114、デジタルケーブル115、デジタルケーブル117は、USBケーブルなどが用いられる。
抑圧量表示部106は、各方向から到来する音声の抑圧量をユーザに示すことができる。抑圧量表示部106は、例えば、緑色の複数のLEDを縦に並べた列SEQ_Xと赤色の複数のLEDを縦に並べた列SEQ_Yの2列を一つの列の組SEQ_COMBし、複数のSEQ_COMBが円筒状筐体の側面を一周するように配置された装置である。SEQ_COMBが配置された方向θがΘ=[θ_1,θ_2]の範囲に含まれる場合、SEQ_X_Θは、入力された多チャンネルデジタル音圧データXに含まれる、Θの範囲から到来する音声の音量をレベルメータを用いて表示する。SEQ_COMBが配置された方向θがΘ=[θ_1,θ_2]の範囲に含まれる場合、SEQ_Y_Θは、雑音が除去されたデジタル音圧データYに含まれる、Θの範囲から到来する音声の音量をレベルメータを用いて表示する。
音声が到来する方向の範囲ごとに音量を表示することによって、ユーザは、自分の音声の抑圧量を確認することができる。
本実施の形態において、マイクロホンアレイ101と抑圧量表示部106との筐体同士が互いに物理的に固定され、相対的位置関係が固定されていることが望ましい。これによって、マイクロホンアレイ101を移動する場合、抑圧量を表示する表示部も一緒に移動するため、ユーザは、マイクロホンアレイ101の位置を基準に考えればよく、抑圧される方向が分かりやすい。
また、新たにセンサを設置することが必要ないため装置の構成は簡易にできる。すなわち、マイクロホンアレイ101と抑圧量表示部106との相対的位置関係が時間的に変わるならば、相対的位置関係に応じて抑圧量を表示する位置を変化させなければならない。そのためには、磁気センサ、超音波センサ、または、カメラでマーカ位置を取得するなど、各種位置センサで相対的位置関係を得る必要がある。しかし、センサを導入すれば装置の構成が複雑になる。マイクロホンアレイ101と抑圧量表示部106との相対的位置関係を固定することによって、センサを不要とする。
また、抑圧量表示部106と雑音除去操作入力部107との筐体同士が互いに物理的に固定され、相対的位置関係が固定されていることが望ましい。これによって、前述したように相対的位置関係の推定のためのセンサを使わないことで、装置の構成を簡易にできる。
さらに、抑圧量表示部106のLED列の組SEQ_COMBが配置されている方向と、雑音除去操作入力部107のボタンが配置されている方向とが、一致していることが望ましい。これによって、ユーザが音声を抑圧したい方向を指定するときに、抑圧量を表示する表示部の位置とボタンの位置との間の距離が短いほど、ユーザが操作しやすい。
図2は、本発明の第1の実施の形態におけるテレビ会議システムの利用例を示した図である。
拠点AにユーザU1、及びユーザU2が存在し、拠点Bに存在するユーザと通話を行っている。このとき、拠点Aだけで会話を行いたいユーザU1が、自分の音声を拠点Bのユーザに聞こえないように、雑音除去操作入力部107に設置されたボタンのうち、自分からの距離が最短であるボタンを操作する。つまり、自分が存在する位置に対応するボタンを押す。すると、中央演算装置103が、ユーザU1の方向から到来する音量をよくあるするような指向性パターンを持つ方向性のフィルタを算出する。中央演算装置103は、算出された前記フィルタをエコーキャンセラ処理後の信号に適用し、ユーザU1の方向から到来する音を抑圧した音声を、拠点Bに送信する。
拠点Bでは、受信した前記信号が中央演算装置203を介し、スピーカ208から出力される。
拠点Aにおける抑圧量表示部106は、入力された多チャンネルデジタル音圧データXに含まれるユーザU1の存在する方向から到来する音声の音量、及び雑音除去後のデジタル音圧データに含まれるユーザU1が存在する方向から到来する音の音量を、ユーザU1の存在する方向に対応する抑圧量表示部106に配置されたSEQ_COMBに表示する。
ユーザU1は、表示される抑圧量を見て、ユーザU1の存在する方向から到来する音声の音量が十分抑圧されているか否かを確認しながら、拠点Bのユーザに聞かれずに会話ができる。また、拠点AのユーザU2と拠点Bのユーザとの間の会話を邪魔していないことを確認しながら、拠点Aだけで会話ができる。また、拠点Aの会話音声が十分抑圧されていない場合、拠点AのユーザU1、ユーザU2は、より多くの方向を指定するように雑音除去操作入力部107のボタンを操作するか、又は、より小さい声で会話するか、などによって、拠点Bのユーザに会話を聞かれずに経典Aだけで会話できる。
図3は、本発明の音収集システムの実施例であるテレビ会議システムにおける、各ユーザの発話、雑音除去操作入力部107への入力操作、抑圧量表示部106の表示、及び、遠端に送信される音圧データの音量の関係のタイムチャートの例を示す図である。なお、図3において横軸が時刻を表している。
時間帯t1において、ユーザU1及びユーザU2が発話している。このとき、ユーザU1及びユーザU2の音声は、抑圧されずに遠端に送信される。抑圧量表示においても、収集された音声の音量と送信される音声の音量との音量差はわずかであり、ほとんど抑圧されていないことが分かる。
時刻t2において、ユーザU1が、雑音除去操作入力部107のユーザU1から最短の位置に設置されたボタンB1を操作する。この操作の後から、ユーザU1の存在する方向の音声は抑圧された状態となる。
時間帯t3において、ユーザU1及びユーザU2が発話している。このとき、ユーザU2の音声は、時間帯t1と同様に、抑圧されずに送信される。一方で、ユーザU1の存在する方向の音声は抑圧された状態であるため、ユーザU1の音声は残留信号中では抑圧されている。抑圧量表示でも、ユーザU1の存在する方向から収集された音声の音量と遠端に送信される音声の音量との差が大きいことから、ユーザU1の音声が十分に抑圧されていることが分かり、ユーザU1は安心して近端だけでの会話を行うことができる。
時刻t4において、ユーザU1が、再びボタンB1を操作する。この操作の後から、ユーザU1の存在する方向の音声は抑圧された状態から通常の抑圧されていない状態に戻る。
時間帯t5において、ユーザU1の方向の音声は抑圧された状態ではないため、ユーザU1の音声は、時間帯t1と同様に、抑圧されずに遠端に送信される。抑圧量表示においても、収集された音声の音量と遠端に送信される音声の音量との音量差はわずかであり、ほとんど抑圧されていないことが分かる。
図13は、本発明の第1の実施の形態のテレビ会議システムの一連の処理を示したフローチャートである。
テレビ会議システムが起動した後、まず、自拠点(近端)の中央演算装置103は、音響エコーキャンセラ適応処理を行なう(S1301)。音響エコーキャンセラ適応処理は、スピーカから白色信号、又は、時間方向に周波数が変化するタイプの全帯域信号などを出力し、音響エコーキャンセラのフィルタを初期化する。その後、中央演算装置103は、他の拠点(遠端)から接続が要求されたか否かを判定する(S1302)。
他の拠点(遠端)から接続が要求がされたと判定された場合、中央演算装置103は、他の拠点(遠端)との接続を行う(S1304)。他の拠点(遠端)から接続が要求されていないと判定された場合、中央演算装置103は、自拠点(近端)から他の拠点(遠端)へ接続を要求したか否かを判定する(S1303)。
自拠点(近端)から他の拠点(遠端)へ接続を要求したと判定された場合、中央演算装置103は、他の拠点(遠端)との接続を行う(S1304)。自拠点(近端)から他の拠点(遠端)へ接続を要求していないと判定された場合、中央演算装置103は、S1302に戻る。
S1304において、他の拠点(遠端)と接続された後、中央演算装置103は、スピーカから遠端の音声を再生し(S1305)、音響エコーキャンセラ(S1306)、雑音除去処理(S1307)、収集音声の音源分離(S1308)、残留信号に対する方向別音量の計算(S1309)、抑圧量の提示(S1310)、及び、他の拠点(遠端)への音声送信(S1311)の順に処理を実行する。前述した処理が実行された後、中央演算装置103は、他の拠点(遠端)との接続が切れたか否かを判定する(S1312)。
他の拠点(遠端)との接続が切れていると判定された場合、中央演算装置103は、他の拠点(遠端)との接続を切断する処理を実行し(S1314)、一連の処理を終了する。他の拠点(遠端)との接続が切れていないと判定された場合、中央演算装置103は、自拠点(近端)から他の拠点(遠端)へ切断を要求したか否かを判定する(S1313)。
自拠点(近端)から他の拠点(遠端)へ切断を要求したと判定された場合、中央演算装置103は、他の拠点(遠端)との接続を切断する処理を実行し(S1314)、一連の処理を終了する。自拠点(近端)から他の拠点(遠端)へ切断を要求していないと判定された場合、S1315に戻り、以下、同様の処理を行う。
図4は、本発明の第1の実施の形態におけるテレビ会議システムの構成を示したブロック図である。
マイクロホンアレイ101の各マイクロホン素子に入力された多チャンネルアナログ音圧データは、多チャンネルA/D変換部401で各マイクロホン素子に対応した多チャンネルデジタル音圧データx_i(t)に変換される。ここで、iはマイク素子の番号を示すインデックスであり、全マイク素子数をMとすると、iは0からM−1までのいずれの値をとる。また、tはサンプリング周期ごとの離散時間である。変換された多チャンネルデジタル音圧データx_i(t)は、多チャンネルフレーム処理部402に出力される。
音声受信部404は、遠端から送信されたデジタル音圧データref(t)を受信する。なお、受信するデジタル音圧データref(t)は、TCP/IPプロトコル、又はRTPプロトコルを用いたデジタル音圧データである。
サーバを中央に介する多拠点テレビ会議システムの場合、サーバは多拠点から音声信号を受信し、受信した音声信号を混合して、それぞれの拠点に送信する。音声受信部404は、サーバから送信さえた混合した音声信号を受信する。この場合、音声受信部404は、混合した音声をそのままデジタル音圧データref(t)としてD/A変換部405と多チャンネルフレーム処理部402とに送信する。
サーバを中央に介さず、マルチキャストなどを用いて通信を行う多拠点テレビ会議システムの場合、それぞれの拠点の音声信号は、それぞれの拠点に送信され、音声受信部404は、それぞれの拠点の音声信号をそれぞれの拠点から直接受信する。この場合、音声受信部404は、それぞれの拠点の音声を混合した後、前記混合した音声をデジタル音圧データref(t)としてD/A変換部405と多チャンネルフレーム処理部402とに出力する。なお、多チャンネルフレーム処理部402に出力されたデジタル音圧データref(t)は、後述するように、多チャンネルフレーム処理部402において参照信号として用いられる。
D/A変換部405は、入力されたデジタル音圧データref(t)をアナログ音圧データに変換する。変換されたアナログ音圧データは、音声再生部406でスピーカ108から出力される。
多チャンネルフレーム処理部402は、入力された多チャンネルデジタル音圧データx_i(t)をt=τSからt=τS+F−1の範囲に該当する多チャンネル時間領域フレーム信号Xf_i(t,τ)及び時間領域の参照信号Reff(t,τ)に変換する。
なお、fは周波数を等間隔に分割した周波数帯域を表すインデックスであり、周波数をN分割した場合、fは0からN−1までのいずれかの値をとる。以下、周波数ビンfと記す。tは、時間を表す。τはフレームインデックスと呼び、多チャンネルフレーム処理部402から音声送信部413までの処理が完了した後、τは1加算される。Sはフレームシフトと呼び、フレームごとにずらすサンプル数を意味する。Fはフレームサイズと呼び、フレームごとに一度に処理するサンプル数を意味する。
変換された多チャンネル時間領域フレーム信号Xf_i(t,τ)及び時間領域の参照信号Reff(t,τ)は、多チャンネル短時間周波数分析部403に出力される。多チャンネル短時間周波数分析部403は、入力された多チャンネル時間領域フレーム信号Xf_i(t,τ)及び時間領域の参照信号Reff(t,τ)に、直流成分カット、ハミング窓、ハニング窓、及びブラックマン窓などの窓処理を実行する。その後、多チャンネル短時間周波数分析部403は、さらに、短時間フーリエ変換を実行し、多チャンネル周波数領域フレーム信号Xf_i(f,τ)及び周波数領域の参照信号Reff(f,τ)に変換する。ここで、周波数ビンfの数(以下、周波数ビン数と記す。)をNとする。
図14は、本発明の第1の実施の形態の、任意フレームτにおける多チャンネル周波数領域フレーム信号Xf_i(f,τ)のデータ構造を示した説明図である。
マイク素子数及び周波数ビン数で分割された一つ一つに、対応する多チャンネル周波数領域フレーム信号Xf_i(f,τ)が格納されている。なお、多チャンネル周波数領域フレーム信号Xf_i(f,τ)は、複素数の値をとる。
各マイクロホン素子の多チャンネル周波数領域フレーム信号Xf_i(f,τ)及び周波数領域の参照信号Reff(f,τ)は、多チャンネル音響エコーキャンセラ部407に出力される。また、多チャンネル周波数領域フレーム信号Xf_i(f,τ)は、音源分離部408にも出力される。
多チャンネル音響エコーキャンセラ部407は、多チャンネル短時間周波数分析部403から入力された各マイクロホン素子の多チャンネル周波数領域フレーム信号Xf_i(f,τ)から、スピーカ108から入力された信号の音響エコー信号成分を除去する。音響エコー信号成分は、多チャンネル短時間周波数分析部403から入力された周波数領域の参照信号Reff(f,τ)に基づいて算出される。前記音響エコー除去処理は、例えば、NLMSアルゴリズムなど一般的なアルゴリズムを用いて音響エコーの伝達関数を逐次適応させれる処理が考えられる。なお、音響エコーキャンセラの処理の差異は、本発明の本質的な差にはならない。
多チャンネル音響エコーキャンセラ部407で音響エコー成分が除去された後の多チャンネル周波数領域フレーム信号をEf_i(f,τ)とする。多チャンネル音響エコーキャンセラ部407で算出された多チャンネル周波数領域フレーム信号Ef_i(f,τ)は、雑音除去処理部409に出力される。
図15は、本発明の第1の実施の形態の任意フレームτにおける多チャンネル周波数領域フレーム信号Ef_i(f,τ)のデータ構造を示した説明図である。
マイク素子数及び周波数ビン数で分割された一つ一つに、対応する多チャンネル周波数領域フレーム信号Ef_i(f,τ)が格納されている。なお、多チャンネル周波数領域フレーム信号Ef_i(f,τ)は、複素数の値をとる。
雑音除去操作入力部107は、互いに排他的なJ個の方向範囲Θ_j=[θ_j1,θ_j2]ごとに、雑音除去を行うか否かを示す信号が出力される。ただし、jは方向を示すインデックスであり、全方向をJ分割した場合、jは、0からJ−1までのいずれかの値をとる。
具体的には、雑音除去処理部409は、方向範囲Θ_jごとに対応するボタンB_jを備えており、ボタンB_jが押される度に、
に示すような、二値の値をとるIsReduced_j(τ)が出力される。ただし、IsReduced_j(τ)は、任意フレームでボタンB_jが押されたときに、真(値が1)をとるブール値とする。
出力されるIsReduced_j(τ)が0であるの場合、雑音除去を行わないことを意味する信号が雑音除去処理部409に出力される。出力されるIsReduced_j(τ)が0でない場合、雑音除去を行うことを意味する信号が雑音除去処理部409に出力される。
図16は、本発明の第1の実施の形態の、任意フレームτにおけるIsReduced_j(τ)のデータ構造を示した説明図である。
全方向をJ分割した領域に、対応する値が格納される。図16に示すように1次元の配列になっている。
なお、雑音を除去する方向を指定する方法は、ユーザーが手動で指定する方法に限定されず、雑音除去処理部409に予め設定値を設ける方法であってもよい。この場合、雑音除去操作入力部107を備える必要がない。
雑音除去処理部409は、多チャンネル音響エコーキャンセラ部407から入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)、及び、雑音除去操作入力部107から入力されたIsReduced_j(τ)に基づいて、多チャンネル周波数領域フレーム信号Ef_i(f,τ)から指定された方向の雑音を除去する。以下、具体的な処理について説明する。
図5は、最小分散ビームフォーマによる雑音除去処理部409の構成例を示すブロック図である。
雑音除去処理部409は、目的音/雑音分離部501、目的音ステアリングベクトル更新部502、雑音共分散行列更新部503、フィルタ更新部504、及び、フィルタ乗算部505を備える。
まず、入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)の性質について説明する。
図6は、入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)のうちの一つのチャンネルの信号を模式的に示す図である。
図6に示すように、収集された音声は、周波数成分ごとが離散していることが知られている。この性質を「スパース性」と呼ぶ。したがって、各周波数成分は、ただ一人の音声の成分と仮定できる。本実施の形態は、この仮定を利用して目的音と雑音とを分離する。
まず、目的音/雑音分離部501は、マイク配置410からマイク素子の配置に関するデータ、雑音除去操作入力部107から収集された多チャンネル音圧データに含まれる任意方向から到来する音声を抑圧するか否かを示す抑圧方向データ、及び、多チャンネル音響エコーキャンセラ部407から入力された多チャンネル周波数領域フレーム信号Ef_i(f,τ)を用いてθを算出する。なお、θは、音声の到来方向を表す量である。
θの算出方法としては、例えば、マイクロホンアレイ101のマイク素子数が二つの場合、
を用いて算出される。
ここで、ρ(f,τ)は、二つのマイク素子の入力信号の、フレームτ、及び周波数インデックスfにおける位相差とする。位相差ρ(f,τ)の算出方法としては、例えば、図14に示すように、任意の周波数、つまり、任意の行における、マイク素子1の多チャンネル周波数領域フレーム信号Xf_1(f,τ)とマイク素子iの多チャンネル周波数領域フレーム信号Xf_1(f,τ)との割り算を計算し、その乗数から位相差が算出される。
また、freq(f)は周波数ビンfの周波数であり、
を用いて算出される。ただし、Fsは、多チャンネルA/D変換部401のサンプリングレートである。dは、二つのマイク素子の物理的な間隔とする。cは、音速である。音速は、厳密には温度、及び媒質の密度に依存して変化するが、通常340m/sなど一つの値に固定し用いてもよい。
雑音除去処理は、前述の「スパース性」の仮定に基づいて、時間−周波数を固定し、固定された時間−周波数ごとに同一の処理を行う。以下、固定された時間−周波数のサフィックス(f,τ)は省略して記す。
マイクロホンアレイ101のマイク素子数が三つ以上の場合、SPIREアルゴリズム(非特許文献1参照)によって、θを算出できる。なお、SPIREアルゴリズムにおいても、前述の「スパース性」の仮定に基づき、時間−周波数を固定し、固定された時間−周波数ごとに同一の処理を行う。
図7は、マイクロホンアレイ101のマイク素子数が三つ以上の場合におけるθの算出方法(SPIREアルゴリズム)を示すフローチャートである。
まず、目的音/雑音分離部501は、マイク素子の配置に関するデータを読み込む(S701)。なお、マイク配置に関すデータは、記憶媒体105が保持する。
次に、目的音/雑音分離部501は、二つのマイク素子を一つの組とするマイクペアを構成するためにマイク素子の組み合わせを選択する(S702)。このとき、選択される二つのマイク素子の配置間隔がマイクペアごとに異なるように選択されることが望ましい。
次に、目的音/雑音分離部501は、選択された各マイクペアをマイク素子の配置間隔が小さいものから順に並び替え、マイクペア待ち行列に格納する(S703)。ここで、kを一つのマイクペアを特定するためのインデックスとし、k=1をマイク素子の配置間隔が最も短いマイクペアとし、k=Kをマイク素子の配置間隔が最も長いマイクペアとする。
目的音/雑音分離部501は、マイクペア待ち行列の要素数が0か否かを判定する(S704)。つまり、マイクペアがあるか否かが判定される。マイクペア待ち行列の要素数が0でないと判定された場合、目的音/雑音分離部501は、マイクペア待ち行列からマイク素子の配置間隔が最短のマイクペアを一つ読み出し、かつ、読み出したマイクペアをマイクペア待ち行列から除く処理を行う(S705)。
目的音/雑音分離部501は、読み出したマイクペアに対して、位相差を算出する。具体的には、目的音/雑音分離部501は、まず、
を満たす整数n_kを算出する。不等式で囲まれた範囲が2πに相当するため、必ず解が存在する。
次に、目的音/雑音分離部501は、算出された整数n_kを
に代入し、位相差を算出する。なお、k=1の場合における初期値は、
で定義される。
S706の後に再びS704に戻り、全てのマイクペアについて同一の処理を実行する。
S704において、マイクペア待ち行列の要素数が0であると判定された場合、目的音/雑音分離部501は、算出された位相差を
に代入し、音声の到来方向であるθ(f,τ)を算出する。ここで、dkはk番目のマイクペアのマイク素子の配置間隔とする。
音の到来方向の算出の推定精度は、マイクペアのマイク素子の配置間隔が長いほど、高くなるが、多チャンネル周波数領域フレーム信号Ef_i(f,τ)の半波長以上のマイクペアのマイク素子の配置間隔が長ければ、マイクペアのマイク素子の配置間隔の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまう(空間的エイリアシング)。
前述の到来方向の算出方法は、長いマイクペアのマイク素子の配置間隔に対して本来[数2]で得られる二つ以上の方向のうち、前のループで短いマイクペアのマイク
素子の配置間隔に対して一意に得られている音声の到来方向θ(f,τ)の方を選択することと等価な手順となっている。したがって、空間的エイリアシングが生じるような場合においても高精度に音の到来方向を算出することができる。
目的音/雑音分離部501は、算出された時間−周波数ごとの音声の到来方向θ(f,τ)に基づいて、多チャンネル周波数領域フレーム信号Ef_i(f,τ)を目的音信号Esubject_i(f,τ)と雑音信号Enoise_i(f,τ)とに分離する。
具体的には、各周波数ビンfにおいて、方向範囲Θ_jに音声の到来方向θ(f,τ)が含まれるような方向範囲Θ_jのjに対し、以下に示すように分離される。
図17は、本発明の第1の実施の形態の任意フレームτにおける目的音信号Esubject_i(f,τ)のデータ構造を示す図である。図18は、本発明の第1の実施の形態の任意フレームτにおける雑音信号Enoise_i(f,τ)のデータ構造を示す図である。
目的音信号Esubject_i(f,τ)は、目的音/雑音分離部501から目的音ステアリングベクトル更新部502に出力される。雑音信号Enoise_i(f,τ)は、目的音/雑音分離部501から雑音共分散行列更新部503に出力される。
目的音ステアリングベクトル更新部502は、
に基づき、目的音ステアリングベクトルasubject(f,τ)=[a_0(f,τ),・・・,a_M−1(f,τ)]Tを更新する。ただし、安定のために、目的音信号Esubject_i(f,τ)の絶対値が十分に大きいときだけに更新するようにしてもよい。更新された目的音ステアリングベクトルasubject(f,τ)は、フィルタ更新部504に出力される。
雑音共分散行列更新部503は、
に基づき、雑音共分散行列Rn(f,τ)を更新する。ただし、雑音信号Enoise_i(f,τ)=[Enoise_0(f,τ),・・・,Enoise_M−1(f,τ)]Tとし、γnは0以上1未満の適当な定数パラメタとする。また、安定のために、雑音信号Enoise_i(f,τ)の絶対値が十分に大きいときだけに更新するようにしてもよい。更新された雑音共分散行列Rn(f,τ)は、フィルタ更新部504に出力される。
フィルタ更新部504は、入力された目的音ステアリングベクトルasubject(f,τ)、及び、雑音共分散行列雑音共分散行列Rn(f,τ)から、
に基づき、フィルタw(f,τ)を算出する。ただし、γwは0以上1未満の適当な定数パラメタである。
フィルタ乗算部505は、フィルタw(f,τ)、及び多チャンネル周波数領域フレーム信号Ef_i(f,τ)を
に代入し、指定された方向から到来する音を除去した周波数領域フレーム信号y(f,τ)を算出する。
前述した手順によって算出された周波数領域フレーム信号y(f,τ)は、時間信号生成部411及び方向別残留音量計算部415に出力される。時間信号生成部411は、入力された周波数領域フレーム信号y(f,τ)に逆FFTを行い、時間領域フレーム信号y(t,τ)に変換する。さらに、時間信号生成部411は、時間領域フレーム信号y(t,τ)をフレーム周期ごとに重ね合わせ、加算し、かつ窓関数の逆数を乗算し、時間領域信号y(t)に変換する。そして、時間信号生成部411は、音声送信部413に変換された時間領域信号y(t)を出力する。
音声送信部413は、サーバを介する場合、サーバに対して、各拠点ごとに生成した時間領域信号y(t)を送信する。サーバを介さない場合、各拠点に対して、時間領域信号y(t)をTCP/IP又はRTPプロトコルを用いて送信する。
音源分離部408は、多チャンネル周波数フレーム領域信号Xf_i(f,τ)を、各方向の成分である方向別周波数領域フレーム信号Xf_j(f,τ)に分離し、音量計算部414、及び方向別残留音量計算部415に、分離された方向別周波数領域フレーム信号Xf_j(f,τ)を出力する。以下、音源分離部408における処理について説明する。
図8は、本発明の第1の実施の形態の音源分離部408の処理を示すフローチャートである。
まず、音源分離部408は、入力された多チャンネル周波数フレーム領域信号Xf_i(f,τ)から、音声の到来方向θ(f,τ)を算出する(S801)。なお、音の到来方向θ(f,τ)の算出方法は、前述したSPIREアルゴリズムを用いて算出される。
次に、音源分離部408は、周波数ビンfごとに振幅の絶対値AX(f,τ)を
を用いて算出する(S802)。
算出されたθ(f,τ)が方向範囲Θjの範囲内に含まれる場合、
に基づいて方向別周波数領域フレーム信号Xf_j(f,τ)を算出する(S803)。
図19は、本発明の第1の実施の形態の任意フレームτ方向別周波数領域フレーム信号Xf_j(f,τ)のデータ構造を示す図である。
前述の処理のよって算出された方向別周波数領域フレーム信号Xf_j(f,τ)は、図19に示すに、対応する周波数及び対応する方向範囲ごとにデータが格納されている。
音量計算部414は、入力された方向別周波数領域フレーム信号Xf_j(f,τ)の収音信号内方向別音量P_j(τ)を、
に基づいて算出する。算出された収音信号内方向別音量P_j(τ)は、抑圧量表示部106に出力される。
方向別残留音量計算部415は、雑音除去処理部409から入力された周波数領域フレーム信号y(f,τ)、及び、音源分離部408から入力された方向別周波数領域フレーム信号Xf_j(f,τ)から、方向範囲Θjの範囲内から到来する音が抑圧された音量、つまり、残留信号内方向別音量Q_j(τ)を算出する。以下、方向別残留音量計算部415における。処理について説明する。
図9は、本発明の第1の実施の形態の方向別残留音量計算部415の処理を示すフローチャートである。
まず、方向別残留音量計算部415は、初期化設定を行う(S901)。具体的には、周波数ビンfを0に設定し、全ての範囲方向Θjに対して残留信号内方向別音量Q_j(τ)を0に設定する。
次に、方向別残留音量計算部415は、f=N−1であるか否かを判定する(S902)。f=N−1でないと判定された場合、方向別残留音量計算部415は、jを0に設定する(S908)。
方向別残留音量計算部415は、j=Jであるか否かを判定する(S903)。j=Jであると判定された場合、方向別残留音量計算部415は、S907に進む。j=Jでないと判定された場合、方向別残留音量計算部415は、方向別周波数領域フレーム信号Xf_j(f,τ)=0であるか否かを判定する(S904)。
方向別周波数領域フレーム信号Xf_j(f,τ)=0であると判定された場合、方向別残留音量計算部415は、j+1を新たなjと定義し(S905)、S903に戻る。方向別周波数領域フレーム信号Xf_j(f,τ)=0でないと判定された場合、方向別残留音量計算部415は、残留信号内方向別音量Q_j(τ)に|y(f,τ)|2を加算し、前記加算された値を新たな残留信号内方向別音量Q_j(τ)と定義する(S906)。
次に、方向別残留音量計算部415は、f+1を新たな周波数ビンfと定義し(S907)、S902へ戻り、以下同様の処理を行う。
S902においてf=N−1であると判定された場合、方向別残留音量計算部415は、抑圧量表示部106に残留信号内方向別音量Q_j(τ)を出力する。
ここで、方向別周波数領域フレーム信号Xf_j(f,τ)は、音源分離部408において、「スパース性」の仮定に基づき、各周波数fの成分をただ一つの範囲方向Θjに分離されたものであるため、多くとも一つのfでのみ方向別周波数領域フレーム信号Xf_j(f,τ)≠0である。したがって、S903〜S905のループにおいて、方向別周波数領域フレーム信号Xf_j(f,τ)≠0となる周波数ビンfを一つ見つけた場合、次のS902〜S907のループに移ることができる。これによって、高速な処理を行える。
図10は、本発明の第1の実施の形態の抑圧量表示部106の表示の一例を示す図である。
抑圧量表示部106は、収音音量のメータSEQ_X_Θjと残留信号の音量メータSEQ_Y_Θjとが並列して一組のSEQ_COMB_Θjになっており、SEQ_COMB_Θjが円筒上筐体の側面に配置されている。各SEQ_COMB_Θjは、各方向範囲Θjに対応する。SEQ_COMB_Θjは、方向範囲Θ_j=[θ_j1,θ_j2]に対して、θjm=(θ_j1+θ_j2)/2の方向に配置されているのが望ましい。これは、各SEQ_COMB_Θjが配置されている方向と音声の到来方向の対応を分かりやすくするためである。
収音音量のメータSEQ_X_Θjは、収音信号内方向ごと音量P_j(τ)を表示する。残留信号の音量メータSEQ_Y_Θjは、残留信号内方向別音量Q_(τ)を表示する。
図11は、本発明の第1の実施の形態の抑圧量表示部106で点灯するLEDの数と収音信号内方向別音量P_j(τ)の値との対応付けを示す図である。図12は、本発明の第1の実施の形態の抑圧量表示部106で点灯するLEDの数と残留信号内方向別音量Q_j(τ)の値との対応付けを示す図である。
収音音量のメータSEQ_X_Θjを構成するLEDの個数が8個だった場合、収音信号内方向別音量P_j(τ)とPmaxの比に対して、点灯するLEDの数を0個から8個点灯させるものが考えられる。ただし、表中のPmaxは収音信号内方向別音量P_j(τ)の最大値とし、各LEDの番号は下部から順にL1、L2・・・、L8とする。残留信号内方向別音量Q_j(τ)についても、図12に示すように、同様である。ただし、Qmaxは、残留信号内方向別音量Q_j(τ)の最大値とする。
抑圧量表示部106は、本実施の形態のようなLEDによる表示だけに限定されない。例えば、有機ELディスプレイまたは液晶ディスプレイなどの他のデバイスであってもよく、また、レベルメータとしての機能を有する他の表示方法であってもよい。
本実施の形態は、テレビ会議システムに限定されない、例えば、携帯電話のテレビ電話またはカーナビのハンズフリー通話装置に適用可能である。
本発明の実施の形態は、マイクロホンアレイ101、抑圧量表示部106、雑音除去操作入力部107の形状に限定されない。例えば、半球状の形状でマイクロホンアレイ101に、マイク素子が配置され、各マイク素子に対応するように抑圧量表示部106、及び雑音除去操作入力部107を配置してもよい。この場合、2次元的な方向ではなく、高さを含めた3次元的な方向について音を分離し、表示することができる。
[第2の実施の形態]
図20は、本発明の第2の実施の形態におけるテレビ会議システムの構成を示したブロック図である。
第2の実施の形態は、多チャンネル音響エコーキャンセラ部407で算出された多チャンネル周波数領域フレーム信号Ef_i(f,τ)を、音源分離部408及び雑音除去処理部409に出力する。
前述した構成によって、第1の実施の形態は、エコーを除去し、かつ、雑音を除去した音声を抑圧された音声として表示するのに対し、第2の実施の形態は、雑音を除去した音声を抑圧された音声として表示する。
[第3の実施の形態]
抑圧量表示部106は、収音信号内方向別音量P_j(τ)、及び残留信号内方向別音量Q_j(τ)を表示する形態に限定されない。
例えば、抑圧量表示部106は、
に示すように、収音信号内方向別音量P_j(τ)と残留信号内方向別音量Q_j(τ)との差を抑圧量R_j(τ)と定義し、抑圧量R_j(τ)を表示する形態であってもよい。
また、抑圧量表示部106は、
に示すように、収音信号内方向別音量P_j(τ)と残留信号内方向別音量Q_j(τ)の比を抑圧量R_j(τ)と定義し、抑圧量R_j(τ)を表示する形態であってもよい。
抑圧量表示部106は、収音信号内方向別音量P_j(τ)と残留信号内方向別音量Q_j(τ)との相対的な大きさの違いが分かる尺度を表示することが望ましい。
図21は、本発明の第3の実施の形態における抑圧量表示部106の表示の一例を示す図である。
図21に示すように、抑圧量表示部106は、抑圧量R_j(τ)、及び残留信号内方向別音量Q_j(τ)を表示アイコンを用いる表示方法が考えられる。
図22は、本発明の第3の実施の形態における表示アイコンと抑圧量R_j(τ)との対応付けを示す図である。図23は、本発明の第3の実施の形態における表示アイコンと残留信号内方向別音量Q_j(τ)との対応付けを示す図である。
図22に示すように、抑圧量R_j(τ)とRmaxとの比を表示アイコンと対応付ける方法が考えられる。ただし、Rmaxは、抑圧量R_j(τ)の最大値とする。また、図23に示すように、残留信号内方向別音量Q_j(τ)とQmaxとの比を表示アイコンと対応付ける方法が考えられる。ただし、Qmaxは、残留信号内方向別音量Q_j(τ)の最大値とする。
以上説明した第3の実施の形態では、第1の実施の形態に比べて、ユーザは、より直観的に音量を把握できる。
[第4の実施の形態]
音声を音源ごとに分離する音源分離部408の処理の方法は第1の実施の形態に限定されず、他の処理によって分離できる。
図24は、本発明の第4の実施の形態におけるテレビ会議システムの構成を示したブロック図である。
図24に示すように、多チャンネルフレーム処理部402から出力される多チャンネル時間領域フレーム信号Xf_i(t,τ)が音源分離部2608に入力される。以下、音源分離部2608の処理について説明する。
図25は、本発明の第4の実施の形態の音源分離部2608の処理を示したフローチャートである。
音源分離部2608は、多チャンネル時間領域フレーム信号Xf_i(t,τ)を入力とし、SIMO−ICA(非特許文献2参照)フィルタを算出し、SIMO−ICAフィルタを更新する(S2701)。なお、フィルタの算出方法及び更新方法は、非特許文献2に記載された方法を用いることができる。
次に、音源分離部2608は、更新されたSIMO−ICAのフィルタを多チャンネル時間領域フレーム信号Xf_i(t,τ)に乗算し、各音源ごとに分離する(S2702)。前述した分離処理によって、S個の信号Xf_s_i(t,τ)に分離される。ここで、sは、0からS−1までの整数であり、各音源を表すインデックスである。以下、音源sと記す。また、Sは最大音源数であり、マイク素子の数(M個)以下の数とする。つまり、分離された信号Xf_s_i(t,τ)は、音源sの音がマイク素子iに入力された信号を示す。
音源分離部2608は、分離された信号Xf_s_i(t,τ)を周波数領域フレーム信号Xf_s_i(f,τ)に変換する(S2703)。
音源分離部2608は、音源sを0に設定し(S2704)、次にs=S−1か否かを判定する(S2705)。
s=S−1でないと判定された場合、音源分離部2608は、周波数ビンfを0に設定し、さらに、方向ヒストグラムh_s(θ)を初期化する(S2706)。具体的には、各音源sの全ての音声の到来方向θに対して、方向ヒストグラムh_s(θ)=0と設定する。なお、方向ヒストグラムh_s(θ)は任意の音源における角度分布を示すヒストグラムである。次に、音源分離部2608は、f=N−1か否かを判定する(S2707)。
周波数ビンf=N−1でないと判定された場合、音源分離部2608は、音声の到来方向θ(f,τ)を算出する(S2708)。なお、音声の到来方向θ(f,τ)の算出は、第1の実施の形態と同様に、SPIREアルゴリズムを用いて算出される。
次に、音源分離部2608は、算出された音声の到来方向θ(f,τ)をθhとし、
にしたがって、方向ヒストグラムh_s(θh)へ投票する(S2709)。そして、f+1を新たな周波数ビンfと定義し(S2710)、S2707へ戻る。以下、全ての周波数について(f=N−1になるまで)、S2708〜S2710までの処理が同様に行われる。
S2707において、f=N−1であると判定された場合、音源分離部2608は、S2707〜S2710の一連のループ処理によって作成された方向ヒストグラムh_s(θh)から方向ピークを探索する(S2711)。SIMO―ICAフィルタを用いた分離によって、理論的に、周波数領域フレーム信号Xf_s_i(f,τ)は、単一の音源の成分である。したがって、前述した方向ピークの探索は、方向ヒストグラムh_s(θh)の分布から最大値をとるθh求めればよい。また、求められたθhを音源sの音の到来方向θ_sとする。
方向ピークを探索した後、音源分離部2608は、s+1を新たな音源sと定義し(S2712)、S2705へ戻り、以下、同様の処理を行う。
S2705において、s=S−1であると判定された場合、音源分離部2608は、前述した、S2705〜S2712のループ処理によって、算出された各音源sの音声の到来方向θ_sと、抑圧量表示部106の範囲方向Θ_jとを対応付ける(S2713)。
以上の処理によって、音源分離部2608は、算出された各音源sの音声の到来方向θ_sに基づいて、各方向に分離さた方向別周波数領域フレーム信号Xf_j(f,τ)を算出し、音量計算部414及び方向別残留音量計算部2615に方向別周波数領域フレーム信号をXf_j(f,τ)を出力する。以下、算出された各音源sの音声の到来方向θ_sと表示範囲Θ_jとの対応付け、及び方向別周波数領域フレーム信号Xf_j(f,τ)の算出方法について説明する。
一つの方法として、例えば、Θ_jがθ_sを含むjについて、
に基づいて方向ごと周波数領域フレーム信号Xf_j(f,τ)を算出する。
また、別の方法として、例えば、
に示すコスト関数C(δ)を考える。ここで、δ(s,j)は、任意の音源sに対して、ただ一つのjのみが1となり、その他のjについては0となり、かつ、任意のjに対し、ただ一つのsのみが1となり、その他のsについては0となるような関数である。δ(s,j)は音源sとjとの一対一の対応関係を表す。また、dist(θ_s,Θ_j)は、
に示すような、距離関数とする。
対応付けの方法として、例えば、コスト関数C(δ)が最大となるδを求めることで、音源sと方向範囲jとを対応付ける方法が考えられる。そして、δ(s,j)=1となるsの分離された信号Xf_s_i(t,τ)を
に代入し、方向ごと周波数領域フレーム信号Xf_j(f,τ)を算出する。前述した方法を用いることによって、音源sの方向が近接し、かつ、抑圧量表示部106で表示できる方向が離散的に存在していても、音源sごとに分離することができる。
次に、方向別残留音量計算部2615について説明する。
図26は、本発明の第4の実施の形態の方向別残留音量計算部2615の処理を示すフローチャートである。
方向別残留音量計算部2615は、初期化処理を行う(S2801)。具体的には、周波数ビンfを0に設定し、残留信号内方向別音量Q_j(τ)を0に設定する。次に、方向別残留音量計算部2615は、f=N−1であるか否かを判定する(S2802)。
f=N−1でないと判定された場合、方向別残留音量計算部2615は、
に基づいて、Psumを算出し(S2803)、方向範囲jを0に設定する(S2804)。次に、方向別残留音量計算部2615は、j=J−1か否かを判定する(S2805)。
j=J−1でないと判定された場合、方向別残留音量計算部2615は、S2803で算出されたPsumを
に代入し、Q_jを算出する(S2806)。
次に、方向別残留音量計算部2615は、j+1を新たな方向範囲jと定義し(S2807)、S2805へ戻り、同様の処理を行う。
S2805において、j=Jであると判定された場合、方向別残留音量計算部2615は、f+1を新たな周波数ビンfと定義し(S2808)、S2802へ戻り、以下同様の処理を行う。
S2802において、f=N−1であると判定された場合、方向別残留音量計算部2615は、S2802〜S2808の一連のループ処理から算出された残留信号内方向別音量Q_j(τ)を抑圧量表示部106へ出力する。
なお、抑圧量表示部106の表示方法としては、第1の実施の形態または第3の実施の形態と同様の方法を用いる。
本実施の形態は、テレビ会議システムに限定されない、例えば、携帯電話のテレビ電話またはカーナビのハンズフリー通話装置に適用可能である。また、音源分離部2608において、音声のスパース性の仮定を必要としない音源の分離方法を用いるため、会話音声に限られず、環境音または楽音など、他の種類の音を対象とする場合にも適用可能である。
[第5の実施の形態]
本発明は、例えば、ICレコーダなどの音声録音装置にも適応可能である。
図27は、本発明の第5の実施の形態の音声録音装置のハードウェア構成例を示す図である。
音声録音装置2000は、一以上のマイクロホン素子からなるマイクロホンアレイ101、マイクロホンアレイ101から入力されるアナログの音圧値をデジタルデータに変換するA/D変換装置2002、A/D変換装置2002から出力されるデジタルデータを処理する中央演算装置103、中央演算装置103に接続された揮発性メモリ104、中央演算装置103に接続された、プログラム及びマイクロホンアレイ101の各マイク素子の物理的な配置などの情報を記憶する記憶媒体105、抑圧量表示部106、雑音除去操作入力部107、オーディオケーブル112、デジタルケーブル113、デジタルケーブル114、及びデジタルケーブル115から構成される。
第5の実施の形態は、遠端とのデータのやりとりを必要としないため、カメラ及びモニタなどの画像を扱わなくてもよい。また、A/D変換装置2002は、音声を再生しないため、D/A変換を必要としない。したがって、A/D変換装置2002は、入力された多チャンネル音圧データを多チャンネルデジタル音圧データに変換する処理のみを行う。
なお、マイクロホンアレイ101、抑圧量表示部106、及び雑音除去操作入力部107の配置方法は第1の実施の形態と同様である。また、中央演算装置103、抑圧量表示装置2006、及び雑音除去操作入力部107とにおける処理は、第1の実施の形態と同様である。
図28は、本発明の第5の実施の形態の音声録音装置の構成を示すブロック図である。
本実施の形態における音声録音装置は、図28に示すのように、音声受信部404、音声再生部406、及び多チャンネル音響エコーキャンセラ部407が無くてもよい。また、雑音除去操作入力部2007を介してユーザが手動で雑音として除去する方向を決定してもよいが、音声録音装置に予め設定された値によって雑音として除去する方向を決定してもよい。その場合、雑音除去操作入力部2007は、音声録音装置の構成に含まなくてもよい。
本実施の形態における音声録音装置は、ある方向から騒音または録音したくない音声が到来し、該音声が到来する方向からの到来音を雑音として除去するように操作する場合、前述した騒音または録音したくない音声が雑音として十分に除去され、かつ、録音したい音声が録音されていることを、ユーザが確かめながら会話することができる
本実施の形態は、ICレコーダに限らず、ビデオカメラの録音機構などにも、そのまま適用可能である。また、第4の実施の形態のように、SIMO−ICAを用いた音源分離部2608及び方向別残留音量計算部2615を音声録音装置の構成とすることもできる。その場合、第4の実施の形態で前述したように、音源分離部2608において、音声のスパース性の仮定を必要としない音源の分離方法を用いるため、会話音声に限られず、環境音または楽音など、他の種類の音を対象とする場合にも適用可能である。
本発明の実施の形態は、音声録音装置の形状に限定されない。例えば、半球状の形状であってもよい。この場合、2次元的な方向ではなく、高さを含めた3次元的な方向について音を分離し、表示することができる。