JP2010028531A

JP2010028531A - 音収集システム及び音表示方法

Info

Publication number: JP2010028531A
Application number: JP2008188581A
Authority: JP
Inventors: Yohei Kawaguchi; 洋平川口; Masato Togami; 真人戸上; Yasunari Obuchi; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-07-22
Filing date: 2008-07-22
Publication date: 2010-02-04
Anticipated expiration: 2028-07-22
Also published as: JP5143656B2

Abstract

【課題】音声入力部から収集された音声がどれだけ抑圧されているかを音源ごとに確認できる、音収集システムを提供する。
【解決手段】二以上のマイクロホンで構成されるマイクロホンアレイと、マイクロホンアレイから出力された信号を変換する処理部と、を備える音収集システムであって、処理部は、マイクロホンアレイから出力された信号を、音源が存在する方向ごと分離する音源分離部と、マイクロホンアレイから出力された信号から雑音を除去する雑音除去処理部と、音源分離部から出力された信号、及び雑音除去処理部から出力された残留信号に基づいて、残留信号の方向別の音量を算出する方向別残留信号計算部と、を備え、音収集システムは、さらに、前記方向別残留信号計算部による算出結果に基づいて、前記方向別の残留信号の音量を表示する抑圧量表示部を備えることを特徴とする。
【選択図】図４

Description

本発明は、音収集システムに関し、特に、収集した音の音量を表示することができる音収集システムに関する。

電話会議システム及びテレビ会議システムにおいて、ある拠点の音声入力部から収集された音声は、エコーキャンセラ又は雑音除去処理が実行された後、他の拠点に送信される。このとき、送信される自分の音声が、遠端（音声の受信側）の相手に聞こえるだけの十分大きい音量で送信されているとは限らない。また、聞こえて欲しくない音声が、遠端の相手に聞こえないぐらい十分小さい音量で送信されているとは限らない。

ユーザが自分の音声がどの程度の音量で遠端に送信されているかを知ることができれば、ユーザは自分の音声の音量を確認しながら、その音量に応じて会話を行うことができる。

しかし、ユーザが自分の音声がどの程度の音量で遠端に送信されているかを知ることは、容易ではない。たとえば、受信信号の音量をユーザに提示する方法が考えられる（例えば、特許文献１参照。）。
特開２００６−６７２４０号公報 M.Togami, T.Sumiyoshi, and A.Amano, "Stepwise phase difference restoration method for sound source localization using multiple microphone pairs", ICASSP2007, vol.1, pp.117-120, 2007. T.Takatani, T.Nishikawa, H.Saruwatari, and K.Shikano, "Blind separation of binaural sound mixtures using SIMO-model-based independent component analysis", ICASSP2004, vol.4, pp.113-116, 2004.

しかし、特許文献１に記載の方法で確認できる音量は、自分の音声のみの音量ではなく、同時に発話した人物の音声、他の拠点から送信された音声がスピーカから出力された音、及び環境騒音、などの複数音源の音が重畳された音を収音した信号の音量でしかない。

本発明は、音声入力部から収集された音声がどれだけ抑圧されているかを音源ごとに確認できる、音収集システムを提供することにある。

本発明の代表的な一例を示せば以下の通りである。すなわち、二以上のマイクロホンで構成されるマイクロホンアレイと、前記マイクロホンアレイから出力された信号を変換する処理部と、を備える音収集システムであって、前記処理部は、前記マイクロホンアレイから出力された信号を、音源が存在する方向ごと分離する音源分離部と、前記マイクロホンアレイから出力された信号から雑音を除去する雑音除去処理部と、前記音源分離部から出力された信号、及び前記雑音除去処理部から出力された残留信号に基づいて、前記残留信号の方向別の音量を算出する方向別残留信号計算部と、を備え、音収集システムは、さらに、前記方向別残留信号計算部による算出結果に基づいて、前記方向別の残留信号の音量を表示する抑圧量表示部を備えることを特徴とする。

本発明の一実施の形態によれば、収集された音声がどれだけ抑圧されているかを音源ごとに確認することができる。

［第１の実施の形態］
以下、本発明を用いたテレビ会議システムを例に説明する。ＩＰネットワーク回線を用いたテレビ会議システムは、ネットワークで接続された二以上の拠点のそれぞれが、マイクロホンアレイ及びスピーカなどから構成される電話会議設備を用いて交信し、各拠点に存在する話者間の会話を実現する。以下、任意拠点を中心としたテレビ会議システムについて説明する。なお、該拠点を近端と記し、近端と接続される近端以外の拠点を遠端と記す。

図１は、本発明の第１の実施の形態におけるテレビ会議システムのハードウェア構成を示した図である。

テレビ会議システムは、二以上のマイクロホン素子からなるマイクロホンアレイ１０１、Ａ／Ｄ−Ｄ／Ａ変換装置１０２、中央演算装置１０３、揮発性メモリ１０４、記憶媒体１０５、抑圧量表示部１０６、雑音除去操作入力部１０７、スピーカ１０８、カメラ１０９、画像表示装置１１０、ハブ１１１、オーディオケーブル１１２、デジタルケーブル１１３、デジタルケーブル１１４、デジタルケーブル１１５、オーディオケーブル１１６、デジタルケーブル１１７、モニタケーブル１１８、及びＬＡＮケーブル１１９から構成される。

Ａ／Ｄ−Ｄ／Ａ変換装置１０２は、マイクロホンアレイ１０１から出力される音圧のアナログ信号をデジタルデータに変換する。中央演算装置１０３は、Ａ／Ｄ−Ｄ／Ａ変換装置１０２の出力を管理する。記憶媒体１０５は、プログラム及びマイクロホンアレイ１０１の各マイク素子の物理座標などの情報を記憶し、また、中央演算装置１０３と接続されている。

マイクロホンアレイ１０１の各マイクロホン素子で収集された多チャンネル音圧データは、オーディオケーブル１１２を介してＡ／Ｄ−Ｄ／Ａ変換装置１０２に出力される。前記多チャンネル音圧データは、Ａ／Ｄ−Ｄ／Ａ変換装置１０２によって多チャンネルデジタル音圧データに変換される。前述した変換は、各マイクロホン素子から出力される音圧信号の間で変換タイミングを同期して実行される。

変換された多チャンネルデジタル音圧データは、デジタルケーブル１１３を介して中央演算装置１０３に出力される。中央演算装置１０３は、入力された多チャンネルデジタル音圧データに音響信号処理を実行する。音響信号処理が実行された信号は、ＬＡＮケーブル１１９及びハブ１１１を介して、ネットワークへ送信される。

ネットワークを介して遠端から受信したデジタル音圧データは、ハブ１１１及びＬＡＮケーブル１１９を介して、中央演算装置１０３に出力され、前記中央演算装置１０３で音響信号処理が実行される。前記音声処理がされたデジタル音圧データは、デジタルケーブル１１３を介して、Ａ／Ｄ−Ｄ／Ａ変換装置１０２に出力される。出力されたデジタル音圧データは、Ａ／Ｄ−Ｄ／Ａ変換装置１０２によってアナログ音圧データに変換され、オーディオケーブル１１６を介して変換されたアナログ音圧データがスピーカ１０８から出力される。

雑音除去操作入力部１０７は、収集された多チャンネル音圧データに含まれる各方向から到来する音声を抑圧するか否かを示す抑圧方向データをユーザが設定する入力部である。雑音除去操作入力部１０７は、例えば、複数のボタンが円筒状筐体の側面を一周するように設置された装置である。前記ボタンを操作することによって、前記ボタンが配置された方向から到来する音声を抑圧するか否かを設定することができる。例えば、ある方向から到来する音声を抑圧する場合はその方向のボタンのＬＥＤを点灯させ、ある方向から到来する音声を抑圧しない時はその方向のボタンのＬＥＤが消灯させることによって、どの方向の音声が抑圧されているかをユーザに提示できる。設定された抑圧方向のデータは、デジタルケーブル１１５を介して中央演算装置１０３に送信される。

マイクロホンアレイ１０１で収集され、中央演算装置１０３に出力された多チャンネルデジタル音圧データＸには、スピーカ１０８から出力された音声が音響エコーとして含まれる。

中央演算装置１０３は、多チャンネルデジタル音圧データＸ、及びハブ１１１から出力されたデジタル音圧データに基づいて、前記音響エコーを除去するための多チャンネルデジタルフィルタを各時刻に更新し、更新された前記デジタルフィルタを揮発性メモリ１０４に記憶し、各時間帯に更新された前記デジタルフィルタを用いて前記音響エコーを除去する。さらに、中央演算装置１０３は、雑音除去操作入力部１０７から出力された抑圧方向データと、記憶媒体１０５に記憶されているマイクロホンアレイ１０１の各マイク素子の物理座標とを参照し、音響エコーを除去した後の多チャンネル音圧データＹに対し、雑音除去処理を実行する。

また、中央演算装置１０３は、前記多チャンネルデジタル音圧データＸを用いて、前記多チャンネルデジタル音圧データＸに含まれる各到来方向の音量Ｐ＿Ｘを算出する。さらに、中央演算装置１０３は、前記多チャンネルのデジタル音圧データＸと前記雑音除去処理が実行されたデジタル音圧データＹとを用いて、前記雑音除去処理が実行されたデジタル音圧データＹに含まれる各到来方向の音量Ｐ＿Ｙを算出する。算出された音量Ｐ＿Ｘ及び算出された音量Ｐ＿Ｙは、中央演算装置１０３から、デジタルケーブル１４を介して、抑圧量表示部１０６に出力される。

抑圧量表示部１０６は、算出された音量Ｐ＿Ｘ及び算出された音量Ｐ＿Ｙを表示する。

カメラ１０９で撮影された画像信号は、デジタルケーブル１１７を介して、中央演算装置１０３に出力される。中央演算装置１０３は、入力された画像信号に画像信号処理を実行する。画像信号処理が実行された画像信号は、ＬＡＮケーブル１１９及びハブ１１１を介してネットワーク上に送信される。

遠端から送信された前記画像信号は、ハブ１１１及びＬＡＮケーブル１１９を介して、中央演算装置に出力される。中央演算装置１０３は、入力された前記画像信号に画像信号処理を実行し、画像信号処理が実行された前記画像信号はモニタケーブル１１８を介して画像表示装置１１０に出力し、画像表示装置１１０の画面に画像を表示する。

デジタルケーブル１１３、デジタルケーブル１１４、デジタルケーブル１１５、デジタルケーブル１１７は、ＵＳＢケーブルなどが用いられる。

抑圧量表示部１０６は、各方向から到来する音声の抑圧量をユーザに示すことができる。抑圧量表示部１０６は、例えば、緑色の複数のＬＥＤを縦に並べた列ＳＥＱ＿Ｘと赤色の複数のＬＥＤを縦に並べた列ＳＥＱ＿Ｙの２列を一つの列の組ＳＥＱ＿ＣＯＭＢし、複数のＳＥＱ＿ＣＯＭＢが円筒状筐体の側面を一周するように配置された装置である。ＳＥＱ＿ＣＯＭＢが配置された方向θがΘ＝［θ＿１，θ＿２］の範囲に含まれる場合、ＳＥＱ＿Ｘ＿Θは、入力された多チャンネルデジタル音圧データＸに含まれる、Θの範囲から到来する音声の音量をレベルメータを用いて表示する。ＳＥＱ＿ＣＯＭＢが配置された方向θがΘ＝［θ＿１，θ＿２］の範囲に含まれる場合、ＳＥＱ＿Ｙ＿Θは、雑音が除去されたデジタル音圧データＹに含まれる、Θの範囲から到来する音声の音量をレベルメータを用いて表示する。

音声が到来する方向の範囲ごとに音量を表示することによって、ユーザは、自分の音声の抑圧量を確認することができる。

本実施の形態において、マイクロホンアレイ１０１と抑圧量表示部１０６との筐体同士が互いに物理的に固定され、相対的位置関係が固定されていることが望ましい。これによって、マイクロホンアレイ１０１を移動する場合、抑圧量を表示する表示部も一緒に移動するため、ユーザは、マイクロホンアレイ１０１の位置を基準に考えればよく、抑圧される方向が分かりやすい。

また、新たにセンサを設置することが必要ないため装置の構成は簡易にできる。すなわち、マイクロホンアレイ１０１と抑圧量表示部１０６との相対的位置関係が時間的に変わるならば、相対的位置関係に応じて抑圧量を表示する位置を変化させなければならない。そのためには、磁気センサ、超音波センサ、または、カメラでマーカ位置を取得するなど、各種位置センサで相対的位置関係を得る必要がある。しかし、センサを導入すれば装置の構成が複雑になる。マイクロホンアレイ１０１と抑圧量表示部１０６との相対的位置関係を固定することによって、センサを不要とする。

また、抑圧量表示部１０６と雑音除去操作入力部１０７との筐体同士が互いに物理的に固定され、相対的位置関係が固定されていることが望ましい。これによって、前述したように相対的位置関係の推定のためのセンサを使わないことで、装置の構成を簡易にできる。

さらに、抑圧量表示部１０６のＬＥＤ列の組ＳＥＱ＿ＣＯＭＢが配置されている方向と、雑音除去操作入力部１０７のボタンが配置されている方向とが、一致していることが望ましい。これによって、ユーザが音声を抑圧したい方向を指定するときに、抑圧量を表示する表示部の位置とボタンの位置との間の距離が短いほど、ユーザが操作しやすい。

図２は、本発明の第１の実施の形態におけるテレビ会議システムの利用例を示した図である。

拠点ＡにユーザＵ１、及びユーザＵ２が存在し、拠点Ｂに存在するユーザと通話を行っている。このとき、拠点Ａだけで会話を行いたいユーザＵ１が、自分の音声を拠点Ｂのユーザに聞こえないように、雑音除去操作入力部１０７に設置されたボタンのうち、自分からの距離が最短であるボタンを操作する。つまり、自分が存在する位置に対応するボタンを押す。すると、中央演算装置１０３が、ユーザＵ１の方向から到来する音量をよくあるするような指向性パターンを持つ方向性のフィルタを算出する。中央演算装置１０３は、算出された前記フィルタをエコーキャンセラ処理後の信号に適用し、ユーザＵ１の方向から到来する音を抑圧した音声を、拠点Ｂに送信する。

拠点Ｂでは、受信した前記信号が中央演算装置２０３を介し、スピーカ２０８から出力される。

拠点Ａにおける抑圧量表示部１０６は、入力された多チャンネルデジタル音圧データＸに含まれるユーザＵ１の存在する方向から到来する音声の音量、及び雑音除去後のデジタル音圧データに含まれるユーザＵ１が存在する方向から到来する音の音量を、ユーザＵ１の存在する方向に対応する抑圧量表示部１０６に配置されたＳＥＱ＿ＣＯＭＢに表示する。

ユーザＵ１は、表示される抑圧量を見て、ユーザＵ１の存在する方向から到来する音声の音量が十分抑圧されているか否かを確認しながら、拠点Ｂのユーザに聞かれずに会話ができる。また、拠点ＡのユーザＵ２と拠点Ｂのユーザとの間の会話を邪魔していないことを確認しながら、拠点Ａだけで会話ができる。また、拠点Ａの会話音声が十分抑圧されていない場合、拠点ＡのユーザＵ１、ユーザＵ２は、より多くの方向を指定するように雑音除去操作入力部１０７のボタンを操作するか、又は、より小さい声で会話するか、などによって、拠点Ｂのユーザに会話を聞かれずに経典Ａだけで会話できる。

図３は、本発明の音収集システムの実施例であるテレビ会議システムにおける、各ユーザの発話、雑音除去操作入力部１０７への入力操作、抑圧量表示部１０６の表示、及び、遠端に送信される音圧データの音量の関係のタイムチャートの例を示す図である。なお、図３において横軸が時刻を表している。

時間帯ｔ１において、ユーザＵ１及びユーザＵ２が発話している。このとき、ユーザＵ１及びユーザＵ２の音声は、抑圧されずに遠端に送信される。抑圧量表示においても、収集された音声の音量と送信される音声の音量との音量差はわずかであり、ほとんど抑圧されていないことが分かる。

時刻ｔ２において、ユーザＵ１が、雑音除去操作入力部１０７のユーザＵ１から最短の位置に設置されたボタンＢ１を操作する。この操作の後から、ユーザＵ１の存在する方向の音声は抑圧された状態となる。

時間帯ｔ３において、ユーザＵ１及びユーザＵ２が発話している。このとき、ユーザＵ２の音声は、時間帯ｔ１と同様に、抑圧されずに送信される。一方で、ユーザＵ１の存在する方向の音声は抑圧された状態であるため、ユーザＵ１の音声は残留信号中では抑圧されている。抑圧量表示でも、ユーザＵ１の存在する方向から収集された音声の音量と遠端に送信される音声の音量との差が大きいことから、ユーザＵ１の音声が十分に抑圧されていることが分かり、ユーザＵ１は安心して近端だけでの会話を行うことができる。

時刻ｔ４において、ユーザＵ１が、再びボタンＢ１を操作する。この操作の後から、ユーザＵ１の存在する方向の音声は抑圧された状態から通常の抑圧されていない状態に戻る。

時間帯ｔ５において、ユーザＵ１の方向の音声は抑圧された状態ではないため、ユーザＵ１の音声は、時間帯ｔ１と同様に、抑圧されずに遠端に送信される。抑圧量表示においても、収集された音声の音量と遠端に送信される音声の音量との音量差はわずかであり、ほとんど抑圧されていないことが分かる。

図１３は、本発明の第１の実施の形態のテレビ会議システムの一連の処理を示したフローチャートである。

テレビ会議システムが起動した後、まず、自拠点（近端）の中央演算装置１０３は、音響エコーキャンセラ適応処理を行なう（Ｓ１３０１）。音響エコーキャンセラ適応処理は、スピーカから白色信号、又は、時間方向に周波数が変化するタイプの全帯域信号などを出力し、音響エコーキャンセラのフィルタを初期化する。その後、中央演算装置１０３は、他の拠点（遠端）から接続が要求されたか否かを判定する（Ｓ１３０２）。

他の拠点（遠端）から接続が要求がされたと判定された場合、中央演算装置１０３は、他の拠点（遠端）との接続を行う（Ｓ１３０４）。他の拠点（遠端）から接続が要求されていないと判定された場合、中央演算装置１０３は、自拠点（近端）から他の拠点（遠端）へ接続を要求したか否かを判定する（Ｓ１３０３）。

自拠点（近端）から他の拠点（遠端）へ接続を要求したと判定された場合、中央演算装置１０３は、他の拠点（遠端）との接続を行う（Ｓ１３０４）。自拠点（近端）から他の拠点（遠端）へ接続を要求していないと判定された場合、中央演算装置１０３は、Ｓ１３０２に戻る。

Ｓ１３０４において、他の拠点（遠端）と接続された後、中央演算装置１０３は、スピーカから遠端の音声を再生し（Ｓ１３０５）、音響エコーキャンセラ（Ｓ１３０６）、雑音除去処理（Ｓ１３０７）、収集音声の音源分離（Ｓ１３０８）、残留信号に対する方向別音量の計算（Ｓ１３０９）、抑圧量の提示（Ｓ１３１０）、及び、他の拠点（遠端）への音声送信（Ｓ１３１１）の順に処理を実行する。前述した処理が実行された後、中央演算装置１０３は、他の拠点（遠端）との接続が切れたか否かを判定する（Ｓ１３１２）。

他の拠点（遠端）との接続が切れていると判定された場合、中央演算装置１０３は、他の拠点（遠端）との接続を切断する処理を実行し（Ｓ１３１４）、一連の処理を終了する。他の拠点（遠端）との接続が切れていないと判定された場合、中央演算装置１０３は、自拠点（近端）から他の拠点（遠端）へ切断を要求したか否かを判定する（Ｓ１３１３）。

自拠点（近端）から他の拠点（遠端）へ切断を要求したと判定された場合、中央演算装置１０３は、他の拠点（遠端）との接続を切断する処理を実行し（Ｓ１３１４）、一連の処理を終了する。自拠点（近端）から他の拠点（遠端）へ切断を要求していないと判定された場合、Ｓ１３１５に戻り、以下、同様の処理を行う。

図４は、本発明の第１の実施の形態におけるテレビ会議システムの構成を示したブロック図である。

マイクロホンアレイ１０１の各マイクロホン素子に入力された多チャンネルアナログ音圧データは、多チャンネルＡ／Ｄ変換部４０１で各マイクロホン素子に対応した多チャンネルデジタル音圧データｘ＿ｉ（ｔ）に変換される。ここで、ｉはマイク素子の番号を示すインデックスであり、全マイク素子数をＭとすると、ｉは０からＭ−１までのいずれの値をとる。また、ｔはサンプリング周期ごとの離散時間である。変換された多チャンネルデジタル音圧データｘ＿ｉ（ｔ）は、多チャンネルフレーム処理部４０２に出力される。

音声受信部４０４は、遠端から送信されたデジタル音圧データｒｅｆ（ｔ）を受信する。なお、受信するデジタル音圧データｒｅｆ（ｔ）は、ＴＣＰ／ＩＰプロトコル、又はＲＴＰプロトコルを用いたデジタル音圧データである。

サーバを中央に介する多拠点テレビ会議システムの場合、サーバは多拠点から音声信号を受信し、受信した音声信号を混合して、それぞれの拠点に送信する。音声受信部４０４は、サーバから送信さえた混合した音声信号を受信する。この場合、音声受信部４０４は、混合した音声をそのままデジタル音圧データｒｅｆ（ｔ）としてＤ／Ａ変換部４０５と多チャンネルフレーム処理部４０２とに送信する。

サーバを中央に介さず、マルチキャストなどを用いて通信を行う多拠点テレビ会議システムの場合、それぞれの拠点の音声信号は、それぞれの拠点に送信され、音声受信部４０４は、それぞれの拠点の音声信号をそれぞれの拠点から直接受信する。この場合、音声受信部４０４は、それぞれの拠点の音声を混合した後、前記混合した音声をデジタル音圧データｒｅｆ（ｔ）としてＤ／Ａ変換部４０５と多チャンネルフレーム処理部４０２とに出力する。なお、多チャンネルフレーム処理部４０２に出力されたデジタル音圧データｒｅｆ（ｔ）は、後述するように、多チャンネルフレーム処理部４０２において参照信号として用いられる。

Ｄ／Ａ変換部４０５は、入力されたデジタル音圧データｒｅｆ（ｔ）をアナログ音圧データに変換する。変換されたアナログ音圧データは、音声再生部４０６でスピーカ１０８から出力される。

多チャンネルフレーム処理部４０２は、入力された多チャンネルデジタル音圧データｘ＿ｉ（ｔ）をｔ＝τＳからｔ＝τＳ＋Ｆ−１の範囲に該当する多チャンネル時間領域フレーム信号Ｘｆ＿ｉ（ｔ，τ）及び時間領域の参照信号Ｒｅｆｆ（ｔ，τ）に変換する。

なお、ｆは周波数を等間隔に分割した周波数帯域を表すインデックスであり、周波数をＮ分割した場合、ｆは０からＮ−１までのいずれかの値をとる。以下、周波数ビンｆと記す。ｔは、時間を表す。τはフレームインデックスと呼び、多チャンネルフレーム処理部４０２から音声送信部４１３までの処理が完了した後、τは１加算される。Ｓはフレームシフトと呼び、フレームごとにずらすサンプル数を意味する。Ｆはフレームサイズと呼び、フレームごとに一度に処理するサンプル数を意味する。

変換された多チャンネル時間領域フレーム信号Ｘｆ＿ｉ（ｔ，τ）及び時間領域の参照信号Ｒｅｆｆ（ｔ，τ）は、多チャンネル短時間周波数分析部４０３に出力される。多チャンネル短時間周波数分析部４０３は、入力された多チャンネル時間領域フレーム信号Ｘｆ＿ｉ（ｔ，τ）及び時間領域の参照信号Ｒｅｆｆ（ｔ，τ）に、直流成分カット、ハミング窓、ハニング窓、及びブラックマン窓などの窓処理を実行する。その後、多チャンネル短時間周波数分析部４０３は、さらに、短時間フーリエ変換を実行し、多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）及び周波数領域の参照信号Ｒｅｆｆ（ｆ，τ）に変換する。ここで、周波数ビンｆの数（以下、周波数ビン数と記す。）をＮとする。

図１４は、本発明の第１の実施の形態の、任意フレームτにおける多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）のデータ構造を示した説明図である。

マイク素子数及び周波数ビン数で分割された一つ一つに、対応する多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）が格納されている。なお、多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）は、複素数の値をとる。

各マイクロホン素子の多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）及び周波数領域の参照信号Ｒｅｆｆ（ｆ，τ）は、多チャンネル音響エコーキャンセラ部４０７に出力される。また、多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）は、音源分離部４０８にも出力される。

多チャンネル音響エコーキャンセラ部４０７は、多チャンネル短時間周波数分析部４０３から入力された各マイクロホン素子の多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）から、スピーカ１０８から入力された信号の音響エコー信号成分を除去する。音響エコー信号成分は、多チャンネル短時間周波数分析部４０３から入力された周波数領域の参照信号Ｒｅｆｆ（ｆ，τ）に基づいて算出される。前記音響エコー除去処理は、例えば、ＮＬＭＳアルゴリズムなど一般的なアルゴリズムを用いて音響エコーの伝達関数を逐次適応させれる処理が考えられる。なお、音響エコーキャンセラの処理の差異は、本発明の本質的な差にはならない。

多チャンネル音響エコーキャンセラ部４０７で音響エコー成分が除去された後の多チャンネル周波数領域フレーム信号をＥｆ＿ｉ（ｆ，τ）とする。多チャンネル音響エコーキャンセラ部４０７で算出された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ（ｆ，τ）は、雑音除去処理部４０９に出力される。

図１５は、本発明の第１の実施の形態の任意フレームτにおける多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ（ｆ，τ）のデータ構造を示した説明図である。

マイク素子数及び周波数ビン数で分割された一つ一つに、対応する多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ（ｆ，τ）が格納されている。なお、多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ（ｆ，τ）は、複素数の値をとる。

雑音除去操作入力部１０７は、互いに排他的なJ個の方向範囲Θ＿ｊ＝［θ＿ｊ１，θ＿ｊ２］ごとに、雑音除去を行うか否かを示す信号が出力される。ただし、ｊは方向を示すインデックスであり、全方向をＪ分割した場合、ｊは、０からＪ−１までのいずれかの値をとる。

具体的には、雑音除去処理部４０９は、方向範囲Θ＿ｊごとに対応するボタンＢ＿jを備えており、ボタンＢ＿ｊが押される度に、

に示すような、二値の値をとるＩｓＲｅｄｕｃｅｄ＿ｊ（τ）が出力される。ただし、ＩｓＲｅｄｕｃｅｄ＿ｊ（τ）は、任意フレームでボタンＢ＿ｊが押されたときに、真（値が１）をとるブール値とする。

出力されるＩｓＲｅｄｕｃｅｄ＿ｊ（τ）が０であるの場合、雑音除去を行わないことを意味する信号が雑音除去処理部４０９に出力される。出力されるＩｓＲｅｄｕｃｅｄ＿ｊ（τ）が０でない場合、雑音除去を行うことを意味する信号が雑音除去処理部４０９に出力される。

図１６は、本発明の第１の実施の形態の、任意フレームτにおけるＩｓＲｅｄｕｃｅｄ＿ｊ（τ）のデータ構造を示した説明図である。

全方向をＪ分割した領域に、対応する値が格納される。図１６に示すように１次元の配列になっている。

なお、雑音を除去する方向を指定する方法は、ユーザーが手動で指定する方法に限定されず、雑音除去処理部４０９に予め設定値を設ける方法であってもよい。この場合、雑音除去操作入力部１０７を備える必要がない。

雑音除去処理部４０９は、多チャンネル音響エコーキャンセラ部４０７から入力された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)、及び、雑音除去操作入力部１０７から入力されたＩｓＲｅｄｕｃｅｄ＿ｊ（τ）に基づいて、多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)から指定された方向の雑音を除去する。以下、具体的な処理について説明する。

図５は、最小分散ビームフォーマによる雑音除去処理部４０９の構成例を示すブロック図である。

雑音除去処理部４０９は、目的音／雑音分離部５０１、目的音ステアリングベクトル更新部５０２、雑音共分散行列更新部５０３、フィルタ更新部５０４、及び、フィルタ乗算部５０５を備える。

まず、入力された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)の性質について説明する。

図６は、入力された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)のうちの一つのチャンネルの信号を模式的に示す図である。

図６に示すように、収集された音声は、周波数成分ごとが離散していることが知られている。この性質を「スパース性」と呼ぶ。したがって、各周波数成分は、ただ一人の音声の成分と仮定できる。本実施の形態は、この仮定を利用して目的音と雑音とを分離する。

まず、目的音／雑音分離部５０１は、マイク配置４１０からマイク素子の配置に関するデータ、雑音除去操作入力部１０７から収集された多チャンネル音圧データに含まれる任意方向から到来する音声を抑圧するか否かを示す抑圧方向データ、及び、多チャンネル音響エコーキャンセラ部４０７から入力された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)を用いてθを算出する。なお、θは、音声の到来方向を表す量である。

θの算出方法としては、例えば、マイクロホンアレイ１０１のマイク素子数が二つの場合、

を用いて算出される。

ここで、ρ（ｆ，τ）は、二つのマイク素子の入力信号の、フレームτ、及び周波数インデックスｆにおける位相差とする。位相差ρ（ｆ，τ）の算出方法としては、例えば、図１４に示すように、任意の周波数、つまり、任意の行における、マイク素子１の多チャンネル周波数領域フレーム信号Ｘｆ＿１（ｆ，τ）とマイク素子ｉの多チャンネル周波数領域フレーム信号Ｘｆ＿１（ｆ，τ）との割り算を計算し、その乗数から位相差が算出される。

また、ｆｒｅｑ（ｆ）は周波数ビンｆの周波数であり、

を用いて算出される。ただし、Ｆｓは、多チャンネルＡ／Ｄ変換部４０１のサンプリングレートである。ｄは、二つのマイク素子の物理的な間隔とする。ｃは、音速である。音速は、厳密には温度、及び媒質の密度に依存して変化するが、通常３４０ｍ／ｓなど一つの値に固定し用いてもよい。

雑音除去処理は、前述の「スパース性」の仮定に基づいて、時間−周波数を固定し、固定された時間−周波数ごとに同一の処理を行う。以下、固定された時間−周波数のサフィックス（ｆ，τ）は省略して記す。

マイクロホンアレイ１０１のマイク素子数が三つ以上の場合、ＳＰＩＲＥアルゴリズム（非特許文献１参照）によって、θを算出できる。なお、ＳＰＩＲＥアルゴリズムにおいても、前述の「スパース性」の仮定に基づき、時間−周波数を固定し、固定された時間−周波数ごとに同一の処理を行う。

図７は、マイクロホンアレイ１０１のマイク素子数が三つ以上の場合におけるθの算出方法（ＳＰＩＲＥアルゴリズム）を示すフローチャートである。

まず、目的音／雑音分離部５０１は、マイク素子の配置に関するデータを読み込む（Ｓ７０１）。なお、マイク配置に関すデータは、記憶媒体１０５が保持する。

次に、目的音／雑音分離部５０１は、二つのマイク素子を一つの組とするマイクペアを構成するためにマイク素子の組み合わせを選択する（Ｓ７０２）。このとき、選択される二つのマイク素子の配置間隔がマイクペアごとに異なるように選択されることが望ましい。

次に、目的音／雑音分離部５０１は、選択された各マイクペアをマイク素子の配置間隔が小さいものから順に並び替え、マイクペア待ち行列に格納する（Ｓ７０３）。ここで、ｋを一つのマイクペアを特定するためのインデックスとし、ｋ＝１をマイク素子の配置間隔が最も短いマイクペアとし、ｋ＝Ｋをマイク素子の配置間隔が最も長いマイクペアとする。

目的音／雑音分離部５０１は、マイクペア待ち行列の要素数が０か否かを判定する（Ｓ７０４）。つまり、マイクペアがあるか否かが判定される。マイクペア待ち行列の要素数が０でないと判定された場合、目的音／雑音分離部５０１は、マイクペア待ち行列からマイク素子の配置間隔が最短のマイクペアを一つ読み出し、かつ、読み出したマイクペアをマイクペア待ち行列から除く処理を行う（Ｓ７０５）。

目的音／雑音分離部５０１は、読み出したマイクペアに対して、位相差を算出する。具体的には、目的音／雑音分離部５０１は、まず、

を満たす整数ｎ＿ｋを算出する。不等式で囲まれた範囲が２πに相当するため、必ず解が存在する。

次に、目的音／雑音分離部５０１は、算出された整数ｎ＿ｋを

に代入し、位相差を算出する。なお、ｋ＝１の場合における初期値は、

で定義される。

Ｓ７０６の後に再びＳ７０４に戻り、全てのマイクペアについて同一の処理を実行する。

Ｓ７０４において、マイクペア待ち行列の要素数が０であると判定された場合、目的音／雑音分離部５０１は、算出された位相差を

に代入し、音声の到来方向であるθ（ｆ，τ）を算出する。ここで、ｄ_kはｋ番目のマイクペアのマイク素子の配置間隔とする。

音の到来方向の算出の推定精度は、マイクペアのマイク素子の配置間隔が長いほど、高くなるが、多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)の半波長以上のマイクペアのマイク素子の配置間隔が長ければ、マイクペアのマイク素子の配置間隔の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまう（空間的エイリアシング）。

前述の到来方向の算出方法は、長いマイクペアのマイク素子の配置間隔に対して本来[数２]で得られる二つ以上の方向のうち、前のループで短いマイクペアのマイク
素子の配置間隔に対して一意に得られている音声の到来方向θ（ｆ，τ）の方を選択することと等価な手順となっている。したがって、空間的エイリアシングが生じるような場合においても高精度に音の到来方向を算出することができる。

目的音／雑音分離部５０１は、算出された時間−周波数ごとの音声の到来方向θ（ｆ，τ）に基づいて、多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)を目的音信号Ｅ_subject＿ｉ（ｆ，τ）と雑音信号Ｅ_noise＿ｉ（ｆ，τ）とに分離する。

具体的には、各周波数ビンｆにおいて、方向範囲Θ＿ｊに音声の到来方向θ（ｆ，τ）が含まれるような方向範囲Θ＿ｊのｊに対し、以下に示すように分離される。

図１７は、本発明の第１の実施の形態の任意フレームτにおける目的音信号Ｅ_subject＿ｉ（ｆ，τ）のデータ構造を示す図である。図１８は、本発明の第１の実施の形態の任意フレームτにおける雑音信号Ｅ_noise＿ｉ（ｆ，τ）のデータ構造を示す図である。

目的音信号Ｅ_subject＿ｉ（ｆ，τ）は、目的音／雑音分離部５０１から目的音ステアリングベクトル更新部５０２に出力される。雑音信号Ｅ_noise＿ｉ（ｆ，τ）は、目的音／雑音分離部５０１から雑音共分散行列更新部５０３に出力される。

目的音ステアリングベクトル更新部５０２は、

に基づき、目的音ステアリングベクトルａ_subject（ｆ，τ）＝［ａ＿０（ｆ，τ），・・・，ａ＿Ｍ−１（ｆ，τ）]^Tを更新する。ただし、安定のために、目的音信号Ｅ_subject＿ｉ（ｆ，τ）の絶対値が十分に大きいときだけに更新するようにしてもよい。更新された目的音ステアリングベクトルａ_subject（ｆ，τ）は、フィルタ更新部５０４に出力される。

雑音共分散行列更新部５０３は、

に基づき、雑音共分散行列Ｒ_n（ｆ，τ）を更新する。ただし、雑音信号Ｅ_noise＿ｉ（ｆ，τ）＝［Ｅ_noise＿０（ｆ，τ），・・・，Ｅ_noise＿Ｍ−１（ｆ，τ）］^Tとし、γ_nは０以上１未満の適当な定数パラメタとする。また、安定のために、雑音信号Ｅ_noise＿ｉ（ｆ，τ）の絶対値が十分に大きいときだけに更新するようにしてもよい。更新された雑音共分散行列Ｒ_n（ｆ，τ）は、フィルタ更新部５０４に出力される。

フィルタ更新部５０４は、入力された目的音ステアリングベクトルａ_subject（ｆ，τ）、及び、雑音共分散行列雑音共分散行列Ｒ_n（ｆ，τ）から、

に基づき、フィルタｗ（ｆ，τ）を算出する。ただし、γ_wは０以上１未満の適当な定数パラメタである。

フィルタ乗算部５０５は、フィルタｗ（ｆ，τ）、及び多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)を

に代入し、指定された方向から到来する音を除去した周波数領域フレーム信号ｙ（ｆ，τ）を算出する。

前述した手順によって算出された周波数領域フレーム信号ｙ（ｆ，τ）は、時間信号生成部４１１及び方向別残留音量計算部４１５に出力される。時間信号生成部４１１は、入力された周波数領域フレーム信号ｙ（ｆ，τ）に逆ＦＦＴを行い、時間領域フレーム信号ｙ（ｔ，τ）に変換する。さらに、時間信号生成部４１１は、時間領域フレーム信号ｙ（ｔ，τ）をフレーム周期ごとに重ね合わせ、加算し、かつ窓関数の逆数を乗算し、時間領域信号ｙ（ｔ）に変換する。そして、時間信号生成部４１１は、音声送信部４１３に変換された時間領域信号ｙ（ｔ）を出力する。

音声送信部４１３は、サーバを介する場合、サーバに対して、各拠点ごとに生成した時間領域信号ｙ（ｔ）を送信する。サーバを介さない場合、各拠点に対して、時間領域信号ｙ（ｔ）をＴＣＰ／ＩＰ又はＲＴＰプロトコルを用いて送信する。

音源分離部４０８は、多チャンネル周波数フレーム領域信号Ｘｆ＿ｉ（ｆ，τ）を、各方向の成分である方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）に分離し、音量計算部４１４、及び方向別残留音量計算部４１５に、分離された方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）を出力する。以下、音源分離部４０８における処理について説明する。

図８は、本発明の第１の実施の形態の音源分離部４０８の処理を示すフローチャートである。

まず、音源分離部４０８は、入力された多チャンネル周波数フレーム領域信号Ｘｆ＿ｉ（ｆ，τ）から、音声の到来方向θ（ｆ，τ）を算出する（Ｓ８０１）。なお、音の到来方向θ（ｆ，τ）の算出方法は、前述したＳＰＩＲＥアルゴリズムを用いて算出される。

次に、音源分離部４０８は、周波数ビンfごとに振幅の絶対値Ａ_X（ｆ，τ）を

を用いて算出する（Ｓ８０２）。

算出されたθ（ｆ，τ）が方向範囲Θｊの範囲内に含まれる場合、

に基づいて方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）を算出する（Ｓ８０３）。

図１９は、本発明の第１の実施の形態の任意フレームτ方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）のデータ構造を示す図である。

前述の処理のよって算出された方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）は、図１９に示すに、対応する周波数及び対応する方向範囲ごとにデータが格納されている。

音量計算部４１４は、入力された方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）の収音信号内方向別音量Ｐ＿ｊ（τ）を、

に基づいて算出する。算出された収音信号内方向別音量Ｐ＿ｊ（τ）は、抑圧量表示部１０６に出力される。

方向別残留音量計算部４１５は、雑音除去処理部４０９から入力された周波数領域フレーム信号ｙ（ｆ，τ）、及び、音源分離部４０８から入力された方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）から、方向範囲Θjの範囲内から到来する音が抑圧された音量、つまり、残留信号内方向別音量Ｑ＿ｊ（τ）を算出する。以下、方向別残留音量計算部４１５における。処理について説明する。

図９は、本発明の第１の実施の形態の方向別残留音量計算部４１５の処理を示すフローチャートである。

まず、方向別残留音量計算部４１５は、初期化設定を行う（Ｓ９０１）。具体的には、周波数ビンｆを０に設定し、全ての範囲方向Θｊに対して残留信号内方向別音量Ｑ＿ｊ（τ）を０に設定する。

次に、方向別残留音量計算部４１５は、ｆ＝Ｎ−１であるか否かを判定する（Ｓ９０２）。ｆ＝Ｎ−１でないと判定された場合、方向別残留音量計算部４１５は、ｊを０に設定する（Ｓ９０８）。

方向別残留音量計算部４１５は、ｊ＝Ｊであるか否かを判定する（Ｓ９０３）。ｊ＝Ｊであると判定された場合、方向別残留音量計算部４１５は、Ｓ９０７に進む。ｊ＝Ｊでないと判定された場合、方向別残留音量計算部４１５は、方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）＝０であるか否かを判定する（Ｓ９０４）。

方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）＝０であると判定された場合、方向別残留音量計算部４１５は、ｊ＋１を新たなｊと定義し（Ｓ９０５）、Ｓ９０３に戻る。方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）＝０でないと判定された場合、方向別残留音量計算部４１５は、残留信号内方向別音量Ｑ＿ｊ（τ）に｜ｙ（ｆ，τ）｜²を加算し、前記加算された値を新たな残留信号内方向別音量Ｑ＿ｊ（τ）と定義する（Ｓ９０６）。

次に、方向別残留音量計算部４１５は、ｆ＋１を新たな周波数ビンｆと定義し（Ｓ９０７）、Ｓ９０２へ戻り、以下同様の処理を行う。

Ｓ９０２においてｆ＝Ｎ−１であると判定された場合、方向別残留音量計算部４１５は、抑圧量表示部１０６に残留信号内方向別音量Ｑ＿ｊ（τ）を出力する。

ここで、方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）は、音源分離部４０８において、「スパース性」の仮定に基づき、各周波数ｆの成分をただ一つの範囲方向Θjに分離されたものであるため、多くとも一つのｆでのみ方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）≠０である。したがって、Ｓ９０３〜Ｓ９０５のループにおいて、方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）≠０となる周波数ビンｆを一つ見つけた場合、次のＳ９０２〜Ｓ９０７のループに移ることができる。これによって、高速な処理を行える。

図１０は、本発明の第１の実施の形態の抑圧量表示部１０６の表示の一例を示す図である。

抑圧量表示部１０６は、収音音量のメータＳＥＱ＿Ｘ＿Θｊと残留信号の音量メータＳＥＱ＿Ｙ＿Θｊとが並列して一組のＳＥＱ＿ＣＯＭＢ＿Θｊになっており、ＳＥＱ＿ＣＯＭＢ＿Θｊが円筒上筐体の側面に配置されている。各ＳＥＱ＿ＣＯＭＢ＿Θｊは、各方向範囲Θjに対応する。ＳＥＱ＿ＣＯＭＢ＿Θｊは、方向範囲Θ＿ｊ＝［θ＿ｊ１，θ＿ｊ２］に対して、θｊｍ＝（θ＿ｊ１＋θ＿ｊ２）／２の方向に配置されているのが望ましい。これは、各ＳＥＱ＿ＣＯＭＢ＿Θｊが配置されている方向と音声の到来方向の対応を分かりやすくするためである。

収音音量のメータＳＥＱ＿Ｘ＿Θｊは、収音信号内方向ごと音量Ｐ＿ｊ（τ）を表示する。残留信号の音量メータＳＥＱ＿Ｙ＿Θｊは、残留信号内方向別音量Ｑ＿（τ）を表示する。

図１１は、本発明の第１の実施の形態の抑圧量表示部１０６で点灯するＬＥＤの数と収音信号内方向別音量Ｐ＿ｊ（τ）の値との対応付けを示す図である。図１２は、本発明の第１の実施の形態の抑圧量表示部１０６で点灯するＬＥＤの数と残留信号内方向別音量Ｑ＿ｊ（τ）の値との対応付けを示す図である。

収音音量のメータＳＥＱ＿Ｘ＿Θｊを構成するＬＥＤの個数が８個だった場合、収音信号内方向別音量Ｐ＿ｊ（τ）とＰｍａｘの比に対して、点灯するＬＥＤの数を０個から８個点灯させるものが考えられる。ただし、表中のＰｍａｘは収音信号内方向別音量Ｐ＿ｊ（τ）の最大値とし、各ＬＥＤの番号は下部から順にＬ１、Ｌ２・・・、Ｌ８とする。残留信号内方向別音量Ｑ＿ｊ（τ）についても、図１２に示すように、同様である。ただし、Ｑｍａｘは、残留信号内方向別音量Ｑ＿ｊ（τ）の最大値とする。

抑圧量表示部１０６は、本実施の形態のようなＬＥＤによる表示だけに限定されない。例えば、有機ＥＬディスプレイまたは液晶ディスプレイなどの他のデバイスであってもよく、また、レベルメータとしての機能を有する他の表示方法であってもよい。

本実施の形態は、テレビ会議システムに限定されない、例えば、携帯電話のテレビ電話またはカーナビのハンズフリー通話装置に適用可能である。

本発明の実施の形態は、マイクロホンアレイ１０１、抑圧量表示部１０６、雑音除去操作入力部１０７の形状に限定されない。例えば、半球状の形状でマイクロホンアレイ１０１に、マイク素子が配置され、各マイク素子に対応するように抑圧量表示部１０６、及び雑音除去操作入力部１０７を配置してもよい。この場合、２次元的な方向ではなく、高さを含めた３次元的な方向について音を分離し、表示することができる。

［第２の実施の形態］
図２０は、本発明の第２の実施の形態におけるテレビ会議システムの構成を示したブロック図である。

第２の実施の形態は、多チャンネル音響エコーキャンセラ部４０７で算出された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(ｆ，τ)を、音源分離部４０８及び雑音除去処理部４０９に出力する。

前述した構成によって、第１の実施の形態は、エコーを除去し、かつ、雑音を除去した音声を抑圧された音声として表示するのに対し、第２の実施の形態は、雑音を除去した音声を抑圧された音声として表示する。

［第３の実施の形態］
抑圧量表示部１０６は、収音信号内方向別音量Ｐ＿ｊ（τ）、及び残留信号内方向別音量Ｑ＿ｊ（τ）を表示する形態に限定されない。

例えば、抑圧量表示部１０６は、

に示すように、収音信号内方向別音量Ｐ＿ｊ（τ）と残留信号内方向別音量Ｑ＿ｊ（τ）との差を抑圧量Ｒ＿ｊ（τ）と定義し、抑圧量Ｒ＿ｊ（τ）を表示する形態であってもよい。

また、抑圧量表示部１０６は、

に示すように、収音信号内方向別音量Ｐ＿ｊ（τ）と残留信号内方向別音量Ｑ＿ｊ（τ）の比を抑圧量Ｒ＿ｊ（τ）と定義し、抑圧量Ｒ＿ｊ（τ）を表示する形態であってもよい。

抑圧量表示部１０６は、収音信号内方向別音量Ｐ＿ｊ（τ）と残留信号内方向別音量Ｑ＿ｊ（τ）との相対的な大きさの違いが分かる尺度を表示することが望ましい。

図２１は、本発明の第３の実施の形態における抑圧量表示部１０６の表示の一例を示す図である。

図２１に示すように、抑圧量表示部１０６は、抑圧量Ｒ＿ｊ（τ）、及び残留信号内方向別音量Ｑ＿ｊ（τ）を表示アイコンを用いる表示方法が考えられる。

図２２は、本発明の第３の実施の形態における表示アイコンと抑圧量Ｒ＿ｊ(τ)との対応付けを示す図である。図２３は、本発明の第３の実施の形態における表示アイコンと残留信号内方向別音量Ｑ＿ｊ（τ）との対応付けを示す図である。

図２２に示すように、抑圧量Ｒ＿ｊ（τ）とＲｍａｘとの比を表示アイコンと対応付ける方法が考えられる。ただし、Ｒｍａｘは、抑圧量Ｒ＿ｊ（τ）の最大値とする。また、図２３に示すように、残留信号内方向別音量Ｑ＿ｊ（τ）とＱｍａｘとの比を表示アイコンと対応付ける方法が考えられる。ただし、Ｑｍａｘは、残留信号内方向別音量Ｑ＿ｊ（τ）の最大値とする。

以上説明した第３の実施の形態では、第１の実施の形態に比べて、ユーザは、より直観的に音量を把握できる。

［第４の実施の形態］
音声を音源ごとに分離する音源分離部４０８の処理の方法は第１の実施の形態に限定されず、他の処理によって分離できる。

図２４は、本発明の第４の実施の形態におけるテレビ会議システムの構成を示したブロック図である。

図２４に示すように、多チャンネルフレーム処理部４０２から出力される多チャンネル時間領域フレーム信号Ｘｆ＿ｉ（ｔ，τ）が音源分離部２６０８に入力される。以下、音源分離部２６０８の処理について説明する。

図２５は、本発明の第４の実施の形態の音源分離部２６０８の処理を示したフローチャートである。

音源分離部２６０８は、多チャンネル時間領域フレーム信号Ｘｆ＿ｉ（ｔ，τ）を入力とし、ＳＩＭＯ−ＩＣＡ（非特許文献２参照）フィルタを算出し、ＳＩＭＯ−ＩＣＡフィルタを更新する（Ｓ２７０１）。なお、フィルタの算出方法及び更新方法は、非特許文献２に記載された方法を用いることができる。

次に、音源分離部２６０８は、更新されたＳＩＭＯ−ＩＣＡのフィルタを多チャンネル時間領域フレーム信号Ｘｆ＿ｉ（ｔ，τ）に乗算し、各音源ごとに分離する（Ｓ２７０２）。前述した分離処理によって、Ｓ個の信号Ｘｆ＿ｓ＿ｉ（ｔ，τ）に分離される。ここで、ｓは、０からＳ−１までの整数であり、各音源を表すインデックスである。以下、音源ｓと記す。また、Ｓは最大音源数であり、マイク素子の数（Ｍ個）以下の数とする。つまり、分離された信号Ｘｆ＿ｓ＿ｉ（ｔ，τ）は、音源ｓの音がマイク素子ｉに入力された信号を示す。

音源分離部２６０８は、分離された信号Ｘｆ＿ｓ＿ｉ（ｔ，τ）を周波数領域フレーム信号Ｘｆ＿ｓ＿ｉ（ｆ，τ）に変換する（Ｓ２７０３）。

音源分離部２６０８は、音源ｓを０に設定し（Ｓ２７０４）、次にｓ＝Ｓ−１か否かを判定する（Ｓ２７０５）。

ｓ＝Ｓ−１でないと判定された場合、音源分離部２６０８は、周波数ビンｆを０に設定し、さらに、方向ヒストグラムｈ＿ｓ（θ）を初期化する（Ｓ２７０６）。具体的には、各音源ｓの全ての音声の到来方向θに対して、方向ヒストグラムｈ＿ｓ（θ）＝０と設定する。なお、方向ヒストグラムｈ＿ｓ（θ）は任意の音源における角度分布を示すヒストグラムである。次に、音源分離部２６０８は、ｆ＝Ｎ−１か否かを判定する（Ｓ２７０７）。

周波数ビンｆ＝Ｎ−１でないと判定された場合、音源分離部２６０８は、音声の到来方向θ（ｆ，τ）を算出する（Ｓ２７０８）。なお、音声の到来方向θ（ｆ，τ）の算出は、第１の実施の形態と同様に、ＳＰＩＲＥアルゴリズムを用いて算出される。

次に、音源分離部２６０８は、算出された音声の到来方向θ（ｆ，τ）をθ_hとし、

にしたがって、方向ヒストグラムｈ＿ｓ（θ_h）へ投票する（Ｓ２７０９）。そして、ｆ＋１を新たな周波数ビンｆと定義し（Ｓ２７１０）、Ｓ２７０７へ戻る。以下、全ての周波数について（ｆ＝Ｎ−１になるまで）、Ｓ２７０８〜Ｓ２７１０までの処理が同様に行われる。

Ｓ２７０７において、ｆ＝Ｎ−１であると判定された場合、音源分離部２６０８は、Ｓ２７０７〜Ｓ２７１０の一連のループ処理によって作成された方向ヒストグラムｈ＿ｓ（θ_h）から方向ピークを探索する（Ｓ２７１１）。ＳＩＭＯ―ＩＣＡフィルタを用いた分離によって、理論的に、周波数領域フレーム信号Ｘｆ＿ｓ＿ｉ（ｆ，τ）は、単一の音源の成分である。したがって、前述した方向ピークの探索は、方向ヒストグラムｈ＿ｓ（θ_h）の分布から最大値をとるθ_h求めればよい。また、求められたθ_hを音源ｓの音の到来方向θ＿ｓとする。

方向ピークを探索した後、音源分離部２６０８は、ｓ＋１を新たな音源ｓと定義し（Ｓ２７１２）、Ｓ２７０５へ戻り、以下、同様の処理を行う。

Ｓ２７０５において、ｓ＝Ｓ−１であると判定された場合、音源分離部２６０８は、前述した、Ｓ２７０５〜Ｓ２７１２のループ処理によって、算出された各音源ｓの音声の到来方向θ＿ｓと、抑圧量表示部１０６の範囲方向Θ＿ｊとを対応付ける（Ｓ２７１３）。

以上の処理によって、音源分離部２６０８は、算出された各音源ｓの音声の到来方向θ＿ｓに基づいて、各方向に分離さた方向別周波数領域フレーム信号Ｘｆ＿j（ｆ，τ）を算出し、音量計算部４１４及び方向別残留音量計算部２６１５に方向別周波数領域フレーム信号をＸｆ＿j（ｆ，τ）を出力する。以下、算出された各音源ｓの音声の到来方向θ＿ｓと表示範囲Θ＿ｊとの対応付け、及び方向別周波数領域フレーム信号Ｘｆ＿j（ｆ，τ）の算出方法について説明する。

一つの方法として、例えば、Θ＿ｊがθ＿ｓを含むｊについて、

に基づいて方向ごと周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）を算出する。

また、別の方法として、例えば、

に示すコスト関数Ｃ（δ）を考える。ここで、δ（ｓ，ｊ）は、任意の音源ｓに対して、ただ一つのｊのみが１となり、その他のｊについては０となり、かつ、任意のｊに対し、ただ一つのｓのみが１となり、その他のｓについては０となるような関数である。δ（ｓ，ｊ）は音源ｓとｊとの一対一の対応関係を表す。また、ｄｉｓｔ（θ＿ｓ，Θ＿ｊ）は、

に示すような、距離関数とする。

対応付けの方法として、例えば、コスト関数Ｃ（δ）が最大となるδを求めることで、音源ｓと方向範囲ｊとを対応付ける方法が考えられる。そして、δ（ｓ，ｊ）＝１となるｓの分離された信号Ｘｆ＿ｓ＿ｉ（ｔ，τ）を

に代入し、方向ごと周波数領域フレーム信号Ｘｆ＿j（ｆ，τ）を算出する。前述した方法を用いることによって、音源ｓの方向が近接し、かつ、抑圧量表示部１０６で表示できる方向が離散的に存在していても、音源ｓごとに分離することができる。

次に、方向別残留音量計算部２６１５について説明する。

図２６は、本発明の第４の実施の形態の方向別残留音量計算部２６１５の処理を示すフローチャートである。

方向別残留音量計算部２６１５は、初期化処理を行う（Ｓ２８０１）。具体的には、周波数ビンｆを０に設定し、残留信号内方向別音量Ｑ＿ｊ（τ）を０に設定する。次に、方向別残留音量計算部２６１５は、ｆ＝Ｎ−１であるか否かを判定する（Ｓ２８０２）。

ｆ＝Ｎ−１でないと判定された場合、方向別残留音量計算部２６１５は、

に基づいて、Ｐ_sumを算出し（Ｓ２８０３）、方向範囲ｊを０に設定する（Ｓ２８０４）。次に、方向別残留音量計算部２６１５は、ｊ＝Ｊ−１か否かを判定する（Ｓ２８０５）。

ｊ＝Ｊ−１でないと判定された場合、方向別残留音量計算部２６１５は、Ｓ２８０３で算出されたＰ_sumを

に代入し、Ｑ＿ｊを算出する（Ｓ２８０６）。

次に、方向別残留音量計算部２６１５は、ｊ＋１を新たな方向範囲ｊと定義し（Ｓ２８０７）、Ｓ２８０５へ戻り、同様の処理を行う。

Ｓ２８０５において、ｊ＝Ｊであると判定された場合、方向別残留音量計算部２６１５は、ｆ＋１を新たな周波数ビンｆと定義し（Ｓ２８０８）、Ｓ２８０２へ戻り、以下同様の処理を行う。

Ｓ２８０２において、ｆ＝Ｎ−１であると判定された場合、方向別残留音量計算部２６１５は、Ｓ２８０２〜Ｓ２８０８の一連のループ処理から算出された残留信号内方向別音量Ｑ＿ｊ（τ）を抑圧量表示部１０６へ出力する。

なお、抑圧量表示部１０６の表示方法としては、第１の実施の形態または第３の実施の形態と同様の方法を用いる。

本実施の形態は、テレビ会議システムに限定されない、例えば、携帯電話のテレビ電話またはカーナビのハンズフリー通話装置に適用可能である。また、音源分離部２６０８において、音声のスパース性の仮定を必要としない音源の分離方法を用いるため、会話音声に限られず、環境音または楽音など、他の種類の音を対象とする場合にも適用可能である。

［第５の実施の形態］
本発明は、例えば、ＩＣレコーダなどの音声録音装置にも適応可能である。

図２７は、本発明の第５の実施の形態の音声録音装置のハードウェア構成例を示す図である。

音声録音装置２０００は、一以上のマイクロホン素子からなるマイクロホンアレイ１０１、マイクロホンアレイ１０１から入力されるアナログの音圧値をデジタルデータに変換するＡ／Ｄ変換装置２００２、Ａ／Ｄ変換装置２００２から出力されるデジタルデータを処理する中央演算装置１０３、中央演算装置１０３に接続された揮発性メモリ１０４、中央演算装置１０３に接続された、プログラム及びマイクロホンアレイ１０１の各マイク素子の物理的な配置などの情報を記憶する記憶媒体１０５、抑圧量表示部１０６、雑音除去操作入力部１０７、オーディオケーブル１１２、デジタルケーブル１１３、デジタルケーブル１１４、及びデジタルケーブル１１５から構成される。

第５の実施の形態は、遠端とのデータのやりとりを必要としないため、カメラ及びモニタなどの画像を扱わなくてもよい。また、Ａ／Ｄ変換装置２００２は、音声を再生しないため、Ｄ／Ａ変換を必要としない。したがって、Ａ／Ｄ変換装置２００２は、入力された多チャンネル音圧データを多チャンネルデジタル音圧データに変換する処理のみを行う。

なお、マイクロホンアレイ１０１、抑圧量表示部１０６、及び雑音除去操作入力部１０７の配置方法は第１の実施の形態と同様である。また、中央演算装置１０３、抑圧量表示装置２００６、及び雑音除去操作入力部１０７とにおける処理は、第１の実施の形態と同様である。

図２８は、本発明の第５の実施の形態の音声録音装置の構成を示すブロック図である。

本実施の形態における音声録音装置は、図２８に示すのように、音声受信部４０４、音声再生部４０６、及び多チャンネル音響エコーキャンセラ部４０７が無くてもよい。また、雑音除去操作入力部２００７を介してユーザが手動で雑音として除去する方向を決定してもよいが、音声録音装置に予め設定された値によって雑音として除去する方向を決定してもよい。その場合、雑音除去操作入力部２００７は、音声録音装置の構成に含まなくてもよい。

本実施の形態における音声録音装置は、ある方向から騒音または録音したくない音声が到来し、該音声が到来する方向からの到来音を雑音として除去するように操作する場合、前述した騒音または録音したくない音声が雑音として十分に除去され、かつ、録音したい音声が録音されていることを、ユーザが確かめながら会話することができる
本実施の形態は、ＩＣレコーダに限らず、ビデオカメラの録音機構などにも、そのまま適用可能である。また、第４の実施の形態のように、ＳＩＭＯ−ＩＣＡを用いた音源分離部２６０８及び方向別残留音量計算部２６１５を音声録音装置の構成とすることもできる。その場合、第４の実施の形態で前述したように、音源分離部２６０８において、音声のスパース性の仮定を必要としない音源の分離方法を用いるため、会話音声に限られず、環境音または楽音など、他の種類の音を対象とする場合にも適用可能である。

本発明の実施の形態は、音声録音装置の形状に限定されない。例えば、半球状の形状であってもよい。この場合、２次元的な方向ではなく、高さを含めた３次元的な方向について音を分離し、表示することができる。

本発明の第１の実施の形態におけるテレビ会議システムのハードウェア構成を示した図である。本発明の第１の実施の形態におけるテレビ会議システムの利用例を示した図である。本発明の音収集システムの実施例であるテレビ会議システムにおける、各ユーザの発話、雑音除去操作入力部への入力操作、抑圧量表示装置の表示、及び、遠端に送信される音圧データの音量の関係のタイムチャートの例を示す図である。本発明の第１の実施の形態におけるテレビ会議システムの構成を示したブロック図である。最小分散ビームフォーマによる雑音除去処理部の構成例を示すブロック図である。、入力された多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ(f，τ)のうちの一つのチャンネルの信号を模式的に示す図である。マイクロホンアレイのマイク素子数が三つ以上の場合におけるθの算出方法（ＳＰＩＲＥアルゴリズム）を示すフローチャートである。本発明の第１の実施の形態の音源分離部の処理を示すフローチャートである。本発明の第１の実施の形態の方向別残留音量計算部の処理を示すフローチャートである。本発明の第１の実施の形態の抑圧量表示部の表示の一例を示す図である。本発明の第１の実施の形態の抑圧量表示部で点灯するＬＥＤの数と収音信号内方向別音量Ｐ＿ｊ（τ）の値との対応付けを示す図である。本発明の第１の実施の形態の抑圧量表示部で点灯するＬＥＤの数と残留信号内方向別音量Ｑ＿ｊ（τ）の値との対応付けを示す図である。本発明の第１の実施の形態のテレビ会議システムの一連の処理を示したフローチャートである。本発明の第１の実施の形態の、任意フレームτにおける多チャンネル周波数領域フレーム信号Ｘｆ＿ｉ（ｆ，τ）のデータ構造を示した説明図である。本発明の第１の実施の形態の任意フレームτにおける多チャンネル周波数領域フレーム信号Ｅｆ＿ｉ（ｆ，τ）のデータ構造を示した説明図である。本発明の第１の実施の形態の、任意フレームτにおけるＩｓＲｅｄｕｃｅｄ＿ｊ（τ）のデータ構造を示した説明図である。本発明の第１の実施の形態の任意フレームτにおける目的音信号Ｅ_subject＿ｉ（ｆ，τ）のデータ構造を示す図である。本発明の第１の実施の形態の任意フレームτにおける雑音信号Ｅ_noise＿ｉ（ｆ，τ）のデータ構造を示す図である。本発明の第１の実施の形態の任意フレームτ方向別周波数領域フレーム信号Ｘｆ＿ｊ（ｆ，τ）のデータ構造を示す図である。本発明の第２の実施の形態におけるテレビ会議システムの構成を示したブロック図である。本発明の第３の実施の形態における抑圧量表示部の表示の一例を示す図である。本発明の第３の実施の形態における表示アイコンと抑圧量Ｒ＿ｊ(τ)との対応付けを示す図である。本発明の第３の実施の形態における表示アイコンと残留信号内方向別音量Ｑ＿ｊ（τ）との対応付けを示す図である。本発明の第４の実施の形態におけるテレビ会議システムの構成を示したブロック図である。本発明の第４の実施の形態の音源分離部の処理を示したフローチャートである。本発明の第４の実施の形態の方向別残留音量計算部の処理を示すフローチャートである。本発明の第５の実施の形態の音声録音装置のハードウェア構成例を示す図である。本発明の第５の実施の形態の音声録音装置の構成を示すブロック図である。

符号の説明

１００テレビ会議システム
１０１マイクロホンアレイ
１０２Ａ／Ｄ−Ｄ／Ａ変換装置
１０３中央演算装置
１０４揮発性メモリ
１０５記憶媒体
１０６抑圧量表示部
１０７雑音除去操作入力部
１０８スピーカ
１０９カメラ
１１０画像表示装置
１１１ハブ
１１２オーディオケーブル
１１３〜１１５デジタルケーブル
１１６オーディオケーブル
１１７デジタルケーブル
１１８モニタケーブル
１１９ＬＡＮケーブル
Ｕ１、Ｕ２ユーザ
２０３中央演算装置
２０８スピーカ
ｔ１、ｔ３、ｔ５時間帯
ｔ２、ｔ４時刻
４０１多チャンネルＡ／Ｄ変換部
４０２多チャンネルフレーム処理部
４０３多チャンネル短時間周波数分析部
４０４音声受信部
４０５Ｄ／Ａ変換部
４０６音声再生部
４０７多チャンネル音響エコーキャンセラ部
４０８音源分離部
４０９雑音除去処理部
４１０マイク配置
４１１時間信号生成部
４１３音声送信部
４１４音量計算部
４１５方向別残留音量計算部
５０１目的音／雑音分離部
５０２目的音ステアリングベクトル更新部
５０３雑音共分散行列更新部
５０４フィルタ更新部
５０５フィルタ更新部
Ｓ７０１〜Ｓ７０７ステップ
Ｓ８０１〜Ｓ８０３ステップ
Ｓ９０１〜Ｓ９０８ステップ
Ｓ１３０１〜Ｓ１３１４ステップ
Ｌ１〜Ｌ８ＬＥＤの番号
２０００音声録音装置
２００２Ａ／Ｄ変換装置
２６０８音源分離部
２６１５方向別残留音量計算部
Ｓ２７０１〜Ｓ２７１３ステップ
Ｓ２８０１〜Ｓ２８０８ステップ

Claims

二以上のマイクロホンで構成されるマイクロホンアレイと、前記マイクロホンアレイから出力された信号を変換する処理部と、を備える音収集システムであって、
前記処理部は、
前記マイクロホンアレイから出力された信号を、音源が存在する方向ごと分離する音源分離部と、
前記マイクロホンアレイから出力された信号から雑音を除去する雑音除去処理部と、
前記音源分離部から出力された信号、及び前記雑音除去処理部から出力された残留信号に基づいて、前記残留信号の方向別の音量を算出する方向別残留信号計算部と、を備え、
音収集システムは、さらに、前記方向別残留信号計算部による算出結果に基づいて、前記方向別の残留信号の音量を表示する抑圧量表示部を備えることを特徴とする音収集システム。
前記音源分離部は、
時間成分及び周波数成分によって区分された時間・周波数領域の各周波数ごとに、音源が存在する方向を算出し、
前記算出された方向に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
前記方向別残留信号計算部は、
時間成分及び周波数成分によって区分された時間・周波数領域に音源が存在するか否かを判定し、
前記判定結果に基づいて前記残留信号の方向別の音量を算出することを特徴とする請求項１に記載の音収集システム。
前記音源分離部は、
前記各マイクロホンが収集した音を、周波数ごとにその音源が存在する方向を算出し、
前記算出された音源が存在する方向に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
前記方向別残留信号計算部は、
前記分離された音源の存在する方向について、前記音源分離部から出力された方向の信号の和に対する相対値を、前記残留信号の方向別の音量として算出することを特徴とする請求項１に記載の音収集システム。
前記処理部は、さらに、前記音源分離部から出力された信号の音量を算出する音量計算部を備え、
前記抑圧量表示部は、さらに、前記音量計算部による算出結果に基づいて、前記音源分離部から出力された信号の音量を表示することを特徴とする請求項１に記載の音収集システム。
前記抑圧量表示部は、前記残留信号の音量と前記音源分離部から出力された信号の音量との差を表示することを特徴とする請求項１に記載の音収集システム。
前記抑圧量表示部は、音源の存在する方向ごとに、前記残留信号の音量を表示する表示器を備えることを特徴とする請求項１に記載の音収集システム。
前記抑圧量表示部は、音源の存在する方向ごとに、前記音源分離部から出力された信号の音量を表示する表示器を備えることを特徴とする請求項１に記載の音収集システム。
二以上のマイクロホンで構成されるマイクロホンアレイと、前記マイクロホンアレイから出力された信号を変換する処理部と、前記変換された信号の音量を表示する抑圧量表示部と、を備える音収集装置における音表示方法であって、
前記処理部は、
前記マイクロホンアレイから出力された信号を、音源が存在する方向ごとに分離し、
前記マイクロホンアレイから出力された信号から雑音を除去し、
前記雑音が除去された残留信号に基づいて、前記残留信号の方向別の音量を算出し、
前記抑圧表示部は、
前記算出された残留信号の方向別の音量を表示することを特徴とする音表示方法。
前記処理部は、
前記残留信号の方向別の音量を算出する場合に、
時間成分及び周波数成分によって区分された時間・周波数領域の各周波数ごとに、音源が存在する方向を算出し、
前記算出された方向に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
時間成分及び周波数成分によって区分された時間・周波数領域に音源が存在するか否かを判定し、
前記判定結果に基づいて前記残留信号の方向別の音量を算出することを特徴とする請求項８に記載の音表示方法。
前記処理部は、
前記残留信号の方向別の音量を算出する場合に、
前記各マイクロホンが収集した音を、周波数ごとにその音源が存在する方向を算出し、
前記算出された音源が存在する方向の統計量を算出し、
前記算出された統計量に基づいて、前記マイクロホンアレイから出力された信号を、音源の存在する方向ごとに分離し、
前記分離された音源の存在する方向について、前記音源分離部から出力された方向の信号の和に対する相対値を、前記残留信号の方向別の音量として算出することを特徴とする請求項８に記載の音表示方法。