JP2009049734A

JP2009049734A - カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム

Info

Publication number: JP2009049734A
Application number: JP2007214284A
Authority: JP
Inventors: Yasuhiro Kodama; 康広小玉; Yasuhiko Kato; 靖彦加藤; Jo Matsui; 丈松井; Nobuyuki Kihara; 信之木原; Hideki Kishi; 秀樹岸; Yohei Sakuraba; 洋平櫻庭; Takayoshi Kawaguchi; 貴義川口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-08-21
Filing date: 2007-08-21
Publication date: 2009-03-05

Abstract

【課題】発話者がマイクロフォンの指向性の範囲内にいることを的確に把握できるようにすること。
【解決手段】本発明は、本体筐体１０に設けられる単一指向性を有するマイクロフォン１１と、この本体筐体１０に設けられ、マイクロフォン１１の単一指向性の範囲とほぼ等しい画角を有するカメラ１２とを備えるカメラ付きマイクロフォン１である。これにより、発話者はカメラ１２によって自らの映像が取り込まれていることでマイクロフォンの指向性範囲内にいることを把握できるようになる。
【選択図】図１

Description

本発明は、マイクロフォンとカメラとが筐体に設けられたカメラ付マイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システムに関する。

テレビ会議システムは、離れた会議室間で映像および音声を双方向通信することで、相手方の話者の映像や音声をモニタに映し出し、臨場感ある会議を実現するシステムである。ここで、会議室にいる複数の参加者に対してカメラを向けるにあたり、マイクで音声を取り込んでいる位置に合わせてカメラの方向を制御する技術が開示されている（例えば、特許文献１参照。）。

特開２００２−１７１４９９号公報

しかしながら、テレビ会議システムなどで指向性を有するマイクロフォンを用いるような場合、話者は果たして自分が指向性の範囲内にいるのかどうかを知ることは難しい。また、複数の指向性マイクロフォンを用いる場合において、あるマイクロフォンの指向性範囲内にノイズ源が存在すると、その指向性マイクロフォンからの入力音が必要な音を聴きづらくする原因となってしまう。

さらに、音源方向推定用マイクロフォン(複数個)を具備するメインカメラを発話者方向に向けてテレビ会議を行うような場合、音声処理による各音源方向推定用マイクロフォンの入力音同士の相関関数を用いた音源方向推定(例えば、「盛田敏之：第一波面音源方向検知を用いた自動監視カメラの検討」)などで大体の方向を定め、さらに画像処理によるパターン認識を用いた顔検出(例えば、「赤松茂：コンピュータによる顔の認識サーベイ」)などでメインカメラを発話者方向に向けるなどの方法が考えられるが、その精度はまだ十分ではない。

また、メインカメラの映像だけで発話者を視覚的に強調するような場合、映像の中で発話者が存在する部分を正確に抽出しなければならないという問題もある。

本発明はこのような課題を解決するために成されたものである。すなわち、本発明は、本体筐体に設けられる単一指向性を有するマイクロフォンと、この本体筐体に設けられ、マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラとを備えるカメラ付きマイクロフォンである。

このような本発明では、同一の本体筐体に単一指向性を有するマイクロフォンとカメラとが設けられ、このマイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラがあることから、話者はカメラによって自らの映像が取り込まれていることでマイクロフォンの指向性範囲内にいることを把握できるようになる。

ここで、本発明で適用するマイクロフォンの単一指向性とは、本体筐体からある特定の角度を有する領域にのみ、主として一般的な話者の声に対応した周波数においてある一定以上の音声取り込みゲインを有する性質のことである。また、マイクロフォンの単一指向性とほぼ等しいカメラの画角とは、マイクロフォンの単一指向性の範囲と一致している場合のほか、カメラで映像が取り込まれていればマイクロフォンで音声を取り込むことができる場合を含む。

また、本発明は、本体筐体に設けられる単一指向性を有するマイクロフォンと、この本体筐体に設けられ、マイクロフォンの単一指向性の範囲内に画角を有するカメラとを備えるカメラ付きマイクロフォンをコンピュータによって制御するプログラムであり、カメラによって取り込んだ映像から顔の画像を認識し、その認識した顔の位置に基づきマイクロフォンの単一指向性の中心位置を変更するステップをコンピュータによって実行させるものである。

このような本発明では、カメラ付きマイクロフォンのカメラで取り込んだ映像に基づき顔の画像を認識し、その顔の位置にマイクロフォンの単一指向性の中心位置を変更するため、カメラの撮像中心から話者の位置がずれていても、マイクロフォンによる音声取り込みを確実に行うことができるようになる。

ここで、カメラによって取り込んだ映像から顔の画像を認識できなかった場合には、マイクロフォンによる音声の取り込みを行わないようにすれば、話者がカメラの画角内にいない場合に不要な音声の取り込みを行わずに済む。

また、本発明は、単一指向性を有するマイクロフォンおよびこのマイクロフォンの単一指向性の範囲内に画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、カメラ付きマイクロフォンを利用する参加者の映像をメインカメラで取り込むテレビ会議システムにおいて、音声を取り込んでいるカメラ付きマイクロフォンを特定し、その位置に向けて高画質なメインカメラの撮影方向を移動するとともに、音声を取り込んでいるカメラ付きマイクロフォンのカメラで取り込んだ映像から顔の画像を認識して、その認識結果に基づきメインカメラの撮影方向を調整する制御手段を有するテレビ会議システムである。

このような本発明では、複数のカメラ付きマイクロフォンと、メインカメラとを有するテレビ会議システムにおいて、複数のカメラ付きマイクロフォンのうち音声を取り込んでいるものの位置に合わせてメインカメラの撮影方向を移動し、そのカメラ付きマイクロフォンのカメラで取り込んだ映像から顔の画像を認識することで、メインカメラの撮影方向をその顔の位置に正確に合わせることができるようになる。

また、このテレビ会議システムにおいて、複数のカメラ付きマイクロフォンが、各々のカメラによって参加者の顔の画像を逐次取り込み制御手段へ送り、制御手段が、各カメラ付きマイクロフォンから送られる参加者の顔の画像を順次上書き保存しておき、その保存した顔の画像をメインカメラで撮影方向を調整する際に行う顔の画像の認識に用いている。これにより、常に新しい顔の画像を用いた認識によって、正確な位置へメインカメラを向けることができるようになる。

また、本発明は、単一指向性を有するマイクロフォンおよびこのマイクロフォンの単一指向性の範囲内に画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、複数のカメラ付きマイクロフォンのカメラで取り込んだ複数の映像をモニタに並べて表示するにあたり、最も音声の取り込みレベルが高いカメラ付きマイクロフォンのカメラで取り込んだ映像を他のカメラ付きマイクロフォンのカメラで取り込んだ映像より大きく表示する制御手段を有するテレビ会議システムである。

このような本発明では、複数のカメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに並べて表示する際、音声を取り込んでいるカメラ付きマイクロフォンのカメラで取り込んだ映像を他の映像に比べて大きく表示することで、話者の映像を目立たせることができるようになる。

また、音声を取り込んでいるカメラ付きマイクロフォンのカメラで取り込んだ映像を他の映像に比べて明るく表示するようにしても、上記と同様、話者の映像を目立たせることができるようになる。

また、複数のカメラ付きマイクロフォンがカスケード接続されている場合、そのカスケード接続の順にカメラ付きマイクロフォンのカメラで取り込んだ複数の映像をモニタに横一列で表示すると、複数の参加者の映像をパノラマ表示することが可能となる。

したがって、本発明のようなカメラ付きマイクロフォンを用いることで、話者がマイクの指向性の範囲内にいることを的確に認識できるとともに、カメラ付きマイクロフォンのカメラで取り込んだ映像を用いて話者の位置を正確に捉えてメインカメラの撮影方向を正確に設定することが可能となる。しかも、話者の位置を正確に特定できるため、話者のモニタ表示を強調する場合も強調する映像を正確に特定して行うことができ、臨場感のあるテレビ会議を実現することが可能となる。

以下、本発明の実施の形態を図に基づき説明する。

＜カメラ付きマイクロフォンの構成＞
図１は、本実施形態に係るカメラ付きマイクロフォンを説明する模式図で、（ａ）は平面図、（ｂ）は側面図（ｃ）は上面図である。このカメラ付きマイクロフォン１は、本体筐体１０をテーブル上に載置して利用するもので、本体筐体１０に設けられたマイクロフォン１１と、同じ本体筐体１０に設けられたカメラ１２とを有している。

本実施形態では、マイクロフォン１１が単一指向性を有するもので、本体筐体１０の一方側に強い音声取り込みゲインを有している。すなわち、主として一般的な発話者の声に対応した周波数で一定の音声取り込みゲインを有する範囲が本体筐体１０の一方側に設けられたものである。このため、単一指向性として一定の角度範囲を持ったものとなっている。

また、本実施形態のカメラ付きマイクロフォン１のカメラ１２は、マイクロフォン１１の有する単一指向性の範囲とほぼ等しい画角を有している。これにより、カメラ１２で映像を取り込む範囲では必ずマイクロフォン１１の指向性範囲内に入っていることになる。

図１に示す例では、本体筐体１０の上面中央にマイクロフォン１１が配置され、図中一点鎖線で示す指向性を有している。これに対し、カメラ１２は本体筐体１０の上面上部に配置され、図中二点鎖線で示す画角を有している。この例のように、マイクロフォン１１とカメラ１２とが隣接して配置され、指向性の角度と画角とが上下方向および左右方向において略平行に設けられていることにより、マイクロフォン１１の単一指向性の範囲とほぼ等しいカメラ１２の画角を実現している。

ここで、マイクロフォン１１の単一指向性とほぼ等しいカメラ１２の画角とは、マイクロフォン１１の単一指向性の範囲と一致している場合のほか、カメラ１２で発話者の顔の映像が取り込まれていればマイクロフォン１１でその発話者の音声を取り込むことができる場合を含む。なお、カメラ１２の画角をマイクロフォン１２の指向性よりも少し狭くし、画角が完全にマイクロフォン１２の指向性範囲の内側に収まるように設定することで、より確実に発話者がマイクロフォン１２の指向性範囲内に収まるように工夫することも可能である。

このようなカメラ付きマイクロフォン１によって、カメラで写し出した映像をモニタに表示すれば、発話者はカメラによって自らの映像が取り込まれている場合にはマイクロフォン１２の指向性範囲内にいることを認識でき、反対にカメラによって自らの映像が映し出されていない場合にはマイクロフォン１２の指向性の範囲外にいることを容易に認識できるようになる。

＜本実施形態のカメラ付マイクロフォンを用いて発話者の声を的確に捉える制御プログラム＞
上記構成から成る本実施形態のカメラ付きマイクロフォンの制御プログラムは、このカメラ付きマイクロフォンが接続される制御部で実行されるプログラム処理によって実現される。なお、制御部は、テレビ会議システムのシステム本体に設けられているが、カメラ付きマイクロフォンの本体筐体内に組み込まれている場合も考えられる。

（第１の制御プログラム）
第１の制御プログラムは、発話者の声をクリアにするために、カメラ付マイクロフォンにおいて映像をもとにマイクロフォンの指向性の方向を変更する制御プログラムである。この制御プログラムは一定時間間隔で繰り返し実行される。

先ず、カメラ付マイクロフォンのカメラにおいて取り込んだ映像を用いてパターン認識などの画像処理による顔検出を行う。ここで検出した顔が奇数個であった場合は、真ん中にある顔が指向性の中心となるようにマイクロフォンの指向性を調整する。一方、顔が偶数個検出された場合は真ん中にいる二人の顔の中央が指向性の中心となるようにマイクロフォンの指向性を調整する。

なお、マイクロフォンの指向性の中心を変更するには、マイクロフォンを機械的に回転させる場合と、電気的に指向性の方向を変える場合とが挙げられる。

図２は、第１の制御プログラムの流れを説明するフローチャートである。先ず、カメラ付きマイクロフォンのカメラによって映像を取り込み、画像処理によって顔検出を行う（ステップＳ１０１）。ここで検出した顔の数をｍ、Ｆ０，Ｆ１，…，Ｆｍを検出した顔の画面上の中心座標とする。

次に、ｍ＞０であるか否かを判断する（ステップＳ１０２）。つまり、少なくとも１つの顔を検出したか否かを判断する。ｍ＞０でない場合（１つも顔を検出していない場合）は処理を終了する。一方、ｍ＞０の場合（１つ以上の顔を検出した場合）、ｍは奇数か偶数かの判断を行う（ステップＳ１０３）。

ｍが奇数の場合、検出された顔の座標のうち、画面上の原点座標（０，０）から距離が最も近い顔の中心座標にマイクロフォンの指向性の中心を向けるよう制御する（ステップＳ１０４）。

一方、ｍが偶数の場合、検出された顔の座標のうち、画面上の原点座標（０，０）から距離が最も近い顔の中心座標と、次に近い顔の中心座標との中間の座標にマイクロフォンの指向性の中心を向けるよう制御する（ステップＳ１０５）。但し、このｍが偶数の場合の処理(ステップＳ１０５)は、ｍが奇数の場合の処理(ステップＳ１０４)と同じにしても良い。この場合はｍが奇数か偶数かの判別（ステップＳ１０３）の必要はなく、ｍ＞０(ステップＳ１０２)ならば常にステップＳ１０４の処理に移る。

（第２の制御プログラム）
第２の制御プログラムは、カメラ付きマイクロフォンのカメラによって取り込んだ映像から顔検出を行った結果、映像内に顔が存在しなかった場合はそのマイクロフォンのゲインを下げるか、ミュートすることで必要のない音を拾わないようにする制御プログラムである。この制御プログラムも第１の制御プログラムと同様に一定時間間隔で繰り返し実行される。

先ず、カメラ付マイクロフォンのカメラにおいて取り込んだ映像を用いてパターン認識などの画像処理による顔検出を行う。ここで顔を検出できた場合には上記第１の制御プログラムを実行する。一方、顔を検出できなかった場合には、そのカメラ付きマイクロフォンによる音声取り込みのゲインを下げるもしくはミュートする処理を行う。

図３は、第２の制御プログラムの流れを説明するフローチャートである。先ず、カメラ付きマイクロフォンのカメラによって映像を取り込み、画像処理によって顔検出を行う（ステップＳ２０１）。ここで検出した顔の数をｍ、Ｆ０，Ｆ１，…，Ｆｍを検出した顔の画面上の中心座標とする。

次に、ｍ＞０であるか否かを判断する（ステップＳ２０２）。つまり、少なくとも１つの顔を検出したか否かを判断する。ここで、ｍ＞０の場合（１つ以上の顔を検出した場合）、マイクロフォンのゲインを初期設定にする（ステップＳ２０３）。一方、ｍ＞０でない場合（１つも顔を検出していない場合）、マイクロフォンのゲインを下げるか、そのマイクロフォンからの出力を０にする（ステップＳ２０４）。

図４は、第１の制御プログラムと第２の制御プログラムとの両方を実現する処理を説明するフローチャートである。先ず、カメラ付きマイクロフォンのカメラによって映像を取り込み、画像処理によって顔検出を行う（ステップＳ３０１）。ここで検出した顔の数をｍ、Ｆ０，Ｆ１，…，Ｆｍを検出した顔の画面上の中心座標とする。

次に、ｍ＞０であるか否かを判断する（ステップＳ３０２）。つまり、少なくとも１つの顔を検出したか否かを判断する。ｍ＞０でない場合（１つも顔を検出していない場合）は、マイクロフォンのゲインを下げるか、そのマイクロフォンからの出力を０にする（ステップＳ３０３）。

一方、ｍ＞０の場合（１つ以上の顔を検出した場合）、ｍは奇数か偶数かの判断を行う（ステップＳ３０４）。そして、ｍが奇数の場合、検出された顔の座標のうち、画面上の原点座標（０，０）から距離が最も近い顔の中心座標にマイクロフォンの指向性の中心を向けるよう制御する（ステップＳ３０５）。一方、ｍが偶数の場合、検出された顔の座標のうち、画面上の原点座標（０，０）から距離が最も近い顔の中心座標と、次に近い顔の中心座標との中間の座標にマイクロフォンの指向性の中心を向けるよう制御する（ステップＳ３０６）。

＜カメラ付きマイクロフォンを用いたテレビ会議システムの構成＞
図５は、本実施形態のカメラ付きマイクロフォンを適用したテレビ会議システムの構成を説明する模式図である。テレビ会議システム１００は、システム本体（制御部）１０１を中心として、映像を映し出すモニタ１０２、会議参加者の映像を高画質で取り込むメインカメラ１０３、テーブルのレイアウトに対応して配置される複数のカメラ付きマイクロフォン１によって構成される。

モニタ１０２には、メインカメラ１０３やカメラ付きマイクロフォン１のカメラによって取り込んだ映像を映し出したり、離れた場所にある会議室から送られる相手方参加者の映像を映し出したりする。これらの映像は任意に切り替えることができる。

メインカメラ１０３はパン、チルト、ズームといった動作が可能であり、会議室にいる参加者全員の映像を広角で取り込んだり、特定の参加者に向けて撮影範囲を絞り込んで取り込むことができる。また、メインカメラ１０３には、音源方向推定用のマイクロフォンが設けられており、このマイクロフォンで取り込んだ音声によって音源方向を推定し、その向きに撮影方向を合わせることができるようになっている。

複数のカメラ付きマイクロフォン１は、テーブルのレイアウトや参加者の座る位置に合わせて配置されている。各カメラ付きマイクロフォン１は、システム本体１０１を起点としてカスケード接続されている。

モニタ１０２、メインカメラ１０３、複数のカメラ付きマイクロフォン１はシステム本体１０１に接続され、システム本体１０１で実行される各種のプログラムによって制御される。

＜カメラ付きマイクロフォンを用いたメインカメラの制御＞
図５に示すようなテレビ会議システム１００において、本実施形態のカメラ付きマイクロフォン１を用いることにより、メインカメラ１０３を発話者方向に精度良くパン、チルト等することが可能となる。なお、ここでは参加者一人につき一つのカメラ付マイクロフォン１を使用することを前提とする。

（第１のメインカメラ制御方法）
第１のメインカメラ制御方法では、エコーキャンセラー出力(ここではエコーキャンセラーにおいてマイク入力信号から推定エコー成分を差し引いた音声のこと)の過去数秒間（例えば、１秒間）のパワー平均が閾値を超えたカメラ付マイクロフォンが存在する場合、発話があったとみなして閾値を超えたカメラ付マイクロフォンの中から最も大きいパワー平均値のカメラ付マイクロフォンを選択するなどして発話者に最も近いと思われるカメラ付マイクロフォンを決める。

この時、メインカメラは音源方向推定により大まかにカメラを発話者方向にパン・チルトしてから、画像処理による顔検出を行った後、検出された各々の顔の中から発話者に最も近いとみなされたカメラ付マイクロフォンの画像を利用したマッチングによって個人識別を行い、最も類似している顔を見つけ出し、その方向にメインカメラをパン・チルトする。

各カメラ付マイクロフォンは、個人識別用の画像として一定時間間隔で画像を保存しており、発話者に最も近いとみなされた時点で保存されている画像をメインカメラへと送信する。

このようなメインカメラの制御によって、メインカメラによる音源方向推定で大まかな撮影方向を設定し、その取り込み映像の中に複数の参加者の顔が映し出されていた場合、その複数の顔の中から、音声の取り込みが最大となるカメラ付きマイクロフォンのカメラで取り込んだ顔の画像と類似するものを検出し、その顔の位置に合わせてメインカメラの撮影方向を微調整する。これにより、音源方向推定だけでは正確に特定できなかった発話者の映像を正確にメインカメラで捉えることができるようになる。

図６は、第１のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理の流れを説明するフローチャートである。この処理は、例えば音声のサンプリング周波数を32000Hzとした場合、毎サンプルごとに処理を行う必要があるため、1/32000秒ごとにＳ４０１またはＳ４０３の処理を開始しなければならない。よって１ループ(Ｓ４０１〜Ｓ４０８またはＳ４０３〜Ｓ４０８)の処理を1/32000秒以内に終える必要がある。先ず、音声取り込みのパワー平均を格納するメモリＭｘの値を０に初期化する（ステップＳ４０１）。ここで、メモリＭｘのｘは、カメラ付きマイクロフォン毎に０から順に割り振られた番号である。

次に、カウンタｃを０に初期化する（ステップＳ４０２）。次いで、所定のサンプリング期間で音声取り込みのパワーを計算する（ステップＳ４０３）。例えば、３２ｋＨｚサンプリングのマイク入力信号であった場合、ｗ秒間（１秒間ならｗ＝１）の平均パワーＰaveを求めるため、ｗ×３２０００の要素をもつ配列Ｐを用意し、毎サンプリング毎に瞬時値パワーＰ[c]＝Input×Inputを計算する。ここで、Inputはマイク入力値である。サンプリング期間が３２ｋＨｚでない場合には、上記３２０００をサンプリング周波数に置き換える。

次に、配列Ｐ[c]の全ての要素の値の平均Ｐaveを算出する（ステップＳ４０４）。そして、Ｐaveが所定の閾値を超えているか否かを判断し（ステップＳ４０５）、超えていない場合にはＭｘ＝０とし（ステップＳ４０６）、超えている場合にはＭｘ＝Ｐaveとする（ステップＳ４０７）。

次いで、ｃ＝（ｃ＋１）％（ｗ×３２０００）を行う（ステップＳ４０８）。つまり、ｃ＋１をｗ×３２０００で割った時の余りを新しいｃとする。新しいｃを設定した後は、ステップＳ４０３へ戻り、以降の処理を繰り返す。

図７は、第１のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。先ず、タイマーによりＴｏｌｄを現在時刻に初期化し（ステップＳ５０１）、タイマーによりＴｎｏｗを現在時刻に代入する（ステップＳ５０２）。

次に、Ｔｎｏｗ−Ｔｏｌｄ≧ｗ（秒）であるか否かを判断する（ステップＳ５０３）。ここで、ｗは、メインカメラを一度パン、チルトしてから次にパン、チルトするまでの待ち時間（秒）である。

ステップＳ５０３の判断でＮｏであればステップＳ５０２へ戻り、タイマーによりＴｎｏｗへ現在時刻を代入する。ステップＳ５０３の判断でＹｅｓであれば、ＴｏｌｄにＴｎｏｗを代入する（ステップＳ５０４）。そして、Ｘmax＝０、Ｍmax＝０にして（ステップＳ５０５）、ステップＳ５０６へ進む。

ステップＳ５０６では、カメラ付きマイクロフォンがｎ本繋がっているとした場合、Ｍmax＜Ｍiであれば、Ｘmax＝ｉ、Ｍmax＝Ｍiにする処理をｎ回分行う。ここで、Ｍiは、図６に示すＭｘに対応している。この処理によって、Ｘmaxには最も平均パワーが大きいカメラ付きマイクロフォンの番号が格納され、Ｍmaxには最も大きい平均パワーが格納される。

次いで、Ｘmax＞０か否かの判断を行い（ステップＳ５０７）、ＮｏであればステップＳ５０２へ戻る。Ｙｅｓであれば、音源方向検出によりメインカメラを大まかにパン、チルトさせる（ステップＳ５０８）。また、Ｘmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像Ｖを取り込む（ステップＳ５０９）。

次に、メインカメラで取り込んだ画像内で顔検出を行う（ステップＳ５１０）。ここでは、検出した顔の数をｍ、Ｆ０，Ｆ１，…，Ｆｍを検出した顔の中心座標とする。そして、Ｆmax＝０、Ｓmax＝０にする（ステップＳ５１１）。

次いで、メインカメラで取り込んだ画像内で検出した各顔の画像と、Ｘmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像Ｖとの類似度を計算する（ステップＳ５１２）。ここで、Ｓ０〜Ｓｍは各顔の画像と画像Ｖとの類似度（０〜１の値）である。そして、Ｓmax＜Ｓｊであれば、Ｆmax＝ｊ、Ｓmax＝Ｓｊにする処理をｍ回分行う。これにより、各顔の画像のうち画像Ｖと最も類似する画像の番号がＦmaxに格納される。ここで、Ｓ０はＦ０、Ｓ１はＦ１、…、ＳｍはＦｍを中心座標とする顔の画像Ｖとの類似度である。

その後、メインカメラをＦmaxに対応する顔の画像の中心座標方向に合わせるよう、パン、チルトの微調整を行う（ステップＳ５１３）。

（第２のメインカメラ制御方法）
第２のメインカメラ制御方法では、カメラ付マイクロフォンのカメラによって発話者が「よりカメラ正面を向いている時」の画像を保存しておき、メインカメラはその画像をもとに個人識別を行うことで発話者の方向にカメラをパンチルドする際の精度を向上させることができる方法である。これは、大抵の発話者はテレビを向いて話す傾向があるため、図５のような環境ではメインカメラに対してほぼ正面を向いていることが多いためである。

カメラ付マイクロフォンは、目と口のサンプル画像を用いたパターン認識などにより目の二点と口の一点を結ぶ三角形の面積の大きさ(面積が大きいほど正面を向いている可能性が高い)などの情報を用いて、一定時間間隔で取り込んだ画像が保存している画像よりも正面を向いていると考えられる場合、その画像を上書き保存する。ただし、保存する顔画像の数は１つとは限らず、複数保存する場合はより正面を向いている可能性の高いものを優先して保存する。

なお、発話者に最も近いと思われるカメラ付マイクロフォンから人の耳には聞こえない周波数帯域の音声を出力し、最初はその周波数帯域の音を用いた音源方向推定によってメインカメラを大まかにパン、チルトし、次に顔検出・個人識別などによる細かいパン、チルト制御を行うという方法も考えられる。

図８は、第２のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理（画像の保存数が１の場合）の流れを説明するフローチャートである。先ず、タイマーによりＴｏｌｄを現在時刻に初期化し、目と口で構成される三角形の面積を記憶する変数Ａを０に初期化し、保存画像Ｖを黒画像（もしくは白画像）に初期化する（ステップＳ６０１）。

次いで、タイマーによりＴｎｏｗに現在時刻を代入し（ステップＳ６０２）、Ｔｎｏｗ−Ｔｏｌｄ≧ｗか否かの判断を行う（ステップＳ６０３）。ここで、ｗは次の画像を取り込むまでの時間間隔（秒）である。この判断でＮｏの場合にはステップＳ６０２へ戻り、タイマーによりＴｎｏｗへ現在時刻を代入する。一方、Ｙｅｓの場合にはステップＳ６０４へ進む。

ステップＳ６０４では、ＴｏｌｄにＴｎｏｗの値を代入する。その後、ステップＳ６０５では、カメラ付きマイクロフォンのカメラで顔の画像Ｖnowを取り込み、目と口で構成される三角形の面積をＡnowとする。次いで、Ａ＜Ａnowであるか否かを判断し（ステップＳ６０６）、Ｙｅｓの場合にはＡ＝Ａnow、Ｖ＝Ｖnowを行い（ステップＳ６０７）、Ｎｏの場合にはステップＳ６０２へ戻る。

これにより、Ａにはカメラ付きマイクロフォンのカメラで取り込んだ顔の画像のうち目と口で構成される三角形の面積が最も大きい場合の面積が格納され、Ｖにはその時の顔の画像が格納されることになる。

図９は、第２のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理（画像の保存数が複数の場合）の流れを説明するフローチャートである。先ず、タイマーによりＴｏｌｄを現在時刻に初期化し、目と口で構成される三角形の面積を記憶する配列Ａ[0]〜Ａ[o]を０に初期化し、保存画像の配列である画像Ｖ[0]〜Ｖ[o]を黒画像（もしくは白画像）に初期化する（ステップＳ７０１）。

次いで、タイマーによりＴｎｏｗに現在時刻を代入し（ステップＳ７０２）、Ｔｎｏｗ−Ｔｏｌｄ≧ｗか否かの判断を行う（ステップＳ７０３）。ここで、ｗは次の画像を取り込むまでの時間間隔（秒）である。この判断でＮｏの場合にはステップＳ７０２へ戻り、タイマーによりＴｎｏｗへ現在時刻を代入する。一方、Ｙｅｓの場合にはステップＳ７０４へ進む。

ステップＳ７０４では、ＴｏｌｄにＴｎｏｗの値を代入する。その後、ステップＳ７０５では、カメラ付きマイクロフォンのカメラで顔の画像Ｖnowを取り込み、目と口で構成される三角形の面積をＡnowとする。次いで、Ｏmin＝−１、Ａmin＝Ａnowを行い（ステップＳ７０６）、Ａi＜ＡminであればＯmin＝ｉ、Ａmin＝Ａ[i]にする処理をｏ回行う（ステップＳ７０７）。

次に、Ｏmin≧０であるか否かを判断し（ステップＳ７０８）、ＮｏであればステップＳ７０２へ戻って以降を繰り返し、ＹｅｓであればＡ[Ｏmin]＝Ａnow、Ｖ[Ｏmin]＝Ｖnowを行う（ステップＳ７０９）。そして、ステップＳ７０２へ戻る。

これにより、配列Ａ[0]〜Ａ[o]に顔の画像における目と口で構成される三角形の面積が複数格納され、画像Ｖ[0]〜Ａ[o]にその顔の画像が複数格納されることになる。

図１０は、第２のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。先ず、タイマーによりＴｏｌｄを現在時刻に初期化し（ステップＳ８０１）、タイマーによりＴｎｏｗに現在時刻を代入する（ステップＳ８０２）。

次に、Ｔｎｏｗ−Ｔｏｌｄ≧ｗか否かを判断する（ステップＳ８０３）。ここで、ｗは、メインカメラを一度パン、チルトしてから次にパン、チルトするまでの待ち時間（秒）である。

ステップＳ８０３の判断でＮｏであればステップＳ８０２へ戻り、タイマーによりＴｎｏｗへ現在時刻を代入する。ステップＳ８０３の判断でＹｅｓであれば、ＴｏｌｄにＴｎｏｗの値を代入し（ステップＳ８０４）する。その後、Ｘmax＝０、Ｍmax＝０にして（ステップＳ８０５）、ステップＳ８０６へ進む。

ステップＳ８０６では、カメラ付きマイクロフォンがｎ本繋がっているとした場合、Ｍmax＜Ｍiであれば、Ｘmax＝ｉ、Ｍmax＝Ｍiにする処理をｎ回分行う。ここで、Ｍiは、図６に示すＭｘに対応している。この処理によって、Ｘmaxには最も平均パワーが大きいカメラ付きマイクロフォンの番号が格納され、Ｍmaxには最も大きい平均パワーが格納される。

次いで、Ｘmax＞０か否かの判断を行い（ステップＳ８０７）、ＮｏであればステップＳ８０２へ戻る。Ｙｅｓであれば、音源方向検出によりメインカメラを大まかにパン、チルトさせる（ステップＳ８０８）。また、Ｘmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像Ｖ[0]〜Ｖ[o]を取り込む（ステップＳ８０９）。

次に、メインカメラで取り込んだ画像内で顔検出を行う（ステップＳ８１０）。ここでは、検出した顔の数をｍ、Ｆ０，Ｆ１，…，Ｆｍを検出した顔の中心座標とする。そして、Ｆmax＝０、Ｓmax＝０にする（ステップＳ８１１）。

次いで、メインカメラで取り込んだ画像内で検出した各顔の画像と、Ｘmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像Ｖ[0]〜Ｖ[o]との類似度を計算する（ステップＳ８１２）。ここで、ここで、Ｓ０〜Ｓｍは各顔の画像と画像Ｖ[0]〜Ｖ[o]との類似度（０〜１の値）の平均である。そして、Ｓmax＜Ｓｊであれば、Ｆmax＝ｊ、Ｓmax＝Ｓｊにする処理をｍ回分行う。これにより、各顔の画像のうち画像Ｖと最も類似する画像の番号がＦmaxに格納される。ここで、Ｓ０はＦ０、Ｓ１はＦ１、…、ＳｍはＦｍを中心座標とする顔の画像Ｖ[0]〜Ｖ[o]との平均類似度である。

その後、メインカメラをＦmaxに対応する顔の画像の中心座標方向に合わせるよう、パン、チルトの微調整を行う（ステップＳ８１３）。

＜カメラ付きマイクロフォンを用いたモニタ出力の演出方法＞
図５に示すようなテレビ会議システム１００において、本実施形態のカメラ付きマイクロフォン１を用いることにより、モニタ１０２の出力画面に様々な演出を施すことができる。ここではいくつかの例を挙げて説明を行う。

（第１の演出方法）
図１１は、第１の演出方法を説明する模式図である。すなわち、第１の演出方法では、テレビ会議システムにおいて、各カメラ付マイクロフォンのカメラで取り込んだ映像を並べてモニタ出力する場合、エコーキャンセラー出力のパワー平均が大きいカメラ付ママイクロフォンほど映像の表示領域を大きくしている。

図１１に示す例では、横３つの映像が２段に表示されており、このうち上段の中央に表示される映像ｈ２が最も大きく、次に、映像ｈ１、ｈ３、その次に映像ｈ４、ｈ５、ｈ６の順となっている。つまり、映像ｈ２を取り込んでいるカメラ付きマイクロフォンでの音声取り込みが最も大きいため、それに合わせて最も大きな表示サイズとなっている。これにより、発話者に近いと思われるカメラ付マイクロフォンのカメラで取り込んだ映像ほど大きくなる。

（第２の演出方法）
図１２は、第２の演出方法を説明する模式図である。すなわち、第２の演出方法では、テレビ会議システムにおいて、各カメラ付マイクロフォンのカメラで取り込んだ映像を並べてモニタ出力する場合、エコーキャンセラー出力のパワー平均が大きいカメラ付マイクロフォンほど映像の明るさを明るくしている。

図１２に示す例では、横３つの映像が２段に表示されており、このうち上段の中央に表示される映像ｈ２が最も明るく、次に、映像ｈ１、ｈ３、その次に映像ｈ４、ｈ５、ｈ６の順となっている。これにより、発話者に近いと思われるカメラ付マイクの映像ほど明るくなる。

（第３の演出方法）
第３の演出方法は、テレビ会議システムにおいて、発話者に最も近いと思われるカメラ付マイクロフォンのエコーキャンセラー出力のパワー平均の大きさに応じてＢＧＭを変更するという方法である。

（第４の演出方法）
図１３は、第４の演出方法を説明する模式図である。すなわち、第４の演出方法では、テレビ会議システムにおいて、各カメラ付きマイクロフォンをシステム本体からカスケード接続で繋いでいった場合、システム本体に近い順にカメラ付マイクロフォンのカメラで取り込んだ映像を横一列に並べて表示することにより、擬似的なパノラマ映像を作り出す方法である。

図１３（ａ）に示す例では、映像ｈ１〜ｈ５の順に対応するカメラ付きマイクロフォンがシステム本体から近い順にカスケード接続されており、各カメラ付きマイクロフォンのカメラで取り込んだ映像を横一列に並べて表示したものである。

また、図１３（ｂ）に示す例では、上記と同様に、システム本体からカスケード接続されたカメラ付きマイクロフォンのカメラで取り込んだ映像につき、システム本体に近い順に映像を横一列に並べて表示したものであるが、エコーキャンセラー出力のパワー平均が大きいカメラ付ママイクロフォンほど映像の表示領域を大きくしている。

図１３（ｂ）に示す例では、横一列に５つの映像ｈ１〜ｈ５がカスケード接続の順に表示されており、このうち映像ｈ３が最も大きく、次に、映像ｈ２、ｈ４、その次に映像ｈ１、ｈ５の順となっている。つまり、映像ｈ３を取り込んでいるカメラ付きマイクロフォンでの音声取り込みが最も大きいため、それに合わせて最も大きな表示サイズとなっている。これにより、発話者に近いと思われるカメラ付マイクロフォンのカメラで取り込んだ映像ほど大きくなるとともに、横一列の表示によって擬似的なパノラマ映像を作り出すことが可能となる。

＜実施効果＞
本実施形態のカメラ付きマイクロフォンをテレビ会議システムで適用することにより、発話者は容易に自分がマイクロフォンの指向性の範囲内にいるのかどうかを知ることができる。また、複数のカメラ付きマイクロフォンを用いる場合において、指向性の範囲内にノイズ源が存在すると、その指向性マイクからの入力音が必要な音を聴きづらくする原因となってしまうが、顔検出によって人のいる方向に指向性を向けることで必要な音をよりクリアにし、近くに人がいない場合はゲインを下げるかミュートすることで余計なノイズを極力拾わないようにすることができる。

さらに、メインカメラを発話者方向に向けてテレビ会議を行うような場合、音声処理による音源方向推定で大体の撮影方向を定め、さらに画像処理による顔検出・個人識別でメインカメラを発話者方向に向けるなどの方法が考えられるが、より高い精度を実現するために発話者に最も近いと思われるカメラ付マイクロフォンのカメラで取り込んだ画像を利用することで精度を高めることが可能である。

また、メインカメラの映像だけで発話者を視覚的に強調するような場合、映像の中で発話者が存在する部分をうまく抽出しなければならないという問題があるが、複数のカメラ付マイクロフォンを用いることによって、抽出処理を用いずに発話者を視覚的に強調することが可能となる。

本実施形態に係るカメラ付きマイクロフォンを説明する模式図である。第１の制御プログラムの流れを説明するフローチャートである。第２の制御プログラムの流れを説明するフローチャートである。第１の制御プログラムと第２の制御プログラムとの両方を実現する処理を説明するフローチャートである。本実施形態のカメラ付きマイクロフォンを適用したテレビ会議システムの構成を説明する模式図である。第１のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理の流れを説明するフローチャートである。第１のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。第２のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理（画像の保存数が１の場合）の流れを説明するフローチャートである。第２のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理（画像の保存数が複数の場合）の流れを説明するフローチャートである。第２のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。第１の演出方法を説明する模式図である。第２の演出方法を説明する模式図である。第４の演出方法を説明する模式図である。

符号の説明

１…カメラ付きマイクロフォン、１０…本体筐体、１１…マイクロフォン、１２…カメラ、１００…テレビ会議システム、１０１…システム本体（制御部）、１０２…モニタ、１０３…メインカメラ

Claims

本体筐体に設けられる単一指向性を有するマイクロフォンと、
前記本体筐体に設けられ、前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラと
を備えることを特徴とするカメラ付きマイクロフォン。
本体筐体に設けられる単一指向性を有するマイクロフォンと、前記本体筐体に設けられ、前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラとを備えるカメラ付きマイクロフォンをコンピュータによって制御するプログラムにおいて、
前記カメラによって取り込んだ映像から顔の画像を認識し、その認識した顔の位置に基づき前記マイクロフォンの単一指向性の中心位置を変更するステップをコンピュータによって実行させる
ことを特徴とするカメラ付きマイクロフォンの制御プログラム。
前記カメラによって取り込んだ映像から顔の画像を認識できなかった場合、前記マイクロフォンによる音声の取り込みを行わないようにするステップをコンピュータによって実行させる
ことを特徴とする請求項２記載のカメラ付きマイクロフォンの制御プログラム。
単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンを利用する参加者の映像をメインカメラで取り込むテレビ会議システムにおいて、
音声を取り込んでいるカメラ付きマイクロフォンを特定し、その位置に向けて前記メインカメラの撮影方向を移動するとともに、音声を取り込んでいる前記カメラ付きマイクロフォンのカメラで取り込んだ映像から顔の画像を認識して、その認識結果に基づき前記メインカメラの撮影方向を調整する制御手段を有する
ことを特徴とするテレビ会議システム。
複数の前記カメラ付きマイクロフォンは、各々のカメラによって参加者の顔の画像を逐次取り込み前記制御手段へ送り、
前記制御手段は、各カメラ付きマイクロフォンから送られる参加者の顔の画像を順次上書き保存しておき、その保存した顔の画像を前記メインカメラで撮影方向を調整する際に行う顔の画像の認識に用いる
ことを特徴とする請求項４記載のテレビ会議システム。
単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、
複数の前記カメラ付きマイクロフォンのカメラで取り込んだ複数の映像を前記モニタに並べて表示するにあたり、最も音声の取り込みレベルが高いカメラ付きマイクロフォンのカメラで取り込んだ映像を他のカメラ付きマイクロフォンのカメラで取り込んだ映像より大きく表示する制御手段を有する
ことを特徴とするテレビ会議システム。
単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、
複数の前記カメラ付きマイクロフォンのカメラで取り込んだ複数の映像を前記モニタに並べて表示するにあたり、最も音声の取り込みレベルが高いカメラ付きマイクロフォンのカメラで取り込んだ映像を他のカメラ付きマイクロフォンのカメラで取り込んだ映像をより明るく表示する制御手段を有する
ことを特徴とするテレビ会議システム。
単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、
複数の前記カメラ付きマイクロフォンがカスケード接続されており、複数の前記カメラ付きマイクロフォンのカメラで取り込んだ複数の映像をそのカスケード接続の順に前記モニタに横一列で表示する制御手段を有する
ことを特徴とするテレビ会議システム。