[go: up one dir, main page]

JP2009049734A - カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム - Google Patents

カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム Download PDF

Info

Publication number
JP2009049734A
JP2009049734A JP2007214284A JP2007214284A JP2009049734A JP 2009049734 A JP2009049734 A JP 2009049734A JP 2007214284 A JP2007214284 A JP 2007214284A JP 2007214284 A JP2007214284 A JP 2007214284A JP 2009049734 A JP2009049734 A JP 2009049734A
Authority
JP
Japan
Prior art keywords
camera
microphone
captured
video
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007214284A
Other languages
English (en)
Inventor
Yasuhiro Kodama
康広 小玉
Yasuhiko Kato
靖彦 加藤
Jo Matsui
丈 松井
Nobuyuki Kihara
信之 木原
Hideki Kishi
秀樹 岸
Yohei Sakuraba
洋平 櫻庭
Takayoshi Kawaguchi
貴義 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007214284A priority Critical patent/JP2009049734A/ja
Publication of JP2009049734A publication Critical patent/JP2009049734A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】発話者がマイクロフォンの指向性の範囲内にいることを的確に把握できるようにすること。
【解決手段】本発明は、本体筐体10に設けられる単一指向性を有するマイクロフォン11と、この本体筐体10に設けられ、マイクロフォン11の単一指向性の範囲とほぼ等しい画角を有するカメラ12とを備えるカメラ付きマイクロフォン1である。これにより、発話者はカメラ12によって自らの映像が取り込まれていることでマイクロフォンの指向性範囲内にいることを把握できるようになる。
【選択図】図1

Description

本発明は、マイクロフォンとカメラとが筐体に設けられたカメラ付マイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システムに関する。
テレビ会議システムは、離れた会議室間で映像および音声を双方向通信することで、相手方の話者の映像や音声をモニタに映し出し、臨場感ある会議を実現するシステムである。ここで、会議室にいる複数の参加者に対してカメラを向けるにあたり、マイクで音声を取り込んでいる位置に合わせてカメラの方向を制御する技術が開示されている(例えば、特許文献1参照。)。
特開2002−171499号公報
しかしながら、テレビ会議システムなどで指向性を有するマイクロフォンを用いるような場合、話者は果たして自分が指向性の範囲内にいるのかどうかを知ることは難しい。また、複数の指向性マイクロフォンを用いる場合において、あるマイクロフォンの指向性範囲内にノイズ源が存在すると、その指向性マイクロフォンからの入力音が必要な音を聴きづらくする原因となってしまう。
さらに、音源方向推定用マイクロフォン(複数個)を具備するメインカメラを発話者方向に向けてテレビ会議を行うような場合、音声処理による各音源方向推定用マイクロフォンの入力音同士の相関関数を用いた音源方向推定(例えば、「盛田敏之:第一波面音源方向検知を用いた自動監視カメラの検討」)などで大体の方向を定め、さらに画像処理によるパターン認識を用いた顔検出(例えば、「赤松茂:コンピュータによる顔の認識サーベイ」)などでメインカメラを発話者方向に向けるなどの方法が考えられるが、その精度はまだ十分ではない。
また、メインカメラの映像だけで発話者を視覚的に強調するような場合、映像の中で発話者が存在する部分を正確に抽出しなければならないという問題もある。
本発明はこのような課題を解決するために成されたものである。すなわち、本発明は、本体筐体に設けられる単一指向性を有するマイクロフォンと、この本体筐体に設けられ、マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラとを備えるカメラ付きマイクロフォンである。
このような本発明では、同一の本体筐体に単一指向性を有するマイクロフォンとカメラとが設けられ、このマイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラがあることから、話者はカメラによって自らの映像が取り込まれていることでマイクロフォンの指向性範囲内にいることを把握できるようになる。
ここで、本発明で適用するマイクロフォンの単一指向性とは、本体筐体からある特定の角度を有する領域にのみ、主として一般的な話者の声に対応した周波数においてある一定以上の音声取り込みゲインを有する性質のことである。また、マイクロフォンの単一指向性とほぼ等しいカメラの画角とは、マイクロフォンの単一指向性の範囲と一致している場合のほか、カメラで映像が取り込まれていればマイクロフォンで音声を取り込むことができる場合を含む。
また、本発明は、本体筐体に設けられる単一指向性を有するマイクロフォンと、この本体筐体に設けられ、マイクロフォンの単一指向性の範囲内に画角を有するカメラとを備えるカメラ付きマイクロフォンをコンピュータによって制御するプログラムであり、カメラによって取り込んだ映像から顔の画像を認識し、その認識した顔の位置に基づきマイクロフォンの単一指向性の中心位置を変更するステップをコンピュータによって実行させるものである。
このような本発明では、カメラ付きマイクロフォンのカメラで取り込んだ映像に基づき顔の画像を認識し、その顔の位置にマイクロフォンの単一指向性の中心位置を変更するため、カメラの撮像中心から話者の位置がずれていても、マイクロフォンによる音声取り込みを確実に行うことができるようになる。
ここで、カメラによって取り込んだ映像から顔の画像を認識できなかった場合には、マイクロフォンによる音声の取り込みを行わないようにすれば、話者がカメラの画角内にいない場合に不要な音声の取り込みを行わずに済む。
また、本発明は、単一指向性を有するマイクロフォンおよびこのマイクロフォンの単一指向性の範囲内に画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、カメラ付きマイクロフォンを利用する参加者の映像をメインカメラで取り込むテレビ会議システムにおいて、音声を取り込んでいるカメラ付きマイクロフォンを特定し、その位置に向けて高画質なメインカメラの撮影方向を移動するとともに、音声を取り込んでいるカメラ付きマイクロフォンのカメラで取り込んだ映像から顔の画像を認識して、その認識結果に基づきメインカメラの撮影方向を調整する制御手段を有するテレビ会議システムである。
このような本発明では、複数のカメラ付きマイクロフォンと、メインカメラとを有するテレビ会議システムにおいて、複数のカメラ付きマイクロフォンのうち音声を取り込んでいるものの位置に合わせてメインカメラの撮影方向を移動し、そのカメラ付きマイクロフォンのカメラで取り込んだ映像から顔の画像を認識することで、メインカメラの撮影方向をその顔の位置に正確に合わせることができるようになる。
また、このテレビ会議システムにおいて、複数のカメラ付きマイクロフォンが、各々のカメラによって参加者の顔の画像を逐次取り込み制御手段へ送り、制御手段が、各カメラ付きマイクロフォンから送られる参加者の顔の画像を順次上書き保存しておき、その保存した顔の画像をメインカメラで撮影方向を調整する際に行う顔の画像の認識に用いている。これにより、常に新しい顔の画像を用いた認識によって、正確な位置へメインカメラを向けることができるようになる。
また、本発明は、単一指向性を有するマイクロフォンおよびこのマイクロフォンの単一指向性の範囲内に画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、複数のカメラ付きマイクロフォンのカメラで取り込んだ複数の映像をモニタに並べて表示するにあたり、最も音声の取り込みレベルが高いカメラ付きマイクロフォンのカメラで取り込んだ映像を他のカメラ付きマイクロフォンのカメラで取り込んだ映像より大きく表示する制御手段を有するテレビ会議システムである。
このような本発明では、複数のカメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに並べて表示する際、音声を取り込んでいるカメラ付きマイクロフォンのカメラで取り込んだ映像を他の映像に比べて大きく表示することで、話者の映像を目立たせることができるようになる。
また、音声を取り込んでいるカメラ付きマイクロフォンのカメラで取り込んだ映像を他の映像に比べて明るく表示するようにしても、上記と同様、話者の映像を目立たせることができるようになる。
また、複数のカメラ付きマイクロフォンがカスケード接続されている場合、そのカスケード接続の順にカメラ付きマイクロフォンのカメラで取り込んだ複数の映像をモニタに横一列で表示すると、複数の参加者の映像をパノラマ表示することが可能となる。
したがって、本発明のようなカメラ付きマイクロフォンを用いることで、話者がマイクの指向性の範囲内にいることを的確に認識できるとともに、カメラ付きマイクロフォンのカメラで取り込んだ映像を用いて話者の位置を正確に捉えてメインカメラの撮影方向を正確に設定することが可能となる。しかも、話者の位置を正確に特定できるため、話者のモニタ表示を強調する場合も強調する映像を正確に特定して行うことができ、臨場感のあるテレビ会議を実現することが可能となる。
以下、本発明の実施の形態を図に基づき説明する。
<カメラ付きマイクロフォンの構成>
図1は、本実施形態に係るカメラ付きマイクロフォンを説明する模式図で、(a)は平面図、(b)は側面図(c)は上面図である。このカメラ付きマイクロフォン1は、本体筐体10をテーブル上に載置して利用するもので、本体筐体10に設けられたマイクロフォン11と、同じ本体筐体10に設けられたカメラ12とを有している。
本実施形態では、マイクロフォン11が単一指向性を有するもので、本体筐体10の一方側に強い音声取り込みゲインを有している。すなわち、主として一般的な発話者の声に対応した周波数で一定の音声取り込みゲインを有する範囲が本体筐体10の一方側に設けられたものである。このため、単一指向性として一定の角度範囲を持ったものとなっている。
また、本実施形態のカメラ付きマイクロフォン1のカメラ12は、マイクロフォン11の有する単一指向性の範囲とほぼ等しい画角を有している。これにより、カメラ12で映像を取り込む範囲では必ずマイクロフォン11の指向性範囲内に入っていることになる。
図1に示す例では、本体筐体10の上面中央にマイクロフォン11が配置され、図中一点鎖線で示す指向性を有している。これに対し、カメラ12は本体筐体10の上面上部に配置され、図中二点鎖線で示す画角を有している。この例のように、マイクロフォン11とカメラ12とが隣接して配置され、指向性の角度と画角とが上下方向および左右方向において略平行に設けられていることにより、マイクロフォン11の単一指向性の範囲とほぼ等しいカメラ12の画角を実現している。
ここで、マイクロフォン11の単一指向性とほぼ等しいカメラ12の画角とは、マイクロフォン11の単一指向性の範囲と一致している場合のほか、カメラ12で発話者の顔の映像が取り込まれていればマイクロフォン11でその発話者の音声を取り込むことができる場合を含む。なお、カメラ12の画角をマイクロフォン12の指向性よりも少し狭くし、画角が完全にマイクロフォン12の指向性範囲の内側に収まるように設定することで、より確実に発話者がマイクロフォン12の指向性範囲内に収まるように工夫することも可能である。
このようなカメラ付きマイクロフォン1によって、カメラで写し出した映像をモニタに表示すれば、発話者はカメラによって自らの映像が取り込まれている場合にはマイクロフォン12の指向性範囲内にいることを認識でき、反対にカメラによって自らの映像が映し出されていない場合にはマイクロフォン12の指向性の範囲外にいることを容易に認識できるようになる。
<本実施形態のカメラ付マイクロフォンを用いて発話者の声を的確に捉える制御プログラム>
上記構成から成る本実施形態のカメラ付きマイクロフォンの制御プログラムは、このカメラ付きマイクロフォンが接続される制御部で実行されるプログラム処理によって実現される。なお、制御部は、テレビ会議システムのシステム本体に設けられているが、カメラ付きマイクロフォンの本体筐体内に組み込まれている場合も考えられる。
(第1の制御プログラム)
第1の制御プログラムは、発話者の声をクリアにするために、カメラ付マイクロフォンにおいて映像をもとにマイクロフォンの指向性の方向を変更する制御プログラムである。この制御プログラムは一定時間間隔で繰り返し実行される。
先ず、カメラ付マイクロフォンのカメラにおいて取り込んだ映像を用いてパターン認識などの画像処理による顔検出を行う。ここで検出した顔が奇数個であった場合は、真ん中にある顔が指向性の中心となるようにマイクロフォンの指向性を調整する。一方、顔が偶数個検出された場合は真ん中にいる二人の顔の中央が指向性の中心となるようにマイクロフォンの指向性を調整する。
なお、マイクロフォンの指向性の中心を変更するには、マイクロフォンを機械的に回転させる場合と、電気的に指向性の方向を変える場合とが挙げられる。
図2は、第1の制御プログラムの流れを説明するフローチャートである。先ず、カメラ付きマイクロフォンのカメラによって映像を取り込み、画像処理によって顔検出を行う(ステップS101)。ここで検出した顔の数をm、F0,F1,…,Fmを検出した顔の画面上の中心座標とする。
次に、m>0であるか否かを判断する(ステップS102)。つまり、少なくとも1つの顔を検出したか否かを判断する。m>0でない場合(1つも顔を検出していない場合)は処理を終了する。一方、m>0の場合(1つ以上の顔を検出した場合)、mは奇数か偶数かの判断を行う(ステップS103)。
mが奇数の場合、検出された顔の座標のうち、画面上の原点座標(0,0)から距離が最も近い顔の中心座標にマイクロフォンの指向性の中心を向けるよう制御する(ステップS104)。
一方、mが偶数の場合、検出された顔の座標のうち、画面上の原点座標(0,0)から距離が最も近い顔の中心座標と、次に近い顔の中心座標との中間の座標にマイクロフォンの指向性の中心を向けるよう制御する(ステップS105)。但し、このmが偶数の場合の処理(ステップS105)は、mが奇数の場合の処理(ステップS104)と同じにしても良い。この場合はmが奇数か偶数かの判別(ステップS103)の必要はなく、m>0(ステップS102)ならば常にステップS104の処理に移る。
(第2の制御プログラム)
第2の制御プログラムは、カメラ付きマイクロフォンのカメラによって取り込んだ映像から顔検出を行った結果、映像内に顔が存在しなかった場合はそのマイクロフォンのゲインを下げるか、ミュートすることで必要のない音を拾わないようにする制御プログラムである。この制御プログラムも第1の制御プログラムと同様に一定時間間隔で繰り返し実行される。
先ず、カメラ付マイクロフォンのカメラにおいて取り込んだ映像を用いてパターン認識などの画像処理による顔検出を行う。ここで顔を検出できた場合には上記第1の制御プログラムを実行する。一方、顔を検出できなかった場合には、そのカメラ付きマイクロフォンによる音声取り込みのゲインを下げるもしくはミュートする処理を行う。
図3は、第2の制御プログラムの流れを説明するフローチャートである。先ず、カメラ付きマイクロフォンのカメラによって映像を取り込み、画像処理によって顔検出を行う(ステップS201)。ここで検出した顔の数をm、F0,F1,…,Fmを検出した顔の画面上の中心座標とする。
次に、m>0であるか否かを判断する(ステップS202)。つまり、少なくとも1つの顔を検出したか否かを判断する。ここで、m>0の場合(1つ以上の顔を検出した場合)、マイクロフォンのゲインを初期設定にする(ステップS203)。一方、m>0でない場合(1つも顔を検出していない場合)、マイクロフォンのゲインを下げるか、そのマイクロフォンからの出力を0にする(ステップS204)。
図4は、第1の制御プログラムと第2の制御プログラムとの両方を実現する処理を説明するフローチャートである。先ず、カメラ付きマイクロフォンのカメラによって映像を取り込み、画像処理によって顔検出を行う(ステップS301)。ここで検出した顔の数をm、F0,F1,…,Fmを検出した顔の画面上の中心座標とする。
次に、m>0であるか否かを判断する(ステップS302)。つまり、少なくとも1つの顔を検出したか否かを判断する。m>0でない場合(1つも顔を検出していない場合)は、マイクロフォンのゲインを下げるか、そのマイクロフォンからの出力を0にする(ステップS303)。
一方、m>0の場合(1つ以上の顔を検出した場合)、mは奇数か偶数かの判断を行う(ステップS304)。そして、mが奇数の場合、検出された顔の座標のうち、画面上の原点座標(0,0)から距離が最も近い顔の中心座標にマイクロフォンの指向性の中心を向けるよう制御する(ステップS305)。一方、mが偶数の場合、検出された顔の座標のうち、画面上の原点座標(0,0)から距離が最も近い顔の中心座標と、次に近い顔の中心座標との中間の座標にマイクロフォンの指向性の中心を向けるよう制御する(ステップS306)。
<カメラ付きマイクロフォンを用いたテレビ会議システムの構成>
図5は、本実施形態のカメラ付きマイクロフォンを適用したテレビ会議システムの構成を説明する模式図である。テレビ会議システム100は、システム本体(制御部)101を中心として、映像を映し出すモニタ102、会議参加者の映像を高画質で取り込むメインカメラ103、テーブルのレイアウトに対応して配置される複数のカメラ付きマイクロフォン1によって構成される。
モニタ102には、メインカメラ103やカメラ付きマイクロフォン1のカメラによって取り込んだ映像を映し出したり、離れた場所にある会議室から送られる相手方参加者の映像を映し出したりする。これらの映像は任意に切り替えることができる。
メインカメラ103はパン、チルト、ズームといった動作が可能であり、会議室にいる参加者全員の映像を広角で取り込んだり、特定の参加者に向けて撮影範囲を絞り込んで取り込むことができる。また、メインカメラ103には、音源方向推定用のマイクロフォンが設けられており、このマイクロフォンで取り込んだ音声によって音源方向を推定し、その向きに撮影方向を合わせることができるようになっている。
複数のカメラ付きマイクロフォン1は、テーブルのレイアウトや参加者の座る位置に合わせて配置されている。各カメラ付きマイクロフォン1は、システム本体101を起点としてカスケード接続されている。
モニタ102、メインカメラ103、複数のカメラ付きマイクロフォン1はシステム本体101に接続され、システム本体101で実行される各種のプログラムによって制御される。
<カメラ付きマイクロフォンを用いたメインカメラの制御>
図5に示すようなテレビ会議システム100において、本実施形態のカメラ付きマイクロフォン1を用いることにより、メインカメラ103を発話者方向に精度良くパン、チルト等することが可能となる。なお、ここでは参加者一人につき一つのカメラ付マイクロフォン1を使用することを前提とする。
(第1のメインカメラ制御方法)
第1のメインカメラ制御方法では、エコーキャンセラー出力(ここではエコーキャンセラーにおいてマイク入力信号から推定エコー成分を差し引いた音声のこと)の過去数秒間(例えば、1秒間)のパワー平均が閾値を超えたカメラ付マイクロフォンが存在する場合、発話があったとみなして閾値を超えたカメラ付マイクロフォンの中から最も大きいパワー平均値のカメラ付マイクロフォンを選択するなどして発話者に最も近いと思われるカメラ付マイクロフォンを決める。
この時、メインカメラは音源方向推定により大まかにカメラを発話者方向にパン・チルトしてから、画像処理による顔検出を行った後、検出された各々の顔の中から発話者に最も近いとみなされたカメラ付マイクロフォンの画像を利用したマッチングによって個人識別を行い、最も類似している顔を見つけ出し、その方向にメインカメラをパン・チルトする。
各カメラ付マイクロフォンは、個人識別用の画像として一定時間間隔で画像を保存しており、発話者に最も近いとみなされた時点で保存されている画像をメインカメラへと送信する。
このようなメインカメラの制御によって、メインカメラによる音源方向推定で大まかな撮影方向を設定し、その取り込み映像の中に複数の参加者の顔が映し出されていた場合、その複数の顔の中から、音声の取り込みが最大となるカメラ付きマイクロフォンのカメラで取り込んだ顔の画像と類似するものを検出し、その顔の位置に合わせてメインカメラの撮影方向を微調整する。これにより、音源方向推定だけでは正確に特定できなかった発話者の映像を正確にメインカメラで捉えることができるようになる。
図6は、第1のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理の流れを説明するフローチャートである。この処理は、例えば音声のサンプリング周波数を32000Hzとした場合、毎サンプルごとに処理を行う必要があるため、1/32000秒ごとにS401またはS403の処理を開始しなければならない。よって1ループ(S401〜S408またはS403〜S408)の処理を1/32000秒以内に終える必要がある。先ず、音声取り込みのパワー平均を格納するメモリMxの値を0に初期化する(ステップS401)。ここで、メモリMxのxは、カメラ付きマイクロフォン毎に0から順に割り振られた番号である。
次に、カウンタcを0に初期化する(ステップS402)。次いで、所定のサンプリング期間で音声取り込みのパワーを計算する(ステップS403)。例えば、32kHzサンプリングのマイク入力信号であった場合、w秒間(1秒間ならw=1)の平均パワーPaveを求めるため、w×32000の要素をもつ配列Pを用意し、毎サンプリング毎に瞬時値パワーP[c]=Input×Inputを計算する。ここで、Inputはマイク入力値である。サンプリング期間が32kHzでない場合には、上記32000をサンプリング周波数に置き換える。
次に、配列P[c]の全ての要素の値の平均Paveを算出する(ステップS404)。そして、Paveが所定の閾値を超えているか否かを判断し(ステップS405)、超えていない場合にはMx=0とし(ステップS406)、超えている場合にはMx=Paveとする(ステップS407)。
次いで、c=(c+1)%(w×32000)を行う(ステップS408)。つまり、c+1をw×32000で割った時の余りを新しいcとする。新しいcを設定した後は、ステップS403へ戻り、以降の処理を繰り返す。
図7は、第1のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。先ず、タイマーによりToldを現在時刻に初期化し(ステップS501)、タイマーによりTnowを現在時刻に代入する(ステップS502)。
次に、Tnow−Told≧w(秒)であるか否かを判断する(ステップS503)。ここで、wは、メインカメラを一度パン、チルトしてから次にパン、チルトするまでの待ち時間(秒)である。
ステップS503の判断でNoであればステップS502へ戻り、タイマーによりTnowへ現在時刻を代入する。ステップS503の判断でYesであれば、ToldにTnowを代入する(ステップS504)。そして、Xmax=0、Mmax=0にして(ステップS505)、ステップS506へ進む。
ステップS506では、カメラ付きマイクロフォンがn本繋がっているとした場合、Mmax<Miであれば、Xmax=i、Mmax=Miにする処理をn回分行う。ここで、Miは、図6に示すMxに対応している。この処理によって、Xmaxには最も平均パワーが大きいカメラ付きマイクロフォンの番号が格納され、Mmaxには最も大きい平均パワーが格納される。
次いで、Xmax>0か否かの判断を行い(ステップS507)、NoであればステップS502へ戻る。Yesであれば、音源方向検出によりメインカメラを大まかにパン、チルトさせる(ステップS508)。また、Xmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像Vを取り込む(ステップS509)。
次に、メインカメラで取り込んだ画像内で顔検出を行う(ステップS510)。ここでは、検出した顔の数をm、F0,F1,…,Fmを検出した顔の中心座標とする。そして、Fmax=0、Smax=0にする(ステップS511)。
次いで、メインカメラで取り込んだ画像内で検出した各顔の画像と、Xmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像Vとの類似度を計算する(ステップS512)。ここで、S0〜Smは各顔の画像と画像Vとの類似度(0〜1の値)である。そして、Smax<Sjであれば、Fmax=j、Smax=Sjにする処理をm回分行う。これにより、各顔の画像のうち画像Vと最も類似する画像の番号がFmaxに格納される。ここで、S0はF0、S1はF1、…、SmはFmを中心座標とする顔の画像Vとの類似度である。
その後、メインカメラをFmaxに対応する顔の画像の中心座標方向に合わせるよう、パン、チルトの微調整を行う(ステップS513)。
(第2のメインカメラ制御方法)
第2のメインカメラ制御方法では、カメラ付マイクロフォンのカメラによって発話者が「よりカメラ正面を向いている時」の画像を保存しておき、メインカメラはその画像をもとに個人識別を行うことで発話者の方向にカメラをパンチルドする際の精度を向上させることができる方法である。これは、大抵の発話者はテレビを向いて話す傾向があるため、図5のような環境ではメインカメラに対してほぼ正面を向いていることが多いためである。
カメラ付マイクロフォンは、目と口のサンプル画像を用いたパターン認識などにより目の二点と口の一点を結ぶ三角形の面積の大きさ(面積が大きいほど正面を向いている可能性が高い)などの情報を用いて、一定時間間隔で取り込んだ画像が保存している画像よりも正面を向いていると考えられる場合、その画像を上書き保存する。ただし、保存する顔画像の数は1つとは限らず、複数保存する場合はより正面を向いている可能性の高いものを優先して保存する。
なお、発話者に最も近いと思われるカメラ付マイクロフォンから人の耳には聞こえない周波数帯域の音声を出力し、最初はその周波数帯域の音を用いた音源方向推定によってメインカメラを大まかにパン、チルトし、次に顔検出・個人識別などによる細かいパン、チルト制御を行うという方法も考えられる。
図8は、第2のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理(画像の保存数が1の場合)の流れを説明するフローチャートである。先ず、タイマーによりToldを現在時刻に初期化し、目と口で構成される三角形の面積を記憶する変数Aを0に初期化し、保存画像Vを黒画像(もしくは白画像)に初期化する(ステップS601)。
次いで、タイマーによりTnowに現在時刻を代入し(ステップS602)、Tnow−Told≧wか否かの判断を行う(ステップS603)。ここで、wは次の画像を取り込むまでの時間間隔(秒)である。この判断でNoの場合にはステップS602へ戻り、タイマーによりTnowへ現在時刻を代入する。一方、Yesの場合にはステップS604へ進む。
ステップS604では、ToldにTnowの値を代入する。その後、ステップS605では、カメラ付きマイクロフォンのカメラで顔の画像Vnowを取り込み、目と口で構成される三角形の面積をAnowとする。次いで、A<Anowであるか否かを判断し(ステップS606)、Yesの場合にはA=Anow、V=Vnowを行い(ステップS607)、Noの場合にはステップS602へ戻る。
これにより、Aにはカメラ付きマイクロフォンのカメラで取り込んだ顔の画像のうち目と口で構成される三角形の面積が最も大きい場合の面積が格納され、Vにはその時の顔の画像が格納されることになる。
図9は、第2のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理(画像の保存数が複数の場合)の流れを説明するフローチャートである。先ず、タイマーによりToldを現在時刻に初期化し、目と口で構成される三角形の面積を記憶する配列A[0]〜A[o]を0に初期化し、保存画像の配列である画像V[0]〜V[o]を黒画像(もしくは白画像)に初期化する(ステップS701)。
次いで、タイマーによりTnowに現在時刻を代入し(ステップS702)、Tnow−Told≧wか否かの判断を行う(ステップS703)。ここで、wは次の画像を取り込むまでの時間間隔(秒)である。この判断でNoの場合にはステップS702へ戻り、タイマーによりTnowへ現在時刻を代入する。一方、Yesの場合にはステップS704へ進む。
ステップS704では、ToldにTnowの値を代入する。その後、ステップS705では、カメラ付きマイクロフォンのカメラで顔の画像Vnowを取り込み、目と口で構成される三角形の面積をAnowとする。次いで、Omin=−1、Amin=Anowを行い(ステップS706)、Ai<AminであればOmin=i、Amin=A[i]にする処理をo回行う(ステップS707)。
次に、Omin≧0であるか否かを判断し(ステップS708)、NoであればステップS702へ戻って以降を繰り返し、YesであればA[Omin]=Anow、V[Omin]=Vnowを行う(ステップS709)。そして、ステップS702へ戻る。
これにより、配列A[0]〜A[o]に顔の画像における目と口で構成される三角形の面積が複数格納され、画像V[0]〜A[o]にその顔の画像が複数格納されることになる。
図10は、第2のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。先ず、タイマーによりToldを現在時刻に初期化し(ステップS801)、タイマーによりTnowに現在時刻を代入する(ステップS802)。
次に、Tnow−Told≧wか否かを判断する(ステップS803)。ここで、wは、メインカメラを一度パン、チルトしてから次にパン、チルトするまでの待ち時間(秒)である。
ステップS803の判断でNoであればステップS802へ戻り、タイマーによりTnowへ現在時刻を代入する。ステップS803の判断でYesであれば、ToldにTnowの値を代入し(ステップS804)する。その後、Xmax=0、Mmax=0にして(ステップS805)、ステップS806へ進む。
ステップS806では、カメラ付きマイクロフォンがn本繋がっているとした場合、Mmax<Miであれば、Xmax=i、Mmax=Miにする処理をn回分行う。ここで、Miは、図6に示すMxに対応している。この処理によって、Xmaxには最も平均パワーが大きいカメラ付きマイクロフォンの番号が格納され、Mmaxには最も大きい平均パワーが格納される。
次いで、Xmax>0か否かの判断を行い(ステップS807)、NoであればステップS802へ戻る。Yesであれば、音源方向検出によりメインカメラを大まかにパン、チルトさせる(ステップS808)。また、Xmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像V[0]〜V[o]を取り込む(ステップS809)。
次に、メインカメラで取り込んだ画像内で顔検出を行う(ステップS810)。ここでは、検出した顔の数をm、F0,F1,…,Fmを検出した顔の中心座標とする。そして、Fmax=0、Smax=0にする(ステップS811)。
次いで、メインカメラで取り込んだ画像内で検出した各顔の画像と、Xmaxに格納された番号に対応するカメラ付きマイクロフォンのカメラから画像V[0]〜V[o]との類似度を計算する(ステップS812)。ここで、ここで、S0〜Smは各顔の画像と画像V[0]〜V[o]との類似度(0〜1の値)の平均である。そして、Smax<Sjであれば、Fmax=j、Smax=Sjにする処理をm回分行う。これにより、各顔の画像のうち画像Vと最も類似する画像の番号がFmaxに格納される。ここで、S0はF0、S1はF1、…、SmはFmを中心座標とする顔の画像V[0]〜V[o]との平均類似度である。
その後、メインカメラをFmaxに対応する顔の画像の中心座標方向に合わせるよう、パン、チルトの微調整を行う(ステップS813)。
<カメラ付きマイクロフォンを用いたモニタ出力の演出方法>
図5に示すようなテレビ会議システム100において、本実施形態のカメラ付きマイクロフォン1を用いることにより、モニタ102の出力画面に様々な演出を施すことができる。ここではいくつかの例を挙げて説明を行う。
(第1の演出方法)
図11は、第1の演出方法を説明する模式図である。すなわち、第1の演出方法では、テレビ会議システムにおいて、各カメラ付マイクロフォンのカメラで取り込んだ映像を並べてモニタ出力する場合、エコーキャンセラー出力のパワー平均が大きいカメラ付ママイクロフォンほど映像の表示領域を大きくしている。
図11に示す例では、横3つの映像が2段に表示されており、このうち上段の中央に表示される映像h2が最も大きく、次に、映像h1、h3、その次に映像h4、h5、h6の順となっている。つまり、映像h2を取り込んでいるカメラ付きマイクロフォンでの音声取り込みが最も大きいため、それに合わせて最も大きな表示サイズとなっている。これにより、発話者に近いと思われるカメラ付マイクロフォンのカメラで取り込んだ映像ほど大きくなる。
(第2の演出方法)
図12は、第2の演出方法を説明する模式図である。すなわち、第2の演出方法では、テレビ会議システムにおいて、各カメラ付マイクロフォンのカメラで取り込んだ映像を並べてモニタ出力する場合、エコーキャンセラー出力のパワー平均が大きいカメラ付マイクロフォンほど映像の明るさを明るくしている。
図12に示す例では、横3つの映像が2段に表示されており、このうち上段の中央に表示される映像h2が最も明るく、次に、映像h1、h3、その次に映像h4、h5、h6の順となっている。これにより、発話者に近いと思われるカメラ付マイクの映像ほど明るくなる。
(第3の演出方法)
第3の演出方法は、テレビ会議システムにおいて、発話者に最も近いと思われるカメラ付マイクロフォンのエコーキャンセラー出力のパワー平均の大きさに応じてBGMを変更するという方法である。
(第4の演出方法)
図13は、第4の演出方法を説明する模式図である。すなわち、第4の演出方法では、テレビ会議システムにおいて、各カメラ付きマイクロフォンをシステム本体からカスケード接続で繋いでいった場合、システム本体に近い順にカメラ付マイクロフォンのカメラで取り込んだ映像を横一列に並べて表示することにより、擬似的なパノラマ映像を作り出す方法である。
図13(a)に示す例では、映像h1〜h5の順に対応するカメラ付きマイクロフォンがシステム本体から近い順にカスケード接続されており、各カメラ付きマイクロフォンのカメラで取り込んだ映像を横一列に並べて表示したものである。
また、図13(b)に示す例では、上記と同様に、システム本体からカスケード接続されたカメラ付きマイクロフォンのカメラで取り込んだ映像につき、システム本体に近い順に映像を横一列に並べて表示したものであるが、エコーキャンセラー出力のパワー平均が大きいカメラ付ママイクロフォンほど映像の表示領域を大きくしている。
図13(b)に示す例では、横一列に5つの映像h1〜h5がカスケード接続の順に表示されており、このうち映像h3が最も大きく、次に、映像h2、h4、その次に映像h1、h5の順となっている。つまり、映像h3を取り込んでいるカメラ付きマイクロフォンでの音声取り込みが最も大きいため、それに合わせて最も大きな表示サイズとなっている。これにより、発話者に近いと思われるカメラ付マイクロフォンのカメラで取り込んだ映像ほど大きくなるとともに、横一列の表示によって擬似的なパノラマ映像を作り出すことが可能となる。
<実施効果>
本実施形態のカメラ付きマイクロフォンをテレビ会議システムで適用することにより、発話者は容易に自分がマイクロフォンの指向性の範囲内にいるのかどうかを知ることができる。また、複数のカメラ付きマイクロフォンを用いる場合において、指向性の範囲内にノイズ源が存在すると、その指向性マイクからの入力音が必要な音を聴きづらくする原因となってしまうが、顔検出によって人のいる方向に指向性を向けることで必要な音をよりクリアにし、近くに人がいない場合はゲインを下げるかミュートすることで余計なノイズを極力拾わないようにすることができる。
さらに、メインカメラを発話者方向に向けてテレビ会議を行うような場合、音声処理による音源方向推定で大体の撮影方向を定め、さらに画像処理による顔検出・個人識別でメインカメラを発話者方向に向けるなどの方法が考えられるが、より高い精度を実現するために発話者に最も近いと思われるカメラ付マイクロフォンのカメラで取り込んだ画像を利用することで精度を高めることが可能である。
また、メインカメラの映像だけで発話者を視覚的に強調するような場合、映像の中で発話者が存在する部分をうまく抽出しなければならないという問題があるが、複数のカメラ付マイクロフォンを用いることによって、抽出処理を用いずに発話者を視覚的に強調することが可能となる。
本実施形態に係るカメラ付きマイクロフォンを説明する模式図である。 第1の制御プログラムの流れを説明するフローチャートである。 第2の制御プログラムの流れを説明するフローチャートである。 第1の制御プログラムと第2の制御プログラムとの両方を実現する処理を説明するフローチャートである。 本実施形態のカメラ付きマイクロフォンを適用したテレビ会議システムの構成を説明する模式図である。 第1のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理の流れを説明するフローチャートである。 第1のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。 第2のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理(画像の保存数が1の場合)の流れを説明するフローチャートである。 第2のメインカメラ制御方法におけるカメラ付きマイクロフォン側の処理(画像の保存数が複数の場合)の流れを説明するフローチャートである。 第2のメインカメラ制御方法におけるメインカメラ側の処理の流れを説明するフローチャートである。 第1の演出方法を説明する模式図である。 第2の演出方法を説明する模式図である。 第4の演出方法を説明する模式図である。
符号の説明
1…カメラ付きマイクロフォン、10…本体筐体、11…マイクロフォン、12…カメラ、100…テレビ会議システム、101…システム本体(制御部)、102…モニタ、103…メインカメラ

Claims (8)

  1. 本体筐体に設けられる単一指向性を有するマイクロフォンと、
    前記本体筐体に設けられ、前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラと
    を備えることを特徴とするカメラ付きマイクロフォン。
  2. 本体筐体に設けられる単一指向性を有するマイクロフォンと、前記本体筐体に設けられ、前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラとを備えるカメラ付きマイクロフォンをコンピュータによって制御するプログラムにおいて、
    前記カメラによって取り込んだ映像から顔の画像を認識し、その認識した顔の位置に基づき前記マイクロフォンの単一指向性の中心位置を変更するステップをコンピュータによって実行させる
    ことを特徴とするカメラ付きマイクロフォンの制御プログラム。
  3. 前記カメラによって取り込んだ映像から顔の画像を認識できなかった場合、前記マイクロフォンによる音声の取り込みを行わないようにするステップをコンピュータによって実行させる
    ことを特徴とする請求項2記載のカメラ付きマイクロフォンの制御プログラム。
  4. 単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンを利用する参加者の映像をメインカメラで取り込むテレビ会議システムにおいて、
    音声を取り込んでいるカメラ付きマイクロフォンを特定し、その位置に向けて前記メインカメラの撮影方向を移動するとともに、音声を取り込んでいる前記カメラ付きマイクロフォンのカメラで取り込んだ映像から顔の画像を認識して、その認識結果に基づき前記メインカメラの撮影方向を調整する制御手段を有する
    ことを特徴とするテレビ会議システム。
  5. 複数の前記カメラ付きマイクロフォンは、各々のカメラによって参加者の顔の画像を逐次取り込み前記制御手段へ送り、
    前記制御手段は、各カメラ付きマイクロフォンから送られる参加者の顔の画像を順次上書き保存しておき、その保存した顔の画像を前記メインカメラで撮影方向を調整する際に行う顔の画像の認識に用いる
    ことを特徴とする請求項4記載のテレビ会議システム。
  6. 単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、
    複数の前記カメラ付きマイクロフォンのカメラで取り込んだ複数の映像を前記モニタに並べて表示するにあたり、最も音声の取り込みレベルが高いカメラ付きマイクロフォンのカメラで取り込んだ映像を他のカメラ付きマイクロフォンのカメラで取り込んだ映像より大きく表示する制御手段を有する
    ことを特徴とするテレビ会議システム。
  7. 単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、
    複数の前記カメラ付きマイクロフォンのカメラで取り込んだ複数の映像を前記モニタに並べて表示するにあたり、最も音声の取り込みレベルが高いカメラ付きマイクロフォンのカメラで取り込んだ映像を他のカメラ付きマイクロフォンのカメラで取り込んだ映像をより明るく表示する制御手段を有する
    ことを特徴とするテレビ会議システム。
  8. 単一指向性を有するマイクロフォンおよび前記マイクロフォンの単一指向性の範囲とほぼ等しい画角を有するカメラを本体筐体に備えるカメラ付きマイクロフォンが所定のレイアウトで複数配置され、当該カメラ付きマイクロフォンのカメラで取り込んだ映像をモニタに表示するテレビ会議システムにおいて、
    複数の前記カメラ付きマイクロフォンがカスケード接続されており、複数の前記カメラ付きマイクロフォンのカメラで取り込んだ複数の映像をそのカスケード接続の順に前記モニタに横一列で表示する制御手段を有する
    ことを特徴とするテレビ会議システム。
JP2007214284A 2007-08-21 2007-08-21 カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム Pending JP2009049734A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007214284A JP2009049734A (ja) 2007-08-21 2007-08-21 カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007214284A JP2009049734A (ja) 2007-08-21 2007-08-21 カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム

Publications (1)

Publication Number Publication Date
JP2009049734A true JP2009049734A (ja) 2009-03-05

Family

ID=40501507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007214284A Pending JP2009049734A (ja) 2007-08-21 2007-08-21 カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム

Country Status (1)

Country Link
JP (1) JP2009049734A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010251916A (ja) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd 音データ処理装置、及び、プログラム
KR20150042628A (ko) * 2013-10-11 2015-04-21 한국전자통신연구원 분산 텔레프레즌스 서비스 제공 방법 및 장치
JP2016500188A (ja) * 2012-11-14 2016-01-07 フェイスブック,インク. イメージ・パニングおよびズーミング効果
KR200481625Y1 (ko) * 2016-03-13 2016-10-21 델리아이 주식회사 얼굴영상을 통한 고령자판단장치
KR101680524B1 (ko) * 2016-07-08 2016-11-28 서상준 화자 표시 시스템 및 그 제어 방법
JP2017184098A (ja) * 2016-03-31 2017-10-05 沖電気工業株式会社 情報処理システム、情報処理方法およびプログラム
KR102056633B1 (ko) * 2013-03-08 2019-12-17 삼성전자 주식회사 다자간 영상 통화 단말기 및 그의 ui 운용 방법
US10762684B2 (en) 2012-11-14 2020-09-01 Facebook, Inc. Animation sequence associated with content item

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010251916A (ja) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd 音データ処理装置、及び、プログラム
JP2016500188A (ja) * 2012-11-14 2016-01-07 フェイスブック,インク. イメージ・パニングおよびズーミング効果
US9245312B2 (en) 2012-11-14 2016-01-26 Facebook, Inc. Image panning and zooming effect
US10459621B2 (en) 2012-11-14 2019-10-29 Facebook, Inc. Image panning and zooming effect
US10762684B2 (en) 2012-11-14 2020-09-01 Facebook, Inc. Animation sequence associated with content item
KR102056633B1 (ko) * 2013-03-08 2019-12-17 삼성전자 주식회사 다자간 영상 통화 단말기 및 그의 ui 운용 방법
KR20150042628A (ko) * 2013-10-11 2015-04-21 한국전자통신연구원 분산 텔레프레즌스 서비스 제공 방법 및 장치
KR102069695B1 (ko) * 2013-10-11 2020-01-23 한국전자통신연구원 분산 텔레프레즌스 서비스 제공 방법 및 장치
KR200481625Y1 (ko) * 2016-03-13 2016-10-21 델리아이 주식회사 얼굴영상을 통한 고령자판단장치
JP2017184098A (ja) * 2016-03-31 2017-10-05 沖電気工業株式会社 情報処理システム、情報処理方法およびプログラム
KR101680524B1 (ko) * 2016-07-08 2016-11-28 서상준 화자 표시 시스템 및 그 제어 방법

Similar Documents

Publication Publication Date Title
US9179098B2 (en) Video conferencing
US5940118A (en) System and method for steering directional microphones
US7460150B1 (en) Using gaze detection to determine an area of interest within a scene
US10447970B1 (en) Stereoscopic audio to visual sound stage matching in a teleconference
JP5857674B2 (ja) 画像処理装置、及び画像処理システム
CN103595953B (zh) 一种控制视频拍摄的方法和装置
US10264210B2 (en) Video processing apparatus, method, and system
US6275258B1 (en) Voice responsive image tracking system
US8842161B2 (en) Videoconferencing system having adjunct camera for auto-framing and tracking
US9648278B1 (en) Communication system, communication apparatus and communication method
US20100118112A1 (en) Group table top videoconferencing device
JP2009049734A (ja) カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム
US8390665B2 (en) Apparatus, system and method for video call
US20100254543A1 (en) Conference microphone system
JP2017034502A (ja) 通信装置、通信方法、プログラムおよび通信システム
CN102902505A (zh) 具有增强音频的器件
WO2002079792A3 (en) Method and apparatus for audio/image speaker detection and locator
CN108352155A (zh) 抑制环境声
US11042767B2 (en) Detecting spoofing talker in a videoconference
CN114846787A (zh) 在电话会议中检测和框选感兴趣对象
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP2023111906A5 (ja) ミーティングデバイス、端末装置、遠隔会議システム
US9706169B2 (en) Remote conference system and method of performing remote conference
CN104349112A (zh) 视频会议装置及其方法
JP2009027246A (ja) テレビ会議装置