[go: up one dir, main page]

JP6550951B2 - 端末、ビデオ会議システム、及びプログラム - Google Patents

端末、ビデオ会議システム、及びプログラム Download PDF

Info

Publication number
JP6550951B2
JP6550951B2 JP2015120357A JP2015120357A JP6550951B2 JP 6550951 B2 JP6550951 B2 JP 6550951B2 JP 2015120357 A JP2015120357 A JP 2015120357A JP 2015120357 A JP2015120357 A JP 2015120357A JP 6550951 B2 JP6550951 B2 JP 6550951B2
Authority
JP
Japan
Prior art keywords
terminal
utterance
information
user
passive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015120357A
Other languages
English (en)
Other versions
JP2017005616A (ja
Inventor
悠斗 後藤
悠斗 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015120357A priority Critical patent/JP6550951B2/ja
Publication of JP2017005616A publication Critical patent/JP2017005616A/ja
Application granted granted Critical
Publication of JP6550951B2 publication Critical patent/JP6550951B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、端末、ビデオ会議システム、及びプログラムに関する。
従来から、2つのビデオ会議端末がインターネットなどのネットワークを介して接続されたビデオ会議システムが知られている。ビデオ会議システムによれば、映像と音声データをリアルタイムに双方向に送受信し、遠隔地の者同士でもリアルタイムコミュニケーションを実現することができる。また、ビデオ会議端末を複数台用いることによって、多拠点における複数の利用者が同時に同じ会議に参加することができることも既に知られている。
ところで、人同士が集う会議においては話者が会議出席者の誰に対して話しているかは意識することなく認識することができる。他方、ビデオ会議システムでは、会議出席者が常にカメラ等を注視し続けることはなく、また、どの話者が誰に向かって話しているかを特定することが困難である。
そこで、例えば特許文献1に係るテレビ会議システムでは、発話者側端末21の利用者が、表示手段により表示された映像のうち、聴衆者側端末22の利用者の映像を注目している場合に、端末22は、端末21から、端末22を注目していることを示す第1の注目情報を受信する。
そして、第1の注目情報を受信すると、端末22は、利用者が注目している映像に対応する端末と端末21とが一致するか否かを判定する。端末22は、一致すると判定した場合に、第2の注目情報を生成して送信し、端末21が第2の注目情報を受信すると、表示手段により表示される映像のうち、端末22に対応する映像を強調して表示する。
例えば特許文献1によれば、自分が話者になった場合に、自分が注目した相手もまた自分を注目しているか否かがわかるようになる。しかし、発話者を判定する処理において、双方の端末利用者が双方の名前を呼ばねばならず煩わしい。
また、特許文献1では双方の利用者の映像を注目している場合にその注目情報が相互に送受信されて初めて自端末において相手映像を強調表示する処理が行われる。このため、例えば伝送遅延により注目情報の送受信に不具合が生じた場合等において上記処理が遅れると、ビデオ会議システムのリアルタイム性を損ねることとなり、円滑なコミュニケーションを阻害することとなってしまう。
本発明は、このような実情に鑑みてなされたものであって、ビデオ会議システムにおける円滑なコミュニケーションを実現することを目的とする。
上述した目的を達成するため、本発明は、ネットワークを介して接続された他端末から、該他端末を使用する他ユーザを撮像した撮像情報と、該他端末の近傍で発せられた音声情報と、該他ユーザが自端末を注目していることを示す注目情報とを受信する受信手段と、音声情報の送信元の他端末と注目情報の送信元の他端末とが一致するか否かを判定する発話受動判定手段と、発話受動判定手段により他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段とを備えることを特徴とする。
本発明によれば、ビデオ会議システムにおける円滑なコミュニケーションを実現することが可能になる。
本発明の実施形態におけるビデオ会議システムの概略図である。 本発明の実施形態における端末のハードウェア構成図である。 本発明の実施形態における端末の機能ブロック図である。 本発明の実施形態における処理手順の概略を示すフローチャートである。 本発明の実施形態における注視端末ID信号の生成手順を示すフローチャートである。 本発明の実施形態における注視判定処理の一例を示す模式図である。 本発明の実施形態における発話受動通知処理手順を示すフローチャートである。 本発明の実施形態における発話受動通知の流れを示すタイムチャートである。
本発明の実施形態の端末及びビデオ会議システムに関し以下図面を用いて説明するが、本発明の趣旨を越えない限り、何ら本実施形態に限定されるものではない。なお、各図中、同一又は相当する部分には同一の符号を付しており、その重複説明は適宜に簡略化乃至省略する。また、以下に記載する実施形態は本発明の最良の形態であって、本発明に係る特許請求の範囲を限定するものではない。
まず初めに、本実施形態のビデオ会議システム1の概略について図1を参照して説明する。本図は、本システムを構成する4つの端末が4つの拠点AからDにそれぞれ配置されており、各端末がネットワーク14を介して接続されたシステムを示している。なお、ここでは4人のユーザがそれぞれ存在する4つの拠点で構成されたシステムを例示しているが、3つ以下の拠点で構成されたシステムであっても、5つ以上の拠点で構成されたシステムであってもよい。
各拠点に配置される端末とその周辺装置群の概略構成例について、拠点Aに配置される構成を用いて説明する。拠点Aには、端末としてのビデオ会議端末4と、ユーザAの視線を追跡する例えば視線追跡装置等の撮像装置5と、ユーザAを撮影するカメラ6と、ユーザAの発する音声を取得するマイク等の音声入力装置7と、音声出力装置8と、ユーザAの撮像、各拠点に配置された各端末から受信した各ユーザの撮像を表示する映像出力装置9が配置されている。拠点A以外の他の拠点も同様の構成であるため説明を省略する。
撮像装置5としての視線追跡装置は、ユーザAの前に設置して、ユーザAの眼球運動を計測することでユーザAの視線データを取得する装置である。カメラ6は、ユーザAを撮影して、撮影された撮像から所定の画像処理を行い視線の位置やその変化あるいは角度等を検出するために用いられる。また、視線追跡装置としては眼鏡型の装置を使用してもよい。なお、本発明においては、撮像装置5やカメラ6をまとめて撮像装置というものとする。
ビデオ会議端末4は、各拠点から各ユーザの撮像を受信して映像出力装置9に表示させたり、ユーザAの撮像を解析したり、各拠点のビデオ会議端末に送信したり、後述する本実施形態に係る各種の情報処理を行う例えばパーソナルコンピュータ等の情報処理装置等である。ビデオ会議端末4の詳細な説明については後述する。なお、撮像等のデータの送受信には例えばサーバ等の仲介器を介してもよい。
拠点Aにおいて、音声入力装置7はユーザAの発する音声及びビデオ会議端末4近傍で発せられる音声の入力を受けるマイク等である。音声出力装置8は、各拠点から受信した各ユーザの音声等を出力するスピーカ等である。なお、これらは、ビデオ会議端末4に内蔵されていても、外部マイクや外部スピーカ等としてビデオ会議端末4に別途接続されるものであってもよい。
また、拠点Aの映像出力装置9には、拠点BのユーザBの撮像が画面左上に、拠点CのユーザCの撮像が画面右上に、拠点DのユーザDの撮像が画面左下に、拠点AのユーザAの撮像が画面に表示されているが、この表示態様が一例であることは言うまでもない。
本実施形態では、ビデオ会議システムを利用する利用者の注視対象を検知して、注視しながら発話した際に、その注視対象に向けての発話であるとし、発話対象の利用者にこの発話は自分へ向けての発話であることを通知する。以下では、拠点AのユーザAが、映像出力装置9に出力された拠点DのユーザDの撮像を注視して発話している例を用いて説明する。
この場合、利用者Aから利用者Dへ向けての発話であると拠点Dのビデオ会議端末が判定し、拠点Dにおいて、拠点AにおけるユーザAの撮像を囲む赤枠を表示する。また、この場合、発話の開始タイミングや終了タイミングにおいて例えばビープ音等の音声を出力し、利用者Dに通知する。
なお、本実施形態では、各拠点の撮像を1画面を4分割して表示しているが、例えば1対1のシステムの場合、一画面に相手側の撮像として例えば会議室全体の様子がわかるような撮像を表示する態様であってもよい。また、1拠点に1ユーザでなく、複数のユーザが1拠点にいてもよいが、この場合、複数人の視線データを取得できることが好ましい。
次に、本実施形態のビデオ会議システムにおける端末のハードウェア構成について図2を参照して説明する。拠点Aの構成を例として説明するが、その他の拠点BからDについても同様の構成であるため、説明を省略する。
ビデオ会議端末4は、入力部28と、メモリ29と、CPU30と、ネットワークインタフェース31(以下「ネットワークI/F」)を備えている。なお、その他のハードウェアとして、例えばHDDや外付けあるいは内蔵された各種メディアドライブ等を備えていてもよい。
入力部28は、電源のON/OFFや音量の変更など、各操作をするための操作ボタンである。メモリ29は、本実施形態における各処理を実行するプログラムや、種々の制御プログラムや、入出力映像・音声データ、視線データ、後述の注視端末ID信号、話者ID信号、発話受動ID信号等を保存しておくROMやRAM等である。
CPU30は、ビデオ会議端末4の動作を制御し、映像データのエンコード及びデコード処理を行う。ネットワークI/F31は、通信ネットワークを利用して各種データを転送する。
次に、本実施形態におけるビデオ会議端末4の機能ブロックについて図3を参照して説明する。ここでも、図1の例に従い、4つの拠点AからDがネットワーク14によって接続されている構成例を用いて説明する。なお、拠点BからDにおけるビデオ会議端末の機能ブロックもビデオ会議端末4と同様の構成であるため、本図では簡易図として示し、拠点Aの構成との重複する説明は省略する。
なお、本図においては、撮像装置5、音声入力装置7、音声出力装置8、映像出力装置9をまとめて入出力装置群10とする。また、拠点Bにはビデオ会議端末4’及び入出力装置群10’が、拠点Cにはビデオ会議端末4”及び入出力装置群10”が、拠点Dにはビデオ会議端末4”’及び入出力装置群10”’が備えられている。
ビデオ会議端末4は、映像入力部15と、データ送信部16と、注目情報生成部17と、音声取得部18と、データ受信部21と、話者判定部22と、話者識別信号生成部23と、発話受動判定部24と、出力部25を含み構成されている。出力部25は発話受動通知部251を含む。
映像入力部15は、撮像装置5により撮像された映像を取得する撮像情報取得手段である。なお、取得した映像は別途、映像圧縮部により圧縮/符号化される。
データ送信部16は、映像入力部15において取得した映像データをネットワーク14を介して各拠点のビデオ会議端末に送信する送信手段である。また、データ送信部16は、注目情報である後述の注視端末ID信号を各拠点のビデオ会議端末に送信する。
注目情報生成部17は、映像入力部15により取得された他端末を使用する他ユーザの撮像情報を解析して、表示手段である出力部25により映像出力装置9に表示された自端末を使用する自ユーザの撮像情報に他端末を使用する他ユーザが注目していることを示す注目情報を生成する注目情報生成手段である。なお、本実施形態における自端末及び他端末なる名称、自ユーザと他ユーザなる名称は便宜的なものであり、どちらかが主又は副であるかのような優劣を規定するものではない。
注目情報とは、例えば、図1を用いて説明した視線追跡装置により取得した視線データが特定の拠点のユーザ映像に集中している場合に生成される注視端末ID信号である。注視端末ID信号には、注視対象の拠点名と、注視元の拠点における端末の識別信号が含まれる。詳細については後述する。なお、注目情報は、視線データに限定されず、例えばユーザの撮像からユーザの顔の向き等を解析し、顔の向きが特定の対象に向けられているか否かを公知の画像解析技術により特定し、解析結果に基づいて生成されるものであってもよい。
音声取得部18は、例えばマイク等の音声入力装置7に入力された音声情報を取得する音声情報取得手段である。なお、音声入力装置7は、拠点Aのビデオ会議端末4においては、ビデオ会議端末4の近傍で発せられた音声情報の入力を受け付ける。つまり、この場合、音声入力装置7は、ユーザAの発した音声に加え、周囲の音等の入力も受け付ける。なお、取得した音声データが圧縮・符号化されている場合、音声伸長部により復号される。
データ受信部21は、ネットワークを介して接続された他端末から該他端末を使用する他ユーザを撮像した撮像情報と、該他端末の近傍で発せられた音声情報と、該他ユーザが自端末を注目していることを示す注目情報を受信する受信手段である。なお、他ユーザの撮像情報は各拠点でのビデオ会議端末における映像圧縮部によって圧縮/符号化されているが、これを映像伸長部によって復号する。
話者判定部22は、データ受信部21により受信した複数の他端末の近傍で発せられた音声情報を解析し、該複数の他端末を使用する複数の他ユーザのうち、どの他ユーザが発話しているか否かを判定する。音声情報の解析は、例えば取得した音声情報の入力ゲインで判定する等の手法をとればよいが、これに限定されず公知の手法で解析を行ってもよい。
話者識別信号生成部23は、話者判定部22により発話していると判定された他ユーザが使用する他端末を識別する識別信号に基づいて自端末に対する発話者を識別する話者識別信号を生成する。話者識別信号には、話者判定部22により発話していると判定された他ユーザの音声情報の送信元端末を識別する識別信号が含まれる。
発話受動判定部24は、音声情報の送信元の他端末と注目情報の送信元の他端末とが一致するか否かを判定する。
発話受動通知部251は、発話受動判定部24により音声情報の送信元の他端末と注目情報の送信元の他端末とが一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段である。
また、発話受動通知部251は、発話受動判定部24により一致すると判定された他端末を使用する他ユーザの出力部25により映像出力装置9に表示される撮像情報を、該他ユーザからの発話受動を自端末のユーザが認識し得る表示態様に変更するよう、出力部25による映像出力装置9への表示を制御する表示制御手段として機能する。表示態様の変更とは、具体的には、例えば図1を用いて説明したように、映像出力装置9に表示される撮像情報を囲むように赤枠を表示させたり、撮像情報を他の拠点の撮像情報より拡大させたりする等、他の拠点の撮像情報より目立つように表示態様を変更する処理をいう。
一方、発話受動判定部24は、音声情報の送信元の他端末と注目情報の送信元の他端末とが一致すると判定したとき、該他端末を使用する他ユーザから自端末を使用する自ユーザに向けて発話されていることを識別する発話受動識別信号を生成してもよい。この場合、発話受動通知部251は、発話受動判定部24により生成された発話受動識別信号に基づいて発話受動を通知することとしてもよい。詳細は後述するが、発話受動信号を生成することにより、端末は発話受動状態にあることを容易に認識することが可能となる。
また、発話受動通知部251は、発話受動判定部24から発話受動識別信号を受信したとき、所定の音声を出力するよう出力部25を制御することとしてもよい。所定の音声とは、例えば上述したビープ音等である。これにより、ユーザは自分に向けられた発話が開始されたことを認識することが可能となる。
さらに、発話受動通知部251は、発話受動判定部24からの発話受動識別信号の受信が途絶えたとき、所定の音声を出力する制御を行うこととしてもよい。これにより、ユーザは自分に向けられた発話が終了したことを認識することが可能となる。
さらに、発話受動通知部251は、発話受動判定部24からの発話受動識別信号の受信が途絶えた以降の一定時間、発話受動通知を継続することとしてもよい。詳細は後述するが、これにより、例えば発話受動識別信号の受信が途絶えた場合にすぐにビープ音を鳴らしてユーザに受け答えを急がせるような事態を回避して、ユーザは受け答えをゆっくりと行うことができるため、円滑なコミュニケーションの実施に寄与することになる。
なお、発話受動通知部251は、発話受動識別信号を受信したとき、予め音声出力していた所定の音声の音量を上げ、発話受動識別信号の受信が途絶えたとき、上げていた音量を下げる制御を行うこととしてもよい。これにより、ユーザは発話受動開始及び終了のタイミングを音量の変化で認識することができる。
さらに、発話受動通知部251は、発話受動識別信号を受信したとき、ビデオ会議端末を振動させ、発話受動識別信号の受信が途絶えたとき、再度ビデオ会議端末を振動させる制御を行うこととしてもよい。これにより、ユーザは発話受動開始及び終了の各タイミングを振動により認識することが可能となる。
また、発話受動判定部24は、データ受信部21により注目情報の受信が途絶えた場合であっても、データ受信部21により音声情報の受信が途絶えるまでは発話受動信号の生成を継続することとしてもよい。詳細は後述するが、これにより、例えば他ユーザが表示された映像に注視しなくなる等によって注目情報である注視端末ID信号を受信しなくなったとしても、他ユーザによる発話が継続されている間は、発話受動状態にあるとみなすため、円滑なコミュニケーションを阻害することがない。
ここで、例えば拠点DにおけるユーザDが映像出力装置であるディスプレイに表示されたユーザAを注視しながら発話しているとする。ビデオ会議端末4の発話受動判定部24は、各拠点より受信した注目情報である注視端末ID信号と話者ID信号を比較する。そして、発話受動判定部24は、比較の結果、それぞれが示す拠点名が一致したとき、利用者Aが発話受動状態にあると判定し、発話受動ID信号を生成する。この例の場合、注視端末ID信号と話者ID信号がともにD拠点を示すので、利用者Aは利用者Dによって発話受動状態にある、ということになる。
次に、本実施形態における処理の概略手順について図3及び図4を参照して説明する。ここでは図1を用いた説明と同様に、拠点DのユーザDが拠点AのユーザAの撮像を注視しているものとして説明する。
まず、拠点Dにおけるビデオ会議端末4”’は撮像装置を介してユーザDの撮像を取得し、該撮像からユーザDの視線データを取得する(ステップS1)。
次に、ビデオ会議端末4”’の注目情報生成部17は注目情報である注視端末IDを生成する(ステップS2)。注目情報生成部17による注視端末ID生成処理の詳細については後述する。
拠点Dにおけるビデオ会議端末4”’は、ユーザDの撮像や注視端末IDを拠点Aのビデオ会議端末4に送信する(ステップS3)。
拠点Aの話者判定部22により話者の判定がされ、話者識別信号生成部23により話者識別信号である話者ID信号が生成される(ステップS4)。話者ID信号生成の詳細については後述する。
そして、発話受動判定部24により発話受動判定処理が実行される(ステップS5)。この処理の詳細については後述する。
発話受動通知部251は、自分に注目しているユーザの撮像について表示制御処理を行う(ステップS6)。
図4に示した注視端末ID生成処理の詳細について図5を参照して説明する。ここでは、拠点AのユーザAが拠点DのユーザDに向けて発言していることを想定した、拠点Aでの注視判定処理手順を例として説明する。
まず、ビデオ会議端末4は、撮像装置5からユーザAの視線データを取得する(ステップS11)。例えば、視線データは(x、y)で表した座標データとして取得するものとする。
視線データは時間の経過と共に変化するのが通常であるため、ビデオ会議端末4は所定の更新頻度で視線データを更新する(ステップS12)。この更新頻度は、例えば映像データのフレームレートが30fpsである場合、33msec間隔とすることが好ましい。このとき、撮像装置5は眼球を撮像した際の変化量を角度として取得するものとする。
ビデオ会議端末4は、メモリ29に取得した視線データを順次記憶し、例えば過去10データを参照する(ステップS13)。そして、ビデオ会議端末4は、過去10データ分の視線データに基づいて停留判定を行う(ステップS14)。この場合の停留判定は、例えば人間の眼球運動の特徴を踏まえ、例えば非特許文献1等に開示されているような判定条件を用いることが好ましい。
すなわち、本実施形態では、停留判定条件として、
1:「前後の視線データが視野角にして2.1度以上離れないこと」
2:「過去10データのうち、2つの視線データの最大距離が視野角にして2.1度以上離れないこと」
とするが一例であって、これに限らずその他公知の判定条件を採用してもよい。
なお、人間の瞬きは、一般的に100msec〜150msecといわれており、これは視線データにして3〜5データ分である。瞬きされたときはユーザの眼球に基づいた視線データを取得できないためデータ欠損となってしまう。そこで、本実施形態では過去10データのうち連続5回までのデータ欠損を停留判定から除外し、残りのデータで判定するものとする。
ステップS14で視線データが停留していると判定した場合(ステップS14、YES)、ビデオ会議端末4は、画面上のどの拠点における映像上で停留したのかを確認する(ステップS15)。この際、ビデオ会議端末4は各拠点における映像が画面上のどの領域に表示されているのかの情報を得ているものとする。そして、ビデオ会議端末4は、停留していると判定した10データ分の視線データの座票が、各拠点映像が表示される矩形領域内に収まっているか否かによりどの拠点映像に停留しているかを判定する。
なお、拠点映像間の境目に視線データが存在する場合は、過去10データの内、視線データが収まっている数の多い映像に係る拠点を停留拠点とする。視線データが同数の場合、どちらも停留拠点とせず、それまでの停留判定処理をリセットする。
他方、ステップS14で視線データが停留していないと判定した場合(ステップS14、NO)、停留判定処理をリセットする(ステップS113)。
次に、ビデオ会議端末4は、ステップS15において確認された停留拠点が前回と同じ停留拠点か否かを判定する(ステップS16)。前回と異なる停留拠点の場合(ステップS16、NO)、ビデオ会議端末4は停留判定をリセットする(ステップS113)。
他方、前回つまり1回前の注視判定時と同じ停留拠点の場合(ステップS16、YES)、ビデオ会議端末4は注視端末ID信号が送信中であるか否かを判定する(ステップS17)。
注視端末ID信号が送信中でない場合(ステップS17、NO)、ビデオ会議端末4は停留カウントを「+1」とする(ステップS18)。他方、注視端末ID信号が送信中である場合は(ステップS17、YES)、ビデオ会議端末4は注視判定を行わず、そのまま対象の拠点のビデオ会議端末に注視端末ID信号を送信し続けるものとする(ステップS112)。
ステップS18以後、ビデオ会議端末4は停留が3回連続したかどうかの判定をする(ステップS19)。本実施形態では、停留が3回連続した場合に「注視」を判定する。3回未満と判定した場合はステップS12に戻る。この判定により、一定位置に視線データが30回留まっていなくても、ゆっくりと滑らかに視線の対象を追うことも注視であると判定することが可能になる。
ビデオ会議端末4は、ステップS18の処理を繰り返し、停留が3回連続で続いたと判定した場合(ステップS19、YES)、「注視」と判定し、その停留拠点を注視拠点に変更する(ステップS110)。
ビデオ会議端末4は、自分の拠点IDと注視拠点のビデオ会議端末IDを含む注視端末ID信号を生成する(ステップS111)。その後、ビデオ会議端末4は、注視対象のビデオ会議端末に注視端末ID信号を送信する(ステップS112)。
なお、停留や注視が起こっている状態で、ステップS14の停留判定において、大きく視線が変化し、停留や注視が終了したと判定された場合(ステップS14、NO)、それらの状態はリセットされる(ステップS113)。
また、ビデオ会議端末4は、ステップS113の後、現在注視端末ID信号を送信している状態であるかどうかを判定し(ステップS114)、注視端末ID信号を送信していると判定したとき(ステップS114、YES)、その注視端末ID信号の送信を停止する(ステップS115)。なお、その間は常に、ステップS112での注視端末ID信号は送信され続けているものとする。
次に、本実施形態における注視判定処理の一例について図6を参照して説明する。本図は、拠点AにおけるユーザAが画面表示された拠点DにおけるユーザDの撮像に注目している場合の視線データの滞留の状況を示したものである。本図において、「E1」等で示された、数字が付された小円は、映像出力装置9における画面上の視線データが示す位置を表し、小円に付された数字はデータの取得順としている。
E1からE2の変化は停留判定の条件1において、停留ではないと判定される。同様に、E3、E4、E5、E6と停留ではないと判定され、E7とE8の変化は上述した停留判定の条件1に該当する。同様にE9、E10〜E16までの変化は停留判定の条件に1該当し、この10データが上述の停留判定の条件2に該当したとすると、視線データE7〜E16が停留しているといえる。また、このときの10データは映像12で示す拠点Dの拠点映像領域内にあるため停留拠点はDとなる。
次に視線データE17〜E26、E27〜E36も同様に停留拠点はDとなる。ここで、3回連続で停留が起きたので、E37〜E44まで注視しているとみなし、この場合停留判定は行わないものとする。このとき、拠点Aのビデオ会議端末4は、拠点Dのビデオ会議端末に拠点DのIDと自拠点のIDを付した、注視端末ID信号を送信する。
E44からE45の視線データは停留場件の閾値以上の変化をしたので、ここで注視は終了したとする。その際、ビデオ会議端末4は、注視端末ID信号の送信を停止することで、拠点Dのビデオ会議端末に、注視しているタイミングとその長さをリアルタイムに知らせることが可能である。
次に、本実施形態における発話受動通知処理手順について図7を参照して説明する。ここでは、拠点AのユーザAが拠点DのユーザDに向けて発話しているものとし、拠点Dにおける発話受動通知手順を例として説明する。
まず、拠点Dのビデオ会議端末は、拠点Aのビデオ会議端末4から、映像情報、音声情報の他、注視端末ID信号等を受信する(ステップS21)。
次に、拠点Dのビデオ会議端末は、受信した音声データについて、受信データに付された送信元端末IDより、どの拠点の音声なのか解析する(ステップS22)。
そして、拠点Dのビデオ会議端末は、話者がいるかどうかの話者判定を行う(ステップS23)。拠点Dのビデオ会議端末は、話者がいると判定し(ステップS23、YES)、その話者が発話中であると判定すると、その話者がいる拠点のIDを含む話者ID信号を生成する(ステップS24)。
拠点Dのビデオ会議端末は、注視端末ID信号を受信している状態であるとき(ステップS25、YES)、その送信元の拠点と話者ID信号に付されたIDの拠点が一致するかどうかを判定する(ステップS26)。両者が一致すると判定した場合(ステップS26、YES)、拠点Dのビデオ会議端末は、発話受動ID信号を生成する(ステップS27)。
そして、拠点Dのビデオ会議端末は、発話受動通知を開始する(ステップS28)。ここでは、拠点Dのビデオ会議端末は、ビープ音を出力し、ビデオ会議端末の画面内における、発話受動の対象である拠点Aが表示されている拠点映像の枠を赤く表示させることとする(ステップS29)。ステップS29は、発話受動通知が継続されていることを示している。この場合、拠点Aの拠点映像の枠を赤く表示し続けることになる。
次に、拠点Dのビデオ会議端末は、ステップS21に戻り、次の話者判定を行う。まだ話者が発話中である場合(ステップS22⇒ステップS23、YES)、話者ID信号は更新され(ステップS24)、連続で生成され続けることになる。
また、拠点Dのビデオ会議端末は、拠点Aの利用者の視線が大きく変動し、その結果、拠点Aからの注視拠点ID信号を受信しなくなっていた場合(ステップS25、NO)においても、その発話中の発話は拠点Dの利用者に向けたものであるとみなす。すなわち、拠点Dのビデオ会議端末は、ステップS210において、まだ発話受動ID信号を生成し続けているため(ステップS210、YES)、発話受動通知を継続する(ステップS29)。ここで、発話受動ID信号が生成されていな場合(ステップS210、NO)、拠点Dのビデオ会議端末は再びステップS21に戻り、次のデータを受信する(ステップS21)。
拠点Dのビデオ会議端末は、再度各データを受信し、次の判定を行う(ステップS21)。拠点Dのビデオ会議端末は、音声データ解析で一定時間無音状態が続く場合(ステップS22)、話者判定で話者がいないと判定する(ステップS23、NO)。
この場合、拠点Dのビデオ会議端末は、発話受動ID信号を停止させ(ステップS211)、発話受動通知を終了する(ステップS212)。また、拠点Dのビデオ会議端末は、この際に画面表示状態を元に戻し、ビープ音を出力することで、拠点DのユーザDに、拠点Aのユーザからの発話に対する答えを、自然に促すことができる。
また、拠点Dのビデオ会議端末は、ステップS26において、話者IDと注視拠点IDが一致しなかった場合は(ステップS26、NO)、自分に向けての発話ではないと判定し、なにもせずにステップS21に戻る。
次に、本実施形態における発話受動通知の流れについて図8を参照して説明する。ここでは、拠点AのユーザAが拠点DのユーザDに向けて発言していることを想定し、各拠点のビデオ会議端末で行われる各判定と、ID信号の処理について時系列に説明する。ここで、各機能の処理や伝送遅延等によるレイテンシは起こり得るが、送受信される映像音声データと視線データとの同期は保証されているものとする。
まず、拠点Aのビデオ会議端末4において、ユーザAの視線データが拠点D映像に停留している(ステップS31、これを「停留1」とする。)と、拠点Dのビデオ会議端末において判定される(ステップS41)。ステップS32、ステップS33においても同様に判定されていく。
同時に拠点Aのユーザが発話すると、その音声データを受信した拠点Dのビデオ会議端末において、どの拠点の利用者が発話しているのかの話者判定が行われる(ステップS42)。拠点Dのビデオ会議端末において、話者ID信号が生成される(ステップS35)。
拠点Aにおいて停留が3回連続した際、拠点Dの拠点映像を注視していると判定され(ステップS43)、拠点Aのビデオ会議端末4は、同時に注視拠点ID信号を拠点Dに送信する(ステップ37)。拠点Dのビデオ会議端末4は、注視拠点ID信号を受信する(ステップ38)。このとき、既に話者ID信号が生成されているので、拠点Dのビデオ会議端末は発話受動判定を行う(ステップS44)。
拠点Dのビデオ会議端末は、注視拠点ID信号と話者ID信号が示す拠点が一致した際、発話受動ID信号を生成する(ステップS39)。また、拠点Dのビデオ会議端末は、発話受動が開始されたことを、ビープ音を出力することでユーザDに通知する(ステップS310)。
その後、拠点Dのビデオ会議端末は、拠点Dにおける画面上に表示されている拠点Aの拠点映像の囲む赤枠を表示させ、発話受動が継続しているということを利用者Dに通知する(ステップS311)。
ここで、拠点AのユーザAの視線データが大きく変動し、他の拠点や画面外を見たとき(ステップS36)、拠点Aのビデオ会議端末4は注視拠点ID信号の送信を終了する(ステップS37)。これに伴い、拠点Dにおける注視拠点ID信号の受信も終了する(ステップS38)。一方、拠点Dのビデオ会議端末は、話者ID信号を生成し続けているため(ステップS39)、発話受動通知を終了しない(ステップS311)。
拠点Aにおいて、利用者Aの発話が終了し(ステップS34)、無音状態が一定時間続いたと、拠点Dの話者判定部で判定されると、拠点Dのビデオ会議端末は話者ID信号生成を停止し(ステップS35)、発話受動ID信号の生成も停止する(ステップS39)。
また、拠点Dのビデオ会議端末は、設定しておいた一定時間(以下「設定時間長」とする。)、拠点Aの拠点映像を囲む赤枠表示による発話受動通知(ステップS311)の停止を保留する(ステップS313)。そして、拠点Dのビデオ会議端末は、設定時間長の時間が経過したら、発話受動通知(ステップS311)を停止し、ビープ音を出力することでユーザAの発話が終了したということをユーザDに通知する(ステップS312)。
これにより、拠点Dのユーザは、他拠点のユーザのうち、自分に向けての発話が、誰からされているのかを視覚的に理解することができ、また、その終了タイミングも知ることができるので、自然なタイミングで相手ユーザの発話への返答をすることが可能になる。
以上、本実施形態のビデオ会議システムによれば、ユーザの視線情報を常に追跡し、ユーザが画面内に表示されている、他拠点のユーザの映像を注視しながら発話をしていると判定されたときに、その判定結果に応じて、受信端末で発話者が表示されている領域のみ異なる表示をさせ、発話開始のタイミングと終了のタイミングで通知音を出力させる。これにより、受信端末側のユーザに、自分が誰にいつ発話されているのかを知らせることが可能となる。
また、本実施形態では、拠点双方におけるユーザの視線データを計測せず、発話者側の視線データのみを解析するだけでよく、円滑なコミュニケーションに必要なリアルタイム性に優れている。
また、発話長と注視長の差を考慮するため、発話中に発話対象のユーザから目を逸らしても、その発話が終わるまでは、注視対象に向けての発話であると判定され、発話を受けるユーザが、自分に向けての発話であると通知され続けることが可能である。
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、上述した本実施形態の情報処理装置及びビデオ会議システムにおける各処理を、ハードウェア、又は、ソフトウェア、あるいは、両者の複合構成を用いて実行することも可能である。
なお、ソフトウェアを用いて処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させることが可能である。あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
1 ビデオ会議システム
4 ビデオ会議端末
5 撮像装置
6 カメラ
7 音声入力装置
8 音声出力装置
9 映像出力装置
10 入出力装置群
14 ネットワーク
15 映像入力部
16 データ送信部
17 注目情報生成部
18 音声取得部
21 データ受信部
22 話者判定部
23 話者識別信号生成部
24 発話受動判定部
25 出力部
251 発話受動通知部
特開2010−200150号公報
脇山孝貴、外2名、「注目の検出に基づいた興味モデルの作成と絵画推薦」、情報処理学会論文誌、平成19年5月、Vol.48 No.3、p.1048−1057

Claims (12)

  1. ネットワークを介して接続された他端末から、該他端末を使用する他ユーザを撮像した撮像情報と、該他端末の近傍で発せられた音声情報と、該他ユーザが自端末を注目していることを示す注目情報とを受信する受信手段と、
    前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する発話受動判定手段と、
    前記発話受動判定手段により前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段と
    を備えることを特徴とする端末。
  2. 前記受信手段により受信した前記他ユーザの撮像情報を表示する表示手段を備え、
    前記発話受動通知手段は、前記発話受動判定手段により一致すると判定された前記他端末を使用する他ユーザの前記表示手段により表示される撮像情報を、該他ユーザからの発話受動を自端末のユーザが認識し得る表示態様に変更するよう前記表示手段を制御することを特徴とする請求項1記載の端末。
  3. 前記発話受動判定手段は、前記他端末が一致すると判定したとき、該他端末を使用する他ユーザから発話されていることを識別する発話受動識別信号を生成することを特徴とする請求項1又は2記載の端末。
  4. 前記発話受動通知手段は、前記発話受動判定手段により生成された発話受動識別信号に基づいて発話受動を通知することを特徴とする請求項3記載の端末。
  5. 前記発話受動通知手段は、前記発話受動判定手段から前記発話受動識別信号を受信したとき、所定の音声を出力する制御を行うことを特徴とする請求項3又は4記載の端末。
  6. 前記発話受動通知手段は、前記発話受動判定手段からの前記発話受動識別信号の受信が途絶えたとき、所定の音声を出力する制御を行うことを特徴とする請求項3から5の何れか1項に記載の端末。
  7. 前記発話受動通知手段は、前記発話受動判定手段からの前記発話受動識別信号の受信が途絶えた以降の一定時間、発話受動通知を継続することを特徴とする請求項6記載の端末。
  8. 前記発話受動判定手段は、前記受信手段により前記注目情報の受信が途絶えた場合であっても、前記受信手段により音声情報の受信が途絶えるまでは前記発話受動識別信号の生成を継続することを特徴とする請求項3から7の何れか1項に記載の端末。
  9. 自端末と2以上の他端末とがネットワークを介して接続されたテレビ会議システムであって、
    前記他端末は、
    撮像装置により撮像された前記他端末を使用する他ユーザの撮像情報を取得する撮像情報取得手段と、
    前記他端末の近傍で発せられた音声情報を取得する音声情報取得手段と、
    少なくとも前記自端末から受信した該自端末を使用する自ユーザを撮影した撮像情報を前記他端末以外の他端末から受信した前記他端末以外の他端末を撮影した撮像情報と共に同一画面上に並べて表示する表示手段と、
    前記撮像情報取得手段により取得された前記他端末を使用する他ユーザの撮像情報を解析して、前記表示手段により表示された前記自端末を使用する自ユーザの撮像情報に前記他端末を使用する他ユーザが注目していることを示す注目情報を生成する注目情報生成手段と、
    前記撮影情報取得手段により取得された前記他端末を使用する他ユーザの撮像情報、前記音声情報取得手段により取得した前記他端末の近傍で発せられた音声情報、前記注目情報生成手段により生成された注目情報を前記自端末に送信する送信手段と
    を備え、
    前記自端末は、
    前記他端末から、該他端末を使用する他ユーザを撮影した撮像情報と、該他端末の近傍で発せられた音声情報と、前記注目情報とを受信する受信手段と、
    前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する発話受動判定手段と、
    前記発話受動判定手段により前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する発話受動通知手段と
    を備える
    ことを特徴とするビデオ会議システム。
  10. 前記注目情報生成手段は、前記他端末を使用する他ユーザの撮像情報から解析された該他ユーザの視線の、前記表示手段により表示された前記自端末を使用する自ユーザの撮像情報に対する停留数が所定の閾値以上であるとき注目情報を生成することを特徴とする請求項9記載のビデオ会議システム。
  11. ネットワークを介して接続された他端末から、該他端末を使用する他ユーザを撮影した撮像情報と、該他端末の近傍で発せられた音声情報と、該他ユーザが自端末を注目していることを示す注目情報を受信して記憶部に記憶する処理と、
    前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する処理と、
    前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する処理と
    をコンピュータに実行させることを特徴とするプログラム。
  12. 自端末と2以上の他端末とがネットワークを介して接続されたテレビ会議システムに実行させるコンピュータ読取可能なプログラムであって、
    前記他端末は、
    撮像装置により撮像された前記他端末を使用する他ユーザの撮像情報を取得して前記他端末の記憶部に記憶する処理と、
    前記他端末の近傍で発せられた音声情報を取得して前記他端末の記憶部に記憶する処理と、
    少なくとも前記自端末から受信した該自端末を使用する自ユーザを撮影した撮像情報を前記他端末以外の他端末から受信した前記他端末以外の他端末を撮影した撮像情報と共に同一画面上に並べて前記他端末の表示部に表示する処理と、
    前記他端末の記憶部に記憶された前記他端末を使用する他ユーザの撮像情報を解析して、前記表示部に表示された前記自端末を使用する自ユーザの撮像情報に前記他端末を使用する他ユーザが注目していることを示す注目情報を生成して前記他端末の記憶部に記憶する処理と、
    前記他端末の記憶部に記憶された前記他端末を使用する他ユーザの撮像情報と、前記他端末の近傍で発せられた音声情報と、前記注目情報を前記自端末に送信する処理と
    を含み、
    前記自端末は、
    前記他端末から該他端末を使用する他ユーザを撮影した撮像情報と、該他端末の近傍で発せられた音声情報と、前記注目情報を受信して前記自端末の記憶部に記憶する処理と、
    前記音声情報の送信元の前記他端末と前記注目情報の送信元の他端末とが一致するか否かを判定する処理と、
    前記他端末が一致すると判定されたとき、該他端末を使用する他ユーザから自端末への発話を通知する処理と
    を含むことを特徴とするプログラム。
JP2015120357A 2015-06-15 2015-06-15 端末、ビデオ会議システム、及びプログラム Expired - Fee Related JP6550951B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015120357A JP6550951B2 (ja) 2015-06-15 2015-06-15 端末、ビデオ会議システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015120357A JP6550951B2 (ja) 2015-06-15 2015-06-15 端末、ビデオ会議システム、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017005616A JP2017005616A (ja) 2017-01-05
JP6550951B2 true JP6550951B2 (ja) 2019-07-31

Family

ID=57752454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015120357A Expired - Fee Related JP6550951B2 (ja) 2015-06-15 2015-06-15 端末、ビデオ会議システム、及びプログラム

Country Status (1)

Country Link
JP (1) JP6550951B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021006311T5 (de) 2020-12-04 2023-10-12 Sony Group Corporation Informationsverarbeitungseinrichtung, informationsverarbeitungsverfahren, programm und informationsverarbeitungssystem
WO2023233482A1 (ja) * 2022-05-30 2023-12-07 日本電信電話株式会社 対話支援装置、対話支援方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07162532A (ja) * 1993-12-07 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> 多地点間通信会議コミュニケーション支援装置
JP2000184354A (ja) * 1998-12-18 2000-06-30 Fujitsu General Ltd 画像伝送システム
JP2003244669A (ja) * 2002-02-14 2003-08-29 Matsushita Electric Ind Co Ltd 視線検出機能を有するテレビ会議システム
US8947493B2 (en) * 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
EP2642752A1 (en) * 2012-03-23 2013-09-25 Alcatel Lucent Method, server, and terminal for conducting a video conference

Also Published As

Publication number Publication date
JP2017005616A (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
CN110944143B (zh) 视频会议装置以及视频会议方法
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
JP4356663B2 (ja) カメラ制御装置および電子会議システム
JP2021107873A (ja) 音声特性変更システムおよび音声特性変更方法
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2015126524A (ja) 遠隔会議プログラム、端末装置および遠隔会議方法
JP2004129071A (ja) 双方向コミュニケーションシステム
JP6544209B2 (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
WO2018158852A1 (ja) 通話システム及びコミュニケーションシステム
JP2000156849A (ja) 携帯情報端末装置
JP6550951B2 (ja) 端末、ビデオ会議システム、及びプログラム
US12347235B2 (en) Establishing private communication channels
JP6149433B2 (ja) テレビ会議装置、テレビ会議装置の制御方法、及びプログラム
JPWO2014192133A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN106896917B (zh) 辅助用户体验虚拟现实的方法及装置、电子设备
JP2025081287A (ja) 情報処理システムおよびプログラム
US11928253B2 (en) Virtual space control system, method for controlling the same, and control program
JP2010004480A (ja) 撮像装置、その制御方法及びプログラム
US20160142885A1 (en) Voice call prompting method and device
JP2011118632A (ja) 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP5388032B2 (ja) 遠隔コミュニケーションシステム、制御装置、制御方法およびプログラム
CN109472225A (zh) 会议控制方法及装置
JP2005269207A (ja) 情報伝達方法及びこの方法を実現するための通信装置とそのプログラム
JP5432805B2 (ja) 発言機会均等化方法、発言機会均等化装置及び発言機会均等化プログラム
CN113596379A (zh) 视频通话方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180517

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190617

R151 Written notification of patent or utility model registration

Ref document number: 6550951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees