JP2017092950A - Information processing apparatus, conference system, information processing method, and program - Google Patents
Information processing apparatus, conference system, information processing method, and program Download PDFInfo
- Publication number
- JP2017092950A JP2017092950A JP2016201513A JP2016201513A JP2017092950A JP 2017092950 A JP2017092950 A JP 2017092950A JP 2016201513 A JP2016201513 A JP 2016201513A JP 2016201513 A JP2016201513 A JP 2016201513A JP 2017092950 A JP2017092950 A JP 2017092950A
- Authority
- JP
- Japan
- Prior art keywords
- video
- information processing
- unit
- processing apparatus
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、情報処理装置、会議システム、情報処理方法およびプログラムに関する。 The present invention relates to an information processing apparatus, a conference system, an information processing method, and a program.
遠隔地との間で、インターネット等の通信ネットワークを介して遠隔会議を行うビデオ会議システムが普及している。このビデオ会議システムにおいては、遠隔会議(ビデオ会議)を行う参加者等の当事者の一方がいる会議室において、ビデオ会議システムの端末装置を用いて会議室の参加者等の画像(映像)を撮像し、かつ、発話による音声を入力し、映像データおよび音声データを相手方の端末装置に送信する。そして、相手方の会議室のディスプレイに表示し、かつ、スピーカにより音声出力して、実際の会議に近い状態で遠隔地間の会議を実現している。 Video conferencing systems that conduct remote conferences with remote locations via a communication network such as the Internet have become widespread. In this video conference system, an image (video) of a participant in the conference room is taken using a terminal device of the video conference system in a conference room where one of the parties such as a participant conducting a remote conference (video conference) exists. In addition, the voice of the utterance is input, and the video data and the voice data are transmitted to the other party's terminal device. And it displays on the display of the other party's conference room, and outputs a voice by a speaker, thereby realizing a conference between remote locations in a state close to the actual conference.
また、ビデオ会議システムでは、会議の参加者の音声を取得するためにマイクを使用し、映像を取得するためにカメラを使用している。ただし、カメラには画角があるため、カメラの画角外にいる参加者の映像は撮影することができない。この問題を解決するために、360度全方向を撮影することができるパノラマカメラを用いる方法が知られている。一方、マイクは、通常、無指向性のため、どの参加者から発話された音声なのか、すなわち、音声の方向を判別することができない。この問題を解決するため、マイクアレイを使用することにより、どの参加者から発話された音声なのか、すなわち、音声の方向を判別する方法が知られている。 In the video conference system, a microphone is used to acquire the voice of the conference participant, and a camera is used to acquire the video. However, since the camera has an angle of view, it is not possible to take pictures of participants outside the angle of view of the camera. In order to solve this problem, a method using a panoramic camera capable of photographing 360 degrees in all directions is known. On the other hand, since the microphone is usually omnidirectional, it is impossible to determine from which participant the voice is spoken, that is, the direction of the voice. In order to solve this problem, a method is known in which a microphone array is used to determine from which participant the voice is spoken, that is, the direction of the voice.
このような、ビデオ会議システムとして、反射鏡を用いた全方位型カメラモジュールを用いて撮影した画像から、マイクアレイを使って音声の方向を特定した部分に対応する画像をデジタル的に切り出して表示する技術が開示されている(特許文献1)。 As such a video conferencing system, an image corresponding to a part in which the direction of sound is specified using a microphone array is digitally cut out and displayed from an image taken using an omnidirectional camera module using a reflecting mirror. The technique to do is disclosed (patent document 1).
特許文献1に記載された技術では、自拠点の参加者が発話している場合に、相手拠点の表示装置で、自拠点の発話している参加者を切り替えて表示するものとしている。しかしながら、自拠点の参加者が話していない場合、相手拠点では、自拠点の参加者の状態をどのように表示させるのかについて規定されておらず、自拠点の全体的な状態が把握できないという問題点がある。
In the technique described in
本発明は、上記に鑑みてなされたものであって、発話者の映像領域を切り出すシステムにおいても、会議の拠点の状態が把握できる情報処理装置、会議システム、情報処理方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and provides an information processing apparatus, a conference system, an information processing method, and a program capable of grasping the state of a conference base even in a system that cuts out a video area of a speaker. With the goal.
上述した課題を解決し、目的を達成するために、本発明は、他の情報処理装置と映像および音を通信する情報処理装置であって、音源の音の入力を受け付ける入力部と、前記音源の映像を撮像する撮像部と、前記他の情報処理装置から映像および音を受信する受信部と、前記入力部により音が入力されている場合、前記撮像部により撮像された映像から、該音を発した音源を含む映像領域を切り出して第1映像とし、前記受信部により前記他の情報処理装置から音が受信されている場合、前記撮像部により撮像された映像から、少なくとも前記第1映像よりも広い範囲の映像領域を切り出して第2映像とする切出部と、前記第1映像および前記第2映像のうち少なくともいずれかを前記他の情報処理装置に送信する送信部と、を備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention is an information processing apparatus that communicates video and sound with another information processing apparatus, an input unit that receives sound input of a sound source, and the sound source When a sound is input from the input unit, an image capturing unit that captures the image of the image, a receiving unit that receives the image and sound from the other information processing apparatus, and the sound input from the image captured by the image capturing unit When a video region including a sound source that emits sound is cut out to be a first video and sound is received from the other information processing apparatus by the receiving unit, at least the first video from the video captured by the imaging unit A cutout unit that cuts out a wider video area to form a second video, and a transmission unit that transmits at least one of the first video and the second video to the other information processing apparatus. That And butterflies.
本発明によれば、発話者の映像領域を切り出すシステムにおいても、会議の拠点の状態が把握できる。 According to the present invention, it is possible to grasp the state of a conference base even in a system that cuts out a video area of a speaker.
以下に、図1〜11を参照しながら、本発明に係る情報処理装置、会議システム、情報処理方法およびプログラムの実施の形態を詳細に説明する。また、以下の実施の形態によって本発明が限定されるものではなく、以下の実施の形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施の形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。 Hereinafter, embodiments of an information processing apparatus, a conference system, an information processing method, and a program according to the present invention will be described in detail with reference to FIGS. In addition, the present invention is not limited by the following embodiments, and constituent elements in the following embodiments are easily conceivable by those skilled in the art, substantially the same, and so-called equivalent ranges. Is included. Furthermore, various omissions, substitutions, changes, and combinations of the constituent elements can be made without departing from the scope of the following embodiments.
(会議システムの構成)
図1は、実施の形態に係る会議システムの全体構成の一例を示す図である。図1を参照しながら、本実施の形態に係る会議システム1の構成について説明する。
(Conference system configuration)
FIG. 1 is a diagram illustrating an example of the overall configuration of a conference system according to an embodiment. The configuration of the
図1に示すように、本実施の形態に係る会議システム1は、2以上の情報処理装置(情報処理装置10a、10b、・・・)と、会議サーバ20と、を含む。情報処理装置10a、10bは、それぞれインターネット等のネットワーク2を介して、互いに通信可能であり、かつ、会議サーバ20と通信可能となっている。なお、図1に示す2以上の情報処理装置(10a、10b、・・・)について、任意の情報処理装置を示す場合、または総称する場合、単に「情報処理装置10」と称するものとする。また、図1では、拠点Aに情報処理装置10aが設置され、拠点Bに情報処理装置10bが設置された例を示している。
As shown in FIG. 1, the
情報処理装置10は、他の情報処理装置との間で、会議サーバ20の制御に基づいて、セッションを確立し、確立したセッションを介して、音声データおよび映像データを送受信する会議端末装置である。これにより、会議システム1において、複数の情報処理装置(10a、10b、・・・)間のビデオ会議(以下、単に「会議」という場合がある)が実現される。
The
会議サーバ20は、各情報処理装置10が会議サーバ20と接続しているか否かのモニタリング、会議開始時の各情報処理装置10の呼び出し制御、および会議時の情報処理の制御を行うサーバ装置である。
The conference server 20 is a server device that performs monitoring of whether or not each
(情報処理装置のハードウェア構成)
図2は、実施の形態に係る情報処理装置のハードウェア構成の一例を示す図である。図3は、実施の形態に係る情報処理装置の複数のマイクの配置およびパノラマカメラの配置の一例を示す図である。図2および3を参照しながら、本実施の形態に係る情報処理装置10のハードウェア構成の詳細について説明する。
(Hardware configuration of information processing device)
FIG. 2 is a diagram illustrating an example of a hardware configuration of the information processing apparatus according to the embodiment. FIG. 3 is a diagram illustrating an example of the arrangement of a plurality of microphones and the arrangement of a panoramic camera of the information processing apparatus according to the embodiment. Details of the hardware configuration of the
図2に示すように、本実施の形態に係る情報処理装置10は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、補助記憶装置204と、メディアドライブ205と、操作ボタン206と、電源スイッチ207と、ネットワークI/F208と、撮像素子I/F209と、パノラマカメラ210と、音声I/F211と、マイクアレイ212と、スピーカ213と、出力I/F214と、外部機器I/F216と、を備えている。
As shown in FIG. 2, the
CPU201は、情報処理装置10全体の動作を制御する集積回路である。ROM202は、情報処理装置10用のファームウェア等のプログラムを記憶している不揮発性の記憶装置である。RAM203は、CPU201のワークエリアとして使用される揮発性の記憶装置である。
The
補助記憶装置204は、情報処理装置10の動作を実現する各種プログラム、ならびに映像データおよび音声データ等の各種データを記憶する不揮発性の記憶装置である。補助記憶装置204は、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等である。
The auxiliary storage device 204 is a non-volatile storage device that stores various programs for realizing the operation of the
メディアドライブ205は、フラッシュメモリ等である記録メディア205aに対するデータの読み出しおよび書き込みを制御する装置である。
The media drive 205 is a device that controls reading and writing of data with respect to a
操作ボタン206は、情報処理装置10に対する設定操作等を行うためのボタンである。電源スイッチ207は、情報処理装置10の電源のON/OFFを切り替えるスイッチである。
The operation button 206 is a button for performing a setting operation or the like for the
ネットワークI/F208は、ネットワーク2を利用してデータを通信するためのインターフェースである。ネットワークI/F208は、例えば、NIC(Network Interface Card)等である。撮像素子I/F209は、CPU201の制御に従って被写体を撮像して映像データを得るパノラマカメラ210との間で映像データを伝送するためのインターフェースである。
The network I / F 208 is an interface for communicating data using the
パノラマカメラ210は、レンズ、および光を電荷に変換して被写体の画像(映像)をデジタルデータ化する固体撮像素子を含む撮像装置である。パノラマカメラ210は、周囲360度の映像データを取得する。このように、360度の映像データを取得することにより、情報処理装置10の周囲にいる会議に参加する参加者を全て撮像することが可能となる。パノラマカメラ210は、撮像素子I/F209に接続される。固体撮像素子としては、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)等が用いられる。また、パノラマカメラ210は、例えば、図3に示すように、情報処理装置10の上面の中央部等に設置される。
The
音声I/F211は、CPU201の制御に従って、音声を入力するマイクアレイ212および音声を出力するスピーカ213との間で音声信号の入出力を処理するインターフェースである。マイクアレイ212は、会議に参加している参加者の音声を入力する集音装置である。マイクアレイ212は、複数のマイクを有し、CPU201の制御に従って、例えば、会議の参加者が発話した音声の方向を判別することができる。スピーカ213は、CPU201の制御に従って、音声を出力する装置である。マイクアレイ212およびスピーカ213は、それぞれ音声I/F211に接続される。また、マイクアレイ212は、例えば、図3に示すように、6つのマイク(212a〜212f)を有する。マイク212a〜212fは、例えば、図3に示すように、情報処理装置10の筐体の上面に分散して配置される。マイクアレイ212は、例えば、マイク212a〜212fそれぞれに音声が入力するタイミングのずれ等に基づいて、音声の方向を判別することができる。なお、マイクアレイ212は、図3に示すように6つのマイクで構成されることに限定されるものではなく、複数のマイクを有するものであればよい。また、マイクアレイ212の各マイクは、図3に示すように、情報処理装置10の筐体に分散して配置されるものとしているが、これに限定されるものではなく、マイク212a〜212fを有するマイクアレイ212のユニットが、情報処理装置10の筐体とは別体として構成されているものとしてもよい。
The audio I / F 211 is an interface that processes input / output of audio signals between the
出力I/F214は、CPU201の制御に従って、外付けの表示装置215に映像データを伝送するためのインターフェースである。外部機器接続I/F216は、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けマイクおよび外付けスピーカ等の外部機器がそれぞれ電気的に接続可能なインターフェースである。
The output I /
表示装置215は、会議に参加している他拠点の参加者の映像を表示する表示装置である。表示装置215は、例えば、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display:液晶ディスプレイ)、または有機EL(Organic Electro−Luminescence)ディスプレイ等である。表示装置215は、ケーブル214aによって出力I/F214に接続される。ケーブル214aは、アナログRGB(VGA)信号用のケーブルであってもよく、コンポーネントビデオ用のケーブルであってもよく、HDMI(登録商標)(High−Definition Multimedia Interface)またはDVI(Digital Video Interactive)信号用のケーブルであってもよい。
The
上述のCPU201、ROM202、RAM203、補助記憶装置204、メディアドライブ205、操作ボタン206、電源スイッチ207、ネットワークI/F208、撮像素子I/F209、音声I/F211、出力I/F214、および外部機器I/F216は、アドレスバスおよびデータバス等のバス217によって互いに通信可能に接続されている。
なお、情報処理装置10のハードウェア構成は、図2に示す構成に限定されるものではない。例えば、メディアドライブ205は備えていなくてもよい。
Note that the hardware configuration of the
(情報処理装置の機能ブロック構成)
図4は、実施の形態に係る情報処理装置の機能ブロック構成の一例を示す図である。図5は、会議に参加する参加者の配置例を示す図である。図4および5を参照しながら、本実施の形態に係る情報処理装置10の機能ブロック構成の詳細について説明する。
(Function block configuration of information processing device)
FIG. 4 is a diagram illustrating an example of a functional block configuration of the information processing apparatus according to the embodiment. FIG. 5 is a diagram illustrating an arrangement example of participants who participate in the conference. Details of the functional block configuration of the
図4に示すように、本実施の形態に係る情報処理装置10は、認識部101と、配置特定部102(第2特定部)と、切出部103と、方向特定部104(第1特定部)と、管理部105(切替部)と、指定部106と、送信部107と、受信部108と、撮像制御部109と、表示制御部110と、音声出力制御部111と、入力部112と、記憶部113と、操作部114と、通信部115と、撮像部116と、表示部117と、音声出力部118と、を有する。
As shown in FIG. 4, the
認識部101は、撮像部116により撮像された画像に含まれる1以上の参加者の顔の部分を顔画像として認識(以下、「顔認識」という場合がある)する機能部である。認識部101による参加者の顔認識は、公知の顔認識の画像解析方法を用いるものとすればよい。撮像部116により撮像された画像から認識部101により顔認識された回数をカウントすることによって、会議の参加者の人数を知ることが可能となる。認識部101は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The recognizing unit 101 is a functional unit that recognizes a face portion of one or more participants included in an image captured by the
なお、認識部101は参加者の顔の部分を顔画像として認識することによって参加者を認識するものとしたが、これに限定されるものではなく、人体検出による認識等のその他の認識方法によって参加者を認識するものとしてもよい。 Note that the recognition unit 101 recognizes the participant by recognizing the part of the participant's face as a face image. However, the recognition unit 101 is not limited to this, and other recognition methods such as recognition by human body detection are used. It is good also as what recognizes a participant.
配置特定部102は、撮像部116によって撮像された画像において、認識部101により顔認識された参加者の位置を特定し、会議に参加する参加者の会議室における参加者の配置パターンを特定する機能部である。例えば、図5(a)に示す会議室では、机40の上に情報処理装置10および表示装置215が載置され、机40に載置された表示装置215の近傍(図5(a)の領域P7内)にホワイトボード50が設置されているものとする。このような会議室の状態で、情報処理装置10の撮像部116により360度全方向の画像(以下、「パノラマ画像」という場合がある)が撮像された場合、配置特定部102は、認識部101によって顔認識された参加者60a〜60eについて、参加者60aが領域P1に、参加者60bが領域P2に、参加者60cが領域P3に、参加者60dが領域P5に、そして、参加者60eが領域P6に位置することを示す配置パターンを特定する。また、図5(b)では、撮像部116により撮像されたパノラマ画像において、配置特定部102は、認識部101によって顔認識された参加者61a〜61dについて、参加者61aが領域P2に、参加者61bが領域P3に、参加者61cが領域P4に、そして、参加者61dが領域P5に位置することを示す配置パターンを特定する。すなわち、配置パターンを特定するということは、情報処理装置10に対してどの方向に参加者が配置されているかを特定することになる。配置特定部102は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The arrangement specifying unit 102 specifies the position of the participant whose face is recognized by the recognition unit 101 in the image captured by the
なお、撮像部116により撮像された画像を「パノラマ画像」という場合があるものとしたが、撮像部116により撮像する客体として映像を示す場合、「パノラマ映像」という場合があるものとする。ただし、映像は、画像を含む概念であるものとする。
The image captured by the
切出部103は、パノラマ映像から、認識部101により顔認識された特定の参加者の映像領域、または、会議に参加している参加者全員を含む映像領域を切り出す機能部である。切出部103は、パノラマ映像から特定の参加者の映像領域を切り出す場合、例えば、後述するように、方向特定部104によって特定された参加者(音源)の音声の方向に対応する映像領域を切り出すものとすればよい。切出部103は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The cutout unit 103 is a functional unit that cuts out a video region of a specific participant whose face is recognized by the recognition unit 101 or a video region including all the participants participating in the conference from the panoramic video. When extracting the video area of a specific participant from the panoramic video, for example, the clipping unit 103 selects a video area corresponding to the audio direction of the participant (sound source) specified by the direction specifying unit 104 as described later. It should be cut out. The cutout unit 103 is realized, for example, when the
方向特定部104は、マイクアレイである入力部112により入力された音声の方向を特定する機能部である。具体的には、方向特定部104は、例えば、マイクアレイである入力部112を構成する複数のマイクに音声が入力するタイミングのずれ等に基づいて、音声の方向を特定する。方向特定部104は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The direction specifying unit 104 is a functional unit that specifies the direction of audio input by the
管理部105は、情報処理装置10の動作モードを管理する機能部である。具体的には、管理部105は、認識部101によりパノラマ画像から顔認識された回数をカウントすることによって、会議の参加者の人数を把握し、情報処理装置10の動作モードを決定する。この情報処理装置10の動作モードを決定する動作については、図6で後述する。管理部105は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The management unit 105 is a functional unit that manages the operation mode of the
指定部106は、切出部103により切り出された映像領域に対応する映像データを、他拠点の情報処理装置10の表示部117のどの表示領域に表示させるかを指定する機能部である。具体的には、指定部106は、どの表示領域に表示させるかを指定する指定情報を生成する。指定部106は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
送信部107は、切出部103により切り出された映像領域に対応する映像データ、および、入力部112により入力された音声データを、通信部115およびネットワーク2を介して、他拠点の情報処理装置10に送信する機能部である。具体的には、送信部107は、例えば、映像データおよび音声データをエンコードして、他拠点の情報処理装置10に送信する。ここで、エンコードの方法としては、公知の方法を用いればよい。例えば、H.264/AVC、またはH.264/SVC等の圧縮符号化技術を用いればよい。送信部107は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The transmission unit 107 transmits the video data corresponding to the video area cut out by the cut-out unit 103 and the audio data input by the
受信部108は、ネットワーク2および通信部115を介して、他拠点の情報処理装置10から受信した映像データおよび音声データを受信する機能部である。具体的には、受信部108は、例えば、受信した映像データおよび音声データをデコードし、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。ここで、デコードの方法としては、公知の方法を用いればよい。受信部108は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The receiving
撮像制御部109は、撮像部116の動作を制御する機能部である。具体的には、撮像制御部109は、例えば、撮像部116による撮像の開始および停止の動作等を制御し、撮像部116により撮像されたパノラマ映像を取得する。撮像制御部109は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
表示制御部110は、表示部117に各種画像を表示させる制御を行う機能部である。表示制御部110は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The display control unit 110 is a functional unit that performs control to display various images on the
音声出力制御部111は、音声出力部118に各種音声を出力させる制御を行う機能部である。音声出力制御部111は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The audio
入力部112は、音声を入力する機能部である。入力部112は、例えば、図2に示すマイクアレイ212によって実現される。
The
記憶部113は、情報処理装置10の動作を実現する各種プログラム、映像データ、音声データ、および配置特定部102によって特定された配置パターン等の情報を記憶する機能部である。記憶部113は、例えば、図2に示すRAM203および補助記憶装置204によって実現される。
The storage unit 113 is a functional unit that stores various programs for realizing the operation of the
操作部114は、情報処理装置10の利用者(例えば、会議の参加者)の各種操作入力を受け付ける機能部である。操作部114は、例えば、図2に示す操作ボタン206および電源スイッチ207等によって実現される。なお、操作部114は、図2に示す操作ボタン206および電源スイッチ207に限定されるものではなく、マウス、キーボード、またはタッチパネル等によって実現されるものとしてもよい。 The operation unit 114 is a functional unit that receives various operation inputs of a user of the information processing apparatus 10 (for example, a conference participant). The operation unit 114 is realized by, for example, the operation button 206 and the power switch 207 shown in FIG. Note that the operation unit 114 is not limited to the operation button 206 and the power switch 207 illustrated in FIG. 2, and may be realized by a mouse, a keyboard, a touch panel, or the like.
通信部115は、ネットワーク2を介して、他の情報処理装置10、および会議サーバ20とデータ通信をする機能部である。通信部115は、例えば、図2に示すネットワークI/F208によって実現される。
The communication unit 115 is a functional unit that performs data communication with the other
撮像部116は、360度全方向のパノラマ画像またはパノラマ映像を撮像する機能部である。撮像部116は、例えば、図2に示すパノラマカメラ210によって実現される。
The
表示部117は、表示制御部110の制御に従って、各種画像を表示する機能部である。表示部117は、例えば、図2に示す表示装置215によって実現される。
The
音声出力部118は、音声出力制御部111の制御に従って、各種音声を出力する機能部である。音声出力部118は、例えば、図2に示すスピーカ213によって実現される。
The sound output unit 118 is a functional unit that outputs various sounds according to the control of the sound
なお、図4に示す情報処理装置10の認識部101、配置特定部102、切出部103、方向特定部104、管理部105、指定部106、送信部107、受信部108、撮像制御部109、表示制御部110、音声出力制御部111、入力部112、記憶部113、操作部114、通信部115、撮像部116、表示部117および音声出力部118は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示す情報処理装置10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示す情報処理装置10で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
Note that the recognition unit 101, the arrangement specifying unit 102, the cutout unit 103, the direction specifying unit 104, the management unit 105, the specifying
また、情報処理装置10の認識部101、配置特定部102、切出部103、方向特定部104、管理部105、指定部106、送信部107、受信部108、撮像制御部109、表示制御部110および音声出力制御部111の一部または全部は、ソフトウェアであるプログラムではなく、FPGA(Field−Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア回路によって実現されてもよい。
Also, the recognition unit 101, the arrangement specifying unit 102, the cutout unit 103, the direction specifying unit 104, the management unit 105, the specifying
(モード決定処理)
図6は、実施の形態に係る情報処理装置のモード決定処理の流れの一例を示すフローチャートである。図7は、各モードでの映像表示の概要を説明する図である。図6および7を参照しながら、本実施の形態に係る情報処理装置10のモード決定処理の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置10と、相手拠点の情報処理装置10との2拠点間でのビデオ会議を想定して説明する。
(Mode decision processing)
FIG. 6 is a flowchart illustrating an example of a flow of mode determination processing of the information processing apparatus according to the embodiment. FIG. 7 is a diagram illustrating an overview of video display in each mode. The flow of the mode determination process of the
<ステップS11>
まず、会議に参加しようとする参加者は、情報処理装置10の操作部114を操作して、情報処理装置10の電源をON状態にし、撮像部116によって周囲の画像(パノラマ画像)を撮像するための操作入力を行う。撮像制御部109は、操作部114からパノラマ画像を撮像するための操作情報を受け取ると、撮像部116にパノラマ画像を撮像させる。そして、ステップS12へ移行する。
<Step S11>
First, a participant who wants to participate in the conference operates the operation unit 114 of the
<ステップS12>
認識部101は、撮像部116により撮像された画像に含まれる1以上の参加者の顔の部分を顔画像として認識(顔認識)する。そして、ステップS13へ移行する。
<Step S12>
The recognition unit 101 recognizes (face recognition) a face part of one or more participants included in the image captured by the
<ステップS13>
配置特定部102は、撮像部116によって撮像されたパノラマ画像において、認識部101により顔認識された参加者の位置を特定し、会議に参加する参加者の会議室における参加者の配置パターンを特定する。配置特定部102は、特定した配置パターンの情報を、記憶部113に記憶させる。そして、ステップS14へ移行する。
<Step S13>
The arrangement specifying unit 102 specifies the position of the participant whose face is recognized by the recognition unit 101 in the panoramic image captured by the
<ステップS14>
管理部105は、認識部101によりパノラマ画像から顔認識された回数をカウントすることによって、会議の参加者の人数を把握する。会議の参加者の人数が1人である場合(ステップS14:1人)、ステップS15へ移行し、参加者の人数が2人である場合(ステップS14:2人)、ステップS16へ移行し、参加者の人数が3人以上である場合(ステップS14:3人以上)、ステップS17へ移行する。
<Step S14>
The management unit 105 grasps the number of participants in the conference by counting the number of times the recognition unit 101 has recognized the face from the panoramic image. When the number of participants in the conference is 1 (step S14: 1), the process proceeds to step S15. When the number of participants is 2 (step S14: 2), the process proceeds to step S16. When the number of participants is 3 or more (step S14: 3 or more), the process proceeds to step S17.
<ステップS15>
管理部105は、会議の参加者の人数が1人であると判定した場合、情報処理装置10の動作モードを1画面固定モード(第1動作モード)に切り替える。そして、情報処理装置10は、モード決定処理を終了する。
<Step S15>
When determining that the number of participants in the conference is one, the management unit 105 switches the operation mode of the
自拠点の情報処理装置10は、1画面固定モードで動作する場合、自拠点での会議の参加者は1人なので、相手拠点の情報処理装置10に対して、自拠点の1人の参加者の映像データおよび音声データを送信する。
When the
具体的には、まず、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、1画面固定モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。
Specifically, first, the
自拠点の情報処理装置10の切出部103は、撮像部116により撮像されたパノラマ映像から、認識部101により顔認識された1人の参加者の映像領域を切り出す。自拠点の情報処理装置10の送信部107は、切出部103により切り出された映像領域の映像データ、および、入力部112により入力された音声データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。
The cutout unit 103 of the
そして、相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。相手拠点の情報処理装置10は、自拠点の情報処理装置10が1画面固定モードで動作していることを認識しているので、相手拠点の情報処理装置10の表示制御部110は、図7(a)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300(特定の表示領域)を図7(b)および(c)のように分割しない。そして、相手拠点の情報処理装置10の表示制御部110は、受信した映像データ(自拠点の情報処理装置10の切出部103により切り出された自拠点の1人の参加者(図7(a)の例では参加者X)を含む映像領域の映像データ)を、図7(a)に示すように、表示領域300に表示させる。また、相手拠点の情報処理装置10の音声出力制御部111は、受信した音声データを音声出力部118に音声として出力させる。
When the receiving
<ステップS16>
管理部105は、会議の参加者の人数が2人であると判定した場合、情報処理装置10の動作モードを2画面固定モード(第2動作モード)に切り替える。そして、情報処理装置10は、モード決定処理を終了する。
<Step S16>
When the management unit 105 determines that the number of participants in the conference is two, the management unit 105 switches the operation mode of the
具体的には、まず、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面固定モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。
Specifically, first, the
自拠点の情報処理装置10の切出部103は、撮像部116により撮像されたパノラマ映像から、認識部101により顔認識された2人の参加者それぞれの映像領域を切り出す。自拠点の情報処理装置10の送信部107は、切出部103により切り出された映像領域の映像データ、および、入力部112により入力された音声データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。
The cutout unit 103 of the
そして、相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。相手拠点の情報処理装置10は、自拠点の情報処理装置10が2画面固定モードで動作していることを認識しているので、相手拠点の情報処理装置10の表示制御部110は、図7(b)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を2分割して、分割領域300aおよび分割領域300bを生成する。そして、相手拠点の情報処理装置10の表示制御部110は、受信した自拠点の2人の映像データ(自拠点の情報処理装置10の切出部103により切り出された自拠点の2人の参加者(図7(b)の例では参加者X、Y)をそれぞれ含む映像領域の映像データ)を、図7(b)に示すように、分割領域300a、300bにそれぞれ表示させる。また、相手拠点の情報処理装置10の音声出力制御部111は、受信した音声データを音声出力部118に音声として出力させる。
When the receiving
<ステップS17>
管理部105は、会議の参加者の人数が3人以上であると判定した場合、情報処理装置10の動作モードを2画面切替モード(第3動作モード)に切り替える。そして、情報処理装置10は、モード決定処理を終了する。
<Step S17>
When the management unit 105 determines that the number of participants in the conference is three or more, the management unit 105 switches the operation mode of the
1画面固定モードおよび2画面固定モードと同様に、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面切替モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。2画面切替モードでの映像切り出し動作の詳細については、図8〜10で後述する。なお、図7(c)の例では、相手拠点の情報処理装置10の表示部117(表示装置215)の表示画面215aにおける表示領域300が、分割領域300a、300bに2分割され、分割領域300aに参加者Xが表示され、分割領域300bに自拠点の参加者全体(参加者V〜Z)が表示されている状態を示している。
Similar to the one-screen fixed mode and the two-screen fixed mode, the
以上のステップS11〜S17の動作によって、情報処理装置10によりモード決定処理が実行される。
The mode determination process is executed by the
なお、図6に示すモード決定処理は、会議中において、所定時間ごとに、または、所定の条件を充足した場合に再実行するものとしてもよい。所定の条件を充足した場合とは、例えば、撮像部116により撮像されているパノラマ映像において、認識部101が顔認識した参加者の位置が移動した場合、前回に認識部101により顔認識した利用者がいなくなった場合、または、前回に認識部101により顔認識した参加者以外の参加者が顔認識された場合等が挙げられる。
Note that the mode determination process shown in FIG. 6 may be re-executed every predetermined time or when a predetermined condition is satisfied during the conference. For example, when the position of the participant whose face is recognized by the recognition unit 101 is moved in the panoramic image captured by the
また、図6に示すモード決定処理においては、参加者の人数が2人以上である場合は、2画面固定モードまたは2画面切替モードに切り替え、相手拠点の情報処理装置10の表示制御部110は、図7(b)または図7(c)に示すように、表示部117の表示画面215aにおける表示領域300を2分割して、分割領域300aおよび分割領域300bを生成するものとしているが、これに限定されるものではない。すなわち、参加者の人数が2人以上である場合でも、表示領域300を分割せずに1画面として処理するものとしてもよい。
In the mode determination process shown in FIG. 6, when the number of participants is two or more, the display control unit 110 of the
(2画面切替モードでの映像切り出し動作)
図8は、実施の形態に係る情報処理装置の2画面切替モードにおける映像切り出し動作の流れの一例を示すフローチャートである。図9は、実施の形態に係る情報処理装置の2画面切替モードにおける画面遷移の例を示す図である。図10は、ビデオ会議の参加者の全体の映像を切り出す切出範囲の例を説明する図である。図8〜10を参照しながら、本実施の形態に係る情報処理装置10の2画面切替モードでの映像切り出し動作の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置10と、相手拠点の情報処理装置10との2拠点間でのビデオ会議を想定して説明する。
(Video clipping operation in two-screen switching mode)
FIG. 8 is a flowchart illustrating an example of the flow of a video cut-out operation in the two-screen switching mode of the information processing apparatus according to the embodiment. FIG. 9 is a diagram illustrating an example of screen transition in the two-screen switching mode of the information processing apparatus according to the embodiment. FIG. 10 is a diagram for explaining an example of a cut-out range for cutting out the entire video of the participant in the video conference. With reference to FIGS. 8 to 10, the flow of the video cut-out operation in the two-screen switching mode of the
<ステップS31>
上述のように、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面切替モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。相手拠点の情報処理装置10は、自拠点の情報処理装置10が2画面切替モードで動作していることを認識しているので、相手拠点の情報処理装置10の表示制御部110は、図7(c)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を2分割して、分割領域300aおよび分割領域300bを生成する。そして、自拠点の情報処理装置10の入力部112は、音声の入力の受け付けを開始する。そして、ステップS32へ移行する。
<Step S31>
As described above, the
<ステップS32>
入力部112により音声が入力された場合(ステップS32:Yes)、ステップS33へ移行し、入力部112により音声が入力されない場合、すなわち、相手拠点の参加者が発話している場合(ステップS32:No)、ステップS38へ移行する。ここで、相手拠点が発話している場合とは、例えば、受信部108によって、相手拠点の情報処理装置10から発話者の映像データおよび音声データが受信された場合である。
<Step S32>
When the voice is input by the input unit 112 (step S32: Yes), the process proceeds to step S33, and when the voice is not input by the
<ステップS33>
自拠点の情報処理装置10の方向特定部104は、3人以上の参加者のうちいずれかが発話することにより入力部112に入力された音声の方向を特定する。そして、ステップS34へ移行する。
<Step S33>
The direction specifying unit 104 of the
<ステップS34>
自拠点の情報処理装置10の切出部103は、配置特定部102により特定された配置パターンが示す参加者の方向のうち、方向特定部104により特定された音声の方向に最も近い方向の参加者を、発話している参加者(現在の発話者)と判断し、撮像部116により撮像されるパノラマ映像からその参加者を含む映像領域(第1映像)を切り出す。また、切出部103は、ステップS33で発話している参加者の前に発話していた参加者(前回の発話者)(第2音源)を含む映像領域の切り出しを継続する。そして、ステップS35へ移行する。なお、切出部103は、配置特定部102により特定された配置パターンが示す参加者の方向のうち、方向特定部104により特定された音声の方向に最も近い方向の参加者の映像領域を切り出すものとしているが、これに限定されるものではない。すなわち、切出部103は、配置パターンを使用せずに、方向特定部104により特定された音声の方向に対応する映像領域をパノラマ画像から直接切り出すものとしてもよい。
<Step S34>
The cut-out unit 103 of the
<ステップS35>
自拠点の情報処理装置10の送信部107は、切出部103により切り出された現在の発話者および前回の発話者それぞれの映像領域の映像データ、および、入力部112により入力された現在の発話者の音声データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。また、自拠点の情報処理装置10の指定部106は、切出部103によって切り出された現在の発話者および前回の発話者それぞれの映像領域の映像データを、相手拠点の分割領域300a、300bのいずれに表示させるかを指定する指定情報を生成し、送信部107は、当該映像データと共に、この指定情報を相手拠点の情報処理装置10に送信する。そして、ステップS36へ移行する。
<Step S35>
The transmission unit 107 of the
<ステップS36>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。そして、ステップS37へ移行する。
<Step S36>
When receiving the video data and the audio data from the
<ステップS37>
相手拠点の情報処理装置10の表示制御部110は、受信した前回の発話者の映像領域の映像データを、受信した指定情報の指定に従って、分割領域300a、300bのうち元々表示していた分割領域に継続して表示させる。また、表示制御部110は、受信した指定情報の指定に従って、もう一方の分割領域に、受信した現在の発話者の映像領域の映像データを切り替えて表示させる。また、相手拠点の情報処理装置10の音声出力制御部111は、受信した音声データを音声出力部118に音声として出力させる。そして、ステップS42へ移行する。
<Step S37>
The display control unit 110 of the
<ステップS38>
自拠点の情報処理装置10の切出部103は、撮像部116により撮像されるパノラマ映像から、配置特定部102により特定された配置パターンを用いて自拠点の参加者全体を含む映像領域(第2映像の一例)を切り出す。例えば、図10(a)に示すように、情報処理装置10が載置された机40を囲んで、机40の紙面視上側に2人の参加者が位置し、紙面視下側に1人の参加者が位置している場合を考える。この場合、切出部103は、3人の参加者全員を含む範囲であり、かつ、机40の紙面視上側に位置している2人のうち左側の参加者、および紙面視下側に位置している参加者を端とする最小の範囲である切出範囲400aの映像領域を、パノラマ映像から切り出す。
<Step S38>
The cutout unit 103 of the
また、図10(b)に示すように、情報処理装置10が載置された机40を囲んで、机40の紙面視上側に2人の参加者が位置し、紙面視右側に1人の参加者が位置している場合を考える。この場合、切出部103は、3人の参加者全員を含む範囲であり、かつ、机40の紙面視上側に位置している2人のうち左側の参加者、および紙面視右側に位置している参加者を端とする最小の範囲である切出範囲400bの映像領域を、パノラマ映像から切り出す。
Further, as shown in FIG. 10B, two participants are located on the upper side of the
なお、切出部103は、パノラマ映像から、配置パターンを用いて自拠点の参加者全体を含む映像領域を切り出すものとしたが、これに限定されるものではない。例えば、切出部103は、配置パターンを用いずに、前に発話していた参加者のみを切り出した映像領域よりも広い範囲の映像領域を切り出すものとしてもよく、または、パノラマ映像全体を送信部107に送るものとしてもよい。ただし、切出部103は、配置パターンを用いた場合、自拠点の参加者の位置を把握できるので、参加者全体を含む映像領域を切り出すことができるという利点がある。 Note that the cutout unit 103 cuts out a video area including all participants at the local site from the panoramic video using the arrangement pattern, but the present invention is not limited to this. For example, the cutout unit 103 may cut out a video area wider than the video area in which only the participant who has spoken before is cut out without using the arrangement pattern, or transmits the entire panoramic video. It may be sent to the unit 107. However, when the arrangement pattern is used, the cutout unit 103 can grasp the positions of the participants at its own base, and thus has an advantage that it can cut out the video area including the entire participants.
また、切出部103は、前に発話していた参加者(前回の発話者)(第1音源)を含む映像領域の切り出しを継続する。そして、ステップS39へ移行する。 In addition, the cutout unit 103 continues to cut out the video area including the participant who spoke before (the previous speaker) (first sound source). Then, the process proceeds to step S39.
<ステップS39>
自拠点の情報処理装置10の送信部107は、切出部103により切り出された参加者全員および前回の発話者それぞれの映像領域の映像データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。また、自拠点の情報処理装置10の指定部106は、切出部103によって切り出された参加者全員および前回の発話者それぞれの映像領域の映像データを、相手拠点の分割領域300a、300bのいずれに表示させるかを指定する指定情報を生成し、送信部107は、当該映像データと共に、この指定情報を相手拠点の情報処理装置10に送信する。そして、ステップS40へ移行する。
<Step S39>
The transmission unit 107 of the
<ステップS40>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送る。そして、ステップS41へ移行する。
<Step S40>
When the
<ステップS41>
相手拠点の情報処理装置10の表示制御部110は、受信した前回の発話者の映像領域の映像データを、受信した指定情報の指定に従って、分割領域300a、300bのうち元々表示していた分割領域に継続して表示させる。また、表示制御部110は、受信した指定情報の指定に従って、もう一方の分割領域に、受信した参加者全体の映像領域の映像データを切り替えて表示させる。そして、ステップS42へ移行する。
<Step S41>
The display control unit 110 of the
<ステップS42>
自拠点の情報処理装置10は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置10は、利用者が操作部114から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合(ステップS42:Yes)、映像切り出し動作を終了し、ビデオ会議が終了していない場合(ステップS42:No)、ステップS32へ戻る。
<Step S42>
The
以上のステップS31〜S42の動作によって、情報処理装置10により2画面切替モードでの映像切り出し動作が実行される。
Through the operations in steps S31 to S42 described above, the
なお、上述の2画面切替モードでの動作においては、切出部103により切り出された映像領域の映像データを、相手拠点の表示部117のどの表示領域(例えば、分割領域300a、300b)に表示させるかを指定するために、映像データの送信側である自拠点の情報処理装置10の指定部106が指定情報を生成するものとしているが、これに限定されるものではない。例えば、映像データを受信した受信側である相手拠点の情報処理装置10が、受信した映像データを、表示部117のどの表示領域に表示させるのかを決定するものとしてもよい。
In the above-described operation in the two-screen switching mode, the video data of the video area cut out by the cutout unit 103 is displayed in which display area (for example, the divided
次に、図9を参照しながら、2画面切替モードにおいて、相手拠点の表示部117(表示装置215)の表示領域300(以下、図9の説明では単に「表示領域300」という)における画面遷移の具体例を説明する。
Next, referring to FIG. 9, in the two-screen switching mode, the screen transition in the display area 300 (hereinafter simply referred to as “
図9の(1)は、表示領域300の初期状態の表示例を示している。表示制御部110は、例えば、表示領域300の分割領域300aに自拠点の任意の参加者の映像を表示させ、表示領域300の分割領域300bに自拠点の参加者全体の映像を表示させている。
(1) of FIG. 9 shows a display example of the initial state of the
図9の(2)は、(1)の状態から自拠点の参加者Xが発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bの自拠点の参加者全体の映像の表示はそのままとし、分割領域300aで自拠点で発話している参加者Xの映像(第1映像の一例)に切り替えて表示させる。
(2) of FIG. 9 shows a display example of the
図9の(3)は、(2)の状態から自拠点の参加者Xとは異なる参加者Yが発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300aに前回の発話者である参加者Xの映像を継続して表示させ、分割領域300bで自拠点で現在発話している参加者Yの映像(第1映像の一例)に切り替えて表示させる。
(3) of FIG. 9 shows a display example of the
図9の(4)は、(3)の状態から自拠点の参加者Xが再び発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bに前回の発話者である参加者Yの映像を継続して表示させ、分割領域300aで自拠点で現在発話している参加者Xの映像(第1映像の一例)に切り替えて表示させる。ただし、図9の(3)では、分割領域300aに元々参加者Xの映像が表示されていたので、分割領域300aで表示される映像は実質的に変化がないことになる。
(4) of FIG. 9 shows a display example of the
図9の(5)は、(3)の状態から自拠点の参加者X、Yとは異なる参加者Zが発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bに前回の発話者である参加者Yの映像を継続して表示させ、分割領域300aで自拠点で現在発話している参加者Zの映像(第1映像の一例)に切り替えて表示させる。
(5) of FIG. 9 shows a display example of the
図9の(6)は、(3)の状態から相手拠点の参加者が発話したことによって自拠点の参加者が発話しなくなった場合等の表示領域300の表示例を示している。表示制御部110は、分割領域300bに前回の発話者である参加者Yの映像を継続して表示させ、分割領域300aで自拠点の参加者全体の映像(第2映像の一例)に切り替えて表示させる。
(6) of FIG. 9 shows a display example of the
以上のように、他拠点の参加者が発話している場合に、自拠点の情報処理装置10の切出部103は、パノラマ映像から、自拠点の参加者全体を含む映像領域を切り出し、かつ、前に発話していた参加者(前回の発話者)を含む映像領域の切り出しを継続し、相手拠点の2分割された表示装置215の表示領域300にそれぞれ表示させるものとしている。これによって、相手拠点の参加者が発話している場合等に、相手拠点の参加者は、自拠点の全体の雰囲気を知ることができる。また、相手拠点の参加者が発話している場合等では、2分割された表示領域300の一方の分割領域に自拠点の前回の発話者を表示させているので、相手拠点の発話者は、自拠点で最後に発話した参加者が自分の発話についてどのような表情で聞いているのかを読み取ることができる。
As described above, when a participant at another site speaks, the cutout unit 103 of the
また、自拠点の情報処理装置10の入力部112に音声が入力されている場合(自拠点の参加者が発話している場合)、相手拠点の2分割された表示装置215の表示領域300に自拠点の現在の発話者および前回の発話者それぞれを表示させるものとしている。これによって、画面遷移の範囲を最小限に抑えることができる。また、相手拠点の参加者は、自拠点の発話者の分割領域の画像を注視しているため、自拠点の別の参加者が新たに発話しても、注視していない方の分割領域の画像が切り替わるので、画面遷移によって感じるストレスを軽減することができる。
Further, when voice is input to the
また、自拠点の参加者が1人の場合は、相手拠点の表示装置215の表示領域300は分割させずにその参加者を固定で表示させ、自拠点の参加者が2人の場合は、相手拠点の表示装置215の表示領域300を2分割して、その2人の参加者をそれぞれ固定で表示させるものとしている。この場合、画面遷移は生じないので、画面遷移によるストレスを軽減することができる。
In addition, when the number of participants at the local site is one, the
なお、撮像部116は、パノラマカメラ210によって実現されるものとし、パノラマ画像またはパノラマ映像を撮像するものとしたが、必ずしもこれに限定されるものではない。すなわち、撮像する範囲が360度全方向である必要がない等の場合、パノラマカメラを利用する必要はなく、例えば、必要な撮像範囲を網羅する画角を有する撮像装置(カメラ)であってもよい。この場合、撮像装置が撮像可能な画角の範囲で、映像の切り出しを行うものとすればよい。
In addition, although the
また、自拠点の情報処理装置10の入力部112に音声が入力されない場合(発話者がいない場合)、すなわち、相手拠点の参加者が発話している場合、自拠点の情報処理装置10の切出部103は、パノラマ映像から、自拠点の参加者全体を含む映像領域を切り出すものとしたが、これに限定されるものではない。すなわち、相手拠点の参加者が発話している場合等に、相手拠点の参加者は、自拠点の雰囲気を知るということを満たす範囲で、自拠点の参加者全体ではなく、少なくとも1以上の参加者を含む映像領域を切り出すものとしてもよい。また、切出部103は、例えば、特定の参加者のみを切り出した映像領域よりも広い範囲の映像領域を切り出すものとしてもよく、または、パノラマ映像全体を送信部107に送るものとしてもよい。
In addition, when no sound is input to the
(変形例)
本変形例に係る会議システム1の動作について、上述の実施の形態に係る会議システム1の動作と相違する点を中心に説明する。上述の実施の形態では、2拠点間でのビデオ会議を想定した映像切り出し動作を説明したが、本変形例では3拠点以上の間でビデオ会議が行われる場合の動作について説明する。
(Modification)
The operation of the
図11は、3拠点以上の間でビデオ会議を行う場合の映像表示の例を示す図である。図11を参照しながら、3拠点以上の間でビデオ会議を行う場合の映像切り出し動作について説明する。 FIG. 11 is a diagram illustrating an example of video display when a video conference is performed between three or more locations. With reference to FIG. 11, a video cutout operation when a video conference is performed between three or more sites will be described.
まず、各拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。これによって、各拠点の情報処理装置10は、互いの動作モードを認識できると共に、参加する拠点数も認識できる。図11に示す例では、4つの拠点間でビデオ会議が行われている場合の自拠点(拠点A)の表示画面215aの表示状態を示している。4つの拠点間でビデオ会議を行う場合、自拠点の表示画面215aは、図11に示すように、他拠点である拠点B〜Dそれぞれに対応する表示領域を表示させる。図11に示すように、表示画面215aに表示させる表示領域として、拠点Bに対応するものを表示領域301(特定の表示領域)、拠点Cに対応するものを表示領域302(特定の表示領域)、そして、拠点Dに対応するものを表示領域303(特定の表示領域)としている。
First, the
図11の例では、自拠点(拠点A)の情報処理装置10が、拠点Bの情報処理装置10から2画面固定モードで動作することを示す情報を受信し、拠点Cの情報処理装置10から2画面切替モードで動作することを示す情報を受信し、拠点Dの情報処理装置10から2画面切替モードで動作することを示す情報を受信したものとする。そして、自拠点の情報処理装置10の表示制御部110は、表示部117(表示装置215)の表示画面215aにおいて、表示領域301を2分割して分割領域301a、301bを生成し、表示領域302を2分割して分割領域302a、302bを生成し、表示領域303を2分割して分割領域303a、303bを生成する。3拠点以上の間でビデオ会議が行われる場合でも、各2拠点間における映像切り出し動作は、上述の図8〜10で説明した動作と同様である。
In the example of FIG. 11, the
図11の例では、自拠点(拠点A)の参加者が発話している場合の状態を示している。すなわち、拠点Bの情報処理装置10は、2画面固定モードで動作しているので、拠点Bの参加者は2人であり、分割領域301a、301bには、2人の参加者の映像をそれぞれ固定で表示させている。また、拠点Cの情報処理装置10は、2画面切替モードで動作しているので、拠点Cの参加者は3人以上であり、分割領域302aには拠点Cの前回の発話者の映像を表示させ、分割領域302bには拠点Cの参加者全体の映像を表示させている。そして、拠点Dの情報処理装置10は、2画面切替モードで動作しているので、拠点Dの参加者は3人以上であり、分割領域303aには拠点Dの参加者全体の映像を表示させ、表示領域303bには拠点Dの前回の発話者の映像を表示させている。
In the example of FIG. 11, a state in which a participant at the base (base A) is speaking is shown. That is, since the
以上のように、3拠点以上の間でビデオ会議が行われる場合、各2拠点間における映像切り出し動作は、上述の図8〜10で説明した動作を適用して実現させることができる。これによって、各拠点との間で上述の実施の形態と同様の効果を得ることができる。 As described above, when a video conference is performed between three or more sites, the video cut-out operation between each of the two sites can be realized by applying the operations described above with reference to FIGS. As a result, the same effects as those of the above-described embodiment can be obtained with each base.
なお、上述の実施の形態および変形例において、情報処理装置10の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施の形態および変形例に係る情報処理装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk−Recordable)、またはDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記憶して提供するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置10で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置10で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPU201が上述の記憶装置(例えば、ROM202および補助記憶装置204等)からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置(例えば、RAM203)上にロードされて生成されるようになっている。
In the above-described embodiment and modification, when at least one of the functional units of the
1 会議システム
2 ネットワーク
10、10a、10b 情報処理装置
20 会議サーバ
40 机
50 ホワイトボード
60a〜60e 参加者
61a〜61d 参加者
101 認識部
102 配置特定部
103 切出部
104 方向特定部
105 管理部
106 指定部
107 送信部
108 受信部
109 撮像制御部
110 表示制御部
111 音声出力制御部
112 入力部
113 記憶部
114 操作部
115 通信部
116 撮像部
117 表示部
118 音声出力部
201 CPU
202 ROM
203 RAM
204 補助記憶装置
205 メディアドライブ
205a 記録メディア
206 操作ボタン
207 電源スイッチ
208 ネットワークI/F
209 撮像素子I/F
210 パノラマカメラ
211 音声I/F
212 マイクアレイ
212a〜212f マイク
213 スピーカ
214 出力I/F
214a ケーブル
215 表示装置
215a 表示画面
216 外部機器I/F
217 バス
300〜303 表示領域
300a、300b 分割領域
301a、301b 分割領域
302a、302b 分割領域
303a、303b 分割領域
400a、400b 切出範囲
P1〜P7 領域
DESCRIPTION OF
202 ROM
203 RAM
204 Auxiliary storage device 205
209 Image sensor I / F
210 Panorama Camera 211 Audio I / F
212
217 Bus 300-303
Claims (11)
音源の音の入力を受け付ける入力部と、
前記音源の映像を撮像する撮像部と、
前記他の情報処理装置から映像および音を受信する受信部と、
前記入力部により音が入力されている場合、前記撮像部により撮像された映像から、該音を発した音源を含む映像領域を切り出して第1映像とし、前記受信部により前記他の情報処理装置から音が受信されている場合、前記撮像部により撮像された映像から、少なくとも前記第1映像よりも広い範囲の映像領域を切り出して第2映像とする切出部と、
前記第1映像および前記第2映像のうち少なくともいずれかを前記他の情報処理装置に送信する送信部と、
を備えた情報処理装置。 An information processing device that communicates video and sound with other information processing devices,
An input unit for receiving sound source sound input;
An imaging unit that captures an image of the sound source;
A receiver for receiving video and sound from the other information processing apparatus;
When sound is input from the input unit, a video region including a sound source that emits the sound is cut out from the video captured by the imaging unit to be a first video, and the other information processing apparatus is configured by the reception unit. When a sound is received from, a cutout unit that cuts out a video area in a range wider than at least the first video from the video taken by the imaging unit,
A transmission unit that transmits at least one of the first video and the second video to the other information processing apparatus;
An information processing apparatus comprising:
前記送信部は、前記第1映像および前記第2映像の少なくともいずれかを送信する場合に、前記指定情報も送信する請求項1に記載の情報処理装置。 A designation unit for generating designation information for designating which display area in each of the other information processing apparatuses displays the first video and the second video cut out by the cutout unit;
The information processing apparatus according to claim 1, wherein the transmission unit also transmits the designation information when transmitting at least one of the first video and the second video.
前記切出部は、前記受信部により前記他の情報処理装置から音が受信されている場合、前記第1特定部により特定された、前記受信部により前記他の情報処理装置から音が受信される直前に前記入力部により入力されていた音の方向に対応する第1音源を含む映像領域を切り出し、
前記指定部は、前記切出部により切り出された前記第1音源を含む映像領域を、前記他の情報処理装置における前記第2映像が表示されている表示領域以外の表示領域に表示させることを指定する指定情報を生成し、
前記送信部は、前記第1音源を含む映像領域を、該指定情報と共に前記他の情報処理装置に送信する請求項2に記載の情報処理装置。 A first specifying unit that specifies a direction of sound input from the input unit;
When the sound is received from the other information processing device by the receiving unit, the cutting unit receives the sound from the other information processing device specified by the first specifying unit, by the receiving unit. A video region including the first sound source corresponding to the direction of the sound input by the input unit immediately before
The designation unit displays the video region including the first sound source cut out by the cut-out unit in a display region other than the display region where the second video is displayed in the other information processing apparatus. Generate specification information to specify,
The information processing apparatus according to claim 2, wherein the transmission unit transmits a video region including the first sound source to the other information processing apparatus together with the designation information.
前記撮像部により撮像された前記映像において、前記認識部により認識された音源が前記情報処理装置に対してどの方向に配置されているかを示す配置パターンを特定する第2特定部と、
前記切出部は、前記受信部により前記他の情報処理装置から音が受信されている場合、前記配置パターンで配置の方向が特定されるすべての音源を含む映像領域を前記映像から前記第2映像として切り出す請求項1〜3のいずれか一項に記載の情報処理装置。 A recognition unit for recognizing a sound source from the video imaged by the imaging unit;
A second specifying unit that specifies an arrangement pattern indicating in which direction the sound source recognized by the recognition unit is arranged with respect to the information processing device in the video imaged by the imaging unit;
When the sound is received from the other information processing apparatus by the receiving unit, the clipping unit extracts a video region including all sound sources whose arrangement direction is specified by the arrangement pattern from the video. The information processing apparatus according to claim 1, which is cut out as an image.
前記第1特定部により特定された前記入力部に入力されている音の方向の音源を含む映像領域を前記映像から切り出し、
前記音源の前に音を発していた第2音源を含む映像領域を前記映像から切り出し、
前記指定部は、前記第2音源を含む映像領域の表示を継続させ、かつ、前記入力部に入力されている音の方向の音源を含む映像領域を表示させることを指定する指定情報を生成し、
前記送信部は、前記第2音源を含む映像領域、前記入力部に入力されている音の方向の音源を含む映像領域、および該指定情報を前記他の情報処理装置に送信する請求項3に記載の情報処理装置。 When the sound is input from the input unit,
A video region including a sound source in the direction of the sound input to the input unit specified by the first specifying unit is cut out from the video,
A video region including a second sound source that emits sound before the sound source is cut out from the video,
The designation unit generates designation information that designates that the video region including the second sound source is continuously displayed and the video region including the sound source in the direction of the sound input to the input unit is displayed. ,
The transmission unit transmits the video area including the second sound source, the video area including the sound source in the direction of the sound input to the input unit, and the designation information to the other information processing apparatus. The information processing apparatus described.
前記第1動作モードでは、
前記切出部は、1の音源を含む映像領域を前記映像から切り出し、
前記送信部は、該映像領域を前記他の情報処理装置に送信し、
前記第2動作モードでは、
前記切出部は、2の音源をそれぞれ含む映像領域を前記映像から切り出し、
前記送信部は、前記切出部により切り出された前記2の音源をそれぞれ含む映像領域を前記他の情報処理装置に送信する請求項4に記載の情報処理装置。 The number of sound sources recognized by the recognition unit is obtained. When the number of sound sources is 1, the information processing apparatus is switched to the first operation mode. When the number of sound sources is 2, the information processing apparatus is When the mode is switched to the operation mode and the number of sound sources is 3 or more, a switching unit for switching to the third mode of operation is further provided,
In the first operation mode,
The cutout unit cuts out a video area including one sound source from the video,
The transmission unit transmits the video area to the other information processing apparatus;
In the second operation mode,
The cutout unit cuts out a video area including two sound sources from the video,
The information processing apparatus according to claim 4, wherein the transmission unit transmits a video area including each of the two sound sources cut out by the cutout unit to the other information processing apparatus.
前記認識部は、前記撮像部により撮像された前記映像から音源を認識し、
前記切替部は、前記認識部により認識された音源の数を求め、音源の数に基づいて前記第1動作モード、前記第2動作モード、または前記第1動作モードおよび前記第2動作モード以外の動作モードに切り替える請求項6に記載の情報処理装置。 Every predetermined time
The recognizing unit recognizes a sound source from the video imaged by the imaging unit;
The switching unit obtains the number of sound sources recognized by the recognition unit, and based on the number of sound sources, the first operation mode, the second operation mode, or other than the first operation mode and the second operation mode The information processing apparatus according to claim 6, wherein the information processing apparatus is switched to an operation mode.
前記情報処理装置と、前記他の情報処理装置との間の通信制御を行うサーバ装置と、
を有する会議システム。 Information processing apparatus according to any one of claims 1 to 8,
A server device that performs communication control between the information processing device and the other information processing device;
Conference system.
音源の音の入力を受け付ける入力ステップと、
前記音源の映像を撮像する撮像ステップと、
前記他の情報処理装置から映像および音を受信する受信ステップと、
音を入力している場合、撮像した映像から、該音を発した音源を含む映像領域を切り出して第1映像とし、前記他の情報処理装置から音を受信している場合、撮像した映像から、少なくとも前記第1映像よりも広い範囲の映像領域を切り出して第2映像とする切出ステップと、
前記第1映像および前記第2映像のうち少なくともいずれかを前記他の情報処理装置に送信する送信ステップと、
を有する情報処理方法。 An information processing method in an information processing apparatus that communicates video and sound with another information processing apparatus,
An input step for receiving sound input from the sound source;
An imaging step of imaging the image of the sound source;
A receiving step of receiving video and sound from the other information processing apparatus;
When sound is input, a video area including a sound source that has emitted the sound is cut out from the captured video as the first video, and when sound is received from the other information processing apparatus, from the captured video A step of cutting out a video area in a wider range than at least the first video to form a second video;
A transmission step of transmitting at least one of the first video and the second video to the other information processing apparatus;
An information processing method comprising:
前記他の情報処理装置から映像および音を受信する受信ステップと、
音源の音の入力を受け付ける入力部により音が入力されている場合、前記音源の映像を撮像する撮像部により撮像された映像から、該音を発した音源を含む映像領域を切り出して第1映像とし、前記他の情報処理装置から音を受信している場合、前記撮像部により撮像された映像から、少なくとも前記第1映像よりも広い範囲の映像領域を切り出して第2映像とする切出ステップと、
前記第1映像および前記第2映像のうち少なくともいずれかを前記他の情報処理装置に送信する送信ステップと、
を実行させるためのプログラム。 To computers that communicate video and audio with other information processing devices,
A receiving step of receiving video and sound from the other information processing apparatus;
When sound is input from an input unit that receives input of sound from a sound source, a video region including the sound source that has emitted the sound is cut out from the image captured by the image capturing unit that captures the image of the sound source. And, in the case of receiving sound from the other information processing apparatus, a step of cutting out a video area in a range wider than at least the first video from the video captured by the imaging unit to be a second video When,
A transmission step of transmitting at least one of the first video and the second video to the other information processing apparatus;
A program for running
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015217985 | 2015-11-05 | ||
| JP2015217985 | 2015-11-05 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2017092950A true JP2017092950A (en) | 2017-05-25 |
Family
ID=58768644
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016201513A Pending JP2017092950A (en) | 2015-11-05 | 2016-10-13 | Information processing apparatus, conference system, information processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2017092950A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019133265A (en) * | 2018-01-29 | 2019-08-08 | 株式会社東芝 | Use reservation system, use reservation apparatus, use reservation method and program |
-
2016
- 2016-10-13 JP JP2016201513A patent/JP2017092950A/en active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019133265A (en) * | 2018-01-29 | 2019-08-08 | 株式会社東芝 | Use reservation system, use reservation apparatus, use reservation method and program |
| JP7002953B2 (en) | 2018-01-29 | 2022-01-20 | 株式会社東芝 | Usage reservation system, usage reservation device, usage reservation method and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9860486B2 (en) | Communication apparatus, communication method, and communication system | |
| EP2681909B1 (en) | Transmission management apparatus | |
| CN108293104B (en) | Information processing system, wireless terminal, and information processing method | |
| JP6551155B2 (en) | Communication system, communication apparatus, communication method and program | |
| US10079996B2 (en) | Communication system, communication device, and communication method | |
| US20100118112A1 (en) | Group table top videoconferencing device | |
| US10044782B2 (en) | Terminal device, data transmission method, and computer-readable recording medium | |
| JP7371726B2 (en) | Transmission management device | |
| JP2017059902A (en) | Information processing device, program, and image processing system | |
| CN103595953A (en) | Method and device for controlling video shooting | |
| JP2021016083A (en) | Communication system, information processing apparatus, communication method, and program | |
| US20170090843A1 (en) | Apparatus, system, and method of controlling display of image data, and recording medium | |
| JP6544209B2 (en) | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM | |
| JP2017103641A (en) | Information processing apparatus, conference system, information processing method, and program | |
| JP6149433B2 (en) | Video conference device, video conference device control method, and program | |
| JP4649640B2 (en) | Image processing method, image processing apparatus, and content creation system | |
| CN114531564A (en) | Processing method and electronic equipment | |
| JP6500366B2 (en) | Management device, terminal device, transmission system, transmission method and program | |
| JP2017092950A (en) | Information processing apparatus, conference system, information processing method, and program | |
| JP2017168903A (en) | Information processing apparatus, conference system, and control method for information processing apparatus | |
| JP6781318B2 (en) | Information processing system and wireless terminal | |
| JP2017152952A (en) | COMMUNICATION CONTROL DEVICE, CONFERENCE SYSTEM, AND PROGRAM | |
| JP6492460B2 (en) | Transmission terminal, transmission method, and program | |
| CN113507586A (en) | Intelligent conference system and information processing method for intelligent conference | |
| JP2023123119A (en) | Communication terminal and communication system |