JP2015142168A

JP2015142168A - 画像表示システム及び画像表示方法

Info

Publication number: JP2015142168A
Application number: JP2014012588A
Authority: JP
Inventors: 喜智大野; Yoshitomo Ono; 貴司折目; Takashi Orime
Original assignee: Daiwa House Industry Co Ltd
Current assignee: Daiwa House Industry Co Ltd
Priority date: 2014-01-27
Filing date: 2014-01-27
Publication date: 2015-08-03
Anticipated expiration: 2034-01-27
Also published as: JP6182464B2

Abstract

【課題】話者の画像を対話相手に対して表示する際に、より臨場感のある対話が実現されるように表示する。
【解決手段】話者画像を対話相手に対して表示する画像表示システムにおいて、話者側に設けられたデータ取得部３１が、話者を撮像した際の映像データを取得し、表示データ生成部４５が、話者映像から補正された話者画像を表示するための表示データを生成し、対話相手側に設けられた話者画像表示部４６が、表示データを展開することで話者画像を表示し、対話相手側に設けられた動作実行者検知部４４が、予め設定された条件を満たす動作を行った対話相手を動作実行者として検知する。そして、表示データ生成部４５は、動作実行者検知部４４が動作実行者を検知すると、その者が居る位置に話者の視線が向くように補正された話者画像を表示するための表示データを生成する。
【選択図】図５

Description

本発明は、話者の画像を対話相手に対して表示する画像表示システム及び画像表示方法に係り、特に、より臨場感のある対話を実現することが可能な画像表示システム及び画像表示方法に関する。

遠隔会議システム等、遠隔地にいる者同士が互いの映像を見ながら対話を行うための通信技術は、既に周知である。また、近年では、臨場感のある対話を実現するために、表示画面に表示させる対話者の画像中、当該対話者の視線を意図的に変化させる技術が開発されている（例えば、特許文献１参照）。

特許文献１に記載された画像表示システムでは、対話者同士が互いの映像を見ながら対話を行っている際、一方の対話者Ａがディスプレイにて他方の対話者Ｂの映像を見ているときの視線を検知し、その検知結果に基づき、対話者Ｂがディスプレイにて見ている対話者Ａの映像中、瞳の形状や位置を変化させて対話者Ａの映像を再構築することとしている。このような構成により、特許文献１に記載の画像表示システムでは、例えば対話者Ａが複数人の対話者Ｂを相手に対話するときに、そのうちの特定の対話者Ｂに視線を向けていることを各対話者Ｂに知覚させることが可能となる。

特開２０１２−７００８１号公報

ところで、対話者同士が互いの画像を見ながら行う対話に対しては、更なる臨場感の向上が求められている。かかる要求を満たすには、特許文献１に記載された画像表示システムのように対話者の映像中の視線を変化させる技術を応用し、あたかも対面しながら対話しているように感じさせることが可能なシステム及び方法の開発が必要となる。

そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、話者の画像を対話相手に対して表示する画像表示システム及び方法として、より臨場感のある対話を実現することが可能なシステム及び方法を提供することである。

前記課題は、本発明の画像表示システムによれば、話者の画像を対話相手に対して表示する画像表示システムであって、前記話者側に設けられ、前記話者を撮像した際の映像を示すデータを取得するデータ取得部と、前記映像から補正された前記画像を表示するための表示データを生成する表示データ生成部と、前記対話相手側に設けられ、前記表示データを展開することで前記画像を表示する画像表示部と、前記対話相手側に設けられ、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知する検知部と、を有し、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することにより解決される。

上述したように、本発明の画像表示システムでは、対話相手が所定の動作を行うと、検知部がこれを検知する。そして、当該検知動作に連動する形で、表示データ生成部が、上記動作を行った前記対話相手が居る位置に話者の視線が向くように補正された画像の表示データを生成する。これにより、対話相手側で話者の画像が表示されると、当該画像中の話者の視線が対話相手に向けられるようになる。このような視線の変化は、対話相手に対して、上記の動作に対して話者が反応したという錯覚をもたらし、この結果、対話相手は、あたかも話者と対面しながら対話していると感じることが可能となる。

また、上記の画像表示システムにおいて、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った対話相手が居る位置に前記話者の視線及び前記話者の顔が向くように補正された前記画像を表示するための前記表示データを生成するとよい。
上記の構成によれば、対話相手に対して表示された話者の画像中、話者の視線及び話者の顔が所定の動作を行った対話相手が居る位置に向けられることで、より一層臨場感のある対話を実現することが可能となる。すなわち、話者の視線のみならず、話者の顔も上記動作を行った対話相手に向けられることで、当該対話相手が話者と対面しながら対話しているように感じる度合い（対面性）が、より高まることとなる。

また、上記の画像表示システムにおいて、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知したときには、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行するとよい。
上記の構成によれば、所定の動作を行う対話相手を検知していない非検知期間には、対話相手に対して表示された話者の画像中、話者の視線が予め設定された位置に向くようになる。これにより、非検知期間における話者の視線を好適に設定することが可能となる。

特に、前記対話相手が複数存在する場合において、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないとき、前記表示データ生成部は、複数の前記対話相手のうち、前記話者の視線が向いている位置に居る前記対話相手が順次切り替わるように前記第二処理を繰り返し実行すると、好適である。
上記の構成によれば、非検知期間中、表示データ生成部が、話者の視線が向いている位置に居る対話相手が順次切り替わるように第二処理を繰り返し実行する。すなわち、対話相手に対して表示された話者の画像において、話者の視線は、その先に位置する対話相手が順次変化するような動きを示す。これにより、各対話相手は、あたかも話者が目配せしているように感じることが可能となり、以て、対話における画像表示の趣向性を向上させることが可能となる。

また、上記の画像表示システムにおいて、前記対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分を構成するとともに前記画像の表示画面を形成する表示画面形成部と、前記建物内に設けられ、前記対話相手が行う動作、前記対話相手が居る位置、前記対話相手の姿勢及び前記対話相手が発する音のうちの少なくとも一つを検知対象としたときに、予め設定された第二の条件を満たす前記検知対象を検知するセンサと、を更に有し、前記表示画面形成部は、前記センサが前記第二の条件を満たす前記検知対象を検知していない期間には前記表示画面を形成せずに前記一部分としての外観を現し、前記センサが前記第二の条件を満たす前記検知対象を検知している期間にのみ前記表示画面を形成するとよい。
上記の構成によれば、対話相手側でその者の動作、位置、姿勢及び音のうちの少なくとも一つを検知することをトリガーとして、画像の表示画面が形成されることになっている。そして、トリガーとなる検知対象の検知がない期間には表示画面が形成せず、その代わりに、対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分としての外観を現すようになる。これにより、表示画面を形成する表示画面形成部は、話者との対話が行われていない期間中には建築材料等として機能するようになり、建物内で目立ち難くなる。この結果、同期間中における表示画面形成部の存在が気付き難くなる。一方、上述したように、対話相手側で検知対象が検知されると、これをトリガーとして表示画面が形成されるので、表示画面形成に特段複雑な操作を要さなくなる。

また、前述の課題は、本発明の画像表示方法によれば、話者の画像を対話相手に対して表示する画像表示方法であって、前記話者側に設けられたデータ取得部が、前記話者を撮像した際の映像を示すデータを取得することと、表示データ生成部が、前記映像から補正された前記画像を表示するための表示データを生成することと、前記対話相手側に設けられた画像表示部が、前記表示データを展開することで前記画像を表示することと、前記対話相手側に設けられた検知部が、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知することと、を有し、前記検知部が前記動作を行った前記対話相手を検知すると、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することにより解決される。

本発明の画像表示システム及び画像表示方法によれば、対話相手が所定の動作を行うと、対話相手に対して表示される話者の画像が補正され、話者の視線が上記動作を行った対話相手が居る位置に向けられるようになる。これにより、より臨場感のある対話を実現することが可能となる。つまり、本発明によれば、互いに離れた場所にいる話者と対話相手がお互いの映像を見ながら対話をする場合、対話相手は、あたかも話者と対面しながら対話しているような視聴覚効果を得ることが可能となる。

話者の画像を対話相手側で表示している様子を示した図である。対話相手の画像を話者側で表示している様子を示した図である。本発明の一実施形態に係る画像表示システムを示した概念図である。本発明の一実施形態に係る画像表示システムの構成を示したブロック図である。図４の（Ａ）、（Ｂ）は、本発明の表示画面形成部の一例を示した図である。話者側サーバ及び相手側サーバの各々の構成を機能面から示した図である。本発明の第一処理の流れを示した図である。動作実行者位置の特定に関する説明図である。話者映像の分解に関する説明図である。視線編集に関する説明図である。補正後の話者画像を表示している様子を示した図である。顔向き編集に関する説明図である。再補正後の話者画像を表示している様子を示した図である。本発明の第二処理の流れを示した図である。図１４の（Ａ）、（Ｂ）及び（Ｃ）は、第二処理によって生成される表示データに基づいて話者画像を表示している様子を示した図である。本発明の一実施形態に係る画像表示システムが実行するデータ処理の流れを示した図である（その１）。本発明の一実施形態に係る画像表示システムが実行するデータ処理の流れを示した図である（その２）。話者画像を表示する際の手順を示した図である。

以下、本発明の一実施形態（以下、本実施形態）に係る画像表示システム及び画像表示方法について図面を参照しながら説明する。なお、説明を分かり易くするために、以下では、話者をＡさんとし、対話相手をＢさん、Ｃさん、Ｄさんとするケースを具体例に挙げて説明することとする。ここで、「話者」とは、自らの発意により対話（会話）を開始し、対話相手に対して話し掛ける者である。これに対して、「対話相手」とは、話者の話の聞き手であり話者の話に応答して対話を行う者である。

また、以下では、話者であるＡさんは、対話時に所定の建物内（例えば、Ａさんの自宅内）に居ることとし、対話相手であるＢさん、Ｃさん、Ｄさんは、Ａさんとは異なる場所（例えば、Ａさんの自宅とは異なる建物内）に居て、３人すべてが同じ場所に集まってＡさんと対話を行うケースを例に挙げて説明することとする。

＜＜本実施形態に係る画像表示システムの構成＞＞
本実施形態に係る画像表示システム（本システムＳ）は、話者であるＡさんと、対話相手であるＢさん、Ｃさん、Ｄさんとが互いの画像を見ながら対話を行うために利用される。すなわち、本システムＳを用いることにより、Ｂさん、Ｃさん及びＤさんは、図１Ａに示すようにＡさんの画像を見ながら対話することが可能である。同様に、Ａさんは、図１Ｂに示すようにＢさん、Ｃさん、Ｄさんの画像を見ながら対話することが可能である。ここで、図１Ａは、話者の画像を対話相手側で表示している様子を示した図であり、図１Ｂは、対話相手の画像を話者側で表示している様子を示した図である。

本実施形態において表示される話者及び対話相手それぞれの画像について図１Ａ及び図１Ｂを参照しながらより詳しく説明すると、話者であるＡさんの画像は、図１Ａに示すように、Ｂさん達が居る建物内に設置されたディスプレイに映し出され、Ａさんの全身像及びその周辺空間が表示されることになっている。同様に、対話相手であるＢさん、Ｃさん及びＤさんの画像は、Ａさんの自宅に設置されたディスプレイに映し出され、上記３人すべての全身像及びその周辺空間が表示されることになっている。

以上のように、話者と対話相手とは、互いに離れた場所にてお互いの全身像及びその周辺空間を見ながら対話をすることが可能となる。これにより、話者と対話相手の双方は、あたかも同じ室内に居るような感覚を感じながら対話することができるので、臨場感のある対話が実現されるようになる。なお、「全身像」とは、頭部から足に亘る身体全体の姿であり、起立状態であっても着座状態であってもよく、また、前方に配置された物によって一部が隠れている状態の姿を含む概念である。

そして、本システムＳでは、臨場感のある対話を実現するために、図２に示すように、Ａさん側及びＢさん達側にそれぞれ通信ユニット１、２を設けている。図２は、本システムＳの概念図である。通信ユニット１、２同士は、同図に示すように、インターネット等の通信回線３を通じてデータ通信可能となっている。なお、図２には不図示となっているが、一般的に、通信ユニット１、２の間には中継サーバ（プロキシサーバ）が介在している。つまり、各通信ユニット１、２間で送受信されるデータについては、通常、上記の中継サーバを経由することになる。

以下、通信ユニット１、２の構成について説明する。先ず、話者側（Ａさん側）に設けられた通信ユニット１について説明すると、図３に示すように、話者側に設けられたサーバコンピュータ（以下、話者側サーバ）１０Ａ及び視聴覚設備等によって構成されている。図３は、通信ユニット１、２を含む本システムＳの構成を示すブロック図である。視聴覚設備としては、集音装置２１、撮像装置２２、音声再生装置２４及びディスプレイ（厳密には後述のディスプレイ兼用ミラー２５）が備えられている。さらに、本実施形態に係る通信ユニット１は、ディスプレイ前に居る話者を検知するセンサとしての人感センサ２３を備えている。

話者側サーバ１０Ａは、通信ユニット１の中枢を担う装置であり、図３に示すようにＣＰＵ１１、ＲＯＭやＲＡＭからなるメモリ１２、ハードディスクドライブ１３（図３中、ＨＤＤと表記）、通信用インターフェース１４（図３中、通信用Ｉ／Ｆ）及びＩ／Ｏポート１５を有する。話者側サーバ１０Ａは、通信回線３に接続された外部機器（例えば、後述する相手側サーバ１０Ｂ）から送信されてくるデータを受信し、当該データをメモリ１２若しくはハードディスクドライブ１３に記憶する。また、メモリ１２には、話者であるＡさんがＢさん達と対話するにあたって実行される一連のデータ処理を規定したプログラム（以下、対話プログラム）が格納されている。この対話プログラムがＣＰＵ１１により読み出されて実行されることで、Ａさんの映像や音声がＢさん達側に送られ、また、Ｂさん達の画像や音声がＡさん側で表示／再生されることになる。

集音装置２１は、Ａさんが話す声や発する音を集音する装置であり、マイクロフォン等の公知の装置により構成される。この集音装置２１は、集音した音声を示す音声信号を出力し、当該音声信号は、話者側サーバ１０Ａに設けられたＩ／Ｏポート１５に入力される。

撮像装置２２は、Ａさんの姿及び周辺空間を撮像する装置であり、ビデオカメラ等の公知の装置により構成される。この、撮像装置２２は、撮像した映像を示す映像信号を出力し、当該映像信号は、話者側サーバ１０Ａに設けられたＩ／Ｏポート１５に入力される。

人感センサ２３は、その検知エリア内にヒトが存在していると、その者の位置を検知し、検知結果を示す信号を話者側サーバ１０Ａに向けて出力する。より具体的に説明すると、本実施形態に係る人感センサ２３は、その構造が公知となっており、ディスプレイ前方に話者（Ａさん）が居るときに、その者の位置を検知するものである。つまり、本実施形態に係る人感センサ２３は、ヒトが居る位置を検知対象とし、当該位置が予め設定された条件を満たしたときに、上記の検知対象を検知する。

なお、人感センサとしては、ヒトの位置を検知するものに限定されるものではなく、ヒトが行う動作、姿勢、ヒトが発する音のうちの少なくとも一つを検知対象とし、当該検知対象が予め設定された条件を満たしたとき、当該検知対象を検知するものであればよい。例えば、ヒトの足音や話し声に反応する音センサを用い、所定の音量以上となったときに、その音を検知することとしてもよい。このように音を検知対象とする構成については、例えば特開２０１３−７３５０５号公報や特開２００５−７８３４７号公報に記載された構成のように公知の構成を利用することが可能である。

音声再生装置２４は、音声を再生する装置であり、スピーカー等の公知の装置により構成される。この音声再生装置２４は、話者側サーバ１０Ａが対話相手の音声を示すデータを展開することで出力される再生命令を受け付ける。この結果、音声再生装置２４によって対話相手の音声が再生されるようになる。

ディスプレイは、Ｂさん達の画像（以下、相手画像）を表示する表示画面を形成する装置であり、表示画面形成部に相当する。このディスプレイは、話者側サーバ１０Ａが相手画像表示用のデータを展開することで出力される表示命令を受け付ける。この結果、ディスプレイ上の表示画面には、相手画像が表示されるようになる。

そして、本実施形態に係るディスプレイは、通常時にはＡさんが居る建物（自宅）内に配置された装飾品、具体的には姿見として機能し、対話が実行される時にのみ表示画面を形成するものとなっている。以下、図３及び図４を参照しながら、本実施形態に係るディスプレイについて説明する。図４は、本実施形態に係るディスプレイを示す図であり、同図の（Ａ）は、対話が行われていない非対話時の状態を、同図の（Ｂ）は、対話が行われている対話時の状態を、それぞれ示している。

本実施形態に係るディスプレイは、前述したように、Ａさんの自宅内に配置された姿見の一部分、具体的には鏡面部分を構成しており、図４の（Ａ）に示す通り、非対話時には表示画面を形成せずに鏡面部分としての外観を現している。一方、本実施形態に係るディスプレイは、対話時になると、図４の（Ｂ）に示すように、表示画面を形成し、当該表示画面には相手画像が表示されるようになる。

以上のように本実施形態に係るディスプレイは、ディスプレイ兼用ミラー２５により構成されており、表示画面の形成・消去が自在に切り替え可能となっている。より具体的に説明すると、ディスプレイ兼用ミラー２５は、図３に示すように、制御回路２６と発光部２７を内蔵している。そして、制御回路２６が、話者側サーバ１０Ａから出力される表示画面形成命令を受信し、当該命令に従って発光部２７を点灯させると、ディスプレイ兼用ミラー２５の鏡面部分に表示画面が形成されるようになる。

一方、表示画面形成命令の出力がない期間には、制御回路２６は、発光部２７を消灯状態のままで保持し、これにより、ディスプレイ兼用ミラー２５の鏡面部分は、その本来の外観を現すようになる。このように、対話時には表示画面を形成するディスプレイ兼用ミラー２５が、対話が行われていない非対話時には姿見として機能することで、対話者（相手側対話者）の自宅内で目立ち難くなり、結果として表示画面の存在が気付き難くなる。なお、ディスプレイ兼用ミラー２５の構成については、例えば国際公開第２００９／１２２７１６号に記載された構成のように公知の構成が利用可能である。

ちなみに、通常時（非対話時）に表示画面の存在を気付き難くするディスプレイとしては、上記のディスプレイ兼用ミラー２５に限定されず、姿見以外のものであってもよい。すなわち、相手画像表示用の表示画面を形成するディスプレイについては、建物内に配置された建築材料、家具若しくは装飾品の一部分を構成し、表示画面の形成・消去を自在に切り替えることが可能なものであればよい。例えば、建物のドアや内壁を構成する建築材料、あるいは、タンス等の家具の一部を上記ディスプレイとして用いることとしてもよい。

次に、対話相手側（Ｂさん達側）に設けられた通信ユニット２について説明すると、図３に示すように、対話相手側に設けられたサーバコンピュータ（以下、相手側サーバ）１０Ｂ及び視聴覚設備等によって構成されている。視聴覚設備としては、話者側の通信ユニット１と同様の装置、すなわち、集音装置２１、撮像装置２２、音声再生装置２４及びディスプレイ（厳密にはディスプレイ兼用ミラー２５）が備えられている。これらの機器については、話者側の通信ユニット１に備えられた装置と同様であるため、説明を省略する。

さらに、本実施形態では、対話相手側の通信ユニット２においても、話者側の通信ユニット１と同じく、人感センサ２３が備えられている。対話相手側に設けられた人感センサ２３は、センサの一例であり、ディスプレイ前方に対話相手（Ｂさん、Ｃさん、Ｄさんのいずれか）が居るときに、その者の位置を検知するものである。つまり、対話相手側に設けられた人感センサ２３は、ヒトが居る位置を検知対象とし、当該位置が予め設定された条件（第二の条件に相当し、具体的にはディスプレイ前方に位置するという条件）を満たしたときに、上記の検知対象を検知する。

なお、対話相手側に設けられた人感センサ２３についても、ヒトの位置を検知するものに限定されずヒトが行う動作、姿勢、その者が発する音のうちの少なくとも一つを検知対象とし、当該検知対象が予め設定された条件を満たしたときに当該検知対象を検知するものであればよい。

相手側サーバ１０Ｂは、話者側サーバ１０Ａと略同様の構成となっており、そのメモリ１２には対話プログラムが格納されている。そして、対話プログラムがＣＰＵ１１により読み出されて実行されることで、Ｂさん達の映像や音声がＡさん側に送られ、また、Ａさんの画像や音声がＢさん達側で表示／再生されることになる。

ところで、相手側サーバ１０Ｂは、話者側サーバ１０Ａの機能に加えて、特別な機能が搭載されている。かかる機能について説明すると、相手側サーバ１０Ｂは、話者側サーバ１０Ａから話者の映像を示す映像データを受信したときに、当該映像データに基づいて話者の画像（以下、話者画像）を表示するための表示データを生成する。この表示データが展開されると、Ｂさん達側に設けられたディスプレイに話者画像が表示されるようになる。

そして、本実施形態において、相手側サーバ１０Ｂは、表示データ生成時に、話者側サーバ１０Ａから受信した映像データが示す話者の映像から補正された画像を表示するための表示データを生成することが可能である。すなわち、本実施形態では、対話相手に対して表示される話者画像については、話者を撮像したときの映像を補正した画像（分かり易く言えば、撮像された話者の実際の映像とは異なる画像）とすることが可能である。

話者画像の補正についてより具体的に説明するために、Ｂさん、Ｃさん、ＤさんのいずれかがＡさんの話に対して所定の反応動作（例えば、話し声や笑い声を発する等の動作）を示したケースを想定する。このとき、相手側サーバ１０Ｂは、上記の反応動作を検知し、当該動作を行った者（以下、動作実行者）が居る位置を特定する。その後、相手側サーバ１０Ｂは、特定結果に基づき、動作実行者が居る位置にＡさんの視線が向かうように補正された話者画像を表示するための表示データを生成する。

そして、上記の表示データが展開されると、Ｂさん達側では、図１０に示すようにＡさんの視線が動作実行者に向けられた話者画像（以下、視線合わせ画像）が表示されるようになる。この視線合わせ画像が表示されることで、動作実行者は、当該画像中のＡさんの視線を見て、自身の動作に対してＡさんが反応してくれたものと錯覚し、あたかもＡさんと直に対面しながら対話していると感じるようになる。

また、本実施形態において、相手側サーバ１０Ｂは、視線合わせ画像の表示後に、動作実行者が居る位置にＡさんの視線及び顔が向くように補正された話者画像を表示するための表示データを更に生成する。かかる表示データが展開されると、Ｂさん達側では、図１２に示すようにＡさんの視線及び顔が動作実行者に向けられた話者画像（以下、二次視線合わせ画像）が表示されるようになる。この二次視線合わせ画像が表示されることで、より一層臨場感のある対話が実現される。分かり易く説明すると、Ａさんの視線のみならず、Ａさんの顔も動作実行者に向けられるため、当該動作実行者にとって、Ａさんと対面しながら対話しているように感じる度合い、すなわち対面性がより高まることとなる。

＜＜話者側サーバ及び相手側サーバの構成について＞＞
話者側サーバ１０Ａ及び相手側サーバ１０Ｂの各々の構成、特にハードウェア構成については既に説明した通りであるが、以下では、図５を参照しながら、各サーバの構成をその機能面から改めて説明することとする。図５は、話者側サーバ１０Ａ及び相手側サーバ１０Ｂの各々の構成を機能面から示した図である。

話者側サーバ１０Ａの構成を機能面から説明すると、図５に示すように、データ取得部３１、データ送信部３２、データ受信部３３、相手画像表示部３４及び相手音声再生部３５が備えられている。これらは、話者側サーバ１０Ａが実行するデータ処理を担当するもの、すなわちデータ処理部に相当する。そして、上述した５つのデータ処理部は、それぞれ、ＣＰＵ１１、メモリ１２、ハードディスクドライブ１３、通信用インターフェース１４及びＩ／Ｏポート１５といったハードウェア機器がソフトウェアとしての対話プログラムと協働することで実現される。以下、各データ処理部について個別に説明する。

（データ取得部３１について）
データ取得部３１は、話者側サーバ１０ＡがＩ／Ｏポート１５を介して集音装置２１及び撮像装置２２から受信した信号、具体的には音声信号と映像信号をそれぞれデジタル化してからエンコードすることで音声データと映像データを取得する。ここで、音声データとは、集音装置２１により集音されたＡさんの音声（話し声）を示すデータである。また、映像データとは、Ａさんを撮像した際の実際の映像を示すデータであり、本実施形態では、ディスプレイ兼用ミラー２５の前方に居るＡさんの全身像と周辺空間の映像を示すものとなっている。

なお、本実施形態では、Ａさん側に設けられた人感センサ２３がその検知エリア内に居る者の位置を検知すると、これをトリガーとして、集音装置２１及び撮像装置２２が起動し、音声の集音や映像の撮像が開始される。これに連動する形でデータ取得部３１が上記２つのデータを取得し始めるようになる。

（データ送信部３２について）
データ送信部３２は、データ取得部３１が音声データ及び映像データを取得すると、これらのデータを相手側サーバ１０Ｂに向けて随時送信する。なお、本実施形態において、データ送信部３２は、音声データ及び映像データを多重化して一つのデータ（以下、対話データ）として送信することとしている。

（データ受信部３３について）
データ受信部３３は、相手側サーバ１０Ｂから送信されてくる対話データを、通信回線３を通じて受信する。なお、受信した対話データは、話者側サーバ１０Ａのメモリ１２の所定領域、若しくはハードディスクドライブ１３に保存される。

（相手画像表示部３４について）
相手画像表示部３４は、メモリ１２やハードディスクドライブ１３に保存されている対話データを読み出して同データから映像データを抽出した上で、映像データをデコードして展開し、Ａさん側のディスプレイに対して表示命令を出力する。この表示命令を受け付けたディスプレイ側では、その表示画面に相手画像、すなわち、Ｂさん達の全身画像及び周辺空間の映像が表示されるようになる。このように相手画像表示部３４は、対話データから抽出した映像データを展開することで相手画像を表示するものである。

ところで、本実施形態では、前述したように、話者側に設けられたディスプレイがディスプレイ兼用ミラー２５によって構成されている。そして、相手画像表示部３４は、相手画像を表示するにあたり、ディスプレイ兼用ミラー２５の鏡面部分に表示画面を形成させるための処理を実行することとしている。かかる処理（以下、表示画面形成命令処理）は、ディスプレイ兼用ミラー２５が表示画面を形成していない状態において画面形成条件が成立したことをトリガーとして相手画像表示部３４によって実行される。ここで、画面形成条件とは、ディスプレイ兼用ミラー２５に表示画面を形成させる条件として予め設定されたものであり、具体的には、Ａさん側に設けられた人感センサ２３がその検知エリア内に居る者の位置を検知することである。

より詳しく説明すると、人感センサ２３の検知エリアは、ディスプレイ兼用ミラー２５の前方位置、例えば、ディスプレイ兼用ミラー２５を姿見として利用する際に立つ位置よりも幾分近付いた位置に設定されている。そのため、図４の（Ｂ）に示すように、ディスプレイ兼用ミラー２５に対して通常時よりも近付いた位置にＡさんが位置していると、人感センサ２３は、その検知エリア内に居るＡさんの位置を検知し、その検知結果を示す信号（以下、検知信号）を話者側サーバ１０Ａに向けて出力する。検知信号がＩ／Ｏポート１５を介して話者側サーバ１０Ａに入力されると、相手画像表示部３４が表示画面形成命令処理を実行し、ディスプレイ兼用ミラー２５に表示画面を形成させる命令（表示画面形成命令）を生成して、当該命令をディスプレイ兼用ミラー２５に向けて出力する。

表示画面形成命令を受け付けたディスプレイ兼用ミラー２５では、制御回路２６が当該命令に従って発光部２７を点灯させる。これにより、それまで姿見としての外観を呈していたディスプレイ兼用ミラー２５の鏡面部分に、表示画面が形成されるようになる。そして、ディスプレイ兼用ミラー２５は、人感センサ２３がその検知エリア内に居る者の位置を検知し続けている間、表示画面を形成した状態で維持される。一方、検知エリア内に居た者が当該エリア外に移動して人感センサ２３が検知対象を検知しなくなると、ディスプレイ兼用ミラー２５は、表示画面を消去し、鏡面部分に姿見としての外観を現すようになる。すなわち、本実施形態においてディスプレイ兼用ミラー２５は、人感センサ２３が検知エリア内に居る者の位置を検知している期間にのみ表示画面を形成する。

（相手音声再生部３５について）
相手音声再生部３５は、メモリ１２やハードディスクドライブ１３に保存されている対話データを読み出して同データから音声データを抽出した上で、当該音声データをデコードして展開し、Ａさん側の音声再生装置２４に対して再生命令を出力する。この再生命令を受け付けた音声再生装置２４は、当該命令に従って上記の音声データが示す音声、すなわちＢさん達の音声を再生する。

次に、相手側サーバ１０Ｂの構成を機能面から説明すると、図５に示すように、データ取得部４１、データ送信部４２、データ受信部４３、動作実行者検知部４４、表示データ生成部４５、話者画像表示部４６及び話者音声再生部４７が備えられている。これらは、相手側サーバ１０Ｂが実行するデータ処理を担当するもの、すなわちデータ処理部に相当する。そして、上述した７つのデータ処理部は、それぞれ、ＣＰＵ１１、メモリ１２、ハードディスクドライブ１３、通信用インターフェース１４及びＩ／Ｏポート１５といったハードウェア機器がソフトウェアとしての対話プログラムと協働することで実現される。

なお、上記７つのデータ処理部のうち、データ取得部４１、データ送信部４２及びデータ受信部４３については、対象とするデータの内容が異なるものの、その機能については話者側サーバ１０Ａのデータ処理部（具体的にはデータ取得部３１、データ送信部３２及びデータ受信部３３）と共通するので、説明を省略することとする。以下、残りのデータ処理部について説明する。

（動作実行者検知部４４について）
動作実行者検知部４４は、検知部に相当し、データ取得部４１が取得した音声データ及び映像データに基づいて、動作実行者を検知するものである。より具体的に説明すると、対話相手であるＢさん、Ｃさん及びＤさんは、対話中、ディスプレイを構成するディスプレイ兼用ミラー２５の前方位置に居て、ディスプレイ兼用ミラー２５に形成された表示画面にてＡさんの画像を見るとともに、音声再生装置２４により再生されるＡさんの音声を聞く。この間、Ｂさん達の音声が集音装置２１により集音され、Ｂさん達の映像が撮像装置２２により撮像されている。その音声信号及び映像信号は、逐次、相手側サーバ１０Ｂに向けて出力され、データ取得部４１は、上記の出力信号から音声データ及び映像データを取得する。

一方で、動作実行者検知部４４は、データ取得部４１が取得した音声データ及び映像データを解析し、Ｂさん達の中で該当動作を行っている者がいるか否かを判定する。ここで、該当動作とは、動作実行者を検知するために予め設定された条件を満たす動作のことであり、具体的には、笑い声や話し声を発する動作のことである。そして、動作実行者検知部４４は、該当動作を行っている者が居ると判定すると、その者を検知する。

なお、動作実行者を検知する方法については特に限定されるものではないが、一例としては、音声データから音量や声の高さを特定して当該特定結果から音声発生源の位置を算出するとともに、映像データから各対話相手の位置を特定し、算出した音声発生源の位置に相当する位置に居る者を割り出すことで動作実行者を検知することが考えられる。

（表示データ生成部４５について）
表示データ生成部４５は、話者側サーバ１０Ａから送信されてくる対話データから映像データを抽出し、当該映像データに基づいて話者画像の表示データを生成するものである。そして、本実施形態では、表示データ生成部４５によるデータ処理（表示データ生成処理）が２種類あり、いずれの処理が実行されるかについては、動作実行者検知部４４による動作実行者の検知の有無に応じて変化することとなっている。

より具体的に説明すると、動作実行者検知部４４が動作実行者を検知したとき、表示データ生成部４５は、話者画像として前述の視線合わせ画像を表示する表示データの生成処理を実行する。かかる処理は、本発明の第一処理に相当し、以降では視線合わせ画像生成処理と呼ぶこととする。

視線合わせ画像生成処理について図６に図示した手順に沿って説明する。図６は、視線合わせ画像生成処理の流れを示した図である。視線合わせ画像生成処理は、動作実行者検知部４４が動作実行者を検知したことをトリガーとして実行され、先ず、動作実行者が居る位置を特定する工程から始まる（Ｓ００１）。本工程Ｓ００１において、表示データ生成部４５は、動作実行者検知部４４が動作実行者を検知する際に割り出した音声発生源の位置から動作実行者の位置を特定する。以下、動作実行者位置特定工程Ｓ００１について図７を参照しながらより詳細に説明する。図７は、動作実行者位置の特定に関する説明図である。

表示データ生成部４５は、音声を発した対話相手（図７では最も右側に位置する者）の位置を特定するにあたり、映像データを解析して動作実行者の位置を特定する。より具体的に説明すると、音声を発した対話相手について、撮像装置２２から見たときの方向及び撮像装置２２の正面位置からの傾き角度（図７中、記号θにて表記）を特定する。なお、動作実行者位置を特定する方法については、上記の内容に限定されず、例えば距離センサや位置センサを用いて動作実行者の位置を特定することとしてもよい。

動作実行者の位置を特定した後、表示データ生成部４５は、データ受信部４３が話者側サーバ１０Ａから受信した対話データの中から映像データを抽出し、抽出した映像データに対して話者映像分解処理を実行する（Ｓ００２）。この処理は、対話データから抽出した映像データが示す話者の映像を、図８に示すように話者の瞳の映像（以下、瞳映像）、瞳を除く頭部の映像（以下、頭部映像）、及び、話者の頭部以外及び周辺空間の映像（以下、胴等映像）に分割する処理であり、公知の画像処理技術により実現される。図８は、話者映像の分解に関する説明図である。

話者映像分解処理を実行した後、表示データ生成部４５は、話者映像から分割した瞳映像のデータに対して、瞳の形状や眼球に対する相対位置を編集する処理を実行する（Ｓ００３）。この視線編集処理は、動作実行者位置特定工程Ｓ００１にて特定した動作実行者位置に応じて話者の視線を変化させるために実行される。以下、視線編集処理について図９を参照しながら説明する。図９は、視線編集に関する説明図である。

視線編集処理では、実際の瞳の映像（図９中の黒抜き部分）を動作実行者位置に応じて編集し、具体的には、撮像装置２２から動作実行者を見たときの方向に傾き角度θに応じた分だけ視線がずれるように瞳の形状及び位置を変更する。かかる手順を経ることにより、瞳映像は、図９中、ハッチングが掛かった部分で示すように動作実行者の位置に応じて位置や形状が変化された映像（以下、編集後の瞳映像）となる。なお、視線編集処理において瞳形状や位置を変更する方法としては、公知の画像編集技術が利用可能である。

視線編集処理を実行した後、表示データ生成部４５は、話者映像分解工程Ｓ００２において抽出された頭部映像及び胴等映像と、視線編集工程Ｓ００３において得た編集後の瞳映像を合成した画像を表示するための表示データを生成する（Ｓ００４）。かかる工程Ｓ００４によって得られる表示データを展開すると、図１０に図示の視線合わせ画像が話者画像としてディスプレイに表示されるようになる。図１０は、視線合わせ画像を表示している様子を示した図である。

視線合わせ画像についてより詳しく説明すると、話者側サーバ１０Ａから受信した対話データ中の映像データを展開することで表示される実際の話者映像とは異なった画像となっている。より具体的に説明すると、視線合わせ画像は、図１０に示す通り、動作実行者の位置（図１０に示すケースではＤさんの位置）に話者の視線が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を合成することで生成される表示データは、動作実行者位置特定工程Ｓ００１にて特定された動作実行者の位置に話者の視線が向くように補正された話者画像を表示するためのデータである。なお、各部分画像を合成する方法としては、公知の画像処理技術が利用可能である。

また、視線合わせ画像における話者の視線については、瞬時に動作実行者の位置に向くように切り替わることよりも、通常の人間の動きに合わせて漸次的に切り替わることが望ましい。したがって、視線編集工程Ｓ００３では、動作実行者の位置に向かって徐々に変化するように視線を編集すると良い。

また、動作実行者の検知をトリガーとして視線合わせ画像生成処理を開始してから、当該処理にて生成された表示データを展開して視線合わせ画像を表示するまでの時間については、通常の人間の神経回路において視線を切り替えるのに要する時間と一致させると良い。かかる場合には、話者画像において話者の視線がより自然に変化するようになる。

視線合わせ画像の表示データを生成した後、表示データ生成部４５は、更に、話者映像分解処理において分割した頭部映像のデータに対して、話者の顔の向きを編集する処理を実行する（Ｓ００５）。この処理は、動作実行者位置特定工程Ｓ００１にて特定した動作実行者位置に応じて話者の顔の向きを変化させるために実行される。以下、顔向き編集処理について図１１を参照しながら説明する。図１１は、顔向き編集に関する説明図である。

顔向き編集処理では、頭部映像を動作実行者位置に応じて編集し、具体的には、話者が正面を向いているときの顔の中心線（図１１中、破線にて示す）を基準にして、撮像装置２２から動作実行者を見たときの方向に傾き角度θに応じた分だけ話者の顔の向きが変化ように、鼻や口等の顔各部の位置及び顔の輪郭を変更する。かかる手順を経ることにより、頭部映像は、図１１に示すように正面を向いた状態から動作実行者の位置に応じて顔の向きが変化された映像（以下、編集後の頭部映像）となる。なお、顔向き編集処理において顔の向きを変更する方法としては、公知の画像編集技術が利用可能である。

顔向き編集処理を実行した後、表示データ生成部４５は、前工程Ｓ００５において得た編集後の頭部映像と残りの部分映像とを合成した画像を表示するための表示データを生成する（Ｓ００６）。かかる工程Ｓ００６によって得られる表示データを展開すると、図１２に図示の二次視線合わせ画像が話者画像としてディスプレイに表示されるようになる。図１２は、二次視線合わせ画像を表示している様子を示した図である。

二次視線合わせ画像について説明すると、上述した視線合わせ画像と同様、実際の話者映像とは異なった画像となっており、図１２に示す通り、動作実行者の位置（図１０に示すケースではＤさんの位置）に話者の視線及び話者の顔が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を再合成することで生成される表示データは、動作実行者位置特定工程Ｓ００１にて特定された動作実行者の位置に話者の視線及び話者の顔が向くように補正された話者画像を表示するためのデータである。なお、二次視線合わせ画像を構築するために各部分画像を再合成する方法についても、視線合わせ画像を構築するために各部分画像を合成するときと同様、公知の画像処理技術が利用可能である。

また、二次視線合わせ画像における話者の顔の向きについては、瞬時に動作実行者に向くように変化することよりも、通常の人間の動きに合わせて漸次的に変化することが望ましい。したがって、顔向き編集工程Ｓ００５では、動作実行者の位置に向かって徐々に変化するように話者の顔の向きを編集すると良い。また、このとき、顔の向きの変化に連動して話者の視線が変化することが望ましい。したがって、顔向き編集工程Ｓ００５と同時に顔の向きの変化に付随して瞳映像を再編集することとし、かかる再編集工程において、顔の向きの変化量に応じて瞳の形状や位置を変化させると良い。

以上までの一連の工程が完了した時点で、視線合わせ画像生成処理が終了する。そして、表示データ生成部４５は、動作実行者検知部４４が動作実行者を検知する度に視線合わせ画像生成処理を繰り返し実行する。

一方、動作実行者検知部４４が所定時間以上動作実行者を検知していないとき、表示データ生成部４５は、話者の視線が所定の位置を向いている話者画像（以下、目配せ画像）を表示する表示データの生成処理を実行する。かかる処理は、本発明の第二処理に相当し、以降では目配せ画像生成処理と呼ぶこととする。

目配せ画像生成処理について図１３に図示した手順に沿って説明する。図１３は、目配せ画像生成処理の流れを示した図である。目配せ画像生成処理は、動作実行者検知部４４が動作実行者を検知していない時間が所定時間に達すると実行される。なお、目配せ画像生成処理の実行条件となる動作実行者の非検知時間については、任意に設定することが可能である。

目配せ画像生成処理は、先ず、各対話相手が居る位置を特定する工程から始まる（Ｓ０１１）。具体的に説明すると、本工程Ｓ０１１において、表示データ生成部４５は、撮像装置２２により撮像された対話相手の映像データを解析して各対話相手の位置を特定する。より具体的には、各対話相手について、撮像装置２２から見たときの方向及び撮像装置２２の正面位置からの傾き角度θを特定する。なお、各対話相手の位置を特定する方法については、上記の内容に限定されず、例えば距離センサや位置センサを用いて動作実行者の位置を特定することとしてもよい。

各対話相手の位置を特定した後、表示データ生成部４５は、データ受信部４３が話者側サーバ１０Ａから受信した対話データの中から映像データを抽出し、抽出した映像データに対して話者映像分解処理を実行する（Ｓ０１２）。かかる処理は、視線合わせ画像生成処理における話者映像分解処理と同様の処理である。

そして、話者映像分解処理を実行した後、表示データ生成部４５は、話者映像から分割した瞳映像のデータに対して、瞳の形状や眼球に対する相対位置を編集する処理を実行する（Ｓ０１３）。この視線編集処理は、話者の視線を予め設定された位置に向けるために実行され、具体的には複数の対話相手であるＢさん、Ｃさん及びＤさんのうちの一人が居る位置に向けるために実行される。なお、視線編集処理の手順については、視線合わせ画像生成処理における視線編集処理と同様であり、同処理において瞳形状や位置を変更する方法としては、公知の画像編集技術が利用可能である。

視線編集処理の実行後、表示データ生成部４５は、前工程Ｓ０１３において得た編集後の瞳映像と、話者映像分解工程Ｓ０１２において抽出された頭部映像及び胴等映像と、を合成した画像を表示するための表示データを生成する（Ｓ０１４）。かかる工程Ｓ０１４によって得られる表示データを展開すると、対話相手の一人が居る位置に話者の視線が向いた話者画像、すなわち目配せ画像がディスプレイに表示されるようになる。

目配せ画像について説明すると、視線合わせ画像と同様、話者側サーバ１０Ａから受信した対話データ中の映像データを展開することで表示される実際の話者映像とは異なった画像となっている。より具体的に説明すると、目配せ画像は、対話相手の一人が居る位置に話者の視線が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を合成することで生成される表示データは、対話相手位置特定工程Ｓ０１１にて各対話相手の位置のうち、所定の対話相手、例えば、撮像装置２２から見て最も右側に位置する対話相手が居る位置に話者の視線が向くように補正された話者画像を表示するためのデータである。なお、各部分画像を合成する方法としては、公知の画像処理技術が利用可能である。

また、目配せ画像における話者の視線については、所定の対話相手が居る位置に向かって瞬時に切り替わることよりも、通常の人間の動きに合わせて漸次的に切り替わることが望ましい。したがって、視線編集工程Ｓ０１３では、所定の対話相手が居る位置に向かって徐々に変化するように視線を編集すると良い。

以上までの一連の工程が完了した時点で、目配せ画像生成処理が終了する。そして、表示データ生成部４５は、動作実行者を検知していない非検知期間が継続する間、一定の間隔で目配せ画像生成処理を繰り返し実行する。このとき、表示データ生成部４５は、複数の対話相手のうち、話者の視線が向いている位置に居る対話相手が順次切り替わるように目配せ画像生成処理を繰り返す。

より具体的に説明すると、ある回の目配せ画像生成処理において、撮像装置２２から見て最も右側に位置する対話相手（すなわち、Ｂさん）が居る位置に話者の視線が向くように補正された目配せ画像の表示データを生成したとする。かかる場合、次回実行される目配せ画像生成処理では、Ｂさんの左隣に居る対話相手（すなわち、Ｃさん）の位置に話者の視線が向くように補正された目配せ画像の表示データを生成する。さらに、その次の回で実行される目配せ画像生成処理では、撮像装置２２から見て最も左側に位置する対話相手（すなわち、Ｄさん）が居る位置に話者の視線が向くように補正された目配せ画像の表示データを生成する。以降、話者の視線がＢさんの位置、Ｃさんの位置、Ｄさんの位置の順で切り替わるように目配せ画像生成処理が繰り返し実行される。

以上のように目配せ画像生成処理が繰り返し実行されることにより、Ｂさん達側のディスプレイに表示される話者画像（すなわち、目配せ画像）では、図１４の（Ａ）、（Ｂ）及び（Ｃ）に示すように、話者の視線が定期的に変化し、その視線の先に居る対話相手が順次切り替わるようになる。図１４の（Ａ）、（Ｂ）及び（Ｃ）は、目配せ画像生成処理にて生成された表示データに基づいて話者画像を表示している様子を示した図である。そして、上記の視覚的効果により、各対話相手は、あたかも話者が目配せしているように感じることが可能となり、以て、話者画像を見ながら行う対話の趣向性が向上することとなる。

なお、本実施形態において、目配せ画像では話者の視線のみが所定の対話相手の位置を向いていることとしたが、話者の視線とともに話者の顔が所定の対話相手の位置に向くような目配せ画像を表示することとしてもよい。換言すると、目配せ画像生成処理では、所定の対話相手の位置に話者の視線及び話者の顔が向くように補正された話者画像（目配せ画像）を表示するための表示データを生成することとしてもよい。

（話者画像表示部４６及び話者音声再生部４７について）
話者画像表示部４６は、Ｂさん達側のディスプレイと協働することで画像表示部として機能する。厳密に説明すると、話者画像表示部４６は、表示データ生成部４５によって生成された表示データを展開し、Ｂさん達側のディスプレイに対して表示命令を出力する。この表示命令を受け付けたディスプレイ側では、その表示画面に前述の視線合わせ画像、二次視線合わせ画像若しくは目配せ画像が表示されるようになる。このように話者画像表示部４６は、表示データを展開することで話者画像を表示するものである。

なお、Ｂさん達側のディスプレイについてもディスプレイ兼用ミラー２５によって構成されているため、話者画像表示部４６は、話者画像を表示するにあたり、ディスプレイ兼用ミラー２５の鏡面部分に表示画面を形成させるために表示画面形成命令処理を実行する。表示画面形成命令処理は、話者側サーバ１０Ａの相手画像表示部３４によって行われる処理と同様であるため、同処理の具体的な手順については説明を省略する。

話者音声再生部４７は、話者側サーバ１０Ａより受信した対話データから音声データを抽出し、当該音声データをデコードして展開し、Ｂさん達側の音声再生装置２４に対して再生命令を出力する。この再生命令を受け付けた音声再生装置２４は、当該命令に従って上記の音声データが示す音声、すなわちＡさんの音声を再生する。

＜＜本実施形態に係る画像表示方法の手順＞＞
次に、本実施形態に係る画像表示方法について説明する。なお、以下の説明においても、上記までの説明と同様に話者をＡさんとし、対話相手をＢさん、Ｃさん及びＤさんとするケースを具体例に挙げることとする。

本実施形態に係る画像表示方法は、本システムＳにおいて話者及び対話相手双方の通信ユニット１、２によって実現され、具体的には、各通信ユニット１、２のサーバコンピュータ（話者側サーバ１０Ａ及び相手側サーバ１０Ｂ）が図１５及び１６に示す流れにてデータ処理を順次実行することで実現される。図１５及び１６は、ＡさんとＢさん達との間の対話において本システムＳが実行するデータ処理の流れを示した図である。以下、一連のデータ処理の流れについて図１５及び１６を参照しながら説明する。

先ず、Ａさんが自宅内に設置されたディスプレイ兼用ミラー２５の前方に移動し、人感センサ２３がその検知エリア内に居るＡさんの位置を検知するところから開始される（Ｓ０２１）。そして、話者側サーバ１０Ａは、Ｉ／Ｏポート１５を介して上記の人感センサ２３による検知結果を示す信号を受信すると（Ｓ０２１でＹｅｓ）、表示画面形成命令処理を実行する。これにより、Ａさん側のディスプレイ兼用ミラー２５は、その鏡面部分が姿見の外観を現している状態から遷移し、上記の鏡面部分に表示画面を形成するようになる（Ｓ０２２）。なお、Ａさん側のディスプレイ兼用ミラー２５に表示画面が形成された時点では、当該表示画面が所定の待ち受け画面となっている。

一方、表示画面形成命令処理の実行に伴って集音装置２１及び撮像装置２２が作動し、これにより、Ａさんの全身像及びその周辺空間の映像が撮像され、Ａさんの話し声が集音されるようになる（Ｓ０２３）。その後、話者側サーバ１０Ａが、集音装置２１及び撮像装置２２からの出力信号を基に対話データを生成し、同データを相手側サーバ１０Ｂに向けて送信する（Ｓ０２４）。

相手側サーバ１０Ｂは、通信回線３を介して対話データを受信し、当該対話データを内部のメモリ１２又はハードディスクドライブ１３に記憶する（Ｓ０２５）。その後、相手側サーバ１０Ｂは、記憶した対話データを読み出して同データの中から音声データを抽出し、当該音声データが示す音声を再生させる命令を音声再生装置２４に対して出力する。かかる再生命令を受け付けた音声再生装置２４は、上記音声データが示す音声を再生する（Ｓ０２６）。この結果、Ｂさん達が居る建物内ではＡさんの音声（話し声）が聞こえるようになる。

一方、Ｂさん達は、Ａさんの音声に反応する形で、Ｂさん達が居る建物内に設置されたディスプレイ兼用ミラー２５の前方に移動する。そして、Ａさんの音声が再生されている間にＢさん達のいずれかが人感センサ２３の検知エリア内に入ると、人感センサ２３がその者の位置を検知するようになる（Ｓ０２７）。相手側サーバ１０Ｂは、Ｉ／Ｏポート１５を介して上記の人感センサ２３による検知結果を示す信号を受信すると、これに伴って表示画面形成命令処理を実行する。これにより、Ｂさん達側のディスプレイ兼用ミラー２５は、その鏡面部分が姿見の外観を現している状態から遷移し、上記の鏡面部分に表示画面を形成するようになる（Ｓ０２８）。

表示画面の形成後、相手側サーバ１０Ｂは、話者画像の表示に係るデータ処理を実行する。当該データ処理の実行により、Ａさんの音声が音声再生装置２４により再生されるとともに、話者画像が表示画面に表示されるようになる（Ｓ０２９）。なお、話者画像の表示に係るデータ処理の流れについては、後に詳しく説明する。

また、Ｂさん達が居る建物において人感センサ２３がその検知エリア内に居る者の位置を検知すると、集音装置２１及び撮像装置２２が作動するようになる。これにより、Ｂさん達の全身像及びその周辺空間の映像が撮像され、Ｂさん達の音声が集音されるようになる（Ｓ０３０）。その後、相手側サーバ１０Ｂは、集音装置２１及び撮像装置２２からの出力信号を基に対話データを生成し、生成した対話データを話者側サーバ１０Ａに向けて送信する（Ｓ０３１）。

話者側サーバ１０Ａは、通信回線３を介して対話データを受信し、当該対話データを内部のメモリ１２又はハードディスクドライブ１３に記憶する（Ｓ０３２）。その後、話者側サーバ１０Ａは、記憶した対話データを読み出した上で同データから音声データと映像データとを抽出し、これら２つのデータを展開する。そして、話者側サーバ１０Ａは、抽出した音声データが示す音声を再生させる命令を音声再生装置２４に対して出力するとともに、抽出した映像データが示す映像（すなわち、相手画像）を表示させる命令をディスプレイ兼用ミラー２５に対して出力する。これにより、Ａさん側の音声再生装置２４がＢさん達の音声を再生し、ディスプレイ兼用ミラー２５が形成する表示画面にはＢさん達の全身像及びその周辺空間の映像が表示されるようになる（Ｓ０３３）。

以降、両者間での対話が継続する間、上述した一連のデータ処理が各通信ユニット１、２にて繰り返し実行される。そして、Ａさんの自宅又はＢさん達が居る建物において、人感センサ２３がその検知エリア内に居る者の位置を検知しなくなったときに（Ｓ０３４、Ｓ０３５）、対話が終了し、上述した一連のデータ処理の実行についても終了することになる。これにより、集音装置２１及び撮像装置２２が停止する。また、人感センサ２３がその検知エリア内に居る者の位置を検知しなくなると、これに連動して、ディスプレイ兼用ミラー２５に形成されていた表示画面が消去され、ディスプレイ兼用ミラー２５は、その鏡面部分に姿見としての外観を現すようになる。

次に、上述したデータ処理のうち、話者画像の表示に係るデータ処理について図１７を参照しながら詳細に説明する。図１７は、話者画像を表示する際の手順を示した図である。話者画像の表示に係るデータ処理は、図１７に示すように、相手側サーバ１０Ｂによる動作実行者の検知の有無に応じて２つのパターンに分かれている。

一方の処理パターンは、相手側サーバ１０Ｂが動作実行者を検知したとき（Ｓ０４１でＹｅｓ）のパターンである。かかる処理パターンでは、相手側サーバ１０Ｂが前述の視線合わせ画像生成処理を実行する（Ｓ０４２）。視線合わせ画像生成処理にて生成された表示データは、相手側サーバ１０Ｂによって逐次展開される（Ｓ０４３）。これにより、Ｂさん達側のディスプレイには話者画像が表示されるようになる。より具体的に説明すると、視線合わせ画像生成処理が実行されると、先ず、話者の視線が動作実行者の位置に向いている視線合わせ画像が表示され、次いで、話者の視線及び顔が動作実行者の位置に向いている二次視線合わせ画像が表示されるようになる。なお、視線合わせ画像生成処理が実行された場合には、一定時間、視線合わせ画像（厳密には、二次視線合わせ画像）がディスプレイに表示され続けるようになる。

そして、視線合わせ画像生成処理が実行されてから一定時間が経過すると（Ｓ０４４でＹｅｓ）、相手側サーバ１０Ｂが動作実行者の検知の有無を再び判定するようになる（Ｓ０４１）。

もう一方の処理パターンは、相手側サーバ１０Ｂが動作実行者を検知しないとき（Ｓ０４１でＮｏ）のパターンである。かかる処理パターンでは、相手側サーバ１０Ｂが前述の目配せ画像生成処理を実行する（Ｓ０４５）。目配せ画像生成処理にて生成された表示データは、相手側サーバ１０Ｂによって逐次展開される（Ｓ０４６）。これにより、Ｂさん達側のディスプレイには話者画像として、話者の視線が所定の対話相手の位置に向いた目配せ画像が表示されるようになる。

そして、目配せ画像生成処理は、相手側サーバ１０Ｂが動作実行者を検知しない非検知期間中、一定の時間毎に繰り返し実行される（Ｓ０４７、Ｓ０４８）。これにより、Ｂさん達側のディスプレイに表示される話者画像中、話者の視線の向きがＢさんの位置、Ｃさんの位置、Ｄさんの位置の順で切り替わるようになる。

なお、相手側サーバ１０Ｂが目配せ画像生成処理を実行した後に動作実行者を検知した場合には（Ｓ０４７でＹｅｓ）、図１７に示すように、処理パターンが、目配せ画像生成処理を実行するパターンから視線合わせ画像生成処理を実行するパターンに移行する。

＜＜その他の実施形態＞＞
上記の実施形態では、本発明の画像表示システム及び画像表示方法について、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。

また、上記の実施形態では、実際の話者映像に対して話者の視線や話者の顔の向きを補正した話者画像を表示するにあたり、実際の話者映像を部分映像に分割することとした。そして、分割された部分映像中、瞳映像や頭部映像を編集し、編集された部分映像と残りの部分映像とを合成することで最終的な話者画像の表示データを生成することとした。かかる手順は、あくまでも話者画像の表示データを生成する手順の一例に過ぎず、その他の手順にて話者画像の表示データを生成することとしてもよい。例えば、話者映像を部分映像に分割せずに話者映像のままの状態（すなわち、分割されていない状態）で瞳や頭部のみを編集することとしてもよい。

また、上記の実施形態では、相手側サーバ１０Ｂが話者画像の表示データを生成することとした。ただし、表示データの生成を行う装置については、相手側サーバ１０Ｂに限定されず、話者側サーバ１０Ａが行うこととしてもよい。あるいは、話者側サーバ１０Ａと相手側サーバ１０Ｂの双方と通信可能な第三のサーバ（不図示のサーバであり、例えば、ＡＳＰサーバやクラウドサービス用のサーバ）が表示データを生成してもよい。

また、上記の実施形態では、対話中に笑い声や話し声を発する対話相手が居たときに相手側サーバ１０Ｂが当該対話相手を動作実行者として検知し、これをトリガーとして視線合わせ画像生成処理を実行することとした。ただし、動作実行者を検知する際の条件については、笑い声や話し声を発することに限定されるものではなく、それ以外の動作を行うことを検知条件とすることとしてもよい。例えば、挙手動作や起立動作等のように身体を動かす動作を行うことを検知条件として設定することとしてもよい。

また、上記の実施形態では、視線や顔の向きを補正して得られる画像として話者画像を例に挙げて説明したが、対話相手の画像（相手画像）についても視線や顔の向きを実際の映像から補正した上で表示することとしてもよい。

また、上記の実施形態では、一人の話者に対して対話相手が複数人存在するケースを例に挙げて説明したが、これに限定されるものではない。例えば、話者が複数人存在することとしてもよい。かかる場合には、話者画像の表示データを生成するに際して、話者の視線や顔の向きを補正するためのデータ処理（具体的には、話者映像の分割、編集及び合成）を話者毎に実行することとなる。また、対話相手が単数（一人）であることとしてもよい。ただし、本システムＳの機能をより効果的に発揮する観点では、対話相手が複数存在する上記の構成がより望ましい。

Ｓ本システム（画像表示システム）
１，２通信ユニット
３通信回線
１０Ａ話者側サーバ
１０Ｂ相手側サーバ
１１ＣＰＵ、１２メモリ
１３ハードディスクドライブ
１４通信用インターフェース
１５Ｉ／Ｏポート
２１集音装置、２２撮像装置
２３人感センサ、２４音声再生装置
２５ディスプレイ兼用ミラー
２６制御回路、２７発光部
３１，４１データ取得部
３２，４２データ送信部
３３，４３データ受信部
３４相手画像表示部、３５相手音声再生部
４４動作実行者検知部、４５表示データ生成部
４６話者画像表示部、４７話者音声再生部

Claims

話者の画像を対話相手に対して表示する画像表示システムであって、
前記話者側に設けられ、前記話者を撮像した際の映像を示すデータを取得するデータ取得部と、
前記映像から補正された前記画像を表示するための表示データを生成する表示データ生成部と、
前記対話相手側に設けられ、前記表示データを展開することで前記画像を表示する画像表示部と、
前記対話相手側に設けられ、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知する検知部と、を有し、
前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することを特徴とする画像表示システム。
前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った前記対話相手が居る位置に前記話者の視線及び前記話者の顔が向くように補正された前記画像を表示するための前記表示データを生成することを特徴とする請求項１に記載の画像表示システム。
前記表示データ生成部は、
前記検知部が前記動作を行った前記対話相手を検知したときには、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、
前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行することを特徴とする請求項１又は２に記載の画像表示システム。
前記対話相手が複数存在する場合において、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないとき、前記表示データ生成部は、複数の前記対話相手のうち、前記話者の視線が向いている位置に居る前記対話相手が順次切り替わるように前記第二処理を繰り返し実行することを特徴とする請求項３に記載の画像表示システム。
前記対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分を構成するとともに前記画像の表示画面を形成する表示画面形成部と、
前記建物内に設けられ、前記対話相手が行う動作、前記対話相手が居る位置、前記対話相手の姿勢及び前記対話相手が発する音のうちの少なくとも一つを検知対象としたときに、予め設定された第二の条件を満たす前記検知対象を検知するセンサと、を更に有し、
前記表示画面形成部は、前記センサが前記第二の条件を満たす前記検知対象を検知していない期間には前記表示画面を形成せずに前記一部分としての外観を現し、前記センサが前記第二の条件を満たす前記検知対象を検知している期間にのみ前記表示画面を形成することを特徴とする請求項１乃至４のいずれか一項に記載の画像表示システム。
話者の画像を対話相手に対して表示する画像表示方法であって、
前記話者側に設けられたデータ取得部が、前記話者を撮像した際の映像を示すデータを取得することと、
表示データ生成部が、前記映像から補正された前記画像を表示するための表示データを生成することと、
前記対話相手側に設けられた画像表示部が、前記表示データを展開することで前記画像を表示することと、
前記対話相手側に設けられた検知部が、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知することと、を有し、
前記検知部が前記動作を行った前記対話相手を検知すると、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することを特徴とする画像表示方法。