[go: up one dir, main page]

JP2015142168A - 画像表示システム及び画像表示方法 - Google Patents

画像表示システム及び画像表示方法 Download PDF

Info

Publication number
JP2015142168A
JP2015142168A JP2014012588A JP2014012588A JP2015142168A JP 2015142168 A JP2015142168 A JP 2015142168A JP 2014012588 A JP2014012588 A JP 2014012588A JP 2014012588 A JP2014012588 A JP 2014012588A JP 2015142168 A JP2015142168 A JP 2015142168A
Authority
JP
Japan
Prior art keywords
image
speaker
display
conversation partner
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014012588A
Other languages
English (en)
Other versions
JP6182464B2 (ja
Inventor
喜智 大野
Yoshitomo Ono
喜智 大野
貴司 折目
Takashi Orime
貴司 折目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daiwa House Industry Co Ltd
Original Assignee
Daiwa House Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daiwa House Industry Co Ltd filed Critical Daiwa House Industry Co Ltd
Priority to JP2014012588A priority Critical patent/JP6182464B2/ja
Publication of JP2015142168A publication Critical patent/JP2015142168A/ja
Application granted granted Critical
Publication of JP6182464B2 publication Critical patent/JP6182464B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】話者の画像を対話相手に対して表示する際に、より臨場感のある対話が実現されるように表示する。
【解決手段】話者画像を対話相手に対して表示する画像表示システムにおいて、話者側に設けられたデータ取得部31が、話者を撮像した際の映像データを取得し、表示データ生成部45が、話者映像から補正された話者画像を表示するための表示データを生成し、対話相手側に設けられた話者画像表示部46が、表示データを展開することで話者画像を表示し、対話相手側に設けられた動作実行者検知部44が、予め設定された条件を満たす動作を行った対話相手を動作実行者として検知する。そして、表示データ生成部45は、動作実行者検知部44が動作実行者を検知すると、その者が居る位置に話者の視線が向くように補正された話者画像を表示するための表示データを生成する。
【選択図】図5

Description

本発明は、話者の画像を対話相手に対して表示する画像表示システム及び画像表示方法に係り、特に、より臨場感のある対話を実現することが可能な画像表示システム及び画像表示方法に関する。
遠隔会議システム等、遠隔地にいる者同士が互いの映像を見ながら対話を行うための通信技術は、既に周知である。また、近年では、臨場感のある対話を実現するために、表示画面に表示させる対話者の画像中、当該対話者の視線を意図的に変化させる技術が開発されている(例えば、特許文献1参照)。
特許文献1に記載された画像表示システムでは、対話者同士が互いの映像を見ながら対話を行っている際、一方の対話者Aがディスプレイにて他方の対話者Bの映像を見ているときの視線を検知し、その検知結果に基づき、対話者Bがディスプレイにて見ている対話者Aの映像中、瞳の形状や位置を変化させて対話者Aの映像を再構築することとしている。このような構成により、特許文献1に記載の画像表示システムでは、例えば対話者Aが複数人の対話者Bを相手に対話するときに、そのうちの特定の対話者Bに視線を向けていることを各対話者Bに知覚させることが可能となる。
特開2012−70081号公報
ところで、対話者同士が互いの画像を見ながら行う対話に対しては、更なる臨場感の向上が求められている。かかる要求を満たすには、特許文献1に記載された画像表示システムのように対話者の映像中の視線を変化させる技術を応用し、あたかも対面しながら対話しているように感じさせることが可能なシステム及び方法の開発が必要となる。
そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、話者の画像を対話相手に対して表示する画像表示システム及び方法として、より臨場感のある対話を実現することが可能なシステム及び方法を提供することである。
前記課題は、本発明の画像表示システムによれば、話者の画像を対話相手に対して表示する画像表示システムであって、前記話者側に設けられ、前記話者を撮像した際の映像を示すデータを取得するデータ取得部と、前記映像から補正された前記画像を表示するための表示データを生成する表示データ生成部と、前記対話相手側に設けられ、前記表示データを展開することで前記画像を表示する画像表示部と、前記対話相手側に設けられ、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知する検知部と、を有し、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することにより解決される。
上述したように、本発明の画像表示システムでは、対話相手が所定の動作を行うと、検知部がこれを検知する。そして、当該検知動作に連動する形で、表示データ生成部が、上記動作を行った前記対話相手が居る位置に話者の視線が向くように補正された画像の表示データを生成する。これにより、対話相手側で話者の画像が表示されると、当該画像中の話者の視線が対話相手に向けられるようになる。このような視線の変化は、対話相手に対して、上記の動作に対して話者が反応したという錯覚をもたらし、この結果、対話相手は、あたかも話者と対面しながら対話していると感じることが可能となる。
また、上記の画像表示システムにおいて、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った対話相手が居る位置に前記話者の視線及び前記話者の顔が向くように補正された前記画像を表示するための前記表示データを生成するとよい。
上記の構成によれば、対話相手に対して表示された話者の画像中、話者の視線及び話者の顔が所定の動作を行った対話相手が居る位置に向けられることで、より一層臨場感のある対話を実現することが可能となる。すなわち、話者の視線のみならず、話者の顔も上記動作を行った対話相手に向けられることで、当該対話相手が話者と対面しながら対話しているように感じる度合い(対面性)が、より高まることとなる。
また、上記の画像表示システムにおいて、前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知したときには、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行するとよい。
上記の構成によれば、所定の動作を行う対話相手を検知していない非検知期間には、対話相手に対して表示された話者の画像中、話者の視線が予め設定された位置に向くようになる。これにより、非検知期間における話者の視線を好適に設定することが可能となる。
特に、前記対話相手が複数存在する場合において、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないとき、前記表示データ生成部は、複数の前記対話相手のうち、前記話者の視線が向いている位置に居る前記対話相手が順次切り替わるように前記第二処理を繰り返し実行すると、好適である。
上記の構成によれば、非検知期間中、表示データ生成部が、話者の視線が向いている位置に居る対話相手が順次切り替わるように第二処理を繰り返し実行する。すなわち、対話相手に対して表示された話者の画像において、話者の視線は、その先に位置する対話相手が順次変化するような動きを示す。これにより、各対話相手は、あたかも話者が目配せしているように感じることが可能となり、以て、対話における画像表示の趣向性を向上させることが可能となる。
また、上記の画像表示システムにおいて、前記対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分を構成するとともに前記画像の表示画面を形成する表示画面形成部と、前記建物内に設けられ、前記対話相手が行う動作、前記対話相手が居る位置、前記対話相手の姿勢及び前記対話相手が発する音のうちの少なくとも一つを検知対象としたときに、予め設定された第二の条件を満たす前記検知対象を検知するセンサと、を更に有し、前記表示画面形成部は、前記センサが前記第二の条件を満たす前記検知対象を検知していない期間には前記表示画面を形成せずに前記一部分としての外観を現し、前記センサが前記第二の条件を満たす前記検知対象を検知している期間にのみ前記表示画面を形成するとよい。
上記の構成によれば、対話相手側でその者の動作、位置、姿勢及び音のうちの少なくとも一つを検知することをトリガーとして、画像の表示画面が形成されることになっている。そして、トリガーとなる検知対象の検知がない期間には表示画面が形成せず、その代わりに、対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分としての外観を現すようになる。これにより、表示画面を形成する表示画面形成部は、話者との対話が行われていない期間中には建築材料等として機能するようになり、建物内で目立ち難くなる。この結果、同期間中における表示画面形成部の存在が気付き難くなる。一方、上述したように、対話相手側で検知対象が検知されると、これをトリガーとして表示画面が形成されるので、表示画面形成に特段複雑な操作を要さなくなる。
また、前述の課題は、本発明の画像表示方法によれば、話者の画像を対話相手に対して表示する画像表示方法であって、前記話者側に設けられたデータ取得部が、前記話者を撮像した際の映像を示すデータを取得することと、表示データ生成部が、前記映像から補正された前記画像を表示するための表示データを生成することと、前記対話相手側に設けられた画像表示部が、前記表示データを展開することで前記画像を表示することと、前記対話相手側に設けられた検知部が、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知することと、を有し、前記検知部が前記動作を行った前記対話相手を検知すると、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することにより解決される。
本発明の画像表示システム及び画像表示方法によれば、対話相手が所定の動作を行うと、対話相手に対して表示される話者の画像が補正され、話者の視線が上記動作を行った対話相手が居る位置に向けられるようになる。これにより、より臨場感のある対話を実現することが可能となる。つまり、本発明によれば、互いに離れた場所にいる話者と対話相手がお互いの映像を見ながら対話をする場合、対話相手は、あたかも話者と対面しながら対話しているような視聴覚効果を得ることが可能となる。
話者の画像を対話相手側で表示している様子を示した図である。 対話相手の画像を話者側で表示している様子を示した図である。 本発明の一実施形態に係る画像表示システムを示した概念図である。 本発明の一実施形態に係る画像表示システムの構成を示したブロック図である。 図4の(A)、(B)は、本発明の表示画面形成部の一例を示した図である。 話者側サーバ及び相手側サーバの各々の構成を機能面から示した図である。 本発明の第一処理の流れを示した図である。 動作実行者位置の特定に関する説明図である。 話者映像の分解に関する説明図である。 視線編集に関する説明図である。 補正後の話者画像を表示している様子を示した図である。 顔向き編集に関する説明図である。 再補正後の話者画像を表示している様子を示した図である。 本発明の第二処理の流れを示した図である。 図14の(A)、(B)及び(C)は、第二処理によって生成される表示データに基づいて話者画像を表示している様子を示した図である。 本発明の一実施形態に係る画像表示システムが実行するデータ処理の流れを示した図である(その1)。 本発明の一実施形態に係る画像表示システムが実行するデータ処理の流れを示した図である(その2)。 話者画像を表示する際の手順を示した図である。
以下、本発明の一実施形態(以下、本実施形態)に係る画像表示システム及び画像表示方法について図面を参照しながら説明する。なお、説明を分かり易くするために、以下では、話者をAさんとし、対話相手をBさん、Cさん、Dさんとするケースを具体例に挙げて説明することとする。ここで、「話者」とは、自らの発意により対話(会話)を開始し、対話相手に対して話し掛ける者である。これに対して、「対話相手」とは、話者の話の聞き手であり話者の話に応答して対話を行う者である。
また、以下では、話者であるAさんは、対話時に所定の建物内(例えば、Aさんの自宅内)に居ることとし、対話相手であるBさん、Cさん、Dさんは、Aさんとは異なる場所(例えば、Aさんの自宅とは異なる建物内)に居て、3人すべてが同じ場所に集まってAさんと対話を行うケースを例に挙げて説明することとする。
<<本実施形態に係る画像表示システムの構成>>
本実施形態に係る画像表示システム(本システムS)は、話者であるAさんと、対話相手であるBさん、Cさん、Dさんとが互いの画像を見ながら対話を行うために利用される。すなわち、本システムSを用いることにより、Bさん、Cさん及びDさんは、図1Aに示すようにAさんの画像を見ながら対話することが可能である。同様に、Aさんは、図1Bに示すようにBさん、Cさん、Dさんの画像を見ながら対話することが可能である。ここで、図1Aは、話者の画像を対話相手側で表示している様子を示した図であり、図1Bは、対話相手の画像を話者側で表示している様子を示した図である。
本実施形態において表示される話者及び対話相手それぞれの画像について図1A及び図1Bを参照しながらより詳しく説明すると、話者であるAさんの画像は、図1Aに示すように、Bさん達が居る建物内に設置されたディスプレイに映し出され、Aさんの全身像及びその周辺空間が表示されることになっている。同様に、対話相手であるBさん、Cさん及びDさんの画像は、Aさんの自宅に設置されたディスプレイに映し出され、上記3人すべての全身像及びその周辺空間が表示されることになっている。
以上のように、話者と対話相手とは、互いに離れた場所にてお互いの全身像及びその周辺空間を見ながら対話をすることが可能となる。これにより、話者と対話相手の双方は、あたかも同じ室内に居るような感覚を感じながら対話することができるので、臨場感のある対話が実現されるようになる。なお、「全身像」とは、頭部から足に亘る身体全体の姿であり、起立状態であっても着座状態であってもよく、また、前方に配置された物によって一部が隠れている状態の姿を含む概念である。
そして、本システムSでは、臨場感のある対話を実現するために、図2に示すように、Aさん側及びBさん達側にそれぞれ通信ユニット1、2を設けている。図2は、本システムSの概念図である。通信ユニット1、2同士は、同図に示すように、インターネット等の通信回線3を通じてデータ通信可能となっている。なお、図2には不図示となっているが、一般的に、通信ユニット1、2の間には中継サーバ(プロキシサーバ)が介在している。つまり、各通信ユニット1、2間で送受信されるデータについては、通常、上記の中継サーバを経由することになる。
以下、通信ユニット1、2の構成について説明する。先ず、話者側(Aさん側)に設けられた通信ユニット1について説明すると、図3に示すように、話者側に設けられたサーバコンピュータ(以下、話者側サーバ)10A及び視聴覚設備等によって構成されている。図3は、通信ユニット1、2を含む本システムSの構成を示すブロック図である。視聴覚設備としては、集音装置21、撮像装置22、音声再生装置24及びディスプレイ(厳密には後述のディスプレイ兼用ミラー25)が備えられている。さらに、本実施形態に係る通信ユニット1は、ディスプレイ前に居る話者を検知するセンサとしての人感センサ23を備えている。
話者側サーバ10Aは、通信ユニット1の中枢を担う装置であり、図3に示すようにCPU11、ROMやRAMからなるメモリ12、ハードディスクドライブ13(図3中、HDDと表記)、通信用インターフェース14(図3中、通信用I/F)及びI/Oポート15を有する。話者側サーバ10Aは、通信回線3に接続された外部機器(例えば、後述する相手側サーバ10B)から送信されてくるデータを受信し、当該データをメモリ12若しくはハードディスクドライブ13に記憶する。また、メモリ12には、話者であるAさんがBさん達と対話するにあたって実行される一連のデータ処理を規定したプログラム(以下、対話プログラム)が格納されている。この対話プログラムがCPU11により読み出されて実行されることで、Aさんの映像や音声がBさん達側に送られ、また、Bさん達の画像や音声がAさん側で表示/再生されることになる。
集音装置21は、Aさんが話す声や発する音を集音する装置であり、マイクロフォン等の公知の装置により構成される。この集音装置21は、集音した音声を示す音声信号を出力し、当該音声信号は、話者側サーバ10Aに設けられたI/Oポート15に入力される。
撮像装置22は、Aさんの姿及び周辺空間を撮像する装置であり、ビデオカメラ等の公知の装置により構成される。この、撮像装置22は、撮像した映像を示す映像信号を出力し、当該映像信号は、話者側サーバ10Aに設けられたI/Oポート15に入力される。
人感センサ23は、その検知エリア内にヒトが存在していると、その者の位置を検知し、検知結果を示す信号を話者側サーバ10Aに向けて出力する。より具体的に説明すると、本実施形態に係る人感センサ23は、その構造が公知となっており、ディスプレイ前方に話者(Aさん)が居るときに、その者の位置を検知するものである。つまり、本実施形態に係る人感センサ23は、ヒトが居る位置を検知対象とし、当該位置が予め設定された条件を満たしたときに、上記の検知対象を検知する。
なお、人感センサとしては、ヒトの位置を検知するものに限定されるものではなく、ヒトが行う動作、姿勢、ヒトが発する音のうちの少なくとも一つを検知対象とし、当該検知対象が予め設定された条件を満たしたとき、当該検知対象を検知するものであればよい。例えば、ヒトの足音や話し声に反応する音センサを用い、所定の音量以上となったときに、その音を検知することとしてもよい。このように音を検知対象とする構成については、例えば特開2013−73505号公報や特開2005−78347号公報に記載された構成のように公知の構成を利用することが可能である。
音声再生装置24は、音声を再生する装置であり、スピーカー等の公知の装置により構成される。この音声再生装置24は、話者側サーバ10Aが対話相手の音声を示すデータを展開することで出力される再生命令を受け付ける。この結果、音声再生装置24によって対話相手の音声が再生されるようになる。
ディスプレイは、Bさん達の画像(以下、相手画像)を表示する表示画面を形成する装置であり、表示画面形成部に相当する。このディスプレイは、話者側サーバ10Aが相手画像表示用のデータを展開することで出力される表示命令を受け付ける。この結果、ディスプレイ上の表示画面には、相手画像が表示されるようになる。
そして、本実施形態に係るディスプレイは、通常時にはAさんが居る建物(自宅)内に配置された装飾品、具体的には姿見として機能し、対話が実行される時にのみ表示画面を形成するものとなっている。以下、図3及び図4を参照しながら、本実施形態に係るディスプレイについて説明する。図4は、本実施形態に係るディスプレイを示す図であり、同図の(A)は、対話が行われていない非対話時の状態を、同図の(B)は、対話が行われている対話時の状態を、それぞれ示している。
本実施形態に係るディスプレイは、前述したように、Aさんの自宅内に配置された姿見の一部分、具体的には鏡面部分を構成しており、図4の(A)に示す通り、非対話時には表示画面を形成せずに鏡面部分としての外観を現している。一方、本実施形態に係るディスプレイは、対話時になると、図4の(B)に示すように、表示画面を形成し、当該表示画面には相手画像が表示されるようになる。
以上のように本実施形態に係るディスプレイは、ディスプレイ兼用ミラー25により構成されており、表示画面の形成・消去が自在に切り替え可能となっている。より具体的に説明すると、ディスプレイ兼用ミラー25は、図3に示すように、制御回路26と発光部27を内蔵している。そして、制御回路26が、話者側サーバ10Aから出力される表示画面形成命令を受信し、当該命令に従って発光部27を点灯させると、ディスプレイ兼用ミラー25の鏡面部分に表示画面が形成されるようになる。
一方、表示画面形成命令の出力がない期間には、制御回路26は、発光部27を消灯状態のままで保持し、これにより、ディスプレイ兼用ミラー25の鏡面部分は、その本来の外観を現すようになる。このように、対話時には表示画面を形成するディスプレイ兼用ミラー25が、対話が行われていない非対話時には姿見として機能することで、対話者(相手側対話者)の自宅内で目立ち難くなり、結果として表示画面の存在が気付き難くなる。なお、ディスプレイ兼用ミラー25の構成については、例えば国際公開第2009/122716号に記載された構成のように公知の構成が利用可能である。
ちなみに、通常時(非対話時)に表示画面の存在を気付き難くするディスプレイとしては、上記のディスプレイ兼用ミラー25に限定されず、姿見以外のものであってもよい。すなわち、相手画像表示用の表示画面を形成するディスプレイについては、建物内に配置された建築材料、家具若しくは装飾品の一部分を構成し、表示画面の形成・消去を自在に切り替えることが可能なものであればよい。例えば、建物のドアや内壁を構成する建築材料、あるいは、タンス等の家具の一部を上記ディスプレイとして用いることとしてもよい。
次に、対話相手側(Bさん達側)に設けられた通信ユニット2について説明すると、図3に示すように、対話相手側に設けられたサーバコンピュータ(以下、相手側サーバ)10B及び視聴覚設備等によって構成されている。視聴覚設備としては、話者側の通信ユニット1と同様の装置、すなわち、集音装置21、撮像装置22、音声再生装置24及びディスプレイ(厳密にはディスプレイ兼用ミラー25)が備えられている。これらの機器については、話者側の通信ユニット1に備えられた装置と同様であるため、説明を省略する。
さらに、本実施形態では、対話相手側の通信ユニット2においても、話者側の通信ユニット1と同じく、人感センサ23が備えられている。対話相手側に設けられた人感センサ23は、センサの一例であり、ディスプレイ前方に対話相手(Bさん、Cさん、Dさんのいずれか)が居るときに、その者の位置を検知するものである。つまり、対話相手側に設けられた人感センサ23は、ヒトが居る位置を検知対象とし、当該位置が予め設定された条件(第二の条件に相当し、具体的にはディスプレイ前方に位置するという条件)を満たしたときに、上記の検知対象を検知する。
なお、対話相手側に設けられた人感センサ23についても、ヒトの位置を検知するものに限定されずヒトが行う動作、姿勢、その者が発する音のうちの少なくとも一つを検知対象とし、当該検知対象が予め設定された条件を満たしたときに当該検知対象を検知するものであればよい。
相手側サーバ10Bは、話者側サーバ10Aと略同様の構成となっており、そのメモリ12には対話プログラムが格納されている。そして、対話プログラムがCPU11により読み出されて実行されることで、Bさん達の映像や音声がAさん側に送られ、また、Aさんの画像や音声がBさん達側で表示/再生されることになる。
ところで、相手側サーバ10Bは、話者側サーバ10Aの機能に加えて、特別な機能が搭載されている。かかる機能について説明すると、相手側サーバ10Bは、話者側サーバ10Aから話者の映像を示す映像データを受信したときに、当該映像データに基づいて話者の画像(以下、話者画像)を表示するための表示データを生成する。この表示データが展開されると、Bさん達側に設けられたディスプレイに話者画像が表示されるようになる。
そして、本実施形態において、相手側サーバ10Bは、表示データ生成時に、話者側サーバ10Aから受信した映像データが示す話者の映像から補正された画像を表示するための表示データを生成することが可能である。すなわち、本実施形態では、対話相手に対して表示される話者画像については、話者を撮像したときの映像を補正した画像(分かり易く言えば、撮像された話者の実際の映像とは異なる画像)とすることが可能である。
話者画像の補正についてより具体的に説明するために、Bさん、Cさん、DさんのいずれかがAさんの話に対して所定の反応動作(例えば、話し声や笑い声を発する等の動作)を示したケースを想定する。このとき、相手側サーバ10Bは、上記の反応動作を検知し、当該動作を行った者(以下、動作実行者)が居る位置を特定する。その後、相手側サーバ10Bは、特定結果に基づき、動作実行者が居る位置にAさんの視線が向かうように補正された話者画像を表示するための表示データを生成する。
そして、上記の表示データが展開されると、Bさん達側では、図10に示すようにAさんの視線が動作実行者に向けられた話者画像(以下、視線合わせ画像)が表示されるようになる。この視線合わせ画像が表示されることで、動作実行者は、当該画像中のAさんの視線を見て、自身の動作に対してAさんが反応してくれたものと錯覚し、あたかもAさんと直に対面しながら対話していると感じるようになる。
また、本実施形態において、相手側サーバ10Bは、視線合わせ画像の表示後に、動作実行者が居る位置にAさんの視線及び顔が向くように補正された話者画像を表示するための表示データを更に生成する。かかる表示データが展開されると、Bさん達側では、図12に示すようにAさんの視線及び顔が動作実行者に向けられた話者画像(以下、二次視線合わせ画像)が表示されるようになる。この二次視線合わせ画像が表示されることで、より一層臨場感のある対話が実現される。分かり易く説明すると、Aさんの視線のみならず、Aさんの顔も動作実行者に向けられるため、当該動作実行者にとって、Aさんと対面しながら対話しているように感じる度合い、すなわち対面性がより高まることとなる。
<<話者側サーバ及び相手側サーバの構成について>>
話者側サーバ10A及び相手側サーバ10Bの各々の構成、特にハードウェア構成については既に説明した通りであるが、以下では、図5を参照しながら、各サーバの構成をその機能面から改めて説明することとする。図5は、話者側サーバ10A及び相手側サーバ10Bの各々の構成を機能面から示した図である。
話者側サーバ10Aの構成を機能面から説明すると、図5に示すように、データ取得部31、データ送信部32、データ受信部33、相手画像表示部34及び相手音声再生部35が備えられている。これらは、話者側サーバ10Aが実行するデータ処理を担当するもの、すなわちデータ処理部に相当する。そして、上述した5つのデータ処理部は、それぞれ、CPU11、メモリ12、ハードディスクドライブ13、通信用インターフェース14及びI/Oポート15といったハードウェア機器がソフトウェアとしての対話プログラムと協働することで実現される。以下、各データ処理部について個別に説明する。
(データ取得部31について)
データ取得部31は、話者側サーバ10AがI/Oポート15を介して集音装置21及び撮像装置22から受信した信号、具体的には音声信号と映像信号をそれぞれデジタル化してからエンコードすることで音声データと映像データを取得する。ここで、音声データとは、集音装置21により集音されたAさんの音声(話し声)を示すデータである。また、映像データとは、Aさんを撮像した際の実際の映像を示すデータであり、本実施形態では、ディスプレイ兼用ミラー25の前方に居るAさんの全身像と周辺空間の映像を示すものとなっている。
なお、本実施形態では、Aさん側に設けられた人感センサ23がその検知エリア内に居る者の位置を検知すると、これをトリガーとして、集音装置21及び撮像装置22が起動し、音声の集音や映像の撮像が開始される。これに連動する形でデータ取得部31が上記2つのデータを取得し始めるようになる。
(データ送信部32について)
データ送信部32は、データ取得部31が音声データ及び映像データを取得すると、これらのデータを相手側サーバ10Bに向けて随時送信する。なお、本実施形態において、データ送信部32は、音声データ及び映像データを多重化して一つのデータ(以下、対話データ)として送信することとしている。
(データ受信部33について)
データ受信部33は、相手側サーバ10Bから送信されてくる対話データを、通信回線3を通じて受信する。なお、受信した対話データは、話者側サーバ10Aのメモリ12の所定領域、若しくはハードディスクドライブ13に保存される。
(相手画像表示部34について)
相手画像表示部34は、メモリ12やハードディスクドライブ13に保存されている対話データを読み出して同データから映像データを抽出した上で、映像データをデコードして展開し、Aさん側のディスプレイに対して表示命令を出力する。この表示命令を受け付けたディスプレイ側では、その表示画面に相手画像、すなわち、Bさん達の全身画像及び周辺空間の映像が表示されるようになる。このように相手画像表示部34は、対話データから抽出した映像データを展開することで相手画像を表示するものである。
ところで、本実施形態では、前述したように、話者側に設けられたディスプレイがディスプレイ兼用ミラー25によって構成されている。そして、相手画像表示部34は、相手画像を表示するにあたり、ディスプレイ兼用ミラー25の鏡面部分に表示画面を形成させるための処理を実行することとしている。かかる処理(以下、表示画面形成命令処理)は、ディスプレイ兼用ミラー25が表示画面を形成していない状態において画面形成条件が成立したことをトリガーとして相手画像表示部34によって実行される。ここで、画面形成条件とは、ディスプレイ兼用ミラー25に表示画面を形成させる条件として予め設定されたものであり、具体的には、Aさん側に設けられた人感センサ23がその検知エリア内に居る者の位置を検知することである。
より詳しく説明すると、人感センサ23の検知エリアは、ディスプレイ兼用ミラー25の前方位置、例えば、ディスプレイ兼用ミラー25を姿見として利用する際に立つ位置よりも幾分近付いた位置に設定されている。そのため、図4の(B)に示すように、ディスプレイ兼用ミラー25に対して通常時よりも近付いた位置にAさんが位置していると、人感センサ23は、その検知エリア内に居るAさんの位置を検知し、その検知結果を示す信号(以下、検知信号)を話者側サーバ10Aに向けて出力する。検知信号がI/Oポート15を介して話者側サーバ10Aに入力されると、相手画像表示部34が表示画面形成命令処理を実行し、ディスプレイ兼用ミラー25に表示画面を形成させる命令(表示画面形成命令)を生成して、当該命令をディスプレイ兼用ミラー25に向けて出力する。
表示画面形成命令を受け付けたディスプレイ兼用ミラー25では、制御回路26が当該命令に従って発光部27を点灯させる。これにより、それまで姿見としての外観を呈していたディスプレイ兼用ミラー25の鏡面部分に、表示画面が形成されるようになる。そして、ディスプレイ兼用ミラー25は、人感センサ23がその検知エリア内に居る者の位置を検知し続けている間、表示画面を形成した状態で維持される。一方、検知エリア内に居た者が当該エリア外に移動して人感センサ23が検知対象を検知しなくなると、ディスプレイ兼用ミラー25は、表示画面を消去し、鏡面部分に姿見としての外観を現すようになる。すなわち、本実施形態においてディスプレイ兼用ミラー25は、人感センサ23が検知エリア内に居る者の位置を検知している期間にのみ表示画面を形成する。
(相手音声再生部35について)
相手音声再生部35は、メモリ12やハードディスクドライブ13に保存されている対話データを読み出して同データから音声データを抽出した上で、当該音声データをデコードして展開し、Aさん側の音声再生装置24に対して再生命令を出力する。この再生命令を受け付けた音声再生装置24は、当該命令に従って上記の音声データが示す音声、すなわちBさん達の音声を再生する。
次に、相手側サーバ10Bの構成を機能面から説明すると、図5に示すように、データ取得部41、データ送信部42、データ受信部43、動作実行者検知部44、表示データ生成部45、話者画像表示部46及び話者音声再生部47が備えられている。これらは、相手側サーバ10Bが実行するデータ処理を担当するもの、すなわちデータ処理部に相当する。そして、上述した7つのデータ処理部は、それぞれ、CPU11、メモリ12、ハードディスクドライブ13、通信用インターフェース14及びI/Oポート15といったハードウェア機器がソフトウェアとしての対話プログラムと協働することで実現される。
なお、上記7つのデータ処理部のうち、データ取得部41、データ送信部42及びデータ受信部43については、対象とするデータの内容が異なるものの、その機能については話者側サーバ10Aのデータ処理部(具体的にはデータ取得部31、データ送信部32及びデータ受信部33)と共通するので、説明を省略することとする。以下、残りのデータ処理部について説明する。
(動作実行者検知部44について)
動作実行者検知部44は、検知部に相当し、データ取得部41が取得した音声データ及び映像データに基づいて、動作実行者を検知するものである。より具体的に説明すると、対話相手であるBさん、Cさん及びDさんは、対話中、ディスプレイを構成するディスプレイ兼用ミラー25の前方位置に居て、ディスプレイ兼用ミラー25に形成された表示画面にてAさんの画像を見るとともに、音声再生装置24により再生されるAさんの音声を聞く。この間、Bさん達の音声が集音装置21により集音され、Bさん達の映像が撮像装置22により撮像されている。その音声信号及び映像信号は、逐次、相手側サーバ10Bに向けて出力され、データ取得部41は、上記の出力信号から音声データ及び映像データを取得する。
一方で、動作実行者検知部44は、データ取得部41が取得した音声データ及び映像データを解析し、Bさん達の中で該当動作を行っている者がいるか否かを判定する。ここで、該当動作とは、動作実行者を検知するために予め設定された条件を満たす動作のことであり、具体的には、笑い声や話し声を発する動作のことである。そして、動作実行者検知部44は、該当動作を行っている者が居ると判定すると、その者を検知する。
なお、動作実行者を検知する方法については特に限定されるものではないが、一例としては、音声データから音量や声の高さを特定して当該特定結果から音声発生源の位置を算出するとともに、映像データから各対話相手の位置を特定し、算出した音声発生源の位置に相当する位置に居る者を割り出すことで動作実行者を検知することが考えられる。
(表示データ生成部45について)
表示データ生成部45は、話者側サーバ10Aから送信されてくる対話データから映像データを抽出し、当該映像データに基づいて話者画像の表示データを生成するものである。そして、本実施形態では、表示データ生成部45によるデータ処理(表示データ生成処理)が2種類あり、いずれの処理が実行されるかについては、動作実行者検知部44による動作実行者の検知の有無に応じて変化することとなっている。
より具体的に説明すると、動作実行者検知部44が動作実行者を検知したとき、表示データ生成部45は、話者画像として前述の視線合わせ画像を表示する表示データの生成処理を実行する。かかる処理は、本発明の第一処理に相当し、以降では視線合わせ画像生成処理と呼ぶこととする。
視線合わせ画像生成処理について図6に図示した手順に沿って説明する。図6は、視線合わせ画像生成処理の流れを示した図である。視線合わせ画像生成処理は、動作実行者検知部44が動作実行者を検知したことをトリガーとして実行され、先ず、動作実行者が居る位置を特定する工程から始まる(S001)。本工程S001において、表示データ生成部45は、動作実行者検知部44が動作実行者を検知する際に割り出した音声発生源の位置から動作実行者の位置を特定する。以下、動作実行者位置特定工程S001について図7を参照しながらより詳細に説明する。図7は、動作実行者位置の特定に関する説明図である。
表示データ生成部45は、音声を発した対話相手(図7では最も右側に位置する者)の位置を特定するにあたり、映像データを解析して動作実行者の位置を特定する。より具体的に説明すると、音声を発した対話相手について、撮像装置22から見たときの方向及び撮像装置22の正面位置からの傾き角度(図7中、記号θにて表記)を特定する。なお、動作実行者位置を特定する方法については、上記の内容に限定されず、例えば距離センサや位置センサを用いて動作実行者の位置を特定することとしてもよい。
動作実行者の位置を特定した後、表示データ生成部45は、データ受信部43が話者側サーバ10Aから受信した対話データの中から映像データを抽出し、抽出した映像データに対して話者映像分解処理を実行する(S002)。この処理は、対話データから抽出した映像データが示す話者の映像を、図8に示すように話者の瞳の映像(以下、瞳映像)、瞳を除く頭部の映像(以下、頭部映像)、及び、話者の頭部以外及び周辺空間の映像(以下、胴等映像)に分割する処理であり、公知の画像処理技術により実現される。図8は、話者映像の分解に関する説明図である。
話者映像分解処理を実行した後、表示データ生成部45は、話者映像から分割した瞳映像のデータに対して、瞳の形状や眼球に対する相対位置を編集する処理を実行する(S003)。この視線編集処理は、動作実行者位置特定工程S001にて特定した動作実行者位置に応じて話者の視線を変化させるために実行される。以下、視線編集処理について図9を参照しながら説明する。図9は、視線編集に関する説明図である。
視線編集処理では、実際の瞳の映像(図9中の黒抜き部分)を動作実行者位置に応じて編集し、具体的には、撮像装置22から動作実行者を見たときの方向に傾き角度θに応じた分だけ視線がずれるように瞳の形状及び位置を変更する。かかる手順を経ることにより、瞳映像は、図9中、ハッチングが掛かった部分で示すように動作実行者の位置に応じて位置や形状が変化された映像(以下、編集後の瞳映像)となる。なお、視線編集処理において瞳形状や位置を変更する方法としては、公知の画像編集技術が利用可能である。
視線編集処理を実行した後、表示データ生成部45は、話者映像分解工程S002において抽出された頭部映像及び胴等映像と、視線編集工程S003において得た編集後の瞳映像を合成した画像を表示するための表示データを生成する(S004)。かかる工程S004によって得られる表示データを展開すると、図10に図示の視線合わせ画像が話者画像としてディスプレイに表示されるようになる。図10は、視線合わせ画像を表示している様子を示した図である。
視線合わせ画像についてより詳しく説明すると、話者側サーバ10Aから受信した対話データ中の映像データを展開することで表示される実際の話者映像とは異なった画像となっている。より具体的に説明すると、視線合わせ画像は、図10に示す通り、動作実行者の位置(図10に示すケースではDさんの位置)に話者の視線が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を合成することで生成される表示データは、動作実行者位置特定工程S001にて特定された動作実行者の位置に話者の視線が向くように補正された話者画像を表示するためのデータである。なお、各部分画像を合成する方法としては、公知の画像処理技術が利用可能である。
また、視線合わせ画像における話者の視線については、瞬時に動作実行者の位置に向くように切り替わることよりも、通常の人間の動きに合わせて漸次的に切り替わることが望ましい。したがって、視線編集工程S003では、動作実行者の位置に向かって徐々に変化するように視線を編集すると良い。
また、動作実行者の検知をトリガーとして視線合わせ画像生成処理を開始してから、当該処理にて生成された表示データを展開して視線合わせ画像を表示するまでの時間については、通常の人間の神経回路において視線を切り替えるのに要する時間と一致させると良い。かかる場合には、話者画像において話者の視線がより自然に変化するようになる。
視線合わせ画像の表示データを生成した後、表示データ生成部45は、更に、話者映像分解処理において分割した頭部映像のデータに対して、話者の顔の向きを編集する処理を実行する(S005)。この処理は、動作実行者位置特定工程S001にて特定した動作実行者位置に応じて話者の顔の向きを変化させるために実行される。以下、顔向き編集処理について図11を参照しながら説明する。図11は、顔向き編集に関する説明図である。
顔向き編集処理では、頭部映像を動作実行者位置に応じて編集し、具体的には、話者が正面を向いているときの顔の中心線(図11中、破線にて示す)を基準にして、撮像装置22から動作実行者を見たときの方向に傾き角度θに応じた分だけ話者の顔の向きが変化ように、鼻や口等の顔各部の位置及び顔の輪郭を変更する。かかる手順を経ることにより、頭部映像は、図11に示すように正面を向いた状態から動作実行者の位置に応じて顔の向きが変化された映像(以下、編集後の頭部映像)となる。なお、顔向き編集処理において顔の向きを変更する方法としては、公知の画像編集技術が利用可能である。
顔向き編集処理を実行した後、表示データ生成部45は、前工程S005において得た編集後の頭部映像と残りの部分映像とを合成した画像を表示するための表示データを生成する(S006)。かかる工程S006によって得られる表示データを展開すると、図12に図示の二次視線合わせ画像が話者画像としてディスプレイに表示されるようになる。図12は、二次視線合わせ画像を表示している様子を示した図である。
二次視線合わせ画像について説明すると、上述した視線合わせ画像と同様、実際の話者映像とは異なった画像となっており、図12に示す通り、動作実行者の位置(図10に示すケースではDさんの位置)に話者の視線及び話者の顔が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を再合成することで生成される表示データは、動作実行者位置特定工程S001にて特定された動作実行者の位置に話者の視線及び話者の顔が向くように補正された話者画像を表示するためのデータである。なお、二次視線合わせ画像を構築するために各部分画像を再合成する方法についても、視線合わせ画像を構築するために各部分画像を合成するときと同様、公知の画像処理技術が利用可能である。
また、二次視線合わせ画像における話者の顔の向きについては、瞬時に動作実行者に向くように変化することよりも、通常の人間の動きに合わせて漸次的に変化することが望ましい。したがって、顔向き編集工程S005では、動作実行者の位置に向かって徐々に変化するように話者の顔の向きを編集すると良い。また、このとき、顔の向きの変化に連動して話者の視線が変化することが望ましい。したがって、顔向き編集工程S005と同時に顔の向きの変化に付随して瞳映像を再編集することとし、かかる再編集工程において、顔の向きの変化量に応じて瞳の形状や位置を変化させると良い。
以上までの一連の工程が完了した時点で、視線合わせ画像生成処理が終了する。そして、表示データ生成部45は、動作実行者検知部44が動作実行者を検知する度に視線合わせ画像生成処理を繰り返し実行する。
一方、動作実行者検知部44が所定時間以上動作実行者を検知していないとき、表示データ生成部45は、話者の視線が所定の位置を向いている話者画像(以下、目配せ画像)を表示する表示データの生成処理を実行する。かかる処理は、本発明の第二処理に相当し、以降では目配せ画像生成処理と呼ぶこととする。
目配せ画像生成処理について図13に図示した手順に沿って説明する。図13は、目配せ画像生成処理の流れを示した図である。目配せ画像生成処理は、動作実行者検知部44が動作実行者を検知していない時間が所定時間に達すると実行される。なお、目配せ画像生成処理の実行条件となる動作実行者の非検知時間については、任意に設定することが可能である。
目配せ画像生成処理は、先ず、各対話相手が居る位置を特定する工程から始まる(S011)。具体的に説明すると、本工程S011において、表示データ生成部45は、撮像装置22により撮像された対話相手の映像データを解析して各対話相手の位置を特定する。より具体的には、各対話相手について、撮像装置22から見たときの方向及び撮像装置22の正面位置からの傾き角度θを特定する。なお、各対話相手の位置を特定する方法については、上記の内容に限定されず、例えば距離センサや位置センサを用いて動作実行者の位置を特定することとしてもよい。
各対話相手の位置を特定した後、表示データ生成部45は、データ受信部43が話者側サーバ10Aから受信した対話データの中から映像データを抽出し、抽出した映像データに対して話者映像分解処理を実行する(S012)。かかる処理は、視線合わせ画像生成処理における話者映像分解処理と同様の処理である。
そして、話者映像分解処理を実行した後、表示データ生成部45は、話者映像から分割した瞳映像のデータに対して、瞳の形状や眼球に対する相対位置を編集する処理を実行する(S013)。この視線編集処理は、話者の視線を予め設定された位置に向けるために実行され、具体的には複数の対話相手であるBさん、Cさん及びDさんのうちの一人が居る位置に向けるために実行される。なお、視線編集処理の手順については、視線合わせ画像生成処理における視線編集処理と同様であり、同処理において瞳形状や位置を変更する方法としては、公知の画像編集技術が利用可能である。
視線編集処理の実行後、表示データ生成部45は、前工程S013において得た編集後の瞳映像と、話者映像分解工程S012において抽出された頭部映像及び胴等映像と、を合成した画像を表示するための表示データを生成する(S014)。かかる工程S014によって得られる表示データを展開すると、対話相手の一人が居る位置に話者の視線が向いた話者画像、すなわち目配せ画像がディスプレイに表示されるようになる。
目配せ画像について説明すると、視線合わせ画像と同様、話者側サーバ10Aから受信した対話データ中の映像データを展開することで表示される実際の話者映像とは異なった画像となっている。より具体的に説明すると、目配せ画像は、対話相手の一人が居る位置に話者の視線が向くように実際の話者映像を補正したものとなっている。換言すると、話者映像から分割された各部分映像を合成することで生成される表示データは、対話相手位置特定工程S011にて各対話相手の位置のうち、所定の対話相手、例えば、撮像装置22から見て最も右側に位置する対話相手が居る位置に話者の視線が向くように補正された話者画像を表示するためのデータである。なお、各部分画像を合成する方法としては、公知の画像処理技術が利用可能である。
また、目配せ画像における話者の視線については、所定の対話相手が居る位置に向かって瞬時に切り替わることよりも、通常の人間の動きに合わせて漸次的に切り替わることが望ましい。したがって、視線編集工程S013では、所定の対話相手が居る位置に向かって徐々に変化するように視線を編集すると良い。
以上までの一連の工程が完了した時点で、目配せ画像生成処理が終了する。そして、表示データ生成部45は、動作実行者を検知していない非検知期間が継続する間、一定の間隔で目配せ画像生成処理を繰り返し実行する。このとき、表示データ生成部45は、複数の対話相手のうち、話者の視線が向いている位置に居る対話相手が順次切り替わるように目配せ画像生成処理を繰り返す。
より具体的に説明すると、ある回の目配せ画像生成処理において、撮像装置22から見て最も右側に位置する対話相手(すなわち、Bさん)が居る位置に話者の視線が向くように補正された目配せ画像の表示データを生成したとする。かかる場合、次回実行される目配せ画像生成処理では、Bさんの左隣に居る対話相手(すなわち、Cさん)の位置に話者の視線が向くように補正された目配せ画像の表示データを生成する。さらに、その次の回で実行される目配せ画像生成処理では、撮像装置22から見て最も左側に位置する対話相手(すなわち、Dさん)が居る位置に話者の視線が向くように補正された目配せ画像の表示データを生成する。以降、話者の視線がBさんの位置、Cさんの位置、Dさんの位置の順で切り替わるように目配せ画像生成処理が繰り返し実行される。
以上のように目配せ画像生成処理が繰り返し実行されることにより、Bさん達側のディスプレイに表示される話者画像(すなわち、目配せ画像)では、図14の(A)、(B)及び(C)に示すように、話者の視線が定期的に変化し、その視線の先に居る対話相手が順次切り替わるようになる。図14の(A)、(B)及び(C)は、目配せ画像生成処理にて生成された表示データに基づいて話者画像を表示している様子を示した図である。そして、上記の視覚的効果により、各対話相手は、あたかも話者が目配せしているように感じることが可能となり、以て、話者画像を見ながら行う対話の趣向性が向上することとなる。
なお、本実施形態において、目配せ画像では話者の視線のみが所定の対話相手の位置を向いていることとしたが、話者の視線とともに話者の顔が所定の対話相手の位置に向くような目配せ画像を表示することとしてもよい。換言すると、目配せ画像生成処理では、所定の対話相手の位置に話者の視線及び話者の顔が向くように補正された話者画像(目配せ画像)を表示するための表示データを生成することとしてもよい。
(話者画像表示部46及び話者音声再生部47について)
話者画像表示部46は、Bさん達側のディスプレイと協働することで画像表示部として機能する。厳密に説明すると、話者画像表示部46は、表示データ生成部45によって生成された表示データを展開し、Bさん達側のディスプレイに対して表示命令を出力する。この表示命令を受け付けたディスプレイ側では、その表示画面に前述の視線合わせ画像、二次視線合わせ画像若しくは目配せ画像が表示されるようになる。このように話者画像表示部46は、表示データを展開することで話者画像を表示するものである。
なお、Bさん達側のディスプレイについてもディスプレイ兼用ミラー25によって構成されているため、話者画像表示部46は、話者画像を表示するにあたり、ディスプレイ兼用ミラー25の鏡面部分に表示画面を形成させるために表示画面形成命令処理を実行する。表示画面形成命令処理は、話者側サーバ10Aの相手画像表示部34によって行われる処理と同様であるため、同処理の具体的な手順については説明を省略する。
話者音声再生部47は、話者側サーバ10Aより受信した対話データから音声データを抽出し、当該音声データをデコードして展開し、Bさん達側の音声再生装置24に対して再生命令を出力する。この再生命令を受け付けた音声再生装置24は、当該命令に従って上記の音声データが示す音声、すなわちAさんの音声を再生する。
<<本実施形態に係る画像表示方法の手順>>
次に、本実施形態に係る画像表示方法について説明する。なお、以下の説明においても、上記までの説明と同様に話者をAさんとし、対話相手をBさん、Cさん及びDさんとするケースを具体例に挙げることとする。
本実施形態に係る画像表示方法は、本システムSにおいて話者及び対話相手双方の通信ユニット1、2によって実現され、具体的には、各通信ユニット1、2のサーバコンピュータ(話者側サーバ10A及び相手側サーバ10B)が図15及び16に示す流れにてデータ処理を順次実行することで実現される。図15及び16は、AさんとBさん達との間の対話において本システムSが実行するデータ処理の流れを示した図である。以下、一連のデータ処理の流れについて図15及び16を参照しながら説明する。
先ず、Aさんが自宅内に設置されたディスプレイ兼用ミラー25の前方に移動し、人感センサ23がその検知エリア内に居るAさんの位置を検知するところから開始される(S021)。そして、話者側サーバ10Aは、I/Oポート15を介して上記の人感センサ23による検知結果を示す信号を受信すると(S021でYes)、表示画面形成命令処理を実行する。これにより、Aさん側のディスプレイ兼用ミラー25は、その鏡面部分が姿見の外観を現している状態から遷移し、上記の鏡面部分に表示画面を形成するようになる(S022)。なお、Aさん側のディスプレイ兼用ミラー25に表示画面が形成された時点では、当該表示画面が所定の待ち受け画面となっている。
一方、表示画面形成命令処理の実行に伴って集音装置21及び撮像装置22が作動し、これにより、Aさんの全身像及びその周辺空間の映像が撮像され、Aさんの話し声が集音されるようになる(S023)。その後、話者側サーバ10Aが、集音装置21及び撮像装置22からの出力信号を基に対話データを生成し、同データを相手側サーバ10Bに向けて送信する(S024)。
相手側サーバ10Bは、通信回線3を介して対話データを受信し、当該対話データを内部のメモリ12又はハードディスクドライブ13に記憶する(S025)。その後、相手側サーバ10Bは、記憶した対話データを読み出して同データの中から音声データを抽出し、当該音声データが示す音声を再生させる命令を音声再生装置24に対して出力する。かかる再生命令を受け付けた音声再生装置24は、上記音声データが示す音声を再生する(S026)。この結果、Bさん達が居る建物内ではAさんの音声(話し声)が聞こえるようになる。
一方、Bさん達は、Aさんの音声に反応する形で、Bさん達が居る建物内に設置されたディスプレイ兼用ミラー25の前方に移動する。そして、Aさんの音声が再生されている間にBさん達のいずれかが人感センサ23の検知エリア内に入ると、人感センサ23がその者の位置を検知するようになる(S027)。相手側サーバ10Bは、I/Oポート15を介して上記の人感センサ23による検知結果を示す信号を受信すると、これに伴って表示画面形成命令処理を実行する。これにより、Bさん達側のディスプレイ兼用ミラー25は、その鏡面部分が姿見の外観を現している状態から遷移し、上記の鏡面部分に表示画面を形成するようになる(S028)。
表示画面の形成後、相手側サーバ10Bは、話者画像の表示に係るデータ処理を実行する。当該データ処理の実行により、Aさんの音声が音声再生装置24により再生されるとともに、話者画像が表示画面に表示されるようになる(S029)。なお、話者画像の表示に係るデータ処理の流れについては、後に詳しく説明する。
また、Bさん達が居る建物において人感センサ23がその検知エリア内に居る者の位置を検知すると、集音装置21及び撮像装置22が作動するようになる。これにより、Bさん達の全身像及びその周辺空間の映像が撮像され、Bさん達の音声が集音されるようになる(S030)。その後、相手側サーバ10Bは、集音装置21及び撮像装置22からの出力信号を基に対話データを生成し、生成した対話データを話者側サーバ10Aに向けて送信する(S031)。
話者側サーバ10Aは、通信回線3を介して対話データを受信し、当該対話データを内部のメモリ12又はハードディスクドライブ13に記憶する(S032)。その後、話者側サーバ10Aは、記憶した対話データを読み出した上で同データから音声データと映像データとを抽出し、これら2つのデータを展開する。そして、話者側サーバ10Aは、抽出した音声データが示す音声を再生させる命令を音声再生装置24に対して出力するとともに、抽出した映像データが示す映像(すなわち、相手画像)を表示させる命令をディスプレイ兼用ミラー25に対して出力する。これにより、Aさん側の音声再生装置24がBさん達の音声を再生し、ディスプレイ兼用ミラー25が形成する表示画面にはBさん達の全身像及びその周辺空間の映像が表示されるようになる(S033)。
以降、両者間での対話が継続する間、上述した一連のデータ処理が各通信ユニット1、2にて繰り返し実行される。そして、Aさんの自宅又はBさん達が居る建物において、人感センサ23がその検知エリア内に居る者の位置を検知しなくなったときに(S034、S035)、対話が終了し、上述した一連のデータ処理の実行についても終了することになる。これにより、集音装置21及び撮像装置22が停止する。また、人感センサ23がその検知エリア内に居る者の位置を検知しなくなると、これに連動して、ディスプレイ兼用ミラー25に形成されていた表示画面が消去され、ディスプレイ兼用ミラー25は、その鏡面部分に姿見としての外観を現すようになる。
次に、上述したデータ処理のうち、話者画像の表示に係るデータ処理について図17を参照しながら詳細に説明する。図17は、話者画像を表示する際の手順を示した図である。話者画像の表示に係るデータ処理は、図17に示すように、相手側サーバ10Bによる動作実行者の検知の有無に応じて2つのパターンに分かれている。
一方の処理パターンは、相手側サーバ10Bが動作実行者を検知したとき(S041でYes)のパターンである。かかる処理パターンでは、相手側サーバ10Bが前述の視線合わせ画像生成処理を実行する(S042)。視線合わせ画像生成処理にて生成された表示データは、相手側サーバ10Bによって逐次展開される(S043)。これにより、Bさん達側のディスプレイには話者画像が表示されるようになる。より具体的に説明すると、視線合わせ画像生成処理が実行されると、先ず、話者の視線が動作実行者の位置に向いている視線合わせ画像が表示され、次いで、話者の視線及び顔が動作実行者の位置に向いている二次視線合わせ画像が表示されるようになる。なお、視線合わせ画像生成処理が実行された場合には、一定時間、視線合わせ画像(厳密には、二次視線合わせ画像)がディスプレイに表示され続けるようになる。
そして、視線合わせ画像生成処理が実行されてから一定時間が経過すると(S044でYes)、相手側サーバ10Bが動作実行者の検知の有無を再び判定するようになる(S041)。
もう一方の処理パターンは、相手側サーバ10Bが動作実行者を検知しないとき(S041でNo)のパターンである。かかる処理パターンでは、相手側サーバ10Bが前述の目配せ画像生成処理を実行する(S045)。目配せ画像生成処理にて生成された表示データは、相手側サーバ10Bによって逐次展開される(S046)。これにより、Bさん達側のディスプレイには話者画像として、話者の視線が所定の対話相手の位置に向いた目配せ画像が表示されるようになる。
そして、目配せ画像生成処理は、相手側サーバ10Bが動作実行者を検知しない非検知期間中、一定の時間毎に繰り返し実行される(S047、S048)。これにより、Bさん達側のディスプレイに表示される話者画像中、話者の視線の向きがBさんの位置、Cさんの位置、Dさんの位置の順で切り替わるようになる。
なお、相手側サーバ10Bが目配せ画像生成処理を実行した後に動作実行者を検知した場合には(S047でYes)、図17に示すように、処理パターンが、目配せ画像生成処理を実行するパターンから視線合わせ画像生成処理を実行するパターンに移行する。
<<その他の実施形態>>
上記の実施形態では、本発明の画像表示システム及び画像表示方法について、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。
また、上記の実施形態では、実際の話者映像に対して話者の視線や話者の顔の向きを補正した話者画像を表示するにあたり、実際の話者映像を部分映像に分割することとした。そして、分割された部分映像中、瞳映像や頭部映像を編集し、編集された部分映像と残りの部分映像とを合成することで最終的な話者画像の表示データを生成することとした。かかる手順は、あくまでも話者画像の表示データを生成する手順の一例に過ぎず、その他の手順にて話者画像の表示データを生成することとしてもよい。例えば、話者映像を部分映像に分割せずに話者映像のままの状態(すなわち、分割されていない状態)で瞳や頭部のみを編集することとしてもよい。
また、上記の実施形態では、相手側サーバ10Bが話者画像の表示データを生成することとした。ただし、表示データの生成を行う装置については、相手側サーバ10Bに限定されず、話者側サーバ10Aが行うこととしてもよい。あるいは、話者側サーバ10Aと相手側サーバ10Bの双方と通信可能な第三のサーバ(不図示のサーバであり、例えば、ASPサーバやクラウドサービス用のサーバ)が表示データを生成してもよい。
また、上記の実施形態では、対話中に笑い声や話し声を発する対話相手が居たときに相手側サーバ10Bが当該対話相手を動作実行者として検知し、これをトリガーとして視線合わせ画像生成処理を実行することとした。ただし、動作実行者を検知する際の条件については、笑い声や話し声を発することに限定されるものではなく、それ以外の動作を行うことを検知条件とすることとしてもよい。例えば、挙手動作や起立動作等のように身体を動かす動作を行うことを検知条件として設定することとしてもよい。
また、上記の実施形態では、視線や顔の向きを補正して得られる画像として話者画像を例に挙げて説明したが、対話相手の画像(相手画像)についても視線や顔の向きを実際の映像から補正した上で表示することとしてもよい。
また、上記の実施形態では、一人の話者に対して対話相手が複数人存在するケースを例に挙げて説明したが、これに限定されるものではない。例えば、話者が複数人存在することとしてもよい。かかる場合には、話者画像の表示データを生成するに際して、話者の視線や顔の向きを補正するためのデータ処理(具体的には、話者映像の分割、編集及び合成)を話者毎に実行することとなる。また、対話相手が単数(一人)であることとしてもよい。ただし、本システムSの機能をより効果的に発揮する観点では、対話相手が複数存在する上記の構成がより望ましい。
S 本システム(画像表示システム)
1,2 通信ユニット
3 通信回線
10A 話者側サーバ
10B 相手側サーバ
11 CPU、12 メモリ
13 ハードディスクドライブ
14 通信用インターフェース
15 I/Oポート
21 集音装置、22 撮像装置
23 人感センサ、24 音声再生装置
25 ディスプレイ兼用ミラー
26 制御回路、27 発光部
31,41 データ取得部
32,42 データ送信部
33,43 データ受信部
34 相手画像表示部、35 相手音声再生部
44 動作実行者検知部、45 表示データ生成部
46 話者画像表示部、47 話者音声再生部

Claims (6)

  1. 話者の画像を対話相手に対して表示する画像表示システムであって、
    前記話者側に設けられ、前記話者を撮像した際の映像を示すデータを取得するデータ取得部と、
    前記映像から補正された前記画像を表示するための表示データを生成する表示データ生成部と、
    前記対話相手側に設けられ、前記表示データを展開することで前記画像を表示する画像表示部と、
    前記対話相手側に設けられ、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知する検知部と、を有し、
    前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することを特徴とする画像表示システム。
  2. 前記表示データ生成部は、前記検知部が前記動作を行った前記対話相手を検知すると、前記動作を行った前記対話相手が居る位置に前記話者の視線及び前記話者の顔が向くように補正された前記画像を表示するための前記表示データを生成することを特徴とする請求項1に記載の画像表示システム。
  3. 前記表示データ生成部は、
    前記検知部が前記動作を行った前記対話相手を検知したときには、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第一処理を実行し、
    前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないときには、予め設定された位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成する第二処理を実行することを特徴とする請求項1又は2に記載の画像表示システム。
  4. 前記対話相手が複数存在する場合において、前記検知部が前記動作を行った前記対話相手を所定時間以上検知しないとき、前記表示データ生成部は、複数の前記対話相手のうち、前記話者の視線が向いている位置に居る前記対話相手が順次切り替わるように前記第二処理を繰り返し実行することを特徴とする請求項3に記載の画像表示システム。
  5. 前記対話相手が居る建物内に配置された建築材料、家具若しくは装飾品の一部分を構成するとともに前記画像の表示画面を形成する表示画面形成部と、
    前記建物内に設けられ、前記対話相手が行う動作、前記対話相手が居る位置、前記対話相手の姿勢及び前記対話相手が発する音のうちの少なくとも一つを検知対象としたときに、予め設定された第二の条件を満たす前記検知対象を検知するセンサと、を更に有し、
    前記表示画面形成部は、前記センサが前記第二の条件を満たす前記検知対象を検知していない期間には前記表示画面を形成せずに前記一部分としての外観を現し、前記センサが前記第二の条件を満たす前記検知対象を検知している期間にのみ前記表示画面を形成することを特徴とする請求項1乃至4のいずれか一項に記載の画像表示システム。
  6. 話者の画像を対話相手に対して表示する画像表示方法であって、
    前記話者側に設けられたデータ取得部が、前記話者を撮像した際の映像を示すデータを取得することと、
    表示データ生成部が、前記映像から補正された前記画像を表示するための表示データを生成することと、
    前記対話相手側に設けられた画像表示部が、前記表示データを展開することで前記画像を表示することと、
    前記対話相手側に設けられた検知部が、予め設定された条件を満たす動作を前記対話相手が行った際に該対話相手を検知することと、を有し、
    前記検知部が前記動作を行った前記対話相手を検知すると、前記表示データ生成部は、前記動作を行った前記対話相手が居る位置に前記話者の視線が向くように補正された前記画像を表示するための前記表示データを生成することを特徴とする画像表示方法。
JP2014012588A 2014-01-27 2014-01-27 画像表示システム及び画像表示方法 Expired - Fee Related JP6182464B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014012588A JP6182464B2 (ja) 2014-01-27 2014-01-27 画像表示システム及び画像表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014012588A JP6182464B2 (ja) 2014-01-27 2014-01-27 画像表示システム及び画像表示方法

Publications (2)

Publication Number Publication Date
JP2015142168A true JP2015142168A (ja) 2015-08-03
JP6182464B2 JP6182464B2 (ja) 2017-08-16

Family

ID=53772294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014012588A Expired - Fee Related JP6182464B2 (ja) 2014-01-27 2014-01-27 画像表示システム及び画像表示方法

Country Status (1)

Country Link
JP (1) JP6182464B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017199483A1 (ja) * 2016-05-18 2017-11-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115392A (ja) * 1997-06-26 1999-01-22 Sony Corp バックライト式画像表示装置、画像表示部材及びハーフミラー部材
JP2011097447A (ja) * 2009-10-30 2011-05-12 Sharp Corp コミュニケーションシステム
JP2012070081A (ja) * 2010-09-21 2012-04-05 Fuji Xerox Co Ltd 画像表示装置、画像表示プログラム及び画像表示システム
JP2012088538A (ja) * 2010-10-20 2012-05-10 Casio Comput Co Ltd 画像表示装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115392A (ja) * 1997-06-26 1999-01-22 Sony Corp バックライト式画像表示装置、画像表示部材及びハーフミラー部材
JP2011097447A (ja) * 2009-10-30 2011-05-12 Sharp Corp コミュニケーションシステム
JP2012070081A (ja) * 2010-09-21 2012-04-05 Fuji Xerox Co Ltd 画像表示装置、画像表示プログラム及び画像表示システム
JP2012088538A (ja) * 2010-10-20 2012-05-10 Casio Comput Co Ltd 画像表示装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017199483A1 (ja) * 2016-05-18 2017-11-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2017199483A1 (ja) * 2016-05-18 2019-03-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10659728B2 (en) 2016-05-18 2020-05-19 Sony Corporation Information processing apparatus and information processing method

Also Published As

Publication number Publication date
JP6182464B2 (ja) 2017-08-16

Similar Documents

Publication Publication Date Title
US20240098446A1 (en) Head tracked spatial audio and/or video rendering
JP6496172B2 (ja) 映像表示システム及び映像表示方法
JP2024019661A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6461679B2 (ja) 映像表示システム及び映像表示方法
JP2014187559A (ja) 仮想現実提示システム、仮想現実提示方法
US12382235B2 (en) Device and rendering environment tracking
US12389189B2 (en) Head tracking and HRTF prediction
US20240163414A1 (en) Information processing apparatus, information processing method, and system
JP2016045814A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
CN115428032A (zh) 信息处理装置、信息处理方法和程序
JP6410346B2 (ja) 遠隔意思疎通装置及びプログラム
JP6433209B2 (ja) 対話用通信システム及び対話用通信方法
WO2016159165A1 (ja) 映像表示システム及び映像表示方法
JP4501037B2 (ja) 通信制御システムと通信装置および通信方法
JP2019220932A (ja) コンテンツ配信システム、コンテンツ配信方法、コンピュータプログラム、コンテンツ配信用サーバ、および伝送路
JP6182464B2 (ja) 画像表示システム及び画像表示方法
JP6570290B2 (ja) 映像表示システム及び映像表示方法
WO2012166072A1 (en) Apparatus, systems and methods for enhanced viewing experience using an avatar
JP7102457B2 (ja) コンテンツ配信システム、コンテンツ配信方法、およびコンピュータプログラム
JP6550307B2 (ja) 画像表示システム及び画像表示方法
JP2017126861A (ja) 映像表示システム及び映像表示方法
JP7420078B2 (ja) 情報処理装置及び情報処理方法
JP2015082727A (ja) 対話システム及び対話方法
KR20210068078A (ko) 특수 효과 통신 기술
JP7636128B1 (ja) 仮想空間コンテンツ配信システム、仮想空間コンテンツ配信プログラム、および仮想空間コンテンツ配信方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170724

R150 Certificate of patent or registration of utility model

Ref document number: 6182464

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees