上記課題を解決するためになされた第1の発明は、多言語が利用される場所における利用言語の割合を管理するための言語割合管理システムであって、利用言語の割合を管理したい対象領域を撮像するカメラと、前記カメラの撮像画像から人物を検出して追跡するとともに、前記人物の言語行動に基づき前記人物の利用言語を判定する行動認識装置と、前記行動認識装置から前記利用言語を示す情報を取得して記憶することにより、前記対象領域で使用されている利用言語の割合を管理する言語割合管理サーバとを備えたことを特徴とする。
この第1の発明に係る言語割合管理システムによれば、対象領域で使用されている利用言語の割合を言語割合管理サーバで記憶して管理することができる。これにより、多言語が利用される場所における利用言語の割合を管理することが可能となる。なお、利用言語の割合の管理とは、対象領域で使用されている利用言語の認識、および対象領域における利用言語の割合の把握を含む。
また、第2の発明は、上記第1の発明において、前記対象領域内に配置され、互いに異なる言語がそれぞれ表示される複数の表示領域を有する多言語掲示板をさらに備え、前記行動認識装置は、前記撮像画像から前記人物の視線方向を検出するとともに、前記視線方向に基づき前記複数の表示領域のうちの前記人物が注視している表示領域を特定し、特定された前記表示領域に表示されている言語を前記人物の利用言語として判定することを特徴とする。
この第2の発明に係る言語割合管理システムによれば、多言語掲示板の表示領域を視認するという人物の言語行動に基づき、その人物の利用言語を判定することができる。これにより、不特定多数の人物が出入りする場所において人物の利用言語を判定することが可能となる。
また、第3の発明は、上記第1の発明または第2の発明において、前記対象領域内に配置され、多言語で操作可能な多言語キオスクをさらに備え、前記行動認識装置は、前記人物が前記多言語キオスクを操作するときに使用した言語を前記人物の利用言語として判定することを特徴とする。
この第3の発明に係る言語割合管理システムによれば、多言語キオスクを操作するという人物の言語行動に基づき、その人物の利用言語を判定することができる。これにより、不特定多数の人物が出入りする場所において人物の利用言語を判定することが可能となる。
また、第4の発明は、上記第1の発明ないし第3の発明のいずれかにおいて、前記対象領域内に配置されたマイクをさらに備え、前記行動認識装置は、前記マイクにより集音された前記人物の音声に基づき、前記人物の利用言語を判定することを特徴とする。
この第4の発明に係る言語割合管理システムによれば、発話という人物の言語行動に基づき、その人物の利用言語を判定することができる。これにより、不特定多数の人物が出入りする場所において人物の利用言語を判定することが可能となる。
また、第5の発明は、上記第1の発明ないし第4の発明のいずれかにおいて、前記対象領域に対して多言語の音声情報を音声出力する館内放送装置をさらに備え、前記館内放送装置は、前記対象領域で使用されている利用言語の割合を示す言語割合情報を前記言語割合管理サーバに問い合わせて取得し、前記言語割合情報に基づき、音声出力する多言語の種類およびその多言語を音声出力する順番を決定することを特徴とする。
この第5の発明に係る言語割合管理システムによれば、館内放送装置が音声出力する多言語の種類およびその多言語を音声出力する順番を、対象領域で使用されている利用言語の割合を示す言語割合情報に基づき決定することが可能となる。
また、第6の発明は、上記第1の発明ないし第5の発明において、前記対象領域において多言語の情報を出力する多言語案内ロボットをさらに備え、前記多言語案内ロボットは、前記対象領域で使用されている利用言語の割合を示す言語割合情報を前記言語割合管理サーバに問い合わせて取得し、前記言語割合情報に基づき、出力する多言語の種類およびその多言語を出力する順番を決定することを特徴とする。
この第6の発明に係る言語割合管理システムによれば、多言語案内ロボットが出力する多言語の種類およびその多言語を出力する順番を、対象領域で使用されている利用言語の割合を示す言語割合情報に基づき決定することが可能となる。
また、第7の発明は、上記第1の発明ないしの第6の発明において、複数の前記行動認識装置間で、前記撮像画像から検出された人物を照合するための人物照合装置をさらに備え、前記人物照合装置は、少なくとも1つの前記行動認識装置から、前記撮像画像から検出された人物の人物画像およびその人物の利用言語を示す情報を取得して予め記憶しておき、前記少なくとも1つの前記行動認識装置とは別の行動認識装置から照合対象人物の人物画像を受信したときに、前記照合対象人物の人物画像を前記予め記憶した人物画像と照合し、一致する場合には、前記予め記憶した人物画像の人物の利用言語を示す情報を前記別の行動認識装置に送信することを特徴とする。
この第7の発明に係る言語割合管理システムによれば、複数の行動認識装置間で、撮像画像から検出された人物を照合することができるので、複数の行動認識装置間で、人物の利用言語を示す情報を共有することが可能となる。
また、第8の発明は、上記第1の発明ないしの第7の発明において、前記撮像画像から検出された人物の追跡結果に基づき人物のグループを判定し、前記グループにおいて利用言語が判明している人物の利用言語を、前記グループ内の利用言語が不明な人物の利用言語とすることを特徴とする。
この第8の発明に係る言語割合管理システムによれば、グループにおいて少なくとも1人の利用言語が判明した場合に、その利用言語をそのグループ内の利用言語が不明な利用言語とすることが可能となる。
また、第9の発明は、多言語が利用される場所における利用言語の割合を管理するための言語割合管理方法であって、利用言語の割合を管理したい対象領域をカメラにより撮像するステップと、前記カメラの撮像画像から人物を検出して追跡するとともに、前記人物の言語行動に基づき前記人物の利用言語を判定するステップと、前記利用言語を示す情報を記憶することにより、前記対象領域で使用されている利用言語の割合を管理するステップとを有することを特徴とする。
この第9の発明に係る言語割合管理方法によれば、対象領域で使用されている利用言語の割合を記憶して管理することができる。これにより、多言語が利用される場所における利用言語の割合を管理することが可能となる。
以下、本開示の実施形態について、図面を参照しながら説明する。
(第1実施形態)
図1は、本開示の第1実施形態に係る言語割合管理システム1の概略構成を示す模式図である。図1に示すように、言語割合管理システム1は、多言語掲示板2、カメラ3、行動認識装置4、言語割合管理サーバ5と、館内放送装置6とを主として備えている。行動認識装置4は、専用通信回線またはインターネット等の通信ネットワークを介して、多言語掲示板2、カメラ3、および言語割合管理サーバ5に接続されている。また、言語割合管理サーバ5は、専用通信回線またはインターネット等の通信ネットワークを介して、館内放送装置6に接続されている。
本実施形態では、言語割合管理システム1を、空港や駅等の施設に適用した場合について説明する。なお、本開示に係る言語割合管理システム1は、空港や駅等以外にも、ショッピングセンターや観光地等の様々な対象に適用可能である。
図2は、言語割合管理システム1の変形例を示す図である。図2に示すように、言語割合管理システム1は、多言語掲示板2、カメラ3、行動認識装置4を複数備えていてもよい。図2の例では、多言語掲示板2、カメラ3、行動認識装置4をそれぞれ2つずつ備えており、行動認識装置4Aには多言語掲示板2Aおよびカメラ3Aが接続され、行動認識装置4Bには多言語掲示板2Bおよびカメラ3Bが接続されている。そして、行動認識装置4Aおよび行動認識装置4Bは、言語割合管理サーバ5に接続されている。
多言語掲示板2は、公知の構成を有する電光掲示板であり、空港や駅等の施設のフロアFの適所に配置されている。そして、多言語掲示板2は、図示しない情報管理センター等からの命令に基づき、フロアFに存在する人物Hに対して、連絡や案内等の各種情報を多言語で表示して提供する。
図3は、多言語掲示板2の機能ブロック図である。図3に示すように、多言語掲示板2は、連絡や案内等の各種情報を多言語によりそれぞれ表示する複数の領域を有する表示部11(図4(a)参照)と、表示部11の各領域の表示を管理する表示管理部12と、表示部11の各領域で表示されている言語を示す表示言語情報を行動認識装置4に通知する表示言語提供部13とを有している。表示部11は、例えばLEDパネルや液晶パネル表示部等から構成される。
図4(a)は、表示部11の複数の領域の一例を示す図であり、図4(b)は、表示言語情報の一例を示す図である。図4(a)の例では、表示部11は、日本語による案内を表示する領域1、英語による案内を表示する領域2、中国語による案内を表示する領域3の3つの領域を有している。したがって、この場合の表示言語情報は、「領域1が日本語、領域2が英語、領域3が中国語」となる。
カメラ3は、公知の撮像機能や通信機能を有する撮像装置であり、多言語掲示板2の近傍の壁や天井等に設置され、多言語掲示板2の周辺の予め定められた撮像領域(対象領域)を静止画像または動画像として時系列に撮像する。カメラ3の撮像画像(静止画像または動画像)は、行動認識装置4に適宜送信される。なお、カメラ3は、予め定められた撮像領域を撮像可能な限りにおいて、その形態、機能、配置、数量等については、特に限定されるものではなく種々の変更が可能である。
行動認識装置4は、公知の構成を有するコンピュータからなり、カメラ3の撮像画像から人物を検出して追跡するとともに、その人物の言語行動に基づきその人物の利用言語を判定する。言語行動とは、人物が、言語を利用して、各種情報を読んだり、書いたり(タッチパネル等を介した入力を含む)、話したり、聞いたりする行動のことである。
図5は、行動認識装置4の機能ブロック図である。図5に示すように、行動認識装置4は、カメラ3から撮像画像を取得する画像取得部21と、撮像画像から人物を検出する人物検出部22と、撮像画像中における人物領域(以降、「画像人物領域」とも称する)をフロアFの地図データであるフロアマップの位置座標に変換する位置座標変換部23と、撮像画像(現フレーム画像)から検出された人物が前フレーム画像で検出された人物と同一であるか否かを判定する同一人物判定部24と、言語割合管理サーバ5と接続する言語割合管理サーバ接続部25と、画像取得部21が取得した撮像画像および後述する人物情報管理テーブルを格納する記憶部26とを有している。撮像画像は、前フレーム画像(前画像)または現フレーム画像(現画像)として、記憶部26に格納される。
また、行動認識装置4は、多言語掲示板2と接続する多言語掲示板接続部27、撮像画像から検出された人物の視線方向を該撮像画像から検出する視線方向検出部28と、視線方向検出部28で検出された人物の視線方向および多言語掲示板2から取得した表示言語情報に基づきその人物の利用言語を判定する利用言語判定部29と、利用言語判定部29に接続された言語判定テーブル30とを有している。視線方向検出部28は、撮像画像から人物の顔の向きを検出し、検出された顔の向きをその人物の視線方向とする。利用言語判定部29は、各フレーム画像における判定結果を言語判定テーブル30に記録し、記録された判定結果に基づき人物の利用言語を判定する。
図6は、人物情報管理テーブルの一例を示す図である。図6に示すように、人物情報管理テーブルには、人物IDに紐付けて、人物検出部22で検出された人物の画像人物領域、位置座標変換部23で変換された位置座標、利用言語判定部29で判定された利用言語が記録されている。
図7は、言語判定テーブル30の一例を示す図である。図7に示すように、言語判定テーブル30には、人物IDに紐付けて、人物が多言語掲示板2を注視した領域である着目領域と、連続するフレームにおいてその着目領域を連続して注視した回数である継続回数が記録されている。
言語割合管理サーバ5は、公知の構成を有するサーバからなり、行動認識装置4から人物の位置座標と利用言語を含む人物情報を取得して言語割合管理テーブル(図9参照)に記憶することにより、カメラ3の撮像領域(対象領域)で使用されている利用言語の割合を管理する。なお、利用言語の割合の管理とは、対象領域で使用されている利用言語の認識、および対象領域における利用言語の割合の把握を含む。
図8は、言語割合管理サーバ5の機能ブロック図である。図8に示すように、言語割合管理サーバ5は、行動認識装置4(4A、4B)から人物情報を受信する人物情報受信部31と、言語割合管理テーブルを格納する記憶部32と、館内放送装置6から、対象領域で使用されている利用言語の割合についての問い合わせを受信したときに、その問い合わせに応じた言語割合情報を作成する言語割合管理部33と、館内放送装置6からの問い合わせの受信、および言語割合管理部33で作成した言語割合情報の館内放送装置6への送信を行う言語割合送出部34とを有している。上述したように、言語割合管理システム1は、複数の行動認識装置4を備えていてもよい。図8に示す言語割合管理サーバ5は、2つの行動認識装置4A、4Bから人物情報を取得して管理している。
図9は、言語割合管理テーブルの一例を示す図である。図9に示すように、言語割合管理テーブルは、行動認識装置4に対して付与した装置IDに紐付けて、撮像画像中における人物領域(画像人物領域)をフロアマップの位置座標に変換した位置座標と、人物の利用言語とを記憶している。図9の例では、行動認識装置4Aに、装置ID「1」が付与され、行動認識装置4Bに装置ID「2」が付与されている。
図10は、言語割合管理サーバ5で作成する言語割合情報の一例を示す図である。言語割合情報は、館内放送装置6から問い合わせられた対象領域に含まれている位置座標に対応する利用言語を集計して作成する。図10の例では、対象領域の利用言語の割合は、英語が20人、日本語が11人、中国語が23人、韓国語が3人、不明が15人となっている。なお、図10の例では、利用言語の割合を人数で表したが、パーセンテージで表すようにしてもよい。また、予め定められた閾値以下の言語を足切りするようにしてもよい。
館内放送装置6は、公知の構成を有する放送装置であり、対象領域に対して多言語の音声情報(連絡や案内等の各種情報)を音声出力する。
図11は、館内放送装置6の機能ブロック図である。図11に示すように、館内放送装置6は、館内放送装置6のユーザが音声を入力する音声入力部41と、ユーザが入力した音声を認識する音声認識部42と、言語割合管理サーバ5に問い合わせて対象領域の言語割合情報を取得する言語割合取得部43と、ユーザが入力した音声を言語割合情報に基づき決定された多言語に翻訳する翻訳部44と、翻訳された多言語の合成音声を作成する音声合成部45と、作成された合成音声を音声出力(再生)する音声出力部46とを有している。
また、館内放送装置6は、言語割合管理サーバ5に問い合わせて言語割合情報を取得する領域(すなわち対象領域)である言語割合取得領域および多言語の再生順序を設定するための表示入力パネル47と、表示入力パネル47で設定された言語割合取得領域および多言語再生順序をそれぞれ記憶する言語割合取得領域設定テーブルおよび多言語再生順序設定テーブルを格納した記憶部48とを有している。また、記憶部48には、言語割合取得領域の候補を予め記憶した領域情報テーブルが格納されている。
図12は、館内放送装置6の記憶部48に記憶される領域情報テーブルの一例を示す図である。図13は、フロアFの地図データであるフロアマップの一例を示す図である。図13の例では、フロアFには、2つの多言語掲示板2A、2B(以降、単に、「掲示板A」、「掲示板B」とも称する)が設けられている。この場合、領域情報テーブルは、「フロア全体」、「掲示板A周辺」、および「掲示板B周辺」の3つの領域を示す領域名と、各々の領域を特定する領域情報とを、言語割合取得領域(対象領域)の候補として予め記憶している。
図14は、館内放送装置6のユーザが、言語割合取得領域を設定する設定画面を示す図である。図14の例では、言語割合取得領域としてフロア全体が選択され設定されている。したがって、この場合は、館内放送装置6は、フロア全体についての言語割合情報を、言語割合管理サーバ5に問い合わせて取得する。
図15は、館内放送装置6のユーザが、多言語再生順序を設定する設定画面を示す図である。図15の例では、再生順序の1番目は日本語、2番目は英語、3番目は言語割合情報における割合1位の言語、4番目は言語割合情報における割合2位の言語、5番目と6番目は未選択(無し)と設定されている。したがって、図15の例では、再生順序の1番目から4番目までの4つの言語で音声情報が再生される。なお、言語割合情報における割合1位の言語および割合2位の言語は、事前に1番目、2番目として設定された日本語と英語以外の言語における割合1位の言語と割合2位の言語とするとよい。
図16は、館内放送装置6の記憶部48に記憶される言語割合取得領域設定テーブルの一例を示す図である。言語割合取得領域設定テーブルには、図14に示した言語割合取得領域の設定画面で設定された言語割合取得領域が記録される。図16の例では、言語割合取得領域は「フロア全体」であると記憶されている。
図17は、館内放送装置6の記憶部48に記憶される多言語再生順序設定テーブルの一例を示す図である。多言語再生順序テーブルには、図15に示した多言語再生順序の設定画面で設定された再生順序が記録されている。図17の例では、再生順序は、「1番目は日本語、2番目は英語、3番目は言語割合情報における割合1位の言語、4番目は言語割合情報における割合2位の言語」であると記憶されている。
図18は、第1実施形態に係る行動認識装置4における一連の処理を示すフロー図である。
まず、ステップST101では、カメラ3から、多言語掲示板2の周辺の予め定められた撮像領域(対象領域)の撮像画像を取得し、現フレーム画像(現画像)として、記憶部26に格納する。
次に、ステップST102では、撮像画像に基づき、人物情報管理テーブル(図6参照)の画像人物領域および位置座標を更新する人物位置情報更新処理を行う。この人物位置情報更新処理の詳細は、図19のフロー図を参照して後述する。
続いて、ステップST103では、撮像画像から検出された人物の利用言語を判定する利用言語判定処理を行う。この利用言語判定処理の詳細は、図20のフロー図を参照して後述する。
次に、ステップST104では、言語割合管理サーバ5の言語割合管理テーブル(図9参照)に記憶されている人物情報(位置座標および利用言語)の更新処理を行う。具体的には、記憶部26に格納されている人物情報管理テーブル(図6参照)に記憶されている人物情報(位置座標および利用言語)を言語割合管理サーバ5に送信し、言語割合管理サーバ5の言語割合管理テーブルに記憶されている人物情報を更新するか、または言語割合管理テーブルに追加して記録する。
そして、ステップST105では、撮像画像を前フレーム画像として記憶部26に格納し、その後、ステップST101に戻る。
図19は、行動認識装置4での人物位置情報更新処理(図18のステップST102)を説明するためのフロー図である。
まず、ステップST201では、現フレーム画像から人物領域(画像人物領域)を検出する。現フレーム画像からの人物領域の検出は、人物の特徴量に基づく手法等の公知の手法を用いて行うとよい。
次に、ステップST202では、人物領域(画像人物領域)を、フロアFの地図データであるフロアマップの位置座標に変換する。具体的には、人物領域の中心または重心の座標を位置座標とするとよい。
続いて、ステップST203では、現フレーム画像で検出された人物が、前フレーム画像に存在するか否かを判定する。この判定は、上記のステップST201の場合と同様に、人物の特徴量に基づく手法等の公知の手法を用いて行うとよい。前フレーム画像に同一人物が存在すると判定された場合(ステップST203:Yes)はステップST204に進み、前フレーム画像に同一人物が存在しないと判定された場合(ステップST203:No)はステップST205に進む。
ステップST204では、記憶部26に格納されている人物情報管理テーブル(図6参照)における該当人物IDの位置座標と画像人物領域を更新し、その後、ステップST206に進む。
ステップST205では、人物情報管理テーブルに人物IDを追加し、その追加した人物IDに紐付けて画像人物領域および位置座標を記録し、その後、ステップST206に進む。
ステップST206では、人物情報管理テーブルにおける更新されていない人物IDを削除し、処理を終了する。これにより、現フレーム画像において存在しない人物の人物情報は削除される。上記のステップST202−205は、現フレーム画像から検出された人物領域毎に繰り返される。
図20は、行動認識装置4での利用言語判定処理(図18のステップST103)を説明するためのフロー図である。以下の処理は、上記の人物位置情報更新処理で更新または追加された人物ID毎に繰り返される。
まず、ステップST301では、現フレーム画像から、人物の視線方向を検出する。具体的には、現フレーム画像の画像人物領域から、統計的または非統計的識別器を用いる手法やテンプレートマッチングを用いる手法等の公知の手法を用いてその人物の顔領域を検出するとともに、顔領域から公知の手法を用いて顔特徴量を抽出する。そして、抽出された顔特徴量に基づき、予め用意した統計的または非統計的識別器を用いて顔の向きを検出し、検出された人物の顔の向きをその人物の視線方向とする。
次に、ステップST302では、検出された人物の視線方向に基づき、多言語掲示板の表示部における着目領域を検出する。着目領域とは、人物が注視している領域のことである。
続くステップST303では、着目領域が検出されたか否かを判定する。着目領域が検出されなかったと判定された場合(ステップST303:No)はステップST304に進み、着目領域が検出されたと判定された場合(ステップST303:Yes)はステップST305に進む。
ステップST304では、着目領域が検出されなかったため、言語判定テーブル(図7参照)の着目領域を「無し」、継続回数を「0」に更新し、その後、処理を終了する。
ステップST305では、着目領域が前フレーム画像と同一であるか否かを判定する。同一ではないと判定された場合(ステップST305:No)はステップST306に進み、同一であると判定された場合(ステップST305:Yes)はステップST307に進む。
ステップST306では、新規の着目領域を追加し、その着目領域に紐付けて、継続回数「1」を記録し、その後、処理を終了する。
ステップST307では、該当する着目領域の継続回数を「1」増加させる。
続くステップST308では、継続回数が閾値以上になったか否かを判定する。閾値以上ではないと判定された場合(ステップST308:No)は処理を終了し、閾値以上であると判定された場合(ステップST308:Yes)はステップST309に進む。
ステップST309では、その着目領域に対応する言語を、人物情報管理テーブルの利用言語の欄に記録し、その後、処理を終了する。領域に対応する言語は、表示言語情報(図4(b)参照)に基づき判定する。これにより、人物の利用言語が判定される。
次に、言語割合管理サーバ5の動作について説明する。
言語割合管理サーバ5は、行動認識装置4から、人物の位置座標および利用言語を含む人物情報を受信すると、その人物情報を言語割合管理テーブル(図9参照)に記録する。上述したように、人物情報は、行動認識装置4の装置IDに紐付けて記憶される。そして、館内放送装置6から、対象領域で使用されている利用言語の割合についての問い合わせを受信したときに、対象領域で使用されている利用言語の割合を示す言語割合情報(図10参照)を作成し、館内放送装置6に送信する。
次に、館内放送装置6の動作について説明する。
まず、館内放送装置6のユーザは、館内放送装置6の表示入力パネル47に表示した各設定画面(図14および図15参照)を操作して、言語割合取得領域および多言語再生順序を設定する。言語割合取得領域は、ユーザが、設定画面に表示された言語割合取得領域の候補から、所望する言語割合取得領域を選択することにより設定される。設定された言語割合取得領域は、言語割合取得領域設定テーブル(図16参照)に記憶される。多言語再生順序は、ユーザが、設定画面を操作して再生順序を指定することにより設定される。設定された再生順序は、多言語再生順序設定テーブル(図17参照)に記憶される。
館内放送装置6は、対象領域(放送領域)に対して多言語の音声情報を音声出力するときは、対象領域の利用言語の割合を言語割合管理サーバ5に問い合わせて言語割合情報を取得し、取得した言語割合情報に基づき、音声出力する多言語の種類およびその多言語を音声出力する順番を決定する。これにより、対象領域で使用されている利用言語を、その対象領域における利用言語の割合に応じて放送することができる。
以上のように、第1実施形態に係る言語割合管理システムによれば、対象領域で使用されている利用言語の割合を言語割合管理サーバ5で記憶して管理することにより、多言語が利用される場所における利用言語の割合を管理することが可能となる。
また、第1実施形態に係る言語割合管理システムによれば、多言語掲示板2の表示領域を視認するという人物の言語行動に基づき、その人物の利用言語を判定することができる。これにより、不特定多数の人物が出入りする場所において人物の利用言語を判定することが可能となる。
また、第1実施形態に係る言語割合管理システムによれば、館内放送装置6が音声出力する多言語の種類およびその多言語を音声出力する順番を、対象領域で使用されている利用言語の割合を示す言語割合情報に基づき決定することが可能となる。
(第2実施形態)
次に、本開示の第2実施形態に係る言語割合管理システム1について説明する。なお、この第2実施形態では、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
図21は、第2実施形態に係る言語割合管理システム1の概略構成を示す模式図である。この第2実施形態は、館内放送装置6の代わりに多言語案内ロボット7を備えている点が、上記の第1実施形態と異なる。
多言語案内ロボット7(以降、単に「ロボット7」と称する)は、現在位置を把握しながらフロアFを自律走行し、予め記憶した多言語の案内音声(音声情報)を、ロボット7を中心とした予め定められた範囲の領域(対象領域)に対して音声出力する。音声出力する多言語の種類およびその多言語を放送する順番は、上記の館内放送装置6の場合と同様に、対象領域で使用されている利用言語の割合に基づき決定する。
図22は、多言語案内ロボット7の機能ブロック図である。図22に示すように、多言語案内ロボット7は、該ロボット7を駆動する駆動部51と、該ロボット7の現在位置を把握する現在位置把握部52と、言語割合取得領域設定テーブル、多言語再生順序設定テーブル、および多言語の案内情報(音声情報や文字情報)を格納した記憶部53と、言語割合管理サーバ5から言語割合情報を取得する言語割合取得部54と、多言語の案内情報を出力する出力部55とを備えている。出力部55は、スピーカによって音声を再生出力したり、文字情報などをロボット7が備えるディスプレイに表示出力したりするものである。
言語割合取得領域(すなわち対象領域)は、ロボット7の位置座標を中心とした予め定められた半径Rの範囲の円領域である。半径Rは適宜設定される。図23は、ロボット7の言語割合取得領域の一例を示す図である。図23の例では、ロボット7の現在位置の座標(1500、550)を中心とした半径Rの範囲の円領域が、言語割合取得領域となる。
図24は、ロボット7での多言語案内処理を説明するためのフロー図である。下記の処理は、ロボット7の記憶部53に予め設定されたプログラム(例えば多言語案内プログラム)、または図示しない情報管理センター等からの命令に基づき、ロボット7が多言語の案内情報(連絡や案内等の各種情報の音声情報や文字情報)を出力するときに開始される。
まず、ステップST401では、現在位置把握部52によりロボット7の現在位置を把握するとともに、現在位置の位置座標および予め定められた半径Rに基づき言語割合取得領域を決定する。上述したように、言語割合取得領域は、現在の位置座標を中心とした半径Rの範囲の円領域となる。
次に、ステップST402では、言語割合取得領域(対象領域)で使用されている利用言語の割合を言語割合管理サーバ5に問い合わせ、言語割合管理サーバ5から、対象領域で使用されている利用言語の割合を示す言語割合情報を取得する。
続いて、ステップST403では、言語割合管理サーバ5から取得した言語割合情報および多言語再生順序設定に基づき、言語再生順序を決定する。多言語再生順序設定は、上記の館内放送装置6の場合と同様に、ユーザにより予め設定されている。
そして、ステップST404では、決定された言語再生順序に従って案内情報の出力(案内音声の再生や文字情報の表示)を行い、その後、処理を終了する。
このように第2実施形態に係る言語割合管理システムによれば、ロボット7が出力する多言語の種類およびその多言語を出力する順番を、対象領域で使用されている利用言語の割合を示す言語割合情報に基づき決定することが可能となる。なお、第1実施形態の館内放送装置と第2実施形態の多言語案内ロボット7とを併用するようにしてもよい。
また、上記の例では、ロボット7の現在位置の位置座標および予め定められた半径Rの範囲の領域における利用言語の割合に基づいて、ロボット7が出力する言語の種類を決定したが、ロボット7の正面に位置する人物を検出し、ロボット7がその人物の利用言語を言語割合管理サーバ5に問い合わせ、言語割合管理サーバ5が言語割合管理テーブルから人物の位置座標に基づき利用言語をロボット7に送信することによって、ロボット7が正面に位置する人物へ案内する言語の種類を決定するようにしてもよい。
(第3実施形態)
次に、本開示の第3実施形態に係る言語割合管理システム1について説明する。なお、この第3実施形態では、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
図25は、第3実施形態に係る言語割合管理システム1の概略構成を示す模式図である。この第3実施形態は、多言語掲示板2の代わりに多言語キオスク8を備えている点が、上記の第1実施形態と異なる。
多言語キオスク8は、公知の構成を有する情報端末装置であり、フロアFの適所に配置されている。多言語キオスク8は、表示入力部であるタッチパネルを有しており、フロアFに存在する人物はタッチパネルを操作することにより、各種の情報にアクセスすることができる。
図26は、多言語キオスク8の機能ブロック図である。図26に示すように、多言語キオスク8は、連絡や案内等の各種情報を多言語により表示するともに、ユーザが操作可能な表示入力部(タッチパネル)61と、表示入力部61の表示を管理する表示管理部62と、表示入力部61で表示されている言語、すなわち表示入力部61の操作に使用された言語を示す表示言語情報を行動認識装置4に通知する表示言語提供部63とを有している。
図27は、第3実施形態に係る行動認識装置4の機能ブロック図である。図27に示すように、第3実施形態に係る行動認識装置4は、多言語掲示板接続部27の代わりに多言語キオスク接続部64を有しており、この多言語キオスク接続部64を介して多言語キオスク8と接続されている。また、第3実施形態に係る行動認識装置4は、視線方向検出部28および言語判定テーブル30を有していない。それ以外の点は、第1実施形態に係る行動認識装置4と同様なので、説明は省略する。
図28は、第3実施形態に係る行動認識装置4での利用言語判定処理を説明するためのフロー図である。以下の処理は、人物ID毎に繰り返される。
まず、ステップST501では、人物情報管理テーブル(図6参照)に記録されている位置座標に基づき、多言語キオスク8の正面に位置する人物を検出する。行動認識装置4は、多言語キオスク8の位置座標を予め保持しているものとする。
次に、ステップST502では、人物情報管理テーブル(図6参照)の位置座標において、多言語キオスク8の正面に位置する人物が検出されたか否かを判定する。検出されたと判定された場合(ステップST502:Yes)は、ステップST503に進み、検出されなかった(多言語キオスク8の正面に位置する人物がいない)と判定された場合(ステップST502:No)は、処理を終了する。
ステップST503では、検出された人物が、多言語キオスク8の表示入力部61を操作したか否かを判定する。ここでは、検出された人物が、多言語キオスク8の正面に一定時間以上滞在していた場合に、操作があったと判定するものとする。操作したと判定された場合(ステップST503:Yes)は、ステップST504に進み、操作していないと判定された場合(ステップST503:No)は、処理を終了する。
ステップST504では、多言語キオスク8に、その人物が多言語キオスク8の表示入力部61を操作するときに使用した利用言語を問い合わせる。
そして、ステップST505では、問い合わせの結果、すなわちその人物の利用言語を人物情報管理テーブルの利用言語の欄に格納し、その後、処理を終了する。
このように第3実施形態に係る言語割合管理システムによれば、多言語キオスク8を操作するという人物の言語行動に基づき、その人物の利用言語を判定することができる。これにより、不特定多数の人物が出入りする場所において人物の利用言語を判定することが可能となる。
なお、言語割合管理システム1が、多言語掲示板2と多言語キオスク8との両方を備え、両方の装置により人物の利用言語を判定するようにしてもよい、また、一方の装置の判定結果を優先するようにしてもよい。
(第4実施形態)
次に、本開示の第4実施形態に係る言語割合管理システム1について説明する。なお、この第4実施形態では、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
図29は、第4実施形態に係る言語割合管理システム1の概略構成を示す模式図である。この第4実施形態は、人物照合装置9をさらに備えている点が、上記の第1実施形態と異なる。
この第4実施形態では、人物照合装置9により、行動認識装置4Aに接続されたカメラ3Aで撮像した撮像画像から抽出した人物画像と、行動認識装置4Bに接続されたカメラ3Bで撮像した撮像画像から抽出した人物画像とを照合することができる。例えば、多言語掲示板2の表示部11の周辺に位置しカメラ3Bで撮像された人物H1が多言語キオスク8の方向に移動しカメラ3Aで撮像された場合に、カメラ3Aで撮像した人物H1の人物画像と、カメラ3Bで撮像した人物H1の人物画像とを人物照合装置9によって照合することができる。したがって、もし行動認識装置4Bで人物H1の利用言語が判明していれば、人物H1の利用言語を、人物照合装置9を介して、行動認識装置4Bに通知することが可能となる。
図30は、人物照合装置9の機能ブロック図である。図30に示すように、人物照合装置9は、行動認識装置4と接続する行動認識装置接続部71と、人物言語テーブルを記憶する記憶部72と、人物画像を照合する人物照合部73とを有している。
図31は、人物言語テーブルの一例を示す図である。図31に示すように、人物言語テーブルでは、バイナリ画像である人物画像に紐付けて、その人物画像の人物の利用言語が記憶されている。
図32は、第4実施形態に係る行動認識装置4の機能ブロック図である。図32に示すように、第4実施形態に係る行動認識装置4は、人物照合装置接続部74をさらに有しており、人物照合装置接続部74を介して人物照合装置9と接続されている。それ以外の点は、第1実施形態に係る行動認識装置4と同様なので、説明は省略する。
図33は、第4実施形態に係る行動認識装置4での人物位置情報更新処理を説明するためのフロー図である。この第4実施形態に係る人物位置情報更新処理では、撮像画像(現フレーム画像)から新規の人物が検出され、この新規の人物IDを追加するステップST205の後に、現フレーム画像から抽出した人物画像を人物照合装置9に送信して、人物照合装置9からその人物画像に対応する利用言語を示す利用言語情報を取得する(ステップST601)。そして、取得した利用言語情報を、新規の人物に付与された人物IDに紐づけて、人物情報管理テーブル(図6参照)の利用言語の欄に記録する(ステップST602)。それ以外の点は、第1実施形態に係る人物位置情報更新処理と同様なので、説明は省略する。
図34は、第4実施形態に係る行動認識装置4での利用言語判定処理を説明するためのフロー図であり、図20のST301−307と同じ部分は省略して図示している。この第4実施形態に係る利用言語判定処理では、ステップST309で着目領域に対応する言語を人物情報管理テーブルの利用言語の欄に格納(記憶)した後に、その利用言語を示す情報を画像人物領域の人物画像とともに人物照合装置9に送信する(ステップST603)。それ以外の点は、第1実施形態に係る人物位置情報更新処理と同様なので、説明は省略する。
人物照合装置9は、行動認識装置4(図29の例では、行動認識装置4B)から人物画像および利用言語を取得すると、その人物画像および利用言語を人物言語テーブル(図31)に記録する。
図35は、人物照合装置9の照合処理を説明するためのフロー図である。以下の処理は、図33を参照して説明した、行動認識装置4の人物位置情報更新処理におけるステップST601およびステップST602の処理に対応している。
まず、ステップST701では、行動認識装置4(図29の例では、行動認識装置4A)から照合対象の人物画像を受信する。
次に、ステップST702では、照合対象の人物画像を、人物言語テーブルに記憶されている人物画像と照合する。
続いて、ステップST703では、照合対象の人物画像と一致する人物画像が人物言語テーブルに記憶されているか否か、すなわち該当人物が存在するか否かを判定する。該当人物が存在しないと判定された場合(ステップST703:No)は、ステップST704に進み、該当人物が存在すると判定された場合(ステップST703:Yes)は、ステップST705に進む。
ステップST704では、「利用言語は不明」と行動認識装置4に通知し、その後、処理を終了する。
ステップST705では、人物言語テーブルを参照して該当人物の利用言語を判定し、判定された利用言語を行動認識装置4に通知する。その後、処理を終了する。
このように第4実施形態に係る言語割合管理システムによれば、複数の行動認識装置4間で、撮像画像から検出された人物を照合することができるので、複数の行動認識装置4間で、人物の利用言語を示す情報を共有することが可能となる。
(第5実施形態)
次に、本開示の第5実施形態に係る言語割合管理システム1について説明する。なお、この第5実施形態では、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
図36は、第5実施形態に係る言語割合管理システム1の概略構成を示す模式図である。この第5実施形態は、フロアFに存在する人物のグループを判定し、そのグループ内の少なくとも1人の利用言語が判明した場合に、その利用言語をそのグループ内の利用言語が不明な人物の利用言語と判定する点が、上記の第1実施形態と異なる。
図36の例では、フロアFに、人物H2、H3、H4の3人の人物からなるグループG1と、人物H5、H6の2人の人物からなるグループG2が存在している。同じグループ内の人物は同一の言語を使用すると考えられるので、同じグループ内の少なくとも1人の人物の利用言語が判明すれば、その利用言語がそのグループ内の他の人物の利用言語であると判定することができる。
したがって、グループG1においては、人物H2の利用言語が判明すると、グループG1の人物H3、H4の利用言語が不明である場合でも、人物H3、H4の利用言語は人物H1の利用言語(図36の例では英語)と判定することができる。同様に、グループG2においては、人物H5の利用言語が判明すると、グループG2の人物H6の利用言語が不明である場合でも、人物H6の利用言語は人物H5の利用言語(図36の例では中国語)と判定することができる。
図37は、第5実施形態に係る行動認識装置4の機能ブロック図である。図37に示すように、第5実施形態に係る行動認識装置4は、グループを判定するグループ判定部81をさらに有している。それ以外の点は、第1実施形態に係る行動認識装置4と同様なので、説明は省略する。
図38は、第5実施形態に係る人物情報管理テーブルを示す図である。図38に示すように、人物情報管理テーブルは、人物ID、画像人物領域、利用言語に加えて、位置座標履歴の欄をさらに有している。位置座標履歴の欄には、現フレーム画像から取得した位置座標を追加して記録する。
図39は、第5実施形態に係る行動認識装置4での一連の処理を説明するためのフロー図である。
図39に示すように、この第5実施形態では、ステップST104の言語情報更新処理と、ステップST105の撮像画像を前フレーム画像として記憶部26に格納する処理との間に、グループ判定処理(ステップST106)をさらに有している。このグループ判定処理では、人物のグループを判定し、そのグループのうちの1人の利用言語が判明した場合に、その利用言語をグループ内の利用言語が不明な人物の利用言語とする。それ以外の点は、第1実施形態に係る行動認識装置4での一連の処理と同様なので、説明は省略する。
図40は、第5実施形態に係る行動認識装置4のグループ判定処理を説明するためのフロー図である。
まず、ステップST801では、人物ID毎に、人物情報管理テーブル(図38参照)の位置座標履歴の欄に、現フレーム画像の位置座標を追加して記憶する。
次に、ステップST802では、人物情報管理テーブルの位置座標履歴の欄に記憶された位置座標に基づき、人物のグループと、そのグループに属する人物IDを判定する。例えば、連続する所定数のフレーム画像において一緒に存在し、かつ相互距離が予め定められた距離内である複数の人物をグループと判定するとよい。なお、グループの判定方法はこれに限定されるものではなく、他の様々な公知の方法を用いることができる。
続いて、ステップST803では、判定されたグループ内に利用言語が不明な人物が存在するか否かを判定する。利用言語が不明な人物が存在すると判定された場合(ステップST803:Yes)は、ステップST804に進み、利用言語が不明な人物が存在しない判定された場合(ステップST803:No)は、処理を終了する。
ステップST804では、そのグループ内の人物において最も多く使用されている利用言語を、利用言語が不明な人物の利用言語と判定する。そして、判定された利用言語を人物情報管理テーブルの利用言語の欄に記録し、その後、処理を終了する。
このように第5実施形態に係る言語割合管理システムによれば、グループ内の少なくとも1人の利用言語が判明した場合に、その利用言語をそのグループ内の利用言語が不明な人物の利用言語と判定することが可能となる。なお、グループ内の少なくとも1人の利用言語が判明した場合に、その利用言語をそのグループ内のすべての人物の利用言語とするようにしてもよい。
(第6実施形態)
次に、本開示の第6実施形態に係る言語割合管理システム1について説明する。なお、この第6実施形態では、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
図41は、第6実施形態に係る言語割合管理システム1の概略構成を示す模式図である。この第6実施形態は、多言語掲示板2の代わりにマイク10を備えている点が上記の第1実施形態と異なる。
マイク10は、公知の構成を有する集音マイクであり、空港のフロアFの適所に配置され、人物の会話等の発話を集音する。
図42は、第6実施形態に係る行動認識装置4の機能ブロック図である。図42に示すように、第6実施形態に係る行動認識装置4は、多言語掲示板接続部27の代わりにマイク接続部91を有しており、このマイク接続部91を介してマイク10と接続されている。利用言語判定部29は、マイク10が集音した音声を公知の音声分析技術を用いて分析して、その人物の利用言語を判定するものとする。また、第6実施形態に係る行動認識装置4は、視線方向検出部28および言語判定テーブル30を有していない。それ以外の点は、第1実施形態に係る行動認識装置4と同様なので、説明は省略する。
図43は、第6実施形態に係る行動認識装置4での利用言語判定処理を説明するためのフロー図である。以下の処理は、人物ID毎に繰り返される。
まず、ステップST901では、人物情報管理テーブル(図6参照)に記録されている位置座標に基づき、マイク10の正面に位置する人物を検出する。行動認識装置4は、マイク10の位置座標を予め保持しているものとする。
次に、ステップST902では、人物情報管理テーブル(図6参照)の位置座標において、マイク10の正面に位置する人物が検出されたか否かを判定する。検出されたと判定された場合(ステップST902:Yes)は、ステップST903に進み、検出されなかった(マイク10の正面に位置する人物がいない)と判定された場合(ステップST902:No)は、処理を終了する。
ステップST903では、検出された人物の音声をマイク10で取得されたか否かを判定する。音声が取得されたと判定された場合(ステップST903:Yes)はステップST904に進み、音声が取得されなかったと判定された場合(ステップST903:No)は処理を終了する。
ステップST904では、利用言語判定部29により、マイク10が集音した音声を分析して、その人物の利用言語を判定する。
そして、ステップST905では、判定された利用言語を人物情報管理テーブルの利用言語の欄に格納(記憶)し、その後、処理を終了する。
このように第6実施形態に係る言語割合管理システムによれば、発話という人物の言語行動に基づき、その人物の利用言語を判定することができる。これにより、不特定多数の人物が出入りする場所において人物の利用言語を判定することが可能となる。
なお、言語割合管理システム1が、多言語掲示板2、多言語キオスク8、およびマイク10の任意の組み合わせを備え、各装置により人物の利用言語を判定するようにしてもよい。また、いずれかの装置の判定結果を優先するようにしてもよい。
以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。また、第1実施形態から第6実施形態を任意に組み合わせた実施形態としてもよい。また、上記実施形態に示した本開示に係る言語割合管理システムおよび言語割合管理方法の各構成要素は、必ずしも全てが必須ではなく、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。