JP2012059121A

JP2012059121A - 眼鏡型表示装置

Info

Publication number: JP2012059121A
Application number: JP2010203125A
Authority: JP
Inventors: Keiichi Nakajima; 啓一中島
Original assignee: SoftBank Mobile Corp
Current assignee: SoftBank Corp
Priority date: 2010-09-10
Filing date: 2010-09-10
Publication date: 2012-03-22
Anticipated expiration: 2030-09-10
Also published as: JP5666219B2

Abstract

【課題】周囲の雑音による影響を受け難く、特定の話者の音声を精度よく翻訳して表示できる眼鏡型表示装置を提供する。
【解決手段】周囲の音を受音して音信号に変換し視界を撮像する眼鏡型表示装置１は、撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出し、その顔画像データ及び顔特徴データ並びに周囲の音の音信号の少なくとも一つに基づいて、話者の音声信号を特定して抽出する。また、前記話者の音声信号をテキストデータに変換し、そのテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する。他の言語に翻訳されたテキストデータは視界内に重ねて表示される。
【選択図】図１

Description

本発明は、音声の翻訳結果を表示可能な眼鏡型表示装置に関するものである。

従来、この種の眼鏡型表示装置として、音声認識機能付ヘッドアップディスプレイ装置が知られている（特許文献１参照）。この音声認識機能付ヘッドアップディスプレイ装置は、集音装置（マイク）で集音した音声信号を音声認識装置でテキストデータに変換してそのテキストデータを自動翻訳装置により他国語のテキストデータに変換し、そのテキストデータを画像に変換する装置により実時間で画像に変換し表示する。この音声認識機能付ヘッドアップディスプレイ装置によれば、自動翻訳装置を組み込むことにより外国語の音声を母国語の文字データに変換して表示するいわゆる実時間字幕表示機能が実現できるので、本人の声や周囲の音を聞きながら、且つ前面の風景を見ながら翻訳された文字を読むことができる。

しかしながら、上記音声認識機能付ヘッドアップディスプレイ装置では、翻訳の精度が悪く、実用上使用することができない場合があった。特に、複数の外国人を相手に会話をする場合には、複数の相手をそれぞれ識別することができず、翻訳の精度がさらに悪化するという問題があった。また、通常の眼鏡と同様にウェアラブルに装着して使用可能な眼鏡型表示装置は、装着したまま外出することができるが、パソコンや専用機器などで構成され室内に設置された自動翻訳装置に比べて、周囲の雑音を拾いやすく、正確な翻訳が妨げられるおそれもある。

本発明は以上の問題点に鑑みなされたものであり、その目的は、周囲の雑音による影響を受け難く、特定の話者の音声を精度よく翻訳して表示できる眼鏡型表示装置を提供することである。

本発明に係る眼鏡型表示装置は、周囲の音を受音して音信号に変換する受音手段と、視界を撮像する視界撮像手段と、視界内に情報を重ねて表示可能な表示手段とを備えた眼鏡型表示装置であって、前記視界撮像手段で撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出する顔関連データ抽出手段と、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データ並びに前記受音手段から出力される音信号の少なくとも一つに基づいて、前記話者の音声信号を特定して抽出する音声信号抽出手段と、前記音声信号抽出手段で抽出された前記話者の音声信号をテキストデータに変換する音声認識手段と、前記音声認識手段で認識された前記話者の音声のテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する翻訳手段と、前記翻訳手段で翻訳された前記他の言語のテキストデータを前記視界内に重ねて表示するように前記表示手段を制御する表示制御手段とを備える。
この眼鏡型表示装置によれば、顔関連データ抽出手段で抽出された話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて当該話者の方向を特定することができ、受音手段から出力される音信号が周囲の雑音を含んでいても、その音信号から、前記特定した話者の方向からの音声信号のみを特定して抽出することができる。このように周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。
なお、前記話者の音声信号を特定して抽出する音声信号抽出手段は、前記受音手段で変換された音信号に含まれる音声信号を抽出し、その抽出した音声信号と前記話者の顔画像データ及び顔特徴データの少なくとも一方とに基づいて、前記話者の音声信号を特定するように構成してもよい。

前記眼鏡型表示装置において、前記音声信号抽出手段で抽出された前記話者の音声信号に基づいて前記話者に固有の音声特徴データを抽出する音声特徴データ抽出手段と、前記話者に固有の音声特徴データの有無をデータベースに照会する音声特徴データ照会手段と、前記音声特徴データ照会手段の照会結果に基づき、前記話者に固有の音声特徴データが前記データベースに保存されていない場合は、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方と前記話者を識別可能な識別データとに関連付けて前記データベースに保存する音声特徴データ保存手段と、を更に備え、前記話者に固有の音声特徴データが前記データベースに保存されている場合は、前記データベースに保存されている前記話者に固有の音声特徴データを用いて、前記音声信号特定抽出手段による前記話者の音声信号の抽出及び前記音声認識手段による前記テキストデータへの変換の少なくとも一方を行ってもよい。
この眼鏡型表示装置によれば、データベースに保存されている話者に固有の音声特徴データを用いて、話者の音声信号の抽出及びテキストデータへの変換の少なくとも一方を行うことにより、周囲の音情報からの特定の話者の音声信号の抽出の精度や、その音信号からテキストデータへ変換する音声認識の精度を更に高めることができる。
また、前記話者に固有の音声特徴データがデータベースに保存されていない場合に、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、その話者の顔画像データ及び顔特徴データの少なくとも一方と話者を識別可能な識別データとに関連付けてデータベースに追加して保存することにより、当該話者について、その後に行う音声信号の抽出の精度や音声認識の精度を更に高めることができる。
なお、前記話者に固有の音声特徴データが前記データベースに既に保存されている場合は、その既に保存されている話者に固有の音声特徴データを更新したり、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データをデータベースに追加したりしてもよい。また、前記話者に固有の音声特徴データが前記データベースに既に保存されている場合は、前記音声特徴データ抽出手段で抽出された音声特徴データの保存を行わないようにしてもよい。

また、前記眼鏡型表示装置において、前記音声認識手段で認識された前記話者の音声のテキストデータに基づいて前記話者に固有の言語表現データを抽出する言語表現データ抽出手段と、前記話者に固有の言語表現データの有無をデータベースに照会する言語表現データ照会手段と、前記言語表現データ照会手段の照会結果に基づき、前記話者に固有の言語表現データが前記データベースに保存されていない場合は、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データを、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方と前記話者を識別可能な識別データと関連付けて前記データベースに保存する言語表現データ保存手段と、を更に備え、前記翻訳手段は、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記データベースに保存されている前記話者の言語表現データを用いて、前記他の言語のテキストデータへの変換を行ってもよい。
この眼鏡型表示装置によれば、データベースに保存されている話者に固有の言語表現データを、話者の音声のテキストデータを他の言語のテキストデータへ変換する翻訳に用いることにより、翻訳の精度を更に高めることができる。
また、話者に固有の言語表現データがデータベースに保存されていない場合に、言語表現データ抽出手段で抽出された話者に固有の言語表現データを、その話者の顔画像データ及び顔特徴データの少なくとも一方と話者を識別可能な識別データとに関連付けてデータベースに保存することにより、当該話者について、その後に行う翻訳の精度を更に高めることができる。
なお、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、その既に保存されている話者に固有の言語表現データを更新したり、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データをデータベースに追加したりしてもよい。また、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記言語表現データの保存を行わないようにしてもよい。

また、前記眼鏡型表示装置において、前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて、前記話者の表情を判断する表情判断手段を、更に備え、前記翻訳手段は、前記表情判断手段で判断した前記話者の表情の情報を用いて、前記他の言語のテキストデータへの変換を行うものであってもよい。
この眼鏡型表示装置によれば、話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて判断した当該話者の表情の情報を、話者の音声のテキストデータを他の言語のテキストデータへ変換する翻訳に用いることにより、翻訳の精度を更に高めることができる。

また、前記眼鏡型表示装置において、前記音声認識手段による音声信号のテキストデータへの変換と、前記翻訳手段による前記他の言語のテキストデータへの変換とを、複数の話者それぞれについて同時に行ってもよい。
この眼鏡型表示装置によれば、視界の中に複数の話者がいる場合に、任意のタイミングで話者を切り換えて翻訳結果を表示したり、複数の話者の翻訳結果を同時に表示したりすることができる。

また、前記眼鏡型表示装置において、前記翻訳手段で前記他の言語のテキストデータに変換された翻訳結果に問題が無かったか否かを検証する翻訳結果検証手段と、前記翻訳結果検証手段で前記翻訳結果に問題がないと判断した場合に、前記話者に固有の辞書データとして、該翻訳結果を前記話者の識別データと関連付けて前記データベースに保存する辞書データ保存手段と、を更に備えてもよい。
この眼鏡型表示装置によれば、前記他の言語のテキストデータに変換された翻訳結果に問題がないと判断した場合に、その翻訳結果を当該利用者に固有の辞書データとしてデータベースに保存することにより、当該話者について、その後に行う翻訳の精度を更に高めることができる。

また、前記眼鏡型表示装置において、前記翻訳結果に問題があったことを前記話者に知らせるメッセージ及び問題があった翻訳結果の部分を該話者に聞き直すメッセージの少なくとも一方を該話者に対して出力するメッセージ出力手段を更に備え、前記翻訳結果検証手段で前記翻訳結果に問題があると判断した場合に、前記翻訳手段による前記他の言語のテキストデータへの変換のやり直し、又は、前記メッセージ出力手段による前記メッセージの出力を行ってもよい。
この眼鏡型表示装置によれば、前記翻訳結果に問題があると判断した場合に、前記他の言語のテキストデータへの変換のやり直しを行うことにより、誤った翻訳に基づいて話者との会話が進んでしまうのを回避することができる。また、前記翻訳結果に問題があると判断したときに、翻訳結果に問題があったことを話者に知らせるメッセージ及び問題があった翻訳結果の部分を話者に聞き直すメッセージの少なくとも一方を出力する場合、翻訳結果に問題があった部分を話者に対して聞き直すことができる。従って、この場合も、誤った翻訳に基づいて話者との会話が進んでしまうのを回避することができる。

また、前記眼鏡型表示装置において、前記眼鏡型表示装置を装着した利用者の眼を撮像する利用者撮像手段と、前記利用者の音声を受音して音声信号に変換する利用者音声受音手段と、前記利用者音声受音手段から出力される前記利用者の音声信号をテキストデータに変換する利用者音声認識手段と、を更に備え、前記翻訳結果検証手段は、前記利用者撮像手段で撮像した前記利用者の眼の表情や動き、前記利用者音声受音手段で受音した前記利用者の音声信号、及び前記利用者音声認識手段から出力される前記利用者の音声のテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証してもよい。
この眼鏡型表示装置によれば、話者に対面して話者からの音声を聞いている利用者の眼の表情や動き、音声信号及びその音声信号から変換したテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証することにより、翻訳結果の検証の精度を高めることができる。

また、前記眼鏡型表示装置において、複数の話者について該話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータが保存されているデータベースが設けられたサーバ装置との間で、通信ネットワークを介して通信するための通信手段を、更に備えてもよい。
本発明に係る翻訳システムは、前記通信手段を備えた眼鏡型表示装置と、前記データベースが設けられたサーバとを備える。
これらの眼鏡型表示装置及び翻訳システムによれば、眼鏡型表示装置のようなハードウェアなどの構成の制約が少ない外部のサーバに前記データベースを設けることにより、多数の話者について保存された話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータを、多数の眼鏡型表示装置からアクセスして共有することができる。
前記翻訳システムにおいて、前記顔関連データ抽出手段、前記音声信号抽出手段、前記音声認識手段及び前記翻訳手段の少なくとも一つを、前記眼鏡型表示装置に備える代わりに前記サーバ装置に備えるように構成してもよい。

また、前記眼鏡型表示装置において、前記視界における利用者の視線方向を検出する視線方向検出手段と、当該眼鏡型表示装置の姿勢変化を検出する姿勢変化検出手段と、前記視界撮像手段で撮像された前記視界の画像情報と、前記視線方向検出手段で検出された視線方向の検出結果と、前記姿勢変化検出手段で検出された前記眼鏡型表示装置の姿勢変化の検出結果とに基づいて、前記視界内において前記利用者が注視している話者を特定する注視対象話者特定手段と、を更に備えてもよい。
この眼鏡型表示装置によれば、前記視線方向検出手段で前記利用者の視線方向を検出するとともに、姿勢変化検出手段で検出された眼鏡型表示装置の姿勢変化の検出結果に基づいて、上記利用者の視線方向を速やかに補正することができる。これにより、視界撮像手段で撮像された視界画像内で利用者が注視している話者を特定するときの精度を高めることができる。
なお、前記眼鏡型表示装置において、前記視線方向検出手段は、前記利用者の眼を撮像する利用者撮像手段を有し、前記利用者撮像手段で撮像された前記利用者の眼の画像に基づいて前記利用者の視線方向を検出するものであってもよい。
また、前記眼鏡型表示装置において、前記視界撮像手段を前記視線方向検出手段として兼用してもよい。この場合は、前記視界撮像手段で撮像された画像内の所定位置（例えば、撮像画像の中心位置）の方向を前記視界における利用者の視線方向と推定される。
また、前記眼鏡型表示装置において、前記受音手段で受音された音声の音源方向を検出する音源方向検出手段を更に備えてもよい。この場合は、前記音源方向検出手段で検出された音声の音源方向に基づいて、話者をより精度よく特定することができる。

本発明によれば、周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。よって、周囲の雑音の影響を受けにくく特定の話者の音声を識別して精度よく翻訳して表示することができるという効果を奏する。

本発明の実施形態に係る眼鏡型表示装置を含む翻訳システムの全体構成を示す説明図。（ａ）は同眼鏡型表示装置の上面図。（ｂ）は他の構成例に係る眼鏡型表示装置の上面図。眼鏡型表示装置のハードウェアの一構成例を示すブロック図。（ａ）は視線検知部の一構成例を示す概略構成図。（ｂ）は眼球の各位置に対応するイメージセンサの水平走査出力信号の模式図。画像生成部、画像投影表示部及び焦点距離調整部の一例を示す概略構成図。眼鏡型表示装置及び翻訳サーバの一構成例を示す機能ブロック図。眼鏡型表示装置の音源分離部における音源の分離を説明するための説明図。眼鏡型表示装置の顔認識部における顔認識の処理手順の一例を説明するためのフローチャート。翻訳サーバの一例を示す機能ブロック図。眼鏡型表示装置の右側のメガネレンズを通して見える前方視界に、視線方向の話者の翻訳文を重ね合わせて表示した一例の説明図。話者の表現方法や言い回し方を学習して翻訳精度を高め、学習結果を個人辞書データに登録する手順の一例を説明するためのフローチャート。周辺環境情報を用いた翻訳の概念図。複数の話者について同時に翻訳し同時に翻訳文を表示した例を示す説明図。

以下、図面に基づいて本発明の実施形態を説明する。
図１は、本発明の実施形態に係る眼鏡型表示装置１を含む翻訳システムの全体構成を示す説明図である。眼鏡型表示装置１は、利用者の両眼の前方を覆うように頭に装着することにより、利用者に話しかけた外国人の声と画像とを、通信ネットワーク４０を介して翻訳サーバ５０に送信し、翻訳サーバ５０で翻訳したテキストデータを受信して、翻訳文を利用者が視認できるように前方視界に重ね合わせて表示することができる。

眼鏡型表示装置１のフレームは、リム２を備えている。このリム２の左右両サイドに、ツルとも呼ばれる一対のテンプル３Ｒ,３Ｌが、それぞれ蝶番４Ｒ,４Ｌ（４Ｌは不図示）により約９０度開閉可能に保持されている。また、一対のメガネレンズ５Ｒ,５Ｌ、一対の鼻パッド６Ｒ,６Ｌ、一対のテンプル３Ｒ,３Ｌの蝶番４Ｒ,４Ｌが設けられた側と反対側の端部にそれぞれ先セル７Ｒ,７Ｌを備えている。

また、眼鏡型表示装置１は、右側のテンプル３Ｒの内側に電源をＯＮ／ＯＦＦするための電源スイッチ８と、リム２の中央上部のフロント側に設けられた利用者の視線の方向における前方視界の画像を撮像する視界撮像手段としての視界同調カメラ９と、リム２の右側のレンズ５Ｒの下部側に設けられた視線方向検出手段としての視線検知部１０と、周囲の音を受音して音信号に変換する受音手段としての４個のマイク１１ＲＦ，ＲＲ，ＬＦ，ＬＲとを備えている。更に、眼鏡型表示装置１は、リム２の右側端部にメガネレンズ５Ｒを通して見える前方視界に重ね合わせて利用者が視認できるように翻訳文を表示する表示手段としての画像表示部１２とを備えている。

上記前方視界に重ね合わせて利用者が視認できるように情報を表示する画像表示方式としては、網膜に直接走査するものやコンバイナ光学系を用いたもの等、各種の画像表示方式を用いることができる。

図２（ａ）は、網膜走査型の画像表示方式を採用した眼鏡型表示装置１の構成例を示している。この網膜走査型の眼鏡型表示装置１では、走査用の光学系１２４が右レンズ５Ｒの前方に配設されている。また、図２（ｂ）は、コンバイナ光学系１２５を用いた画像表示方式を採用した眼鏡型表示装置１の構成例を示している。コンバイナ光学系１２５は、例えば内部に偏光ビームスプリッタと１／４波長板と主反射面と有する平板状の透明基板で構成され、右レンズ５Ｒの中に埋め込むように設けられる。コンバイナ光学系１２５は、右側のテンプル３Ｒの内側にある光源の画像表示面から出射した表示光束を使用者の眼の方向に導くように構成されている。

図３は、眼鏡型表示装置のハードウェアの一構成例を示すブロック図である。
眼鏡型表示装置１のリム２又はテンプル３Ｒ,３Ｌの内部には、画像表示部１２を構成する構成要素の少なくとも一部と、ＣＰＵやＲＯＭ等で構成された制御手段としての制御部１４と、記憶手段としてのメモリ１５と、電源手段としてのバッテリ１６と、装着検知部１７とが格納されている。また、眼鏡型表示装置１は、通信部１８と、姿勢変化検出部１９とを更に備えている。

制御部１４で実行されるプログラムや制御部１４等で用いられる各種データは、メモリ１５に保存されている。制御部１４に所定のプログラムやデータが読み出されて実行されることにより、後述の各種制御やデータ処理が実行される。

制御部１４は、視界同調カメラ９の視界の画像情報及び視線方向の検出結果と、姿勢変化検出部１９で検出された眼鏡型表示装置１の姿勢変化の検出結果とに基づいて、制御部１４内でデータ処理したり通信ネットワーク上のサーバの支援を受けたりすることにより、視界内において利用者が注視している話者を特定する話者特定手段としても機能する。

通信部１８は、例えばＷｉＦｉ等の公衆無線ＬＡＮのアクセスポイントを介して、又は、携帯電話機等の移動体通信網の基地局を介して、通信ネットワーク４０上の翻訳サーバ５０や他の各種サーバと通信するための通信手段として機能する。移動体通信網の基地局との間の通信は、基地局と直接通信してもよいし、携帯電話機等の携帯通信端末を介して基地局と通信するようにしてもよい。携帯電話機等の携帯通信端末との通信は、例えばBluetooth（登録商標）や赤外線等の近距離無線通信で行うようにしてもよいし、通信ケーブルを介した近距離有線通信で行うようにしてもよい。また、通信部１８は、（１）移動体通信網用のアンテナ及び無線通信処理部部、（２）無線ＬＡＮ用のアンテナ及び無線通信処理部、及び（３）Bluetooth（登録商標）や赤外線等の近距離通信用のアンテナ及び無線通信処理部のすべて備えるように構成してもよいし、上記（１）乃至（３）の構成のうち通信ネットワーク４０上のサーバとの通信に用いられるものだけを備えるように構成してもよい。
また、通信部１８は、制御部１４と連携することにより、前記特定された話者の画像データやマイク１１で集音した音声データを翻訳サーバ５０に送信するデータ送信手段として機能するとともに、翻訳サーバ５０で翻訳した翻訳文のテキストデータを受信する翻訳データ受信手段としても機能する。

姿勢変化検出部１９は、例えば１軸、２軸又は３軸の加速度センサで構成され、眼鏡型表示装置１に作用する加速度を検知することにより、利用者の頭部の姿勢変化に伴う眼鏡型表示装置の姿勢変化を検出する姿勢変化検出手段として機能する。姿勢変化検出部１９を構成する加速度センサは、重力方向を検知可能なもの（絶対加速度を検知可能なもの）を用いてもよい。姿勢変化検出部１９は、例えば、所定のタイミングに検出した眼鏡型表示装置１の姿勢を基準姿勢とし、その利用者の頭部の基準姿勢からの姿勢変化（例えば、基準姿勢からのロール角、ピッチ角及びヨー角それぞれの角度変化分の値、又は、眼鏡型表示装置１の姿勢変化に起因して発生した加速度の値）を、検出結果として出力する。上記基準姿勢を検出タイミングは、例えば、眼鏡型表示装置１の利用を開始したタイミングや所定操作を行ったタイミングでもよいし、利用者が注視している注視対象を特定したタイミングであってもよい。
なお、姿勢変化検出部１９は、加速度センサとともに又は加速度センサに代えて地磁気センサを備え、眼鏡型表示装置１に定義された座標を基準にして磁気センサで検出される方位情報を用いてに基づいて眼鏡型表示装置１の姿勢変化の検出するように構成してもよい。

また、姿勢変化検出部１９によって検出された眼鏡型表示装置１の姿勢変化の検出結果は、視界内において利用者が注視している話者を特定するときに、例えば次の（１）〜（３）を含む様々な制御に用いることができる。

（１）利用者の頭部及び視線のぶれ防止制御：
利用者が注視しようとしている話者が同じであるにもかかわらず、何らかの理由により、眼鏡型表示装置１を装着している利用者の頭部に振動やふらつき等のぶれが発生する場合がある。利用者の頭部にぶれが発生すると、その頭部に装着した眼鏡型表示装置１の視界同調カメラ９で撮像される視界の画像における視線方向もぶれてしまうため、その撮像画像や視線方向に基づいて特定する利用者の話者の特定精度が低下するおそれがある。そこで、姿勢変化検出部１９によって検出された眼鏡型表示装置の姿勢変化の検出結果に基づいて、視界同調カメラ９で撮像される視界の画像における視線方向を補正する制御を行うことにより、注視対象の特定精度を向上させることができる。

（２）注視対象の特定処理の軽減制御：
視界同調カメラ９で撮像した視界の画像の撮像及び視線方向の検出結果に基づく注視対象の特定処理を頻繁に実行すると、眼鏡型表示装置１における処理の負荷が大きくなってしまうおそれがある。そこで、眼鏡型表示装置１の姿勢が大きく変化したときに、その眼鏡型表示装置１を装着した利用者が注視している話者が変わった可能性が高い点に着目し、眼鏡型表示装置１の姿勢変化の検出結果（姿勢変化量）が、予め設定した閾値の範囲よりも大きくなったときに、視界同調カメラ９による視界の画像の撮像処理及び視線方向の検出処理を行うとともに、それらの視界の画像及び視線方向の検出結果に基づく話者の特定処理を行うように制御する。これにより、眼鏡型表示装置１における処理の負荷の増大を回避しつつ、利用者が注視している話者を特定できるようになる。

（３）話者の特定処理の補完制御：
視界同調カメラ９による視界の画像の撮像処理や視線方向の検出処理が、眼鏡型表示装置１の姿勢変化（利用者の頭部の姿勢変化）に追従できない場合がある。この場合は、視界の撮像画像や視線方向に基づいて利用者の注視している話者をリアルタイムに特定することができなかったり、特定する利用者の注視している話者の特定精度が低下したりするおそれがある。そこで、視界同調カメラ９による視界の画像の撮像処理や視線方向の検出処理に必要な処理時間に基づいて、その撮像処理及び視線方向の検出処理を行うインターバルを予め設定しておく。そして、視界の撮像画像や視線方向に基づいて利用者の注視シテイル話者を特定した後、その後に到来する次の撮像・視線検出タイミングまでは、眼鏡型表示装置１の姿勢変化の検出結果に基づいて、直近の撮像済みの視界の画像及び検出済みの視線方向を補完することにより、話者を特定するように制御する。この制御により、話者の特定精度が低下することなく、利用者の注視している話者をリアルタイムに特定することができる。

電源スイッチ８は、眼鏡型表示装置１の電源をＯＮ／ＯＦＦするための例えば３Ｐトグルスイッチであり、電源ＯＦＦ、ＡＵＴＯ及び電源ＯＮの３つのポジションを取り得る。ここで、ＡＵＴＯポジションは、一対のテンプル３Ｒ,３Ｌを開いた状態で一対の先セル７Ｒ,７Ｌに弱電圧を印加しておき、利用者が眼鏡型表示装置１を頭に装着したときに、一対の先セル７Ｒ,７Ｌ間に流れる微弱電流を、タッチセンサ等で構成された装着検知部１７が検知することにより、翻訳機能等の動作を開始するように制御される。一方、利用者が眼鏡型表示装置１を外したときには、翻訳機能等の動作を停止するように制御される。また、電源ＯＮポジションでは、電源がＯＮされて翻訳機能等が動作するが、利用者が眼鏡型表示装置１を外した状態で所定時間経過すると自動的に電源がＯＦＦする省電力制御がなされる。なお、電源スイッチ８を設けずに、常に前記ＡＵＴＯポジションでの電源動作と同様に眼鏡型表示装置１の電源が自動でＯＮ／ＯＦＦされるように構成してもよい。

視界同調カメラ９は、例えばＣＣＤカメラやＣＭＯＳカメラ等の固体撮像素子で構成され、眼鏡型表示装置１のリム２の中央上部に配設され、利用者が見ている前方視界を撮像する。この視界同調カメラ９により、前方視界の画像の画像データを取得し、注視している話者の特定や各種分析に使用することができる。

図４は、視界における利用者の視線方向を検出する視線方向検出手段としての視線検知部１０を説明するための図であって、図４（ａ）は、視線検知部１０の一構成例を示す概略構成説明図であり、図４（ｂ）は眼球の各位置に対応するイメージセンサの水平走査出力信号の模式図である。

図４（ａ）において、視線検知部１０は、赤外光を放射する発光ダイオード等の光源１１６と、投光レンズ１１７と、受光レンズ１１８と、ＣＣＤ又はＣＭＯＳ等の固体撮像素子等からなる撮像手段としてのイメージセンサ１１９と、視線演算手段１２０とを備えている。

視線検知部１０において、光源１１６より射出した赤外光は投光レンズ１１７を通過した後、略平行光となって眼球１００Ｒの角膜を照射する。そして、角膜を通過した赤外光は虹彩を照射する。角膜の表面で拡散反射した赤外光は、受光レンズ１１８を介してイメージセンサ１１９上に導光され、角膜像を結像する。同様に、虹彩の表面で拡散反射した赤外光は、受光レンズ１１８を介してイメージセンサ１１９上に導光され、虹彩像を結像する。イメージセンサ１１９からの出力は、図４（ｂ）に示すように、角膜像が結像された角膜反射像スポット位置が他に比べて著しく電位が高くなる。視線演算手段１２０は、この角膜反射像スポット位置に基づいて、眼球１００Ｒが真っ直ぐ前を向いているときの眼球の中心線からの回転角を算出する。そして、算出した回転角に基づいて、眼球１００Ｒの視軸を求め、前方視界における利用者の相対的な視線方向を検出する。そして、このとき得られた前方視界における相対的な視線方向により、メガネレンズ５Ｒを通して見える前方視界における利用者が注視している注視点の人物、すなわち前方視界のうち利用者が見ている話者を特定することができる。

上記視線検知部１０を設けることにより、前方視界内の利用者の視線方向をより正確に検知でき、利用者が注視している話者をより正確に特定することができる。これにより、前方視界における話者について利用者が注視している話者とは別の話者を特定してしまうという誤動作を防ぐことができる。

なお、図４に示したように利用者が見ている前方視界の中で利用者が注視している視線方向をより正確に検出する視線検知部１０を設けた場合、その視線検知部１０で検知された利用者の視線方向に視界同調カメラ９の撮像方向が向くように構成してもよい。より具体的には、視界同調カメラ９の撮像方向を変化させる撮像方向可変手段としてカメラ駆動機構と、視線検知部１０の検出結果に基づいて、利用者の視線方向に視界同調カメラ９の撮像方向が向くようにカメラ駆動機構を制御する撮像制御手段とを設ける。上記カメラ駆動機構は、例えば、撮像方向を変化できるように視界同調カメラ９を回転可能に保持するカメラ保持部と、オン／オフ制御及び正／逆回転制御が可能なマイクロモータと、マイクロモータの回転を視界同調カメラ９のカメラ保持部の回転に変換する駆動伝達部とを用いて構成することができる。このように視線検知部１０で検知された利用者の視線方向に視界同調カメラ９の撮像方向が向くように構成することにより、利用者が注視している話者方向を中心にして視界の画像を撮像することができ、その撮像した画像の中央に話者が位置することになる。また、話者を特定しやすくなるように撮像した画像を拡大する場合でも、その拡大した画像から注視対象がはみ出にくくなる。従って、注視対象をより精度よく特定することができる。

なお、視線方向検出手段として、図４を用いて説明した視線検知部１０に限らず、上記視界同調カメラ９を、視界における利用者の視線方向を検出する簡易型の視線方向検出手段として用いてもよい。本構成例の視界同調カメラ９は、撮像画像の中心が利用者の視界の略中央に位置するように設けられ、その視界同調カメラ９で撮像した撮像画像の中心（利用者の視界の略中央）に向かう方向が利用者の視線方向であると推定することにより、利用者の視線方向を検出する。ここで、利用者が頭部の姿勢を変えて視線方向を変化させると、その視線方向の変化に応じて、利用者の頭部に装着されている眼鏡型表示装置１の視界同調カメラ９の撮像方向が変化し、その視界同調カメラ９で撮像した撮像画像の中心（利用者の視界の略中央）に向かう方向が、利用者の視線方向であると推定することができる。

図５は、図２（ａ）で示した網膜走査型の画像表示方式を採用した場合の画像表示部１２、及び画像表示部１２で用いる画像信号を生成する画像生成部２６（図６参照）の一構成例を示す概略構成説明図である。
図５において、制御部１４から供給される画像信号を処理するための光源ユニット部１１０が設けられている。光源ユニット部１１０には、制御部１４から翻訳文テキストデータの画像信号が入力され、それに基づいて画像を生成するための画像信号を発生する画像信号供給部１１１が設けられ、この画像信号供給部１１１から画像信号１１２、垂直同期信号１１３及び水平同期信号１１４が出力される。また、光源ユニット部１１０には、画像信号供給部１１１から伝達される画像信号１１２をもとに強度変調されたレーザ光を出射する光源としてのレーザ発振部１１５が設けられている。なお、前方視界に重ね合わせて表示する翻訳文の画像の形成位置を、利用者が注視している話者を見ているときの焦点位置に合わせるように、網膜に走査する像の焦点を調整する焦点距離調整手段を設けてもよい。

また、光源ユニット部１１０側から導かれたレーザ光をガルバノミラー１２１ａを利用して垂直方向に走査する走査光学系としての垂直走査系１２１と、垂直走査系１２１によって走査されたレーザ光を後述する水平走査系１２２に導く第１リレー光学系１２３と、垂直走査系１２１に走査され、第１リレー光学系１２３を介して入射されたレーザ光を、ガルバノミラー１２２ａを利用して水平方向に走査する走査光学系としての水平走査系１２２と、水平走査系１２２によって走査されたレーザ光を利用者の右眼眼球１００Ｒの瞳孔に入射させる第２リレー光学系１２４とが設けられている。

垂直走査系１２１は、表示すべき画像の１走査線ごとに、レーザビームを垂直方向に垂直走査する垂直走査を行う光学系である。また、垂直走査系１２１は、レーザビームを垂直方向に走査する光学部材としてのガルバノミラー１２１ａと、そのガルバノミラー１２１ａの駆動制御を行う垂直走査制御部１２１ｂとを備えている。

これに対し、水平走査系１２２は、表示すべき画像の１フレームごとに、レーザビームを最初の走査線から最後の走査線に向かって水平に走査する水平走査を行う光学系である。また、水平走査系１２２は、水平走査する光学部材としてのガルバノミラー１２２ａと、そのガルバノミラー１２２ａの駆動制御を行う水平走査制御部１２２ｂとを備えている。

また、垂直走査系１２１、水平走査系１２２は、図５に示すように、各々画像信号供給部１１１に接続され、画像信号供給部１１１より出力される垂直同期信号１１３、水平同期信号１１４にそれぞれ同期してレーザ光を走査するように構成されている。

上記構成の走査光学系によって利用者の網膜上に翻訳文の画像を表示する処理は、例えば次のように行われる。図５に示すように、本実施形態の眼鏡型表示装置１では、光源ユニット部１１０に設けられた画像信号供給部１１１が制御部１４から翻訳文テキストデータの画像信号の供給を受けると、画像信号供給部１１１は、例えば白色レーザ光を出力させるための画像信号１１２と、垂直同期信号１１３と、水平同期信号１１４とを出力する。画像信号１１２に基づいて、レーザ発振器１１５はそれぞれ強度変調されたレーザ光を発生し、垂直走査系１２１に出力する。垂直走査系１２１のガルバノミラー１２１ａに入射したレーザ光は、垂直同期信号１１３に同期して垂直方向に走査されて第１リレー光学系１２３を介し、水平走査系１２２のガルバノミラー１２２ａに入射する。ガルバノミラー１２２ａは、ガルバノミラー１２１ａが垂直同期信号に同期すると同様に水平同期信号１１４に同期して、入射光を水平方向に反射するように往復振動をしており、このガルバノミラー１２２ａによってレーザ光は水平方向に走査される。垂直走査系１２１及び水平走査系１２２によって垂直方向及び水平方向に２次元に走査されたレーザ光は、第２リレー光学系１２４により利用者の右眼眼球へ入射され、網膜上に投影される。利用者はこのように２次元走査されて網膜上に投影されたレーザ光による翻訳文の画像を認識することができる。

図６は、眼鏡型表示装置１及び翻訳サーバ５０の機能ブロック図である。
図６において、眼鏡型表示装置１には、視線同調カメラ９、視線検知部１０、マイク１１の他に、話者特定部２０と音源分離部２１とが設けられている。また、翻訳サーバ５０には、音源分離部２１で分離した音源の中から話者特定部２０で特定した話者の音声を抽出する音声信号抽出手段としての特定音源抽出部２２と、特定した話者の顔を認識する顔関連データ抽出手段としての顔認識部２３と、特定した話者の音声を認識して話者の言語のテキストデータを作成する音声認識手段としての音声認識部２４と、認識されたテキストデータを利用者の母国語に翻訳して翻訳文テキストデータを作成する翻訳手段としての自動翻訳部２５とが設けられている。

更に、眼鏡型表示装置１には、上記構成に加えて、翻訳サーバ５０で作成された翻訳文テキストデータの画像信号を生成する画像生成部２６と、視界同調カメラ９で撮像された視界の画像情報及び視線方向の検出結果、並びに姿勢変化検出部１９の検出結果の少なくとも一つに基づいて、視界における注視している話者の位置と翻訳文の表示位置とが所定の位置関係になるように翻訳文の表示位置を制御する表示制御手段としての表示制御部２７と、前述の画像表示部１２とが設けられている。

話者特定部２０は、視界同調カメラ９で撮像した前方視界の画像の中から、視線検知部１０で得られた前方視界における利用者の眼の相対的な視線方向に基づいて、メガネレンズ５Ｒを通して見える前方視界における利用者が注視している注視点の人物の顔、すなわち前方視界のうち利用者が見ている話者の顔を検出して特定する。人物の顔の検出は、視界同調カメラ９で撮像した前方視界の画像を解析することにより、人の顔の部分（顔の位置と大きさ）を抽出し、抽出された人の顔の部分の画像すなわち「顔画像」を検出する。例えば、全身像が撮影されているような画像など、顔の画像だけでない場合もあるが、そのような画像から、人の顔の領域を判断し、人の顔の部分に対応する画像を抽出する。このようにして検出された、特定された話者の顔画像データは、視線方向のデータとともに移動ネットワーク４０を介して翻訳サーバ５０に送られる。なお、上記顔画像データに基づいて、その顔の特徴点を抽出した顔特徴データを生成し、その顔特徴データを、顔画像データとともに又は顔画像データの代わりに翻訳サーバ５０に送るようにしてもよい。

図７は、眼鏡型表示装置１の音源分離部２１の音源の分離の一例を説明するための説明図である。図７において、眼鏡型表示装置１を装着した利用者の前方左側にＡさん、前方中央にＢさん、前方右側にＣさんがいて、それぞれ利用者に向かって同時に「Ｍｏｒｎｉｎｇ！」、「Ｈｅｌｌｏ！」、「Ｂｙｅ！」と話し掛けると、これらの音声は合成された音として４個のマイク１１ＲＦ,ＲＲ,ＬＦ,ＬＲで集音される。４個のマイク１１ＲＦ,ＲＲ,ＬＦ,ＬＲで集音された音声は音源分離部２１で、各マイクへの音声の到達時間の差や、マイク１１ＲＦ,ＲＲ,ＬＦ,ＬＲごとの音声の強度や音域等の分析を行って、合成された音を分離し、「Ｍｏｒｎｉｎｇ」、「Ｈｅｌｌｏ」、「Ｂｙｅ」の音声データを得る。音源の方向は各マイクへの音声の到達時間の差から算出することができる。また、各話者の音声について声紋分析や音域分析を行いこれらの分析結果に基づいて音源分離を行ってもよい。そして、音源ごとに分離された音声データと各音源の方向データとが、移動ネットワーク４０を介して翻訳サーバ５０に送られる。

翻訳サーバ５０は、話者特定部２０から特定された話者の顔画像データと、視線方向のデータとを受信するとともに、略同じタイミングで、音源分離部２１から音源ごとに分離された音声データと音源の方向データとを受信する。そして、特定音源抽出部２２において、上記特定された話者の視線方向データと、上記音源の方向データとに基づいて、上記音源ごとに分離された音声データの中から、利用者が注視していた特定された話者の音声データのみを抽出する。例えば、図７において、利用者が、前方視界中央のＢさんを見て注視していたときは、Ｂさんの発した音声である「Ｈｅｌｌｏ」の音声データを抽出する。なお、注視していなかったＡさんとＣさんの発した音声については、後述する音声認識用データベースに蓄積しておいてもよいし、雑音として破棄してもよい。

図８は、顔認識部２３における、上記特定された話者の顔画像データを分析して認識する顔認識の処理手順の一例を説明するためのフローチャートである。図８において、顔画像データが入力されると（ステップＳ１）、まず、その顔の特徴点検出を行う（ステップＳ２）。この特徴点検出は、例えば、目、鼻、口といった人の顔の中でも特徴となる「パーツ」、すなわち顔特徴部分であっても良いし、顔特徴部分のみならず、さらに詳細に部分分けして特徴点を検出するようにしても良い。例えば、ＡＡＭ（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌｓ）などの方法などを適用して、特徴位置を検出することが可能である。そして、上記特徴点に基づいて顔画像の正規化を行って、特徴量の算出を行う（ステップＳ３,Ｓ４）。この算出された特徴量に基づいて後述する画像分析用データベースに蓄積された顔画像データと照合し顔識別を行う（ステップＳ５）。画像分析用データベースに蓄積された顔画像データと照合して顔識別できたときは、識別された顔の顔画像情報ＩＤに対応する対象話者ＩＤを、音声認識部２４へ送信する（ステップＳ６でＹｅｓ,Ｓ７）。一方、データベースに蓄積された顔画像データと照合して顔識別できないときは、画像分析用データベースにその顔画像データが蓄積されていないものとして、新規の顔として顔画像情報ＩＤが付加されて画像分析用データベースに登録される（ステップＳ６でＮｏ,Ｓ８）。

図６において、音声認識部２４では、特定音源抽出部２２から受信した音声データについて、言語を認識し、その言語のテキストデータを作成する。作成された話者の音声のテキストデータは、自動翻訳部２５で、利用者の母国語に翻訳され、翻訳文テキストデータが作成される。翻訳文テキストデータの作成にあたり、顔認識部２３から対象話者ＩＤを取得できた場合には、その対象話者ＩＤに対応する個人辞書データを後述する翻訳用データベースから読み出す。翻訳用データベースには、話者個人ごとの特有の言い回しや方言などの言語表現データに対応する話者固有の個人辞書データが蓄積されているため、共通辞書データのみを用いて翻訳する場合に比べて、翻訳の精度が高まる。

眼鏡型表示装置１の画像生成部２６では、自動翻訳部２５で作成された翻訳文テキストデータに基づいて、翻訳文テキストの画像データが作成される。翻訳文テキストの画像データは、表示制御部２７で制御信号が付加され、画像表示部１２からレーザ光として出射されて利用者の右眼眼球へ入射され、網膜上に投影される。これにより、利用者は注視した話者が話した音声について、母国語に翻訳されたテキスト画像を認識することができる。

なお、図６〜８は、特定音源抽出部２２、顔認識部２３、音声認識部２４及び自動翻訳部２５をすべて翻訳サーバ５０に設けた例について示しているが、これらの特定音源抽出部２２、顔認識部２３、音声認識部２４及び自動翻訳部２５の少なくとも一つを、眼鏡型表示装置１に設けてもよい。また、眼鏡型表示装置１が携帯電話機等の携帯通信端末を介して翻訳サーバ５０と通信する場合は、特定音源抽出部２２、顔認識部２３、音声認識部２４及び自動翻訳部２５の少なくとも一つを上記携帯通信端末に設けてもよい。

図９は、翻訳サーバ５０における画像分析、音声認識及び翻訳の機能ブロック図である。
図９において、翻訳サーバ５０は、各部を制御する主制御部５１と、顔画像を分析する画像分析エンジン５２と、音声認識を行う音声認識エンジン５３と、翻訳処理を行う翻訳エンジン５４と、顔画像データ及び顔特徴データの少なくとも一方のデータを蓄積しておく画像分析用データベース５５と、各国の言語に対応したテキストデータや個人ごとの声紋データを蓄積しておく音声識別用データベース５６と、翻訳のための一般辞書データや個人辞書データを蓄積しておく翻訳用データベース５７と、翻訳の対象となった話者ごとの対象話者ＩＤ等を蓄積しておく対象話者データベース５８とを備えている。

画像分析エンジン５２は、顔認識プログラムと顔認識基本データとを有している。画像分析エンジン５２は、眼鏡型表示装置１から受信した対象話者固有の顔画像データ及び顔特徴データの少なくとも一方のデータに基づいて、画像分析用データベース５５及び対象話者データベース５８に照会し、上記図８を用いて説明した顔認識を行い、対象話者ＩＤを特定する。また、画像分析用データベース５５は、登録された話者ごとの顔画像情報ＩＤ、顔画像データ、顔特徴データ等を蓄積しており、新規の顔については、新規の顔画像情報ＩＤに関連付けて顔画像データ及び顔特徴データの少なくとも一方のデータを新たに登録して蓄積する。この顔画像情報ＩＤと対象話者ＩＤとの対応関係を示す情報は、対象話者データベース５８に保存される。
なお、対象話者ＩＤに関連付けて保存されている顔画像の特徴が変化している場合は、顔画像データや顔特徴データを更新するようにしてもよい。

音声認識エンジン５３は、音声認識プログラムと音声認識基本データとを有している。音声認識エンジン５３は、眼鏡型表示装置１から受信した音源分離された複数の音声データを用いるとともに、画像分析エンジン５２で特定された対象話者ＩＤに基づいて音声識別用データベース５６及び対象話者データベース５８に照会して取得した対象話者ＩＤに対応する声紋データ等の音声特徴データを用いることにより、特定の対象話者の音声を抽出する。更に、音声認識エンジン５３は、抽出した話者の音声データを解析して話者が何語を話したかを認識し、音声認識基本データや音声識別用データベース５６から読み出した対象話者固有の音声特徴データ等を参照しながら、対象話者が話した言語でテキストデータを作成する。このテキストデータは翻訳エンジン５４に送信される。また、音声認識用データベース５６は、登録された音声情報ＩＤごとに、声紋データ等の音声特徴データを蓄積しており、新規の音声については、新規の音声情報ＩＤに関連付けて音声特徴データを新たに登録して蓄積する。この音声情報ＩＤと対象話者ＩＤとの対応関係を示す情報は、対象話者データベース５８に保存される。

翻訳エンジン５４は、翻訳プログラムと、一般標準辞書データを含む翻訳基本データとを有している。翻訳エンジン５４は、音声認識エンジン５３から受信したテキストデータを、眼鏡型表示装置１を使用している利用者の母国語である他の言語に翻訳し、翻訳テキストデータを作成する。翻訳にあたって、上記対象話者ＩＤに基づいて、翻訳用データベース５７及び対象話者データベース５８に照会し、対象話者ＩＤに対応する個人辞書データを選択して読み出す。個人辞書データは、例えば、会話情報ＩＤに関連付けて保存されている方言データや会話特徴データなどの言語表現データが含まれる。翻訳エンジン５４における翻訳方式としては、原言語を解析して一旦中間言語に変換処理し、さらにこの中間言語から目標言語を生成する中間言語方式や、原言語の構文解析や意味解析を行って解析結果を目標言語に変換し、目標言語の文字列を生成するトランスファー方式や、大量のテキストデータから統計モデル（翻訳モデル、言語モデル）を学習し、自動的に機械翻訳する統計的機械翻訳方式など、適宜の翻訳方式を用いることができる。

また、翻訳用データベース５７は、登録された会話情報ＩＤごとに、方言データ、会話特徴データ等の言語表現データを蓄積しており、新規の会話情報については、新規の会話情報ＩＤに関連付けて言語表現データを新たに登録して蓄積する。この会話情報ＩＤと対象話者ＩＤとの対応関係を示す情報は、対象話者データベース５８に保存される。

対象話者データベース５８は、登録された対象話者ごとの対象話者ＩＤ、顔画像情報ＩＤ、音声情報ＩＤ、会話情報ＩＤ等の個人識別情報を蓄積しており、各エンジン５２，５３，５４からの照会に応じて対応する対象話者ＩＤを提供することができる。

上述したように、データベースに話者の個人辞書データ等を蓄積しておくことにより、利用者が初めて会った人であっても、登録されている話者であれば、認識でき、その話者の個人辞書データ等を利用して精度の高い翻訳をすることができる。

上記構成の眼鏡型表示装置１を用いて、利用者は視線方向の話者を特定して、特定した話者の音声のみを翻訳することができる。

なお、図９は、画像分析エンジン５２、音声認識エンジン５３及び翻訳エンジン５４をすべて翻訳サーバ５０に設けた例について示しているが、画像分析エンジン５２、音声認識エンジン５３及び翻訳エンジン５４の少なくとも一つを、眼鏡型表示装置１に設けてもよい。また、眼鏡型表示装置１が携帯電話機等の携帯通信端末を介して翻訳サーバ５０と通信する場合は、画像分析エンジン５２、音声認識エンジン５３及び翻訳エンジン５４の少なくとも一つ上記携帯通信端末に設けてもよい。この場合は、眼鏡型表示装置１や携帯通信端末から必要に応じて、通信ネットワークを介して、画像分析用データベース５５、音声識別用データベース５６、翻訳用データベース５７及び対象話者データベース５８にアクセスして照会し、対象話者の顔特徴データ、音声特徴データ、言語表現データ等の読み出して取得する。

図１０は、眼鏡型表示装置１の右側のメガネレンズ５Ｒを通して見える前方視界に、視線方向の話者の翻訳文を重ね合わせて表示した一例の説明図である。図示の例では、利用者の視線方向に視線マーク６１が表示され、この視線マーク６１から吹き出し６２が出ていて、吹き出し６２内の上段に翻訳文が表示され、下段に原言語文が表示される。なお、少なくとも翻訳文が表示されていればよく、原言語文は表示しなくてもよい。

なお、同じ発音でも複数の意味を持つ場合がある。例えば、英語の「Ｃｏｍｅｏｎ！」の場合、通常は「さあ、行こう」という意味に解されるが、「ちょっとよしてよ」、「いい加減にして」、「もういいよ」、「さあやりましょう」といった意味もある。これらを精度よく翻訳するためには、話者の表情や抑揚、更に服装を認識して、翻訳に反映させることが望ましい。例えば、話者の画像と音声とを分析して怒っていると判断した場合には、「ちょっとよしてよ」と翻訳する。また、話者がかなり怒っていると判断した場合には、「いい加減にして」と翻訳する。また、話者が落ち込んでいると判断した場合には、「もういいよ」と翻訳する。更に、話者の服装を認識してビジネスライクであると判断した場合には、「さあやりましょう」と翻訳する。このように、画像や音声を分析し、話者の表情や抑揚、更に服装の認識結果を翻訳に反映させることで、翻訳精度をより高めることができる。

また、話者によって、それぞれ表現方法や言い回し方が異なる場合がる。このため、話者ごとの表現方法や言い回し方を個人辞書データに登録しておくことが望ましい。

図１１は、翻訳結果に問題が無かったか否かを検証し、話者の表現方法や言い回し方を学習して翻訳精度を高め、学習結果を個人辞書データに登録する手順を説明するためのフローチャートである。
図１１において、利用者が外国人と会話しているときに自動翻訳がなされ、眼鏡型表示装置１には翻訳文が表示されている（ステップＳ１，Ｓ２）。相手方の話者との会話中に意味がわからない翻訳文が表示されたときに、利用者が、「Ｃａｎｎｏｔｕｎｄｅｒｓｔａｎｄ．」という発言や、「ん？」という疑問的な声を発したときに、眼鏡型表示装置１は翻訳が不適切であり問題があると認識する（ステップＳ３でＹｅｓ）。そして、直前の話者の発音を再度翻訳し、別の意味に翻訳し直した修正翻訳文を表示する（スッテプＳ４，Ｓ５）。利用者が再度疑問的な声を発しなければ（ステップＳ６でＮｏ）、後の翻訳が正しいものとして、その修正パターンを検出し、話者の個人辞書データに、登録する（ステップＳ７，Ｓ８）。一方、利用者が再度疑問的な声を発した場合（ステップＳ６でＹｅｓ）、再度翻訳を行い別の意味の翻訳文を表示する。ステップ８で修正パターンを登録した後、会話が続行しているか否かを判断し、会話が続行している場合（ステップＳ９でＹｅｓ）、自動翻訳を続行する。会話が続行していない場合には終了となる。同様にステップＳ３で、利用者が疑問的な声を発しない場合も、会話が続行しているか否かを確認する（ステップＳ１０）。
例えば、話者が「Ｃａｔｃｈｙｏｕｌａｔｅｒ．」と発音し、「あとであなたをつかまえろ」という翻訳がなされた場合に、利用者は意味がわからずに「ん？」と発したときに、「Ｃａｔｃｈｙｏｕｌａｔｅｒ．」を再度翻訳し、「またあとで」という別の意味に翻訳し直して表示する。利用者は意味が通じたので、会話を再開する。この翻訳し直した修正後の翻訳結果（修正パターン）は翻訳用データベース５７の個人辞書データに蓄積される。

上記図１１において、眼鏡型表示装置１を装着した利用者の音声を受音して音声信号に変換する利用者音声受音手段としてはマイク１１ＲＦ，ＲＲ，ＬＦ，ＬＲを使用し、利用者の音声信号をテキストデータに変換する利用者音声認識手段としては音声認識部２４を使用することができる。
また、利用者が疑問的な声を発したときに、話者が別の言い回し方に言い換えてくれた音声を翻訳して表示し、修正パターンとして個人辞書データに蓄積してもよい。

なお、上記図１１では、翻訳に問題が無かったか否かの検証を、眼鏡型表示装置１を装着している利用者の音声のテキストデータに基づいて行う例を示したが、眼鏡型表示装置１を装着した利用者の眼を撮像し、その利用者の眼の表情や動きに基づいて、翻訳に問題が無かったか否かの検証してもよい。例えば、眼鏡型表示装置１で表示した翻訳文（翻訳後のテキストデータ）の同じ箇所を所定回数だけ何度も読み返すような眼の動きをしている場合や、意味のわからない翻訳文を凝視している場合に、翻訳に問題があると判断してもよい。

また、上記図１１では、翻訳に問題があった場合に翻訳をやり直す例について示したが、翻訳に問題があった場合に翻訳結果に問題があったことを話者に知らせるメッセージを、及び問題があった翻訳結果の部分を該話者に聞き直すメッセージの少なくとも一方を該話者に対して出力する

図１２は、利用者の周辺環境情報を用いた翻訳の概念図である。図１２において、眼鏡型表示装置１は現在位置取得手段としてのＧＰＳ装置７０を更に備え、翻訳サーバ５０は方言ライブラリ５９を更に備えている。ＧＰＳ装置７０により、眼鏡型表示装置１を装着した利用者の存在する国における詳細な場所を検出し、その場所に特有な方言を方言ライブラリ５９から読み出して、翻訳に利用する。方言ライブラリを用いることで、翻訳精度をより向上させることができる。

なお、上記実施形態では、視線方向で特定した話者の発音のみを翻訳して表示する構成について説明したが、前方視界の複数の話者について同時に翻訳し同時に翻訳文を表示するようにしてもよい。
図１３は、複数の話者について同時に翻訳し同時に翻訳文を表示した一例の説明図である。図１３において、３人の話者が発した音声が同時に翻訳されて、同時に表示される。なお、少なくとも翻訳文が表示されていればよく、原言語文は表示しなくてもよい。

以上、本実施形態によれば、周囲の雑音を含む音信号から特定の話者からの音声信号のみを抽出してテキストデータに変換し、その話者の音声のテキストデータを他の言語のテキストデータに変換し、視界内に重ねて表示することができる。よって、周囲の雑音の影響を受けにくく特定の話者の音声を識別して精度よく翻訳して表示することができる。

なお、上記実施形態では、網膜走査型の画像表示方式やコンバイナ光学系を用いた画像表示方式の構成について説明したが、この方式に限られるものではなく、他の画像表示方式を採用してもよい。

１眼鏡型表示装置
２リム
８電源スイッチ
９視界同調カメラ
１０視線検知部
１１マイク
１２画像表示部
１４制御部
１５メモリ
１６バッテリ
１８通信部
１９姿勢変化検出部
２６画像生成部
２７表示制御部
４０通信ネットワーク
５０翻訳サーバ

特開平１０−１２３４５０号公報

Claims

周囲の音を受音して音信号に変換する受音手段と、視界を撮像する視界撮像手段と、視界内に情報を重ねて表示可能な表示手段とを備えた眼鏡型表示装置であって、
前記視界撮像手段で撮像された視界の画像データから話者の顔画像データ及び顔特徴データの少なくとも一方を抽出する顔関連データ抽出手段と、
前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データ並びに前記受音手段から出力される音信号の少なくとも一つに基づいて、前記話者の音声信号を特定して抽出する音声信号抽出手段と、
前記音声信号抽出手段で抽出された前記話者の音声信号をテキストデータに変換する音声認識手段と、
前記音声認識手段で認識された前記話者の音声のテキストデータを、そのテキストデータの言語とは異なる他の言語のテキストデータに変換する翻訳手段と、
前記翻訳手段で翻訳された前記他の言語のテキストデータを前記視界内に重ねて表示するように前記表示手段を制御する表示制御手段と、
を備えたことを特徴とする眼鏡型表示装置。
請求項１の眼鏡型表示装置において、
前記音声信号抽出手段で抽出された前記話者の音声信号に基づいて前記話者に固有の音声特徴データを抽出する音声特徴データ抽出手段と、
前記話者に固有の音声特徴データの有無をデータベースに照会する音声特徴データ照会手段と、
前記音声特徴データ照会手段の照会結果に基づき、前記話者に固有の音声特徴データが前記データベースに保存されていない場合は、前記音声特徴データ抽出手段で抽出された前記話者に固有の音声特徴データを、前記顔関連データ抽出手段で抽出された前記話者の顔関連データと前記話者を識別可能な識別データとに関連付けて前記データベースに保存する音声特徴データ保存手段と、を更に備え、
前記話者に固有の音声特徴データが前記データベースに保存されている場合は、前記データベースに保存されている前記話者に固有の音声特徴データを用いて、前記音声信号特定抽出手段による前記話者の音声信号の抽出及び前記音声認識手段による前記テキストデータへの変換の少なくとも一方を行うことを特徴とする眼鏡型表示装置。
請求項１又は２の眼鏡型表示装置において、
前記音声認識手段で認識された前記話者の音声のテキストデータに基づいて前記話者に固有の言語表現データを抽出する言語表現データ抽出手段と、
前記話者に固有の言語表現データの有無をデータベースに照会する言語表現データ照会手段と、
前記言語表現データ照会手段の照会結果に基づき、前記話者に固有の言語表現データが前記データベースに保存されていない場合は、前記言語表現データ抽出手段で抽出された前記話者に固有の言語表現データを、前記顔関連データ抽出手段で抽出された前記話者の顔関連データと前記話者を識別可能な識別データと関連付けて前記データベースに保存する言語表現データ保存手段と、を更に備え、
前記翻訳手段は、前記話者に固有の言語表現データが前記データベースに既に保存されている場合は、前記データベースに保存されている前記話者の言語表現データを用いて、前記他の言語のテキストデータへの変換を行うことを特徴とする眼鏡型表示装置。
請求項１乃至３のいずれかの眼鏡型表示装置において、
前記顔関連データ抽出手段で抽出された前記話者の顔画像データ及び顔特徴データの少なくとも一方に基づいて、前記話者の表情を判断する表情判断手段を、更に備え、
前記翻訳手段は、前記表情判断手段で判断した前記話者の表情の情報を用いて、前記他の言語のテキストデータへの変換を行うことを特徴とする眼鏡型表示装置。
請求項１乃至４のいずれかの眼鏡型表示装置において、
前記音声認識手段による音声信号のテキストデータへの変換と、前記翻訳手段による前記他の言語のテキストデータへの変換とを、複数の話者それぞれについて同時に行うことを特徴とする眼鏡型表示装置。
請求項２又は３の眼鏡型表示装置において、
前記翻訳手段で前記他の言語のテキストデータに変換された翻訳結果に問題が無かったか否かを検証する翻訳結果検証手段と、
前記翻訳結果検証手段で前記翻訳結果に問題がないと判断した場合は、前記話者に固有の辞書データとして、前記翻訳結果を前記話者の識別データと関連付けて前記データベースに保存する辞書データ保存手段と、を更に備えたことを特徴とする眼鏡型表示装置。
請求項６の眼鏡型表示装置において、
前記翻訳結果に問題があったことを前記話者に知らせるメッセージ及び問題があった翻訳結果の部分を前記話者に聞き直すメッセージの少なくとも一方を前記話者に対して出力するメッセージ出力手段を更に備え、
前記翻訳結果検証手段で前記翻訳結果に問題があると判断した場合に、前記翻訳手段による前記他の言語のテキストデータへの変換のやり直し、又は、前記メッセージ出力手段による前記メッセージの出力を行うことを特徴とする眼鏡型表示装置。
請求項６又は７の眼鏡型表示装置において、
前記眼鏡型表示装置を装着した利用者の眼を撮像する利用者撮像手段と、前記利用者の音声を受音して音声信号に変換する利用者音声受音手段と、前記利用者音声受音手段から出力される前記利用者の音声信号をテキストデータに変換する利用者音声認識手段と、を更に備え、
前記翻訳結果検証手段は、前記利用者撮像手段で撮像した前記利用者の眼の表情や動き、前記利用者音声受音手段で受音した前記利用者の音声信号、及び前記利用者音声認識手段から出力される前記利用者の音声のテキストデータの少なくとも一つに基づいて、前記翻訳結果を検証することを特徴とする眼鏡型表示装置。
請求項１乃至８のいずれかの眼鏡型表示装置において、
複数の話者について該話者に固有の顔画像データ、顔特徴データ、音声特徴データ、言語表現データ及び辞書データの少なくとも一つのデータが保存されているデータベースが設けられたサーバ装置との間で、通信ネットワークを介して通信するための通信手段を、更に備えたことを特徴とする眼鏡型表示装置。
請求項９の眼鏡型表示装置と、前記データベースが設けられたサーバ装置とを備えたことを特徴とする翻訳システム。
請求項１０の翻訳システムにおいて、
前記顔関連データ抽出手段、前記音声信号抽出手段、前記音声認識手段及び前記翻訳手段の少なくとも一つを、前記眼鏡型表示装置に備える代わりに前記サーバ装置に備えるように構成したことを特徴とする翻訳システム。