JP2012073299A

JP2012073299A - 言語訓練装置

Info

Publication number: JP2012073299A
Application number: JP2010216194A
Authority: JP
Inventors: Shingo Yuasa; 信吾湯浅; Hiroyuki Saito; 裕之斉藤; Chiaki Yoshizuka; 千晶吉塚
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2010-09-27
Filing date: 2010-09-27
Publication date: 2012-04-12

Abstract

【課題】正しい口の動きを客観的に評価し、かつ使用者が口の開け方を確認できるようにして、主観的評価と客観的評価とを総合して効率よく言語訓練を行う。
【解決手段】撮像手段１０により使用者を撮像し、使用者の口唇部の形状変化から特徴量抽出部３４において特徴量を抽出する。また、特徴記憶手段３３に記憶した手本になる口唇部の形状変化の特徴量を、評価手段３５において、特徴量抽出手段３４で抽出した特徴量と比較する。評価手段３５は両特徴量の差異を定量的に評価する。映像表示手段２０は、目標記憶手段３１が記憶する手本になる目標映像を表示する。映像表示手段２０の表示面にはハーフミラーが重ねてあり、使用者の鏡映像を目標映像とともに映す。したがって、使用者は自身の鏡映像と目標映像とを比較することができる。
【選択図】図１

Description

本発明は、発音機能の回復や外国語の習得に際して、正しい発音を修得するために用いる言語訓練装置に関するものである。

従来から、外国語などの言語学習に用いる言語訓練装置として、標準発音者と練習対象者とについて、唇の動きの動画撮像と、音声採取とを行い、唇輪郭特徴、周波数成分の判定を行う技術が提案されている（たとえば、特許文献１参照）。また、特許文献１には、標準発音者と練習対象者とを並べて画面に表示した図が示されている。

一方、外国語の修得を目的とするのではなく、脳梗塞や交通事故の後遺症などにより発音機能や言語機能が低下した人の機能回復の際には、言語聴覚士が一対一で訓練を行うことが多い。

特表２００８−１５８０５５号公報

特許文献１に記載の技術では、練習対象者は、唇の動きと音声との両方について標準発音者と比較されるから、正しい発音のための唇の動きを行っているか否かの評価がなされるとともに、実際に正しい発音を行っているか否かの評価もなされる。

ところで、外国語の習得だけでなく機能回復の目的においても、言語訓練の際には、訓練者は鏡を用いて、その場で自身の口の開け方を確認するのが望ましい。しかしながら、特許文献１には、言語訓練の場において訓練者（練習対象者）が自身の口の開け方を確認することは明示されていない。特許文献１に記載の技術では、標準発音者と練習対象者とを並べて画面に表示することが示唆されているが、練習対象者がその場で標準発音者との口の開け方を比較するというよりも、練習対象者の発音の評価とアドバイスとに主眼が置かれている。したがって、特許文献１に記載の技術では、鏡を用いることにより、その場で口の開け方を確認する訓練と同様の効果は期待できない。

本発明は、正しい発音を修得するための口の開け方について、客観的な評価を得られるようにするとともに、使用者自身がその場で口の開け方を確認できるようにすることにより、主観的評価と客観的評価とを総合して効率のよい言語訓練を可能にする言語訓練装置を提供することを目的とする。

本発明は、上記目的を達成するために、映像を表示する映像表示手段と、手本になる口唇部の形状を含む映像を目標映像として映像表示手段に提示する目標提示手段と、目標映像に含まれる口唇部の所定期間における形状変化を表す特徴量を第１の特徴量として記憶する特徴記憶手段と、使用者の口唇部を含む空間領域を撮像する撮像手段と、撮像手段により撮像される空間領域を少なくとも含んだ空間領域の鏡映像を映像表示手段に表示される目標映像とともに使用者に提示する鏡映像提示手段と、撮像手段により撮像した画像から所定期間に対応する期間での使用者の口唇部の形状変化を表す特徴量を第２の特徴量として抽出する特徴抽出手段と、第１の特徴量に対する第２の特徴量の差異を評価する評価手段と、評価手段で評価した結果に応じて映像表示手段の表示内容を決定する表示処理手段とを備える。

鏡映像提示手段は、映像表示手段の前面にハーフミラーを配置した構成であることが望ましい。

あるいは、撮像手段により撮像した画像の左右を反転した反転映像を生成する映像反転手段をさらに備え、目標提示手段が、反転映像を目標映像とともに映像表示手段に提示する機能を備え、鏡映像提示手段が、映像反転手段と目標提示手段とにより構成されるようにしてもよい。

使用者の舌の位置を検出する舌位置検出手段をさらに備え、特徴記憶手段が、手本になる舌の位置に関して所定期間における位置変化を表す特徴量を第３の特徴量として記憶し、特徴抽出手段が、舌位置検出手段が検出した舌の位置から所定期間に対応する期間での使用者の舌の位置変化を表す特徴量を第４の特徴量として抽出し、評価手段が、第３の特徴量に対する第４の特徴量の差異を評価する構成を採用してもよい。

また、音声を出力する音声出力手段と、手本になる音声を目標音声として音声出力手段に提示する音声制御手段と、使用者の音声を取得する音声取得手段とをさらに備え、特徴記憶手段は、目標音声の特徴量を第５の特徴量として記憶し、特徴抽出手段は、音声取得手段が取得した音声の特徴量を第６の特徴量として抽出し、評価手段は、第５の特徴量に対する第６の特徴量の差異を評価してもよい。

この場合、音声取得手段が取得した使用者の音声を録音する録音手段をさらに備え、音声制御手段が、録音手段が録音した使用者の音声を音声出力手段に出力させる構成を採用してもよい。

目標映像は撮像手段により撮像した実画像であって、特徴抽出手段は、実画像から第１の特徴量を抽出して特徴記憶手段に記憶させる機能を備えることが望ましい。

あるいは、目標映像は口唇部の形状をモデルにより表現したモデル画像であることが望ましい。

本発明の構成によれば、正しい発音を修得するための口の開け方について、口唇部の形状変化の特徴量から客観的な評価を得られるようにし、しかも、使用者の口唇部を含む鏡映像を提示することにより使用者自身がその場で口の開け方を確認できるようにしているから、主観的評価と客観的評価とを総合した効率のよい言語訓練が可能になる。

実施形態を示すブロック図である。同上の外観を示す側面図である。同上の使用例を示す斜視図である。同上の画面の例を示す動作説明図である。

以下に説明する実施形態は、図２に示すように、言語訓練の対象者である使用者１の口唇部を含む空間領域を撮像する撮像手段１０と、映像を表示する映像表示手段２０とを備える。また、使用者１は、通常は椅子２に座って本装置を使用する。

撮像手段１０は、ＣＣＤイメージセンサあるいはＣＭＯＳイメージセンサを代表例とする固体撮像素子のような撮像素子を備える。また、撮像手段１０は、カラー画像を撮像する構成が望ましい。ただし、後述するように、カラー画像に加えて、空間の三次元情報を取得して距離画像を出力する構成を採用することが望ましい。

距離画像を出力する技術は種々知られているが、強度を変調した強度変調光を投光するとともに、物体で反射された強度変調光を受光し、強度変調光の投受光の位相差を用いて物体までの距離を計測する技術を用いるのが望ましい。強度変調光を投光するアクティブ型の構成を採用すると、１画面分である複数個の画素値（距離値）を生成するための情報（受光出力）を１回の撮像によって得ることができる。したがって、距離画像の動画像を生成することができる上に、三角測量法やステレオ画像法を用いて三次元情報を取得する場合に比較すると、動画像の時間分解能を高くすることができる。

映像表示手段２０は、液晶ディスプレイあるいはプラズマディスプレイを代表例とするフラットパネルディスプレイのような表示器を備える。また、本実施形態では、映像表示手段２０において映像を表示する表示面にハーフミラー２１を重ねて配置してある。

映像表示手段２０の映像表示面にハーフミラー２１を配置しているから、映像表示手段２０の輝度と使用者１が存在する空間の明るさとの関係に応じて、使用者１が視認する情報が変化する。すなわち、映像表示手段２０の表示面の輝度が低いときは、使用者１が存在する空間の鏡像が使用者１に視認される。一方、映像表示手段２０の表示面の輝度が高いときは、映像表示手段２０に表示された映像がハーフミラー２１を通して使用者１に視認されることになる。映像表示手段２０の映像を使用者１に視認させる際の輝度は、ハーフミラー２１の透過率を選定することによって適宜に定めることができる。

この動作から、映像表示手段２０の表示面における領域ごとの輝度を調節することにより、主として映像を見せる領域、主として鏡像を見せる領域、映像と鏡像を重ねて見せる領域を形成することが可能になる。このように領域ごとに見え方を異ならせることができる点が、映像表示手段２０とハーフミラー２１とを用いる構成の一つの特徴である。

図２に示す構成例では、ハーフミラー２１を用いることによって、使用者１が存在する空間の鏡像を使用者１に提示している。ただし、ハーフミラー２１を用いずに撮像装置１０で撮像した画像の左右を反転させた反転映像を映像表示手段２０に表示した場合でも、使用者１には鏡像と等価な表示が提供されることになる。ハーフミラー２１の鏡像と、撮像手段１０で撮像した画像の左右を反転させることにより生成した反転映像とは、ともに数学的には使用者１が存在する空間の鏡映に相当する。したがって、両者はともに、使用者１の存在する空間の左右を反転させた「鏡映像」ということができる。すなわち、ハーフミラー２１は鏡映像提示手段として用いられる。なお、反転映像は表示面を対象面としていないから厳密には鏡映ではないが、拡大あるいは縮小することにより、鏡映と等価に扱うことができる。

本実施形態では、撮像手段１０と映像表示手段２０とのほかに、使用者１が発する音声を取得する音声取得手段１１と、後述する音声出力を行わせる音声出力手段２２も備えている。音声取得手段１１としてはマイクロホンを用いることができ、音声出力手段２２としてはスピーカを用いることができる。マイクロホンやスピーカの構成や配置にはとくに制限はない。音声取得手段１１および音声出力手段２２は必須というわけではなく、これらを用いない構成を採用してもよい。

撮像手段１０、音声取得手段１１、映像表示手段２０、音声出力手段２２は、制御手段３０に接続される。制御手段３０は、マイコン、ＤＳＰ、ＦＰＧＡのようにプロセッサを備え、プログラムに従ってプロセッサを動作させるデバイスを主構成とする。

図１に示すように、制御手段３０は、言語訓練の手本になる口唇部の形状を含む映像を目標映像として記憶している目標記憶手段３１と、目標記憶手段３１から入力された目標映像を映像表示手段２０に表示させる表示処理手段３２とを備える。すなわち、目標記憶手段３１および表示処理手段３２により目標提示手段が構成される。

使用者１は、映像表示手段２０に表示された手本となる口唇部の動きを見て模倣することができる。言語訓練の手本は、単音、単語、文章など所定の形式で、言語聴覚士などにより目標記憶手段３１にあらかじめ記憶される。また、目標記憶手段３１には、上述した形式に応じた所定期間における口唇部の形状変化が記憶される。

上述のように、本実施形態の構成では、映像表示手段２０とハーフミラー２１とを用いることにより、撮像手段１０が撮像する空間領域の鏡映像を、目標記憶手段３１に記憶された目標映像とともに使用者１に提示する鏡映像提示手段が構成される。すなわち、鏡映像提示手段は、映像表示手段２０の前面にハーフミラー２１を配置した構成を備える。

目標記憶手段３１に記憶されている手本（所定期間における口唇部の形状変化）は、あらかじめ口唇部の形状変化を表す特徴量（第１の特徴量）が抽出される。制御手段３０には、この特徴量を記憶する特徴記憶手段３３が設けられる。口唇部の特徴量は、口唇部の形状を表す複数個のパラメータの組として表される。このようなパラメータは、周知の技術を用いて求めることができる。

たとえば、口唇部の画像から口角の位置のような複数点の特徴点を抽出し、口唇部の大きさを正規化した上で、特徴点の位置関係を表す比率をパラメータの組として用いることができる。特徴点を抽出するには、唇の位置を特定する必要があるから、唇の形状を認識するだけではなく、カラー画像における色情報を用いることにより、唇と唇の周辺部とを分離する。このように唇の位置を抽出することにより、唇の位置を基準として特徴点の抽出が可能になる。

特徴記憶手段３３は、上述したパラメータの組の時間変化を特徴量として記憶する。なお、特徴量は時間軸が正規化されているものとする。また、言語訓練の手本が複数音からなる単語や文章の形式である場合には、音声認識による特徴抽出を行って音の要素ごとに特徴量を分割しておくのが望ましい。なお、以下では、手本が単音（１個の母音、１個ずつの子音と母音との組のいずれか）である場合を想定する。

制御手段３０において特徴記憶手段３３が手本の特徴量を記憶しているのは、言語訓練における使用者１の口唇部の形状変化を評価するためである。すなわち、制御手段３０は、撮像手段１０が撮像した使用者１の画像から口唇部の形状変化の特徴量（第２の特徴量）を抽出する特徴抽出手段３４と、この特徴量と特徴記憶手段３３に記憶されている特徴量との差異を評価する評価手段３５とを備える。

特徴抽出手段３４では、抽出した特徴量を特徴記憶手段３３に記憶されている特徴量と比較するために、抽出した特徴量の時間軸を正規化する。すなわち、特徴記憶手段３３に記憶されている特徴量の時間軸に、特徴抽出手段３４で抽出した特徴量の時間軸を一致させる。ここに、評価手段３５では、使用者１の口唇部の形状変化の開始時点が、特徴記憶手段３３に記憶された特徴量に対応する形状変化の開始時点と一致するように、時間軸を調整する。

評価手段３５では、たとえば、特徴量であるパラメータの組を多次元ベクトルとし、特徴記憶手段３３に記憶された特徴量と、特徴抽出手段３４が抽出した特徴量とのユークリッド距離を求め、求めたユークリッド距離が小さいほど特徴量の差異が小さいと評価する。言い換えると、ユークリッド距離を評価値に用いることにより、使用者１の口唇部の形状変化と手本における口唇部の形状変化との相違の程度を定量化する。

ここで、ユークリッド距離を求めるだけではなく、特徴量に含まれる適宜のパラメータの距離を求めることによって、評価手段３５は、口唇部の形状の相違も評価することができる。評価手段３５において口唇部の形状の相違を評価する場合には、形状の相違と手本に近づけるためのアドバイスとをルール（知識）として評価手段３５に設定しておくことができる。評価手段３５にこのような知識を設定しておけば、評価結果に応じて、どの部位をどのような形状とすれば手本に近付くかというアドバイスが得られる。

評価手段３５が求めた評価結果は、表示処理手段３２を通して映像表示手段２０に出力される。すなわち、映像表示手段２０には、使用者１の口唇部の形状変化について手本との相違の程度が示される。また、アドバイスを行うルールを評価手段３５に設定している場合には、使用者１の口唇部の形状変化に対して、手本に近づけるためのアドバイスが映像表示手段２０に表示される。

上述した構成例では、動画像を用いる場合を想定しているが、静止画を用いてもよい。たとえば、語学学習の初期段階では発音に対応した口唇部の形状を示す図を用いる場合があるから、このような図に代えて手本の静止画を用いることにより、発音練習を行うことができる。この場合も上述の例と同様に評価手段３５による評価結果が映像表示手段２０に表示される。

目標画像に静止画を用いる場合には、使用者１に同じ音を継続して発音させている間に撮像手段１０で撮像した静止画を用いることができる。この場合、動画像に比較して特徴量のデータ量が少なく、また時間軸を合わせる必要もないから、評価手段３５での評価を簡単に行うことができる。

目標記憶手段３１に記憶される目標映像を作成するには、言語聴覚士のような専門家を撮像した実画像を用いるのが望ましい。すなわち、制御手段３０において、目標映像を作成する動作モードの選択を可能にしておき、この動作モードを選択した状態で、撮像手段１０を用いて専門家について口唇部を含む実画像を撮像する。さらに、目標記憶手段３１に記憶させた実画像を特報抽出手段３４に与えることによって特徴量の抽出を行い、抽出された特徴量を特徴記憶手段３３に記憶させる。このような動作により、専門家の実画像を手本とし、手本の特徴量を特徴記憶手段３３に記憶させることができる。

ここに、目標記憶手段３１に記憶させる目標映像は、必ずしも実画像でなくてもよい。たとえば、コンピュータグラフィックスにより実現される仮想三次元空間における人体モデルを用い、人体モデルの口唇部の動きを目標映像に用いてもよい。この場合、人体モデルを作成する際に用いるパラメータを、特徴記憶手段３３に記憶させる特徴量に用いることができる。

また、口唇部の形状は、半月形や菱形に簡略化したモデルを用いて表すこともできる。すなわち、アニメーションで用いられているような、簡単な図形を用いて口唇部の目標映像の形状を表現してもよい。この場合の特徴量は、人体に関して公開されているデータベースを利用して設定するか、実画像から抽出すればよい。このようなモデルを用いると、口唇部の形状変化を正確に表すことはできないが、雑音になる情報を省略して必要な情報のみを強調することができるから、使用者１にとっては、実画像を用いる場合よりも理解しやすい場合がある。

実使用に際しては、実画像を用いる目標映像とモデルを用いる目標映像とを選択可能としておくのが望ましい。

言語訓練に際しては、口唇部の形状変化だけではなく、舌の位置も併せて検出すれば、より正確に発音を評価することができる。そこで、舌の位置を検出する舌位置検出手段１２を付加してもよい。

舌位置検出手段１２は、たとえば、舌に貼り付けることができる微小な器体を備え、ジャイロセンサあるいは三次元加速度センサと、非接触で受電する電源部と、センサ出力を非接触で送信する送信部とを器体に収納することにより構成される。この種の装置は、ＲＦＩＤ（ＩＣタグ）と同様の構成であって、ＲＦＩＤにおけるメモリに代えて、半導体からなるジャイロセンサあるいは三次元加速度センサを設けることにより構成される。このような構成であれば、ＲＦＩＤと同様に数ｍｍ角の器体を用いることができるから、舌の動きを妨げることなく、舌の位置を検出することが可能になる。

舌位置検出手段１２を用いる場合は、舌位置検出手段１２が検出する舌の位置に対応した手本になる舌の位置に関する特徴量（第３の特徴量）を特徴記憶手段３３にあらかじめ記憶させておく。また、舌位置検出手段１２が検出した舌の位置変化に対応する特徴量（第４の特徴量）を特徴抽出手段３４において抽出する。両特徴量は、口唇部の形状変化の特徴量と同様に、評価手段３５において評価され、評価結果が表示処理手段３２を通して映像表示手段２０に提示される。また、口唇部の形状変化に対する特徴量と同様に、舌の位置変化に対する特徴量も所定期間において抽出するとともに時間軸を一致させる。

上述のように、舌位置検出手段１２を設けることにより舌の位置変化の特徴量についても評価すれば、子音のように舌の位置により区別される発音についても手本との比較が可能になる。すなわち、舌位置検出手段１２を用いることにより、口唇部の形状変化だけではなく舌の位置変化も検出することとなり、言語訓練をより精度よく行うことが可能になる。

ところで、言語訓練においては音声について評価することが望ましい。そこで、本実施形態では、使用者１が発生する音声を取得するための音声取得手段１１を備えており、音声についても手本との比較が可能になっている。さらに、目標記憶手段３１には手本になる目標音声が登録され、音声制御手段３７を介して音声出力手段２２から目標音声を提示することができるようにしてある。また、特徴記憶手段３３には、目標音声に対応した音声の特徴量（第５の特徴量）が記憶される。

音声取得手段１１が取得した使用者１の音声は特徴抽出手段３４に入力され、特徴抽出手段３４において音声の特徴量が抽出される。音声の特徴量を抽出する技術は、音声認識の分野において周知である技術を用いることができる。音声の特徴量についても所定期間において抽出するとともに時間軸を一致させる。使用者１から取得した音声の特徴量は、評価手段３５において特徴記憶手段３３に記憶した特徴量と比較されることにより手本との差異が評価される。また、評価結果は、映像表示手段２０に提示される。

制御手段３０は、音声取得手段１１により取得される使用者の音声を録音する録音手段３６を備えており、録音手段３６に録音された音声は、必要に応じて音声制御手段３７を通して音声出力手段２２から出力される。すなわち、使用者１が言語訓練を行っている間に発した音声を、音声を発した後に使用者１自身で確認することができる。また、音声制御手段３７では、録音手段３６に録音された使用者１の音声を、目標記憶手段３１に記憶されている目標音声とともに音声出力手段２２に出力する機能を有している。この機能により、使用者１の音声を手本の音声と重ねて出力することができ、使用者１の音声と手本の音声との差異を使用者１自身で確認することができる。

以下では、上述した言語訓練装置の使用例について説明する。ここでは、図３に示すように、使用者１がハーフミラー２１の前方において椅子２に着座した状態で装置を使用するものとする。図３の画面は、具体的には図４に示す内容になっている。この画面は、ある言葉が思い出せない使用者１や、言葉を思い出せてもその言葉を正しく発音できない使用者１の訓練を行うために設定されている。

図４に示す画面の下部には、目標映像を表示する目標領域４２、使用者１の鏡映像を表示する対象領域４３が設けられている。対象領域４３は、ハーフミラー２１による鏡映像を表示する領域であり、映像表示手段２０の表示面において対象領域４３に対応する部位は、輝度が０に設定されるか、ハーフミラー２１の前面側に光が透過しない程度の低輝度に設定される。

また、図４に示す画面の上部には、使用者１に想起させようとする言葉に関連した絵または図が表示される図絵領域４１が設けられ、図絵領域４１の下方には使用者１に想起させようとする言葉の文字を表示する文字領域４４が設けられる。

ところで、この装置では、使用者１による対話的な入力を可能とするために、撮像手段１０により撮像した画像から使用者１の手の動きを認識してジェスチャ入力を行うことが可能になっている。撮像手段１０が二次元画像のみを生成する場合には、ハーフミラー２１から一定距離の平面内で手の位置を認識することにより、手の位置に応じた入力が可能になる。この操作ではハーフミラー２１には触れないが、タッチパネルを用いた動作と同様の操作になる。すなわち、画面上の位置に応じて操作が規定され、手を近づけた位置に応じた操作を行うことができる。

一方、撮像手段１０が三次元画像を生成する場合には、手の先の部分であることを認識した上で、手の先の部分の三次元位置を抽出することにより、その位置に応じた入力を行う。この操作では、画面上に手の位置を示すカーソル（マーカ）を表示し、カーソルの位置を画面の所望位置に重ねることで、画面上の位置に応じて規定されている操作を行うことができる。

上述の操作は、手の位置に応じた操作であるが、手の動きに応じた操作を行う技術を採用してもよい。また、場合によっては手だけではなく、使用者１の身体の他の部位を用いて操作を行うことも可能である。このように、操作を行うために使用者１の身体動作を用いる入力技術は「ジェスチャ入力」と呼ばれている。

図４に示す画面には、ジェスチャ入力を受け付ける５個の釦４５〜４９が設けられている。これらの釦４５〜４９は、以下のように用いる。上述した図絵領域４１に表示される絵や図は複数のセットから選択される。また、各セットには、複数の絵や図が含まれており、言語訓練を行う使用者１に合わせてセットが選択される。

１枚の絵または図が図絵領域４１に表示された時点では、文字領域４４には何も表示されない。ここで、使用者１は図絵領域４１に表示された絵や図を示す言葉を想起できた場合には、「解答」釦４６を押す（ジェスチャ入力により選択することを、以下では「押す」という）。「解答」釦４６を押すと、目標領域４２に目標映像が表示され、正しい発音の手本を示す。このとき、対象領域４３には使用者１の鏡映像が映っているから、使用者１は、目標映像における口唇部の形状変化（動き）を確認しながら、口唇部の動かし方の練習を進めることができる。

使用者１は、図絵領域４１に示された絵や図を見ても言葉を想起できない場合には、「ヒント」釦４５を押す。このとき、言葉領域４４には、文字数分のブランクマーク（円形部分）が表示される。ただし、最初はブランクマークには文字は表示されず、文字数のみが示される。使用者１は、この時点で言葉を想起できれば「解答」釦４６を押し、想起できなければ「ヒント」釦４５を押す。

「ヒント」釦４５を押すたびに、文字領域４４には平仮名が１文字ずつ表示される。つまり、図絵領域４１に示された絵や図に対応する言葉が、「ヒント」釦４５を押すたびに、一音ずつ文字領域に表示される。ここで、「ヒント」釦４５を押さない場合でも、一定時間ごとに１文字ずつ平仮名が表示されるようにしておくのが望ましい。

いずれの場合も使用者１は言葉を想起できたと認識した時点で「解答」釦４６を押すことができる。「解答」釦４６を押せば、言葉を想起できていない場合でも目標領域４２に目標映像が表示されるが、この場合は、文字領域４４に表示されている文字が不足しているから、使用者１は正しい言葉を覚えるという報酬が得られないことになる。そのため、使用者１は言葉を覚えるという報酬を得るために、実際に言葉を想起できたときにのみ「解答」釦４６を押すようになると考えられる。また、誤って「解答」釦４６を押した場合には、「戻る」釦４９を押すことにより、目標映像が表示されていない状態に戻ることができる。

上述のようにして、１つの言葉について、目標映像に併せて口唇部の動きを練習した後には「次へ」釦４８を押せば、セット内の次の絵または図が図絵領域４１に表示される。また、前の図または絵に戻る場合には「前へ」釦４７を押せばよい。

上述の操作例は、図や絵は理解できるが言葉を想起できない使用者１に対して有効である。また、図や絵から言葉を想起できても、発音ができない使用者１には、図または絵と同時に文字領域４４に文字を表示し、その後、手本になる音声を音声出力手段２２（図１参照）から出力するか、目標領域４２に目標映像を表示する。なお、この動作では評価手段３５による評価を行い、手本と使用者１との差異について定量的な評価値を得ることができるから、評価値を点数化することによって、使用者に訓練の動機付けを行うようにしてもよい。

ここで、ハーフミラー２１に使用者１の鏡映像を映している対象領域４３は、映像表示手段２０の画面の表示を変化させることによって移動させたり、透明度を変化させたりすることが可能である。したがって、撮像手段１０で撮像している画像を用いて使用者１の位置を認識し、使用者１の位置に応じて対象領域４３の位置を変化させることができる。この場合、目標領域４２に対象領域４３を重ねるように使用者１が移動すれば、手本となる目標映像に使用者１の鏡映像を重ねることができる。このような重ね合わせを行えば、手本と使用者１との口唇部の動きの違いを視覚的に確認することができ、訓練効果をより高めることができる。

上述した構成では、ハーフミラー２１を用いて使用者１の鏡映像を映す場合を例示したが、ハーフミラー２１を用いずに撮像手段１０で撮像した画像の左右を反転させた反転映像を生成して、映像表示手段２０の画面内に反転映像を表示してもよい。すなわち、撮像手段１０で撮像した使用者１を含む空間領域の左右を反転させる映像反転手段３８を設ける（図１参照）。映像反転手段３８が生成した反転映像は、表示処理手段３２において目標映像と併せて映像表示手段２０に表示される。このように画像処理によって生成した反転画像を用いる場合でも、ハーフミラー２１を用いた鏡映像と同様の効果を持つ鏡映像を使用者１に提示することができる。

なお、表示処理手段３２では、目標映像と反転映像とは別レイヤとして扱えば、目標映像と使用者１の鏡映像とを、並べて表示する状態と重ねて表示する状態とを容易に実現することができる。

１０撮像手段
１１音声取得手段
１２舌位置検出手段
２０映像表示手段（鏡映像提示手段）
２１ハーフミラー（鏡映像提示手段）
２２音声出力手段
３０制御手段
３１目標記憶手段（目標提示手段）
３２表示処理手段
３３特徴記憶手段
３４特徴抽出手段
３５評価手段
３６録音手段
３７音声制御手段
３８映像反転手段（鏡映像提示手段）

Claims

映像を表示する映像表示手段と、手本になる口唇部の形状を含む映像を目標映像として前記映像表示手段に提示する目標提示手段と、前記目標映像に含まれる口唇部の所定期間における形状変化を表す特徴量を第１の特徴量として記憶する特徴記憶手段と、使用者の口唇部を含む空間領域を撮像する撮像手段と、前記撮像手段により撮像される空間領域を少なくとも含んだ空間領域の鏡映像を前記映像表示手段に表示される前記目標映像とともに前記使用者に提示する鏡映像提示手段と、前記撮像手段により撮像した画像から前記所定期間に対応する期間での前記使用者の口唇部の形状変化を表す特徴量を第２の特徴量として抽出する特徴抽出手段と、前記第１の特徴量に対する前記第２の特徴量の差異を評価する評価手段と、前記評価手段で評価した結果に応じて前記映像表示手段の表示内容を決定する表示処理手段とを備えることを特徴とする言語訓練装置。
前記鏡映像提示手段は、前記映像表示手段の前面にハーフミラーを配置した構成であることを特徴とする請求項１記載の言語訓練装置。
前記撮像手段により撮像した画像の左右を反転した反転映像を生成する映像反転手段をさらに備え、前記目標提示手段は、前記反転映像を前記目標映像とともに前記映像表示手段に提示する機能を備え、前記鏡映像提示手段は、前記映像反転手段と前記目標提示手段とにより構成されることを特徴とする請求項１記載の言語訓練装置。
前記使用者の舌の位置を検出する舌位置検出手段をさらに備え、前記特徴記憶手段は、手本になる舌の位置に関して前記所定期間における位置変化を表す特徴量を第３の特徴量として記憶し、前記特徴抽出手段は、前記舌位置検出手段が検出した舌の位置から前記所定期間に対応する期間での前記使用者の舌の位置変化を表す特徴量を第４の特徴量として抽出し、前記評価手段は、前記第３の特徴量に対する前記第４の特徴量の差異を評価することを特徴とする請求項１〜３のいずれか１項に記載の言語訓練装置。
音声を出力する音声出力手段と、手本になる音声を目標音声として前記音声出力手段に提示する音声制御手段と、前記使用者の音声を取得する音声取得手段とをさらに備え、前記特徴記憶手段は、前記目標音声の特徴量を第５の特徴量として記憶し、前記特徴抽出手段は、前記音声取得手段が取得した音声の特徴量を第６の特徴量として抽出し、前記評価手段は、前記第５の特徴量に対する前記第６の特徴量の差異を評価することを特徴とする請求項１〜５のいずれか１項に記載の言語訓練装置。
前記音声取得手段が取得した前記使用者の音声を録音する録音手段をさらに備え、前記音声制御手段は、前記録音手段が録音した前記使用者の音声を前記音声出力手段に出力させることを特徴とする請求項５記載の言語訓練装置。
前記目標映像は前記撮像手段により撮像した実画像であって、前記特徴抽出手段は、前記実画像から前記第１の特徴量を抽出して前記特徴記憶手段に記憶させる機能を備えることを特徴とする請求項１〜６のいずれか１項に記載の言語訓練装置。
前記目標映像は口唇部の形状をモデルにより表現したモデル画像であることを特徴とする請求項１〜６のいずれか１項に記載の言語訓練装置。