JP2003061098A

JP2003061098A - 画像処理装置、画像処理方法、記録媒体及びプログラム

Info

Publication number: JP2003061098A
Application number: JP2001250392A
Authority: JP
Inventors: Tadashi Ohira; 正大平
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-08-21
Filing date: 2001-08-21
Publication date: 2003-02-28

Abstract

(57)【要約】【課題】主たる動画像及びオーディオ信号に手話画像
を合成することで、聴覚障害者にとって自然でわかりや
すい映像サービスを充足させることを課題とする。【解決手段】動画像のオブジェクト・ベース符号化を
行い、手話画像のデータベースを作成する画像処理装置
であって、手話者の動画像を入力する動画像入力手段
と、手話者のみをオブジェクトとして抽出し形状情報の
動画像を獲得するオブジェクト抽出手段と、手話者の動
画像を符号化する自然画像符号化手段と、形状情報の動
画像を符号化する形状情報画像符号化手段と、符号化後
の自然画像と形状情報画像とを多重化する多重化手段
と、手話画像の意味をテキストデータとして入力するテ
キスト入力手段と、多重化した画像とテキストデータを
データベース化して蓄積するデータベース蓄積手段とを
備えた画像処理装置が提供される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、健聴者から聴覚障
害者への通訳を行うシステムに関するものであり、特
に、画像と音声を持つコンテンツに対して手話画像を生
成、多重化し、必要に応じて合成表示する技術に関する
ものである。

【０００２】

【従来の技術】手話は、手の位置、向き、移動方向、移
動速度、表情等の手段を使って情報を相手に伝える、聴
覚障害者のための言語で、音声を中心として発達してき
た健聴者の用いている自然言語とは異なった体系を持っ
ている。したがって、聴覚障害者が健聴者と会話を行う
際には音声言語の体系に属する自然言語を用いて筆談や
口話を行うよりも、手話で会話を行った方が楽である上
に伝達速度も速い。そのため、自然言語と手話を混在さ
せたシステムが望まれている。

【０００３】従来の手話を生成する方法としては、CGア
ニメーションを用いるものや単語単位で撮影した画像を
そのままつないで表示する方法がある。

【０００４】CGアニメーションを用いる方法では、単純
なものでは細部の情報がわかりにくく手話で最も重要な
手の動きがわかりにくくなる。対して複雑なアニメーシ
ョンを作ろうとすると高度な開発環境を必要とする。

【０００５】一方で、コンピュータ・放送・通信など多
くの領域で利用できる、汎用的な次世代マルチメディア
符号化規格として、ＩＳＯ（International Organizati
on for Standardization：国際標準化機構）やＩＴＵ
（International Telecommunication Union：国際電気
通信連合）によって、MPEG-４の国際標準化作業が進め
られている。MPEG-4の大きな特徴として、オブジェクト
・ベース符号化を行う機能がある。

【０００６】オブジェクト・ベース符号化とは、ＭＰＥ
Ｇ（Moving Picture Expert Group）-１やＭＰＥＧ-２
で採用されているような長方形の画像全体を符号化する
方法ではなく、予め何等かの方法で生成された形状情報
の画像によって、画像の中の切り出された人物やその他
の物体、つまり画像のオブジェクト毎に符号化を行う方
法である。以降ではこの形状情報画像と区別するため、
一般的に処理対象とする画像を自然画像と称す。

【０００７】形状情報画像とは、符号化対象となってい
る自然画像と全く同じ縦横の画素数を持ち、オブジェク
トの形状を表す一種の画像である。形状情報画像には各
画素が１bitで表されるバイナリ・アルファ・プレーン
と、各画素が２bit以上で表されるグレイスケール・ア
ルファ・プレーンがある。バイナリ・アルファ・プレー
ンは通常、画素の値が“１”の領域はオブジェクト領
域、“０”の領域はオブジェクト外の領域を表す。グレ
イスケール・アルファ・プレーンは、画素の値が“１以
上２５５以下”の領域はオブジェクト領域、“０”の領
域はオブジェクト外の領域を表す。

【０００８】尚、その他のMPEG-4の詳細内容について
は、ISO/IECによる国際標準の文書に委ねることとす
る。

【０００９】

【発明が解決しようとする課題】手話での会話が円滑に
行なわれるためには、手話者の画像が明瞭である必要が
あり、また手話者の手の形が正しく認識されるために
は、画像は立体的に表示される必要がある。

【００１０】従来から、手話を撮影した画像を単純に合
成する方法では、画像は立体的であるが記憶すべき情報
量が多い。手話単語を登録する手話画像の辞書には、一
手話単語あたり最低６０枚前後のカラー画像を２０００
単語以上記憶しなければならないことから、一手話単語
あたりの記憶すべき情報量が多いため多くの記憶容量を
必要とする。

【００１１】本発明の目的は、オブジェクト・ベース符
号化装置及びその方法を用いて、任意形状の手話画像の
データベースを効率的に構築する手段、及び主たるAVス
トリーム（全画面の動画像と音声）に手話画像を合成す
ることで、聴覚障害者にとって自然でわかりやすい映像
サービスを充足させる手段を提供することである。

【００１２】

【課題を解決するための手段】本発明の一観点によれ
ば、手話画像のデータベースを作成するデータベース作
成手段と、主たる動画像を符号化して前記データベース
内の手話画像と多重化する多重化手段と、前記多重化さ
れた画像から主たる動画像と手話画像を復号し、合成出
力する手段とを備えた画像処理装置が提供される。

【００１３】本発明の他の観点によれば、動画像のオブ
ジェクト・ベース符号化を行い、手話画像のデータベー
スを作成する画像処理装置であって、手話者の動画像を
入力する動画像入力手段と、手話者のみをオブジェクト
として抽出し形状情報の動画像を獲得するオブジェクト
抽出手段と、前記手話者の動画像を符号化する自然画像
符号化手段と、前記形状情報の動画像を符号化する形状
情報画像符号化手段と、前記符号化後の自然画像と形状
情報画像とを多重化する多重化手段と、前記手話画像の
意味をテキストデータとして入力するテキスト入力手段
と、前記多重化した画像と前記テキストデータをデータ
ベース化して蓄積するデータベース蓄積手段とを備えた
画像処理装置が提供される。

【００１４】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化手段
と、前記オーディオ信号から音声の情報を抽出し認識す
る音声認識手段と、前記認識した音声データを利用し手
話画像のデータベースから所望の手話画像を検索する手
話画像検索手段と、前記符号化した主たる動画像信号と
オーディオ信号と前記手話画像を多重化して出力する多
重化手段とを備えた画像処理装置が提供される。

【００１５】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第１の分配手段と、前記主たる動
画像信号及びオーディオ信号を復号する第１の復号手段
と、前記手話画像から、手話者の自然画像と手話者の形
状情報画像とに分配する第２の分配手段と、前記手話者
の自然画像を復号する第２の復号手段と、前記手話者の
形状情報画像を復号する第３の復号手段と、前記主たる
動画像信号と前記手話者の自然画像と形状情報画像か
ら、主たる動画像と手話画像を合成する合成手段とを備
えた画像処理装置が提供される。

【００１６】本発明のさらに他の観点によれば、手話画
像のデータベースを作成するデータベース作成ステップ
と、主たる動画像を符号化して前記データベース内の手
話画像と多重化する多重化ステップと、前記多重化され
た画像から主たる動画像と手話画像を復号し、合成出力
するステップとを備えた画像処理方法が提供される。

【００１７】本発明のさらに他の観点によれば、動画像
のオブジェクト・ベース符号化を行い、手話画像のデー
タベースを作成する画像処理方法であって、手話者の動
画像を入力する動画像入力ステップと、手話者のみをオ
ブジェクトとして抽出し形状情報の動画像を獲得するオ
ブジェクト抽出ステップと、前記手話者の動画像を符号
化する自然画像符号化ステップと、前記形状情報の動画
像を符号化する形状情報画像符号化ステップと、前記符
号化後の自然画像と形状情報画像とを多重化する多重化
ステップと、前記手話画像の意味をテキストデータとし
て入力するテキスト入力ステップと、前記多重化した画
像と前記テキストデータをデータベース化して蓄積する
データベース蓄積ステップとを備えた画像処理方法が提
供される。

【００１８】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化ステッ
プと、前記オーディオ信号から音声の情報を抽出し認識
する音声認識ステップと、前記認識した音声データを利
用し手話画像のデータベースから所望の手話画像を検索
する手話画像検索ステップと、前記符号化した主たる動
画像信号とオーディオ信号と前記手話画像を多重化して
出力する多重化ステップとを備えた画像処理方法が提供
される。

【００１９】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第１の分配ステップと、前記主た
る動画像信号及びオーディオ信号を復号する第１の復号
ステップと、前記手話画像から、手話者の自然画像と手
話者の形状情報画像とに分配する第２の分配ステップ
と、前記手話者の自然画像を復号する第２の復号ステッ
プと、前記手話者の形状情報画像を復号する第３の復号
ステップと、前記主たる動画像信号と前記手話者の自然
画像と形状情報画像から、主たる動画像と手話画像を合
成する合成ステップとを備えた画像処理方法が提供され
る。

【００２０】本発明のさらに他の観点によれば、手話画
像のデータベースを作成するデータベース作成手順と、
主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手順と、前記多重化された画像か
ら主たる動画像と手話画像を復号し、合成出力する手順
とをコンピュータに実行させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体が提供され
る。

【００２１】本発明のさらに他の観点によれば、動画像
のオブジェクト・ベース符号化を行い、手話画像のデー
タベースを作成するプログラムを記録した記録媒体であ
って、手話者の動画像を入力する動画像入力手順と、手
話者のみをオブジェクトとして抽出し形状情報の動画像
を獲得するオブジェクト抽出手順と、前記手話者の動画
像を符号化する自然画像符号化手順と、前記形状情報の
動画像を符号化する形状情報画像符号化手順と、前記符
号化後の自然画像と形状情報画像とを多重化する多重化
手順と、前記手話画像の意味をテキストデータとして入
力するテキスト入力手順と、前記多重化した画像と前記
テキストデータをデータベース化して蓄積するデータベ
ース蓄積手順とをコンピュータに実行させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
が提供される。

【００２２】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化手順
と、前記オーディオ信号から音声の情報を抽出し認識す
る音声認識手順と、前記認識した音声データを利用し手
話画像のデータベースから所望の手話画像を検索する手
話画像検索手順と、前記符号化した主たる動画像信号と
オーディオ信号と前記手話画像を多重化して出力する多
重化手順とをコンピュータに実行させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体が提
供される。

【００２３】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第１の分配手順と、前記主たる動
画像信号及びオーディオ信号を復号する第１の復号手順
と、前記手話画像から、手話者の自然画像と手話者の形
状情報画像とに分配する第２の分配手順と、前記手話者
の自然画像を復号する第２の復号手順と、前記手話者の
形状情報画像を復号する第３の復号手順と、前記主たる
動画像信号と前記手話者の自然画像と形状情報画像か
ら、主たる動画像と手話画像を合成する合成手順とをコ
ンピュータに実行させるためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体が提供される。

【００２４】本発明のさらに他の観点によれば、手話画
像のデータベースを作成するデータベース作成手順と、
主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手順と、前記多重化された画像か
ら主たる動画像と手話画像を復号し、合成出力する手順
とをコンピュータに実行させるためのプログラムが提供
される。

【００２５】本発明のさらに他の観点によれば、動画像
のオブジェクト・ベース符号化を行い、手話画像のデー
タベースを作成するプログラムであって、手話者の動画
像を入力する動画像入力手順と、手話者のみをオブジェ
クトとして抽出し形状情報の動画像を獲得するオブジェ
クト抽出手順と、前記手話者の動画像を符号化する自然
画像符号化手順と、前記形状情報の動画像を符号化する
形状情報画像符号化手順と、前記符号化後の自然画像と
形状情報画像とを多重化する多重化手順と、前記手話画
像の意味をテキストデータとして入力するテキスト入力
手順と、前記多重化した画像と前記テキストデータをデ
ータベース化して蓄積するデータベース蓄積手順とをコ
ンピュータに実行させるためのプログラムが提供され
る。

【００２６】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化手順
と、前記オーディオ信号から音声の情報を抽出し認識す
る音声認識手順と、前記認識した音声データを利用し手
話画像のデータベースから所望の手話画像を検索する手
話画像検索手順と、前記符号化した主たる動画像信号と
オーディオ信号と前記手話画像を多重化して出力する多
重化手順とをコンピュータに実行させるためのプログラ
ムが提供される。

【００２７】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第１の分配手順と、前記主たる動
画像信号及びオーディオ信号を復号する第１の復号手順
と、前記手話画像から、手話者の自然画像と手話者の形
状情報画像とに分配する第２の分配手順と、前記手話者
の自然画像を復号する第２の復号手順と、前記手話者の
形状情報画像を復号する第３の復号手順と、前記主たる
動画像信号と前記手話者の自然画像と形状情報画像か
ら、主たる動画像と手話画像を合成する合成手順とをコ
ンピュータに実行させるためのプログラムが提供され
る。

【００２８】本発明はこのように構成したので、任意形
状の手話画像のデータベースを効率的に構築し、主たる
動画像及びオーディオ信号（全画面の動画像と音声）に
手話画像を合成することで、聴覚障害者にとって自然で
わかりやすい映像サービスを充足させることができる。

【００２９】

【発明の実施の形態】以下、本発明の実施形態を、図面
を用いて詳細に説明する。（第１の実施形態）図７及び図８を用いてオブジェクト
・ベース符号化方法を説明する。図７(a)は自然画像、
図７(b)は図７(a)に対応した形状情報画像である。この
ようにオブジェクト・ベース符号化方法は、画像全体で
なくオブジェクトの部分のみを符号化することから、画
像を高い効率で符号化することができる。

【００３０】また、図８(a)では、主たる画像を表示し
た場合、図８(b)では前記画像に手話画像のオブジェク
トを合成した状態を示す。このようにオブジェクト・ベ
ース符号化では、既にオブジェクトの形状が明確である
ため、その背景となる画像との合成が簡易的に可能とな
る。

【００３１】図１は本発明の第一の実施形態としての手
話画像のデータベースを作成するための装置構成を示す
ブロック図である。尚、本実施形態では、MPEG-4におけ
る実現方法を述べる。またMPEG-4に従い、自然画像によ
る動画像をテクスチャ画像、このテクスチャに対応した
符号化すべきオブジェクトの形状情報による動画像をシ
ェイプ画像と称する。本装置には、前記テクスチャ画像
と、前記シェイプ画像とで構成する２種類の動画像を入
力する。

【００３２】図１の構成を説明する。１００は手話者を
撮影するカメラである。１０１はカメラ１００で撮影し
た手話者の画像から手話者の領域と背景領域を分割し、
手話者の領域を１、背景の領域を０としたバイナリー・
アルファ・プレーンで構成した動画像を生成するシェイ
プ生成器である。１０２はカメラからの手話者の自然画
像を符号化するテクスチャ符号化器である。１０３はシ
ェイプ生成器１０１からの手話者のシェイプ画像を符号
化するシェイプ符号化器である。１０４はテクスチャ符
号化器とシェイプ符号化器からのストリームを多重化す
る多重化器である。１０５は多重化器からの出力と別途
入力された手話画像に対応したテキストを関連付け蓄積
する手話画像データベースである。

【００３３】次に図１の動作について説明する。まず、
カメラ１００により手話者の画像を撮影する。撮影につ
いては後に他の画像と合成しやすくするため、ブルーバ
ックなどの背景を用いる。撮影した画像からシェイプ生
成器１０１により手話者の形状情報画像を生成する。次
に手話者自身の撮影画像（自然画像）をテクスチャ符号
化器１０２へ、形状情報画像をシェイプ符号化器１０３
へ入力し、それぞれをオブジェクト符号化する。それぞ
れの符号化データは多重化器１０４で多重化され手話画
像ストリームとして出力され、手話画像の意味であるテ
キストデータと共にデータベース１０５へ蓄積される。

【００３４】図２は、本発明の第１の実施形態としての
主たるオーディオ・ビデオと手話画像を符号化し多重化
する装置の全体構成を示すブロック図である。図２の構
成を説明する。２００は主たるコンテンツであるビデオ
信号とオーディオ信号を入力し、符号化する主AV符号化
器である。２０１は入力したオーディオから音声を認識
しそのテキストデータを出力する音声認識器である。２
０３は音声認識器２０１からのテキストデータを用い
て、前記手話画像データベースから対応する手話画像を
検索する手話画像検索器である。２０２は主AV符号化器
からの主ストリームと、手話画像検索器２０３からの手
話画像ストリームを多重化する多重化器である。

【００３５】次に図２の動作について説明する。まず、
主たるビデオとオーディオの素材信号は符号化器２００
で符号化され主ストリームとして出力される。同時にオ
ーディオ素材信号は、音声認識器２０１により音声を認
識、解読する。その後、手話画像検索器２０３により解
読した音声に対して蓄積された手話画像データベース１
０５から整合する手話画像ストリームを取得する。次に
多重化器２０２により主ストリームと手話画像ストリー
ムを多重化して最終的なビットストリームを出力する。

【００３６】図３は、本発明の第１の実施形態としての
主たるオーディオ・ビデオと手話画像を復号し合成する
装置の全体構成を示すブロック図である。図３の構成を
説明する。３００は前記ビットストリームを入力し、主
ストリームと手話画像ストリームとに分配する分配器で
ある。３０１は分配器３００からの主ストリームをオー
ディオ信号とビデオ信号へ復号する主AV復号器である。
３０２は前記手話画像ストリームから手話者のテクスチ
ャストリームと形状情報であるシェイプストリームを分
配する分配器である。３０３は前記テクスチャストリー
ムから手話者のテクスチャ画像信号を復号するテクスチ
ャ復号器である。３０４は前記シェイプストリームから
手話者のシェイプ画像信号を復号するシェイプ復号器で
ある。３０５は画像合成指示信号を入力し、画像合成指
示信号がONの場合は主AV復号器３０１からのビデオ信号
と手話画像復号器３０２からの信号を合成して出力し、
OFFの場合は主AV復号器３０１からのオーディオ・ビデ
オ信号のみを出力する手話画像合成器である。

【００３７】次に図３の動作について説明する。まず、
ストリームを入力し、分配器３００により主ストリーム
と手話画像ストリームを分配する。主ストリームは主AV
復号器３０１により復号され主ビデオ信号と主オーディ
オ信号として出力される。手話画像ストリームは手話画
像分配器３０２により手話者のテクスチャ画像信号とな
るテクスチャストリームと手話者のシェイプ画像信号と
なるシェイプストリームへ分配される。テクスチャスト
リームはテクスチャ復号器３０３により手話者のテクス
チャ画像信号へ復号され、シェイプストリームはシェイ
プ復号器３０４により手話者のシェイプ画像信号へ復号
される。次に主AV復号器３０１からの主ビデオ信号とテ
クスチャ復号器３０３からのテクスチャ画像信号とシェ
イプ復号器３０４からのシェイプ画像信号から手話画像
合成器３０５により主ビデオ信号と手話画像信号を合成
したビデオ信号を出力する。

【００３８】図４にMPEG-4を用いて、主オーディオ・ビ
デオストリームと手話画像ストリームを多重化したとき
の全体のストリーム構成を示す。MPEG-4を用いること
で、全てのストリームを一定の時間単位でパケット化し
て、表示時刻を示すTS(Time Stamp)を重畳後多重化する
ことで、各ストリームの表示管理等が容易に可能とな
る。

【００３９】図５に前記手話画像合成器３０５の動作フ
ローチャートを示す。まず主オーディオ・ビデオ信号及
び手話画像信号（テクスチャ画像とシェイプ画像）を入
力する（４００）。次に必ず出力すべき主たるビデオ信
号を出力する（４０１）。次に手話画像を合成して表示
するための指示信号を入力する（４０２）。合成するよ
うに指示を受けた場合、つまり合成表示指示信号がONの
場合は、主ビデオに手話画像を合成したビデオ信号を出
力する（４０４）。指示信号がOFFの場合は合成を行わ
ず主ビデオ信号を出力し（４０１）、同時にオーディオ
信号を出力する（４０３）。

【００４０】第１の実施形態のその他の構成を説明す
る。本実施形態では、オブジェクト・ベース符号化方式
について国際標準であるMPEG-4を用いているが、その他
のオブジェクト・ベース符号化方式に適用してもよい。
また、オブジェクト・ベース符号化方式以外の符号化及
び復号はMPEG-4以外、例えばMPEG-1,2などであってもか
まわない。手話画像合成器３０５ではオーディオと手話
画像をスイッチしているが、手話画像のみを合成もしく
は非出力として、オーディオは出力したままとしてもか
まわない。

【００４１】第１の実施形態の効果を説明する。本実施
形態は、符号化した手話画像ストリームを用いて手話画
像データベースを構築するため、少ないデータ容量で多
くの手話画像を蓄積する手段を提供する。手話画像を自
然画像にて作成するため、CGなどの画像に比較して、手
話者の細やかな表情や動きを蓄積することができる。オ
ブジェクト・ベース符号化を用いて手話画像を符号化し
ているため、他の画像との合成がしやすい。

【００４２】（第２の実施形態）図６は、第２の実施形
態におけるコンピュータの構成を示すブロック図であ
る。５００はコンピュータ全体の制御、及び種々の処理
を行う中央演算装置（CPU）、５０１は本コンピュータ
の制御に必要なオペレーティングシステム（OS）、ソフ
トウエア、データ、演算に必要な記憶領域を提供するメ
モリである。また、CPU５００が各種の処理を行う際の
ワークエリアとしても用いられる。

【００４３】５０２は種々の装置をつなぎ、データ、制
御信号をやりとりするバス、５０３は各種のソフトウエ
アを蓄積する記憶装置、５０４は動画像データを蓄積す
る記憶装置、５０５は画像やコンピュータからのシステ
ムメッセージなどを表示するモニタである。

【００４４】５０７は通信回路に符号化データを送信す
る通信インターフェースであり、装置外部のLAN、公衆
回線、無線回線、放送電波等と接続されている。５０６
はコンピュータを起動したり、ビットレート等の各種条
件を設定したりするための端末である。

【００４５】メモリ５０１にはコンピュータ全体を制御
し、各種ソフトウエアを動作させるためのOSや動作させ
るソフトウエアを格納し、画像データを符号化のために
読み込むエリア、一時的に符号データを格納する符号エ
リア、各種演算のパラメータ等を格納しておくワーキン
グエリアが存在する。

【００４６】図６の動作を説明する。上記のような構成
において、処理に先立ち、端末５０６から記憶装置５０
４に蓄積されている手話動画像及び対するテキストデー
タから符号化する動画像データを選択し、コンピュータ
の起動が指示される。すると、記憶装置５０３に格納さ
れているソフトウエアがバス５０２を介してメモリ５０
１に展開され、ソフトウエアが起動される。そして、CP
U５００により図１、図２、図３に示した処理を順次実
現する。

【００４７】本実施形態におけるコンピュータは、第１
の実施形態における任意形状の手話画像のデータベース
を効率的に構築し、主たるAVストリーム（全画面の動画
像と音声）に手話画像を合成する装置として機能する。

【００４８】以上の説明から明らかなように、第１及び
第２の実施形態は、オブジェクト・ベース符号化装置及
びその方法を用いて、任意形状の手話画像のデータベー
スを効率的に構築し、主たるAVストリーム（全画面の動
画像と音声）に手話画像を合成することで、聴覚障害者
にとって自然でわかりやすい映像サービスを充足させる
手段を提供する。

【００４９】本実施形態は、コンピュータがプログラム
を実行することによって実現することができる。また、
プログラムをコンピュータに供給するための手段、例え
ばかかるプログラムを記録したＣＤ−ＲＯＭ等の記録媒
体又はかかるプログラムを伝送するインターネット等の
伝送媒体も本発明の実施形態として適用することができ
る。上記のプログラム、記録媒体及び伝送媒体は、本発
明の範疇に含まれる。記録媒体としては、例えばフレキ
シブルディスク、ハードディスク、光ディスク、光磁気
ディスク、ＣＤ−ＲＯＭ、磁気テープ、不揮発性のメモ
リカード、ＲＯＭ等を用いることができる。

【００５０】なお、上記実施形態は、何れも本発明を実
施するにあたっての具体化の例を示したものに過ぎず、
これらによって本発明の技術的範囲が限定的に解釈され
てはならないものである。すなわち、本発明はその技術
思想、またはその主要な特徴から逸脱することなく、様
々な形で実施することができる。

【００５１】

【発明の効果】以上説明したように、任意形状の手話画
像のデータベースを効率的に構築し、主たる動画像及び
オーディオ信号（全画面の動画像と音声）に手話画像を
合成することで、聴覚障害者にとって自然でわかりやす
い映像サービスを充足させることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態としての手話画像デー
タベース作成装置の全体構成を示すブロック図である。

【図２】本発明の第１の実施形態としての主たるオーデ
ィオ・ビデオと手話画像を符号化し多重化する装置の全
体構成を示すブロック図である。

【図３】本発明の第１の実施形態としての主たるオーデ
ィオ・ビデオと手話画像を復号し合成する装置の全体構
成を示すブロック図である。

【図４】主たるオーディオ・ビデオストリームと手話画
像ストリームを多重化したときの全体のストリーム構成
を示す図である。

【図５】手話画像を合成する際の動作フローチャートで
ある。

【図６】本発明の第２の実施形態としてのコンピュータ
の構成を示すブロック図である。

【図７】手話者をオブジェクト符号化する際の自然画像
と形状情報画像の例を示す図である。

【図８】主たる画像に対して手話画像を合成した際の画
像例を示す図である。

【符号の説明】

１００カメラ１０１シェイプ生成器１０２テクスチャ符号化器１０３シェイプ符号化器１０４、２０２多重化器１０５手話画像データベース２００主AV符号化器２０１音声認識器２０３手話画像検索器３００分配器３０１主AV復号器３０２手話画像分配器３０３テクスチャ復号器３０４シェイプ復号器３０５手話画像合成器５００ CPU ５０１メモリ５０２バス５０３、５０４記憶メディア５０５モニタ５０６端末５０７通信I/F

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 7/08 Ｇ１０Ｌ 3/00 ５５１Ｇ 7/081 ５５１ＣＦターム(参考） 5C023 AA06 AA17 AA37 AA38 BA02 BA11 CA01 CA05 DA04 5C052 AA01 AC08 CC11 DD04 DD06 5C059 KK37 MA00 MB03 MB06 MB12 MB23 PP04 PP28 PP29 RB01 RB18 RC19 RC32 SS06 SS12 SS19 SS30 UA02 UA05 5C063 AB07 AC01 AC05 CA11 CA20 CA36 5D015 KK01

Claims

【特許請求の範囲】

【請求項１】手話画像のデータベースを作成するデー
タベース作成手段と、主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手段と、前記多重化された画像から主たる動画像と手話画像を復
号し、合成出力する手段とを備えた画像処理装置。
【請求項２】動画像のオブジェクト・ベース符号化を
行い、手話画像のデータベースを作成する画像処理装置
であって、手話者の動画像を入力する動画像入力手段と、手話者のみをオブジェクトとして抽出し形状情報の動画
像を獲得するオブジェクト抽出手段と、前記手話者の動画像を符号化する自然画像符号化手段
と、前記形状情報の動画像を符号化する形状情報画像符号化
手段と、前記符号化後の自然画像と形状情報画像とを多重化する
多重化手段と、前記手話画像の意味をテキストデータとして入力するテ
キスト入力手段と、前記多重化した画像と前記テキストデータをデータベー
ス化して蓄積するデータベース蓄積手段とを備えた画像
処理装置。
【請求項３】主たる動画像信号とオーディオ信号を符
号化する符号化手段と、前記オーディオ信号から音声の情報を抽出し認識する音
声認識手段と、前記認識した音声データを利用し手話画像のデータベー
スから所望の手話画像を検索する手話画像検索手段と、前記符号化した主たる動画像信号とオーディオ信号と前
記手話画像を多重化して出力する多重化手段とを備えた
画像処理装置。
【請求項４】入力信号を、主たる動画像信号及びオー
ディオ信号の組みと、手話画像とに分配する第１の分配
手段と、前記主たる動画像信号及びオーディオ信号を復号する第
１の復号手段と、前記手話画像から、手話者の自然画像と手話者の形状情
報画像とに分配する第２の分配手段と、前記手話者の自然画像を復号する第２の復号手段と、前記手話者の形状情報画像を復号する第３の復号手段
と、前記主たる動画像信号と前記手話者の自然画像と形状情
報画像から、主たる動画像と手話画像を合成する合成手
段とを備えた画像処理装置。
【請求項５】前記合成手段は、前記主たる動画像と前記手話画像とを合成することを指
示する指示信号を入力する入力手段と、前記指示信号を受けて、指示信号が合成指示する場合、
主たる動画像と手話画像を合成し、合成指示しない場
合、主たる動画像と手話画像を合成しないで主たる動画
像を出力する切り替え手段とを備えた請求項４記載の画
像処理装置。
【請求項６】前記切り替え手段は、指示信号が合成指
示する場合、主たる動画像と手話画像を合成して出力
し、合成指示しない場合、主たる動画像とオーディオ信
号を出力する請求項５記載の画像処理装置。
【請求項７】手話画像のデータベースを作成するデー
タベース作成ステップと、主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化ステップと、前記多重化された画像から主たる動画像と手話画像を復
号し、合成出力するステップとを備えた画像処理方法。
【請求項８】動画像のオブジェクト・ベース符号化を
行い、手話画像のデータベースを作成する画像処理方法
であって、手話者の動画像を入力する動画像入力ステップと、手話者のみをオブジェクトとして抽出し形状情報の動画
像を獲得するオブジェクト抽出ステップと、前記手話者の動画像を符号化する自然画像符号化ステッ
プと、前記形状情報の動画像を符号化する形状情報画像符号化
ステップと、前記符号化後の自然画像と形状情報画像とを多重化する
多重化ステップと、前記手話画像の意味をテキストデータとして入力するテ
キスト入力ステップと、前記多重化した画像と前記テキストデータをデータベー
ス化して蓄積するデータベース蓄積ステップとを備えた
画像処理方法。
【請求項９】主たる動画像信号とオーディオ信号を符
号化する符号化ステップと、前記オーディオ信号から音声の情報を抽出し認識する音
声認識ステップと、前記認識した音声データを利用し手話画像のデータベー
スから所望の手話画像を検索する手話画像検索ステップ
と、前記符号化した主たる動画像信号とオーディオ信号と前
記手話画像を多重化して出力する多重化ステップとを備
えた画像処理方法。
【請求項１０】入力信号を、主たる動画像信号及びオ
ーディオ信号の組みと、手話画像とに分配する第１の分
配ステップと、前記主たる動画像信号及びオーディオ信号を復号する第
１の復号ステップと、前記手話画像から、手話者の自然画像と手話者の形状情
報画像とに分配する第２の分配ステップと、前記手話者の自然画像を復号する第２の復号ステップ
と、前記手話者の形状情報画像を復号する第３の復号ステッ
プと、前記主たる動画像信号と前記手話者の自然画像と形状情
報画像から、主たる動画像と手話画像を合成する合成ス
テップとを備えた画像処理方法。
【請求項１１】手話画像のデータベースを作成するデ
ータベース作成手順と、主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手順と、前記多重化された画像から主たる動画像と手話画像を復
号し、合成出力する手順とをコンピュータに実行させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体。
【請求項１２】動画像のオブジェクト・ベース符号化
を行い、手話画像のデータベースを作成するプログラム
を記録した記録媒体であって、手話者の動画像を入力する動画像入力手順と、手話者のみをオブジェクトとして抽出し形状情報の動画
像を獲得するオブジェクト抽出手順と、前記手話者の動画像を符号化する自然画像符号化手順
と、前記形状情報の動画像を符号化する形状情報画像符号化
手順と、前記符号化後の自然画像と形状情報画像とを多重化する
多重化手順と、前記手話画像の意味をテキストデータとして入力するテ
キスト入力手順と、前記多重化した画像と前記テキストデータをデータベー
ス化して蓄積するデータベース蓄積手順とをコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読み取り可能な記録媒体。
【請求項１３】主たる動画像信号とオーディオ信号を
符号化する符号化手順と、前記オーディオ信号から音声の情報を抽出し認識する音
声認識手順と、前記認識した音声データを利用し手話画像のデータベー
スから所望の手話画像を検索する手話画像検索手順と、前記符号化した主たる動画像信号とオーディオ信号と前
記手話画像を多重化して出力する多重化手順とをコンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
【請求項１４】入力信号を、主たる動画像信号及びオ
ーディオ信号の組みと、手話画像とに分配する第１の分
配手順と、前記主たる動画像信号及びオーディオ信号を復号する第
１の復号手順と、前記手話画像から、手話者の自然画像と手話者の形状情
報画像とに分配する第２の分配手順と、前記手話者の自然画像を復号する第２の復号手順と、前記手話者の形状情報画像を復号する第３の復号手順
と、前記主たる動画像信号と前記手話者の自然画像と形状情
報画像から、主たる動画像と手話画像を合成する合成手
順とをコンピュータに実行させるためのプログラムを記
録したコンピュータ読み取り可能な記録媒体。
【請求項１５】手話画像のデータベースを作成するデ
ータベース作成手順と、主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手順と、前記多重化された画像から主たる動画像と手話画像を復
号し、合成出力する手順とをコンピュータに実行させる
ためのプログラム。
【請求項１６】動画像のオブジェクト・ベース符号化
を行い、手話画像のデータベースを作成するプログラム
であって、手話者の動画像を入力する動画像入力手順と、手話者のみをオブジェクトとして抽出し形状情報の動画
像を獲得するオブジェクト抽出手順と、前記手話者の動画像を符号化する自然画像符号化手順
と、前記形状情報の動画像を符号化する形状情報画像符号化
手順と、前記符号化後の自然画像と形状情報画像とを多重化する
多重化手順と、前記手話画像の意味をテキストデータとして入力するテ
キスト入力手順と、前記多重化した画像と前記テキストデータをデータベー
ス化して蓄積するデータベース蓄積手順とをコンピュー
タに実行させるためのプログラム。
【請求項１７】主たる動画像信号とオーディオ信号を
符号化する符号化手順と、前記オーディオ信号から音声の情報を抽出し認識する音
声認識手順と、前記認識した音声データを利用し手話画像のデータベー
スから所望の手話画像を検索する手話画像検索手順と、前記符号化した主たる動画像信号とオーディオ信号と前
記手話画像を多重化して出力する多重化手順とをコンピ
ュータに実行させるためのプログラム。
【請求項１８】入力信号を、主たる動画像信号及びオ
ーディオ信号の組みと、手話画像とに分配する第１の分
配手順と、前記主たる動画像信号及びオーディオ信号を復号する第
１の復号手順と、前記手話画像から、手話者の自然画像と手話者の形状情
報画像とに分配する第２の分配手順と、前記手話者の自然画像を復号する第２の復号手順と、前記手話者の形状情報画像を復号する第３の復号手順
と、前記主たる動画像信号と前記手話者の自然画像と形状情
報画像から、主たる動画像と手話画像を合成する合成手
順とをコンピュータに実行させるためのプログラム。