[go: up one dir, main page]

JP2003061098A - 画像処理装置、画像処理方法、記録媒体及びプログラム - Google Patents

画像処理装置、画像処理方法、記録媒体及びプログラム

Info

Publication number
JP2003061098A
JP2003061098A JP2001250392A JP2001250392A JP2003061098A JP 2003061098 A JP2003061098 A JP 2003061098A JP 2001250392 A JP2001250392 A JP 2001250392A JP 2001250392 A JP2001250392 A JP 2001250392A JP 2003061098 A JP2003061098 A JP 2003061098A
Authority
JP
Japan
Prior art keywords
image
sign language
moving image
procedure
signer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001250392A
Other languages
English (en)
Inventor
Tadashi Ohira
正 大平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001250392A priority Critical patent/JP2003061098A/ja
Publication of JP2003061098A publication Critical patent/JP2003061098A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Circuits (AREA)

Abstract

(57)【要約】 【課題】 主たる動画像及びオーディオ信号に手話画像
を合成することで、聴覚障害者にとって自然でわかりや
すい映像サービスを充足させることを課題とする。 【解決手段】 動画像のオブジェクト・ベース符号化を
行い、手話画像のデータベースを作成する画像処理装置
であって、手話者の動画像を入力する動画像入力手段
と、手話者のみをオブジェクトとして抽出し形状情報の
動画像を獲得するオブジェクト抽出手段と、手話者の動
画像を符号化する自然画像符号化手段と、形状情報の動
画像を符号化する形状情報画像符号化手段と、符号化後
の自然画像と形状情報画像とを多重化する多重化手段
と、手話画像の意味をテキストデータとして入力するテ
キスト入力手段と、多重化した画像とテキストデータを
データベース化して蓄積するデータベース蓄積手段とを
備えた画像処理装置が提供される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、健聴者から聴覚障
害者への通訳を行うシステムに関するものであり、特
に、画像と音声を持つコンテンツに対して手話画像を生
成、多重化し、必要に応じて合成表示する技術に関する
ものである。
【0002】
【従来の技術】手話は、手の位置、向き、移動方向、移
動速度、表情等の手段を使って情報を相手に伝える、聴
覚障害者のための言語で、音声を中心として発達してき
た健聴者の用いている自然言語とは異なった体系を持っ
ている。したがって、聴覚障害者が健聴者と会話を行う
際には音声言語の体系に属する自然言語を用いて筆談や
口話を行うよりも、手話で会話を行った方が楽である上
に伝達速度も速い。そのため、自然言語と手話を混在さ
せたシステムが望まれている。
【0003】従来の手話を生成する方法としては、CGア
ニメーションを用いるものや単語単位で撮影した画像を
そのままつないで表示する方法がある。
【0004】CGアニメーションを用いる方法では、単純
なものでは細部の情報がわかりにくく手話で最も重要な
手の動きがわかりにくくなる。対して複雑なアニメーシ
ョンを作ろうとすると高度な開発環境を必要とする。
【0005】一方で、コンピュータ・放送・通信など多
くの領域で利用できる、汎用的な次世代マルチメディア
符号化規格として、ISO(International Organizati
on for Standardization:国際標準化機構)やITU
(International Telecommunication Union:国際電気
通信連合)によって、MPEG-4の国際標準化作業が進め
られている。MPEG-4の大きな特徴として、オブジェクト
・ベース符号化を行う機能がある。
【0006】オブジェクト・ベース符号化とは、MPE
G(Moving Picture Expert Group)-1やMPEG-2
で採用されているような長方形の画像全体を符号化する
方法ではなく、予め何等かの方法で生成された形状情報
の画像によって、画像の中の切り出された人物やその他
の物体、つまり画像のオブジェクト毎に符号化を行う方
法である。以降ではこの形状情報画像と区別するため、
一般的に処理対象とする画像を自然画像と称す。
【0007】形状情報画像とは、符号化対象となってい
る自然画像と全く同じ縦横の画素数を持ち、オブジェク
トの形状を表す一種の画像である。形状情報画像には各
画素が1bitで表されるバイナリ・アルファ・プレーン
と、各画素が2bit以上で表されるグレイスケール・ア
ルファ・プレーンがある。バイナリ・アルファ・プレー
ンは通常、画素の値が“1”の領域はオブジェクト領
域、“0”の領域はオブジェクト外の領域を表す。グレ
イスケール・アルファ・プレーンは、画素の値が“1以
上255以下”の領域はオブジェクト領域、“0”の領
域はオブジェクト外の領域を表す。
【0008】尚、その他のMPEG-4の詳細内容について
は、ISO/IECによる国際標準の文書に委ねることとす
る。
【0009】
【発明が解決しようとする課題】手話での会話が円滑に
行なわれるためには、手話者の画像が明瞭である必要が
あり、また手話者の手の形が正しく認識されるために
は、画像は立体的に表示される必要がある。
【0010】従来から、手話を撮影した画像を単純に合
成する方法では、画像は立体的であるが記憶すべき情報
量が多い。手話単語を登録する手話画像の辞書には、一
手話単語あたり最低60枚前後のカラー画像を2000
単語以上記憶しなければならないことから、一手話単語
あたりの記憶すべき情報量が多いため多くの記憶容量を
必要とする。
【0011】本発明の目的は、オブジェクト・ベース符
号化装置及びその方法を用いて、任意形状の手話画像の
データベースを効率的に構築する手段、及び主たるAVス
トリーム(全画面の動画像と音声)に手話画像を合成す
ることで、聴覚障害者にとって自然でわかりやすい映像
サービスを充足させる手段を提供することである。
【0012】
【課題を解決するための手段】本発明の一観点によれ
ば、手話画像のデータベースを作成するデータベース作
成手段と、主たる動画像を符号化して前記データベース
内の手話画像と多重化する多重化手段と、前記多重化さ
れた画像から主たる動画像と手話画像を復号し、合成出
力する手段とを備えた画像処理装置が提供される。
【0013】本発明の他の観点によれば、動画像のオブ
ジェクト・ベース符号化を行い、手話画像のデータベー
スを作成する画像処理装置であって、手話者の動画像を
入力する動画像入力手段と、手話者のみをオブジェクト
として抽出し形状情報の動画像を獲得するオブジェクト
抽出手段と、前記手話者の動画像を符号化する自然画像
符号化手段と、前記形状情報の動画像を符号化する形状
情報画像符号化手段と、前記符号化後の自然画像と形状
情報画像とを多重化する多重化手段と、前記手話画像の
意味をテキストデータとして入力するテキスト入力手段
と、前記多重化した画像と前記テキストデータをデータ
ベース化して蓄積するデータベース蓄積手段とを備えた
画像処理装置が提供される。
【0014】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化手段
と、前記オーディオ信号から音声の情報を抽出し認識す
る音声認識手段と、前記認識した音声データを利用し手
話画像のデータベースから所望の手話画像を検索する手
話画像検索手段と、前記符号化した主たる動画像信号と
オーディオ信号と前記手話画像を多重化して出力する多
重化手段とを備えた画像処理装置が提供される。
【0015】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第1の分配手段と、前記主たる動
画像信号及びオーディオ信号を復号する第1の復号手段
と、前記手話画像から、手話者の自然画像と手話者の形
状情報画像とに分配する第2の分配手段と、前記手話者
の自然画像を復号する第2の復号手段と、前記手話者の
形状情報画像を復号する第3の復号手段と、前記主たる
動画像信号と前記手話者の自然画像と形状情報画像か
ら、主たる動画像と手話画像を合成する合成手段とを備
えた画像処理装置が提供される。
【0016】本発明のさらに他の観点によれば、手話画
像のデータベースを作成するデータベース作成ステップ
と、主たる動画像を符号化して前記データベース内の手
話画像と多重化する多重化ステップと、前記多重化され
た画像から主たる動画像と手話画像を復号し、合成出力
するステップとを備えた画像処理方法が提供される。
【0017】本発明のさらに他の観点によれば、動画像
のオブジェクト・ベース符号化を行い、手話画像のデー
タベースを作成する画像処理方法であって、手話者の動
画像を入力する動画像入力ステップと、手話者のみをオ
ブジェクトとして抽出し形状情報の動画像を獲得するオ
ブジェクト抽出ステップと、前記手話者の動画像を符号
化する自然画像符号化ステップと、前記形状情報の動画
像を符号化する形状情報画像符号化ステップと、前記符
号化後の自然画像と形状情報画像とを多重化する多重化
ステップと、前記手話画像の意味をテキストデータとし
て入力するテキスト入力ステップと、前記多重化した画
像と前記テキストデータをデータベース化して蓄積する
データベース蓄積ステップとを備えた画像処理方法が提
供される。
【0018】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化ステッ
プと、前記オーディオ信号から音声の情報を抽出し認識
する音声認識ステップと、前記認識した音声データを利
用し手話画像のデータベースから所望の手話画像を検索
する手話画像検索ステップと、前記符号化した主たる動
画像信号とオーディオ信号と前記手話画像を多重化して
出力する多重化ステップとを備えた画像処理方法が提供
される。
【0019】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第1の分配ステップと、前記主た
る動画像信号及びオーディオ信号を復号する第1の復号
ステップと、前記手話画像から、手話者の自然画像と手
話者の形状情報画像とに分配する第2の分配ステップ
と、前記手話者の自然画像を復号する第2の復号ステッ
プと、前記手話者の形状情報画像を復号する第3の復号
ステップと、前記主たる動画像信号と前記手話者の自然
画像と形状情報画像から、主たる動画像と手話画像を合
成する合成ステップとを備えた画像処理方法が提供され
る。
【0020】本発明のさらに他の観点によれば、手話画
像のデータベースを作成するデータベース作成手順と、
主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手順と、前記多重化された画像か
ら主たる動画像と手話画像を復号し、合成出力する手順
とをコンピュータに実行させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体が提供され
る。
【0021】本発明のさらに他の観点によれば、動画像
のオブジェクト・ベース符号化を行い、手話画像のデー
タベースを作成するプログラムを記録した記録媒体であ
って、手話者の動画像を入力する動画像入力手順と、手
話者のみをオブジェクトとして抽出し形状情報の動画像
を獲得するオブジェクト抽出手順と、前記手話者の動画
像を符号化する自然画像符号化手順と、前記形状情報の
動画像を符号化する形状情報画像符号化手順と、前記符
号化後の自然画像と形状情報画像とを多重化する多重化
手順と、前記手話画像の意味をテキストデータとして入
力するテキスト入力手順と、前記多重化した画像と前記
テキストデータをデータベース化して蓄積するデータベ
ース蓄積手順とをコンピュータに実行させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
が提供される。
【0022】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化手順
と、前記オーディオ信号から音声の情報を抽出し認識す
る音声認識手順と、前記認識した音声データを利用し手
話画像のデータベースから所望の手話画像を検索する手
話画像検索手順と、前記符号化した主たる動画像信号と
オーディオ信号と前記手話画像を多重化して出力する多
重化手順とをコンピュータに実行させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体が提
供される。
【0023】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第1の分配手順と、前記主たる動
画像信号及びオーディオ信号を復号する第1の復号手順
と、前記手話画像から、手話者の自然画像と手話者の形
状情報画像とに分配する第2の分配手順と、前記手話者
の自然画像を復号する第2の復号手順と、前記手話者の
形状情報画像を復号する第3の復号手順と、前記主たる
動画像信号と前記手話者の自然画像と形状情報画像か
ら、主たる動画像と手話画像を合成する合成手順とをコ
ンピュータに実行させるためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体が提供される。
【0024】本発明のさらに他の観点によれば、手話画
像のデータベースを作成するデータベース作成手順と、
主たる動画像を符号化して前記データベース内の手話画
像と多重化する多重化手順と、前記多重化された画像か
ら主たる動画像と手話画像を復号し、合成出力する手順
とをコンピュータに実行させるためのプログラムが提供
される。
【0025】本発明のさらに他の観点によれば、動画像
のオブジェクト・ベース符号化を行い、手話画像のデー
タベースを作成するプログラムであって、手話者の動画
像を入力する動画像入力手順と、手話者のみをオブジェ
クトとして抽出し形状情報の動画像を獲得するオブジェ
クト抽出手順と、前記手話者の動画像を符号化する自然
画像符号化手順と、前記形状情報の動画像を符号化する
形状情報画像符号化手順と、前記符号化後の自然画像と
形状情報画像とを多重化する多重化手順と、前記手話画
像の意味をテキストデータとして入力するテキスト入力
手順と、前記多重化した画像と前記テキストデータをデ
ータベース化して蓄積するデータベース蓄積手順とをコ
ンピュータに実行させるためのプログラムが提供され
る。
【0026】本発明のさらに他の観点によれば、主たる
動画像信号とオーディオ信号を符号化する符号化手順
と、前記オーディオ信号から音声の情報を抽出し認識す
る音声認識手順と、前記認識した音声データを利用し手
話画像のデータベースから所望の手話画像を検索する手
話画像検索手順と、前記符号化した主たる動画像信号と
オーディオ信号と前記手話画像を多重化して出力する多
重化手順とをコンピュータに実行させるためのプログラ
ムが提供される。
【0027】本発明のさらに他の観点によれば、入力信
号を、主たる動画像信号及びオーディオ信号の組みと、
手話画像とに分配する第1の分配手順と、前記主たる動
画像信号及びオーディオ信号を復号する第1の復号手順
と、前記手話画像から、手話者の自然画像と手話者の形
状情報画像とに分配する第2の分配手順と、前記手話者
の自然画像を復号する第2の復号手順と、前記手話者の
形状情報画像を復号する第3の復号手順と、前記主たる
動画像信号と前記手話者の自然画像と形状情報画像か
ら、主たる動画像と手話画像を合成する合成手順とをコ
ンピュータに実行させるためのプログラムが提供され
る。
【0028】本発明はこのように構成したので、任意形
状の手話画像のデータベースを効率的に構築し、主たる
動画像及びオーディオ信号(全画面の動画像と音声)に
手話画像を合成することで、聴覚障害者にとって自然で
わかりやすい映像サービスを充足させることができる。
【0029】
【発明の実施の形態】以下、本発明の実施形態を、図面
を用いて詳細に説明する。 (第1の実施形態)図7及び図8を用いてオブジェクト
・ベース符号化方法を説明する。図7(a)は自然画像、
図7(b)は図7(a)に対応した形状情報画像である。この
ようにオブジェクト・ベース符号化方法は、画像全体で
なくオブジェクトの部分のみを符号化することから、画
像を高い効率で符号化することができる。
【0030】また、図8(a)では、主たる画像を表示し
た場合、図8(b)では前記画像に手話画像のオブジェク
トを合成した状態を示す。このようにオブジェクト・ベ
ース符号化では、既にオブジェクトの形状が明確である
ため、その背景となる画像との合成が簡易的に可能とな
る。
【0031】図1は本発明の第一の実施形態としての手
話画像のデータベースを作成するための装置構成を示す
ブロック図である。尚、本実施形態では、MPEG-4におけ
る実現方法を述べる。またMPEG-4に従い、自然画像によ
る動画像をテクスチャ画像、このテクスチャに対応した
符号化すべきオブジェクトの形状情報による動画像をシ
ェイプ画像と称する。本装置には、前記テクスチャ画像
と、前記シェイプ画像とで構成する2種類の動画像を入
力する。
【0032】図1の構成を説明する。100は手話者を
撮影するカメラである。101はカメラ100で撮影し
た手話者の画像から手話者の領域と背景領域を分割し、
手話者の領域を1、背景の領域を0としたバイナリー・
アルファ・プレーンで構成した動画像を生成するシェイ
プ生成器である。102はカメラからの手話者の自然画
像を符号化するテクスチャ符号化器である。103はシ
ェイプ生成器101からの手話者のシェイプ画像を符号
化するシェイプ符号化器である。104はテクスチャ符
号化器とシェイプ符号化器からのストリームを多重化す
る多重化器である。105は多重化器からの出力と別途
入力された手話画像に対応したテキストを関連付け蓄積
する手話画像データベースである。
【0033】次に図1の動作について説明する。まず、
カメラ100により手話者の画像を撮影する。撮影につ
いては後に他の画像と合成しやすくするため、ブルーバ
ックなどの背景を用いる。撮影した画像からシェイプ生
成器101により手話者の形状情報画像を生成する。次
に手話者自身の撮影画像(自然画像)をテクスチャ符号
化器102へ、形状情報画像をシェイプ符号化器103
へ入力し、それぞれをオブジェクト符号化する。それぞ
れの符号化データは多重化器104で多重化され手話画
像ストリームとして出力され、手話画像の意味であるテ
キストデータと共にデータベース105へ蓄積される。
【0034】図2は、本発明の第1の実施形態としての
主たるオーディオ・ビデオと手話画像を符号化し多重化
する装置の全体構成を示すブロック図である。図2の構
成を説明する。200は主たるコンテンツであるビデオ
信号とオーディオ信号を入力し、符号化する主AV符号化
器である。201は入力したオーディオから音声を認識
しそのテキストデータを出力する音声認識器である。2
03は音声認識器201からのテキストデータを用い
て、前記手話画像データベースから対応する手話画像を
検索する手話画像検索器である。202は主AV符号化器
からの主ストリームと、手話画像検索器203からの手
話画像ストリームを多重化する多重化器である。
【0035】次に図2の動作について説明する。まず、
主たるビデオとオーディオの素材信号は符号化器200
で符号化され主ストリームとして出力される。同時にオ
ーディオ素材信号は、音声認識器201により音声を認
識、解読する。その後、手話画像検索器203により解
読した音声に対して蓄積された手話画像データベース1
05から整合する手話画像ストリームを取得する。次に
多重化器202により主ストリームと手話画像ストリー
ムを多重化して最終的なビットストリームを出力する。
【0036】図3は、本発明の第1の実施形態としての
主たるオーディオ・ビデオと手話画像を復号し合成する
装置の全体構成を示すブロック図である。図3の構成を
説明する。300は前記ビットストリームを入力し、主
ストリームと手話画像ストリームとに分配する分配器で
ある。301は分配器300からの主ストリームをオー
ディオ信号とビデオ信号へ復号する主AV復号器である。
302は前記手話画像ストリームから手話者のテクスチ
ャストリームと形状情報であるシェイプストリームを分
配する分配器である。303は前記テクスチャストリー
ムから手話者のテクスチャ画像信号を復号するテクスチ
ャ復号器である。304は前記シェイプストリームから
手話者のシェイプ画像信号を復号するシェイプ復号器で
ある。305は画像合成指示信号を入力し、画像合成指
示信号がONの場合は主AV復号器301からのビデオ信号
と手話画像復号器302からの信号を合成して出力し、
OFFの場合は主AV復号器301からのオーディオ・ビデ
オ信号のみを出力する手話画像合成器である。
【0037】次に図3の動作について説明する。まず、
ストリームを入力し、分配器300により主ストリーム
と手話画像ストリームを分配する。主ストリームは主AV
復号器301により復号され主ビデオ信号と主オーディ
オ信号として出力される。手話画像ストリームは手話画
像分配器302により手話者のテクスチャ画像信号とな
るテクスチャストリームと手話者のシェイプ画像信号と
なるシェイプストリームへ分配される。テクスチャスト
リームはテクスチャ復号器303により手話者のテクス
チャ画像信号へ復号され、シェイプストリームはシェイ
プ復号器304により手話者のシェイプ画像信号へ復号
される。次に主AV復号器301からの主ビデオ信号とテ
クスチャ復号器303からのテクスチャ画像信号とシェ
イプ復号器304からのシェイプ画像信号から手話画像
合成器305により主ビデオ信号と手話画像信号を合成
したビデオ信号を出力する。
【0038】図4にMPEG-4を用いて、主オーディオ・ビ
デオストリームと手話画像ストリームを多重化したとき
の全体のストリーム構成を示す。MPEG-4を用いること
で、全てのストリームを一定の時間単位でパケット化し
て、表示時刻を示すTS(Time Stamp)を重畳後多重化する
ことで、各ストリームの表示管理等が容易に可能とな
る。
【0039】図5に前記手話画像合成器305の動作フ
ローチャートを示す。まず主オーディオ・ビデオ信号及
び手話画像信号(テクスチャ画像とシェイプ画像)を入
力する(400)。次に必ず出力すべき主たるビデオ信
号を出力する(401)。次に手話画像を合成して表示
するための指示信号を入力する(402)。合成するよ
うに指示を受けた場合、つまり合成表示指示信号がONの
場合は、主ビデオに手話画像を合成したビデオ信号を出
力する(404)。指示信号がOFFの場合は合成を行わ
ず主ビデオ信号を出力し(401)、同時にオーディオ
信号を出力する(403)。
【0040】第1の実施形態のその他の構成を説明す
る。本実施形態では、オブジェクト・ベース符号化方式
について国際標準であるMPEG-4を用いているが、その他
のオブジェクト・ベース符号化方式に適用してもよい。
また、オブジェクト・ベース符号化方式以外の符号化及
び復号はMPEG-4以外、例えばMPEG-1,2などであってもか
まわない。手話画像合成器305ではオーディオと手話
画像をスイッチしているが、手話画像のみを合成もしく
は非出力として、オーディオは出力したままとしてもか
まわない。
【0041】第1の実施形態の効果を説明する。本実施
形態は、符号化した手話画像ストリームを用いて手話画
像データベースを構築するため、少ないデータ容量で多
くの手話画像を蓄積する手段を提供する。手話画像を自
然画像にて作成するため、CGなどの画像に比較して、手
話者の細やかな表情や動きを蓄積することができる。オ
ブジェクト・ベース符号化を用いて手話画像を符号化し
ているため、他の画像との合成がしやすい。
【0042】(第2の実施形態)図6は、第2の実施形
態におけるコンピュータの構成を示すブロック図であ
る。500はコンピュータ全体の制御、及び種々の処理
を行う中央演算装置(CPU)、501は本コンピュータ
の制御に必要なオペレーティングシステム(OS)、ソフ
トウエア、データ、演算に必要な記憶領域を提供するメ
モリである。また、CPU500が各種の処理を行う際の
ワークエリアとしても用いられる。
【0043】502は種々の装置をつなぎ、データ、制
御信号をやりとりするバス、503は各種のソフトウエ
アを蓄積する記憶装置、504は動画像データを蓄積す
る記憶装置、505は画像やコンピュータからのシステ
ムメッセージなどを表示するモニタである。
【0044】507は通信回路に符号化データを送信す
る通信インターフェースであり、装置外部のLAN、公衆
回線、無線回線、放送電波等と接続されている。506
はコンピュータを起動したり、ビットレート等の各種条
件を設定したりするための端末である。
【0045】メモリ501にはコンピュータ全体を制御
し、各種ソフトウエアを動作させるためのOSや動作させ
るソフトウエアを格納し、画像データを符号化のために
読み込むエリア、一時的に符号データを格納する符号エ
リア、各種演算のパラメータ等を格納しておくワーキン
グエリアが存在する。
【0046】図6の動作を説明する。上記のような構成
において、処理に先立ち、端末506から記憶装置50
4に蓄積されている手話動画像及び対するテキストデー
タから符号化する動画像データを選択し、コンピュータ
の起動が指示される。すると、記憶装置503に格納さ
れているソフトウエアがバス502を介してメモリ50
1に展開され、ソフトウエアが起動される。そして、CP
U500により図1、図2、図3に示した処理を順次実
現する。
【0047】本実施形態におけるコンピュータは、第1
の実施形態における任意形状の手話画像のデータベース
を効率的に構築し、主たるAVストリーム(全画面の動画
像と音声)に手話画像を合成する装置として機能する。
【0048】以上の説明から明らかなように、第1及び
第2の実施形態は、オブジェクト・ベース符号化装置及
びその方法を用いて、任意形状の手話画像のデータベー
スを効率的に構築し、主たるAVストリーム(全画面の動
画像と音声)に手話画像を合成することで、聴覚障害者
にとって自然でわかりやすい映像サービスを充足させる
手段を提供する。
【0049】本実施形態は、コンピュータがプログラム
を実行することによって実現することができる。また、
プログラムをコンピュータに供給するための手段、例え
ばかかるプログラムを記録したCD−ROM等の記録媒
体又はかかるプログラムを伝送するインターネット等の
伝送媒体も本発明の実施形態として適用することができ
る。上記のプログラム、記録媒体及び伝送媒体は、本発
明の範疇に含まれる。記録媒体としては、例えばフレキ
シブルディスク、ハードディスク、光ディスク、光磁気
ディスク、CD−ROM、磁気テープ、不揮発性のメモ
リカード、ROM等を用いることができる。
【0050】なお、上記実施形態は、何れも本発明を実
施するにあたっての具体化の例を示したものに過ぎず、
これらによって本発明の技術的範囲が限定的に解釈され
てはならないものである。すなわち、本発明はその技術
思想、またはその主要な特徴から逸脱することなく、様
々な形で実施することができる。
【0051】
【発明の効果】以上説明したように、任意形状の手話画
像のデータベースを効率的に構築し、主たる動画像及び
オーディオ信号(全画面の動画像と音声)に手話画像を
合成することで、聴覚障害者にとって自然でわかりやす
い映像サービスを充足させることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態としての手話画像デー
タベース作成装置の全体構成を示すブロック図である。
【図2】本発明の第1の実施形態としての主たるオーデ
ィオ・ビデオと手話画像を符号化し多重化する装置の全
体構成を示すブロック図である。
【図3】本発明の第1の実施形態としての主たるオーデ
ィオ・ビデオと手話画像を復号し合成する装置の全体構
成を示すブロック図である。
【図4】主たるオーディオ・ビデオストリームと手話画
像ストリームを多重化したときの全体のストリーム構成
を示す図である。
【図5】手話画像を合成する際の動作フローチャートで
ある。
【図6】本発明の第2の実施形態としてのコンピュータ
の構成を示すブロック図である。
【図7】手話者をオブジェクト符号化する際の自然画像
と形状情報画像の例を示す図である。
【図8】主たる画像に対して手話画像を合成した際の画
像例を示す図である。
【符号の説明】
100 カメラ 101 シェイプ生成器 102 テクスチャ符号化器 103 シェイプ符号化器 104、202 多重化器 105 手話画像データベース 200 主AV符号化器 201 音声認識器 203 手話画像検索器 300 分配器 301 主AV復号器 302 手話画像分配器 303 テクスチャ復号器 304 シェイプ復号器 305 手話画像合成器 500 CPU 501 メモリ 502 バス 503、504 記憶メディア 505 モニタ 506 端末 507 通信I/F
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 7/08 G10L 3/00 551G 7/081 551C Fターム(参考) 5C023 AA06 AA17 AA37 AA38 BA02 BA11 CA01 CA05 DA04 5C052 AA01 AC08 CC11 DD04 DD06 5C059 KK37 MA00 MB03 MB06 MB12 MB23 PP04 PP28 PP29 RB01 RB18 RC19 RC32 SS06 SS12 SS19 SS30 UA02 UA05 5C063 AB07 AC01 AC05 CA11 CA20 CA36 5D015 KK01

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 手話画像のデータベースを作成するデー
    タベース作成手段と、 主たる動画像を符号化して前記データベース内の手話画
    像と多重化する多重化手段と、 前記多重化された画像から主たる動画像と手話画像を復
    号し、合成出力する手段とを備えた画像処理装置。
  2. 【請求項2】 動画像のオブジェクト・ベース符号化を
    行い、手話画像のデータベースを作成する画像処理装置
    であって、 手話者の動画像を入力する動画像入力手段と、 手話者のみをオブジェクトとして抽出し形状情報の動画
    像を獲得するオブジェクト抽出手段と、 前記手話者の動画像を符号化する自然画像符号化手段
    と、 前記形状情報の動画像を符号化する形状情報画像符号化
    手段と、 前記符号化後の自然画像と形状情報画像とを多重化する
    多重化手段と、 前記手話画像の意味をテキストデータとして入力するテ
    キスト入力手段と、 前記多重化した画像と前記テキストデータをデータベー
    ス化して蓄積するデータベース蓄積手段とを備えた画像
    処理装置。
  3. 【請求項3】 主たる動画像信号とオーディオ信号を符
    号化する符号化手段と、 前記オーディオ信号から音声の情報を抽出し認識する音
    声認識手段と、 前記認識した音声データを利用し手話画像のデータベー
    スから所望の手話画像を検索する手話画像検索手段と、 前記符号化した主たる動画像信号とオーディオ信号と前
    記手話画像を多重化して出力する多重化手段とを備えた
    画像処理装置。
  4. 【請求項4】 入力信号を、主たる動画像信号及びオー
    ディオ信号の組みと、手話画像とに分配する第1の分配
    手段と、 前記主たる動画像信号及びオーディオ信号を復号する第
    1の復号手段と、 前記手話画像から、手話者の自然画像と手話者の形状情
    報画像とに分配する第2の分配手段と、 前記手話者の自然画像を復号する第2の復号手段と、 前記手話者の形状情報画像を復号する第3の復号手段
    と、 前記主たる動画像信号と前記手話者の自然画像と形状情
    報画像から、主たる動画像と手話画像を合成する合成手
    段とを備えた画像処理装置。
  5. 【請求項5】 前記合成手段は、 前記主たる動画像と前記手話画像とを合成することを指
    示する指示信号を入力する入力手段と、 前記指示信号を受けて、指示信号が合成指示する場合、
    主たる動画像と手話画像を合成し、合成指示しない場
    合、主たる動画像と手話画像を合成しないで主たる動画
    像を出力する切り替え手段とを備えた請求項4記載の画
    像処理装置。
  6. 【請求項6】 前記切り替え手段は、指示信号が合成指
    示する場合、主たる動画像と手話画像を合成して出力
    し、合成指示しない場合、主たる動画像とオーディオ信
    号を出力する請求項5記載の画像処理装置。
  7. 【請求項7】 手話画像のデータベースを作成するデー
    タベース作成ステップと、 主たる動画像を符号化して前記データベース内の手話画
    像と多重化する多重化ステップと、 前記多重化された画像から主たる動画像と手話画像を復
    号し、合成出力するステップとを備えた画像処理方法。
  8. 【請求項8】 動画像のオブジェクト・ベース符号化を
    行い、手話画像のデータベースを作成する画像処理方法
    であって、 手話者の動画像を入力する動画像入力ステップと、 手話者のみをオブジェクトとして抽出し形状情報の動画
    像を獲得するオブジェクト抽出ステップと、 前記手話者の動画像を符号化する自然画像符号化ステッ
    プと、 前記形状情報の動画像を符号化する形状情報画像符号化
    ステップと、 前記符号化後の自然画像と形状情報画像とを多重化する
    多重化ステップと、 前記手話画像の意味をテキストデータとして入力するテ
    キスト入力ステップと、 前記多重化した画像と前記テキストデータをデータベー
    ス化して蓄積するデータベース蓄積ステップとを備えた
    画像処理方法。
  9. 【請求項9】 主たる動画像信号とオーディオ信号を符
    号化する符号化ステップと、 前記オーディオ信号から音声の情報を抽出し認識する音
    声認識ステップと、 前記認識した音声データを利用し手話画像のデータベー
    スから所望の手話画像を検索する手話画像検索ステップ
    と、 前記符号化した主たる動画像信号とオーディオ信号と前
    記手話画像を多重化して出力する多重化ステップとを備
    えた画像処理方法。
  10. 【請求項10】 入力信号を、主たる動画像信号及びオ
    ーディオ信号の組みと、手話画像とに分配する第1の分
    配ステップと、 前記主たる動画像信号及びオーディオ信号を復号する第
    1の復号ステップと、 前記手話画像から、手話者の自然画像と手話者の形状情
    報画像とに分配する第2の分配ステップと、 前記手話者の自然画像を復号する第2の復号ステップ
    と、 前記手話者の形状情報画像を復号する第3の復号ステッ
    プと、 前記主たる動画像信号と前記手話者の自然画像と形状情
    報画像から、主たる動画像と手話画像を合成する合成ス
    テップとを備えた画像処理方法。
  11. 【請求項11】 手話画像のデータベースを作成するデ
    ータベース作成手順と、 主たる動画像を符号化して前記データベース内の手話画
    像と多重化する多重化手順と、 前記多重化された画像から主たる動画像と手話画像を復
    号し、合成出力する手順とをコンピュータに実行させる
    ためのプログラムを記録したコンピュータ読み取り可能
    な記録媒体。
  12. 【請求項12】 動画像のオブジェクト・ベース符号化
    を行い、手話画像のデータベースを作成するプログラム
    を記録した記録媒体であって、 手話者の動画像を入力する動画像入力手順と、 手話者のみをオブジェクトとして抽出し形状情報の動画
    像を獲得するオブジェクト抽出手順と、 前記手話者の動画像を符号化する自然画像符号化手順
    と、 前記形状情報の動画像を符号化する形状情報画像符号化
    手順と、 前記符号化後の自然画像と形状情報画像とを多重化する
    多重化手順と、 前記手話画像の意味をテキストデータとして入力するテ
    キスト入力手順と、 前記多重化した画像と前記テキストデータをデータベー
    ス化して蓄積するデータベース蓄積手順とをコンピュー
    タに実行させるためのプログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
  13. 【請求項13】 主たる動画像信号とオーディオ信号を
    符号化する符号化手順と、 前記オーディオ信号から音声の情報を抽出し認識する音
    声認識手順と、 前記認識した音声データを利用し手話画像のデータベー
    スから所望の手話画像を検索する手話画像検索手順と、 前記符号化した主たる動画像信号とオーディオ信号と前
    記手話画像を多重化して出力する多重化手順とをコンピ
    ュータに実行させるためのプログラムを記録したコンピ
    ュータ読み取り可能な記録媒体。
  14. 【請求項14】 入力信号を、主たる動画像信号及びオ
    ーディオ信号の組みと、手話画像とに分配する第1の分
    配手順と、 前記主たる動画像信号及びオーディオ信号を復号する第
    1の復号手順と、 前記手話画像から、手話者の自然画像と手話者の形状情
    報画像とに分配する第2の分配手順と、 前記手話者の自然画像を復号する第2の復号手順と、 前記手話者の形状情報画像を復号する第3の復号手順
    と、 前記主たる動画像信号と前記手話者の自然画像と形状情
    報画像から、主たる動画像と手話画像を合成する合成手
    順とをコンピュータに実行させるためのプログラムを記
    録したコンピュータ読み取り可能な記録媒体。
  15. 【請求項15】 手話画像のデータベースを作成するデ
    ータベース作成手順と、 主たる動画像を符号化して前記データベース内の手話画
    像と多重化する多重化手順と、 前記多重化された画像から主たる動画像と手話画像を復
    号し、合成出力する手順とをコンピュータに実行させる
    ためのプログラム。
  16. 【請求項16】 動画像のオブジェクト・ベース符号化
    を行い、手話画像のデータベースを作成するプログラム
    であって、 手話者の動画像を入力する動画像入力手順と、 手話者のみをオブジェクトとして抽出し形状情報の動画
    像を獲得するオブジェクト抽出手順と、 前記手話者の動画像を符号化する自然画像符号化手順
    と、 前記形状情報の動画像を符号化する形状情報画像符号化
    手順と、 前記符号化後の自然画像と形状情報画像とを多重化する
    多重化手順と、 前記手話画像の意味をテキストデータとして入力するテ
    キスト入力手順と、 前記多重化した画像と前記テキストデータをデータベー
    ス化して蓄積するデータベース蓄積手順とをコンピュー
    タに実行させるためのプログラム。
  17. 【請求項17】 主たる動画像信号とオーディオ信号を
    符号化する符号化手順と、 前記オーディオ信号から音声の情報を抽出し認識する音
    声認識手順と、 前記認識した音声データを利用し手話画像のデータベー
    スから所望の手話画像を検索する手話画像検索手順と、 前記符号化した主たる動画像信号とオーディオ信号と前
    記手話画像を多重化して出力する多重化手順とをコンピ
    ュータに実行させるためのプログラム。
  18. 【請求項18】 入力信号を、主たる動画像信号及びオ
    ーディオ信号の組みと、手話画像とに分配する第1の分
    配手順と、 前記主たる動画像信号及びオーディオ信号を復号する第
    1の復号手順と、 前記手話画像から、手話者の自然画像と手話者の形状情
    報画像とに分配する第2の分配手順と、 前記手話者の自然画像を復号する第2の復号手順と、 前記手話者の形状情報画像を復号する第3の復号手順
    と、 前記主たる動画像信号と前記手話者の自然画像と形状情
    報画像から、主たる動画像と手話画像を合成する合成手
    順とをコンピュータに実行させるためのプログラム。
JP2001250392A 2001-08-21 2001-08-21 画像処理装置、画像処理方法、記録媒体及びプログラム Pending JP2003061098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001250392A JP2003061098A (ja) 2001-08-21 2001-08-21 画像処理装置、画像処理方法、記録媒体及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001250392A JP2003061098A (ja) 2001-08-21 2001-08-21 画像処理装置、画像処理方法、記録媒体及びプログラム

Publications (1)

Publication Number Publication Date
JP2003061098A true JP2003061098A (ja) 2003-02-28

Family

ID=19079217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001250392A Pending JP2003061098A (ja) 2001-08-21 2001-08-21 画像処理装置、画像処理方法、記録媒体及びプログラム

Country Status (1)

Country Link
JP (1) JP2003061098A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066951A1 (en) * 2004-01-06 2005-07-21 Lg Electronics Inc. Recording medium and recording and reproducing methods and apparatuses
US7512322B2 (en) 2004-03-17 2009-03-31 Lg Electronics, Inc. Recording medium, method, and apparatus for reproducing text subtitle streams
US7558467B2 (en) 2004-02-26 2009-07-07 Lg Electronics, Inc. Recording medium and method and apparatus for reproducing and recording text subtitle streams
US7561780B2 (en) 2004-02-10 2009-07-14 Lg Electronics, Inc. Text subtitle decoder and method for decoding text subtitle streams
US7571386B2 (en) 2004-05-03 2009-08-04 Lg Electronics Inc. Recording medium having a data structure for managing reproduction of text subtitle data and methods and apparatuses associated therewith
US7587405B2 (en) 2004-02-10 2009-09-08 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
US7634175B2 (en) 2004-04-26 2009-12-15 Lg Electronics Inc. Recording medium, reproducing method thereof and reproducing apparatus thereof
US7643732B2 (en) 2004-02-10 2010-01-05 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
CN115086574A (zh) * 2022-06-10 2022-09-20 北京字跳网络技术有限公司 视频合成方法、装置、设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066951A1 (en) * 2004-01-06 2005-07-21 Lg Electronics Inc. Recording medium and recording and reproducing methods and apparatuses
US7751688B2 (en) 2004-01-06 2010-07-06 Lg Electronics Inc. Methods and apparatuses for reproducing subtitle streams from a recording medium
US7561780B2 (en) 2004-02-10 2009-07-14 Lg Electronics, Inc. Text subtitle decoder and method for decoding text subtitle streams
US7587405B2 (en) 2004-02-10 2009-09-08 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
US7643732B2 (en) 2004-02-10 2010-01-05 Lg Electronics Inc. Recording medium and method and apparatus for decoding text subtitle streams
US7558467B2 (en) 2004-02-26 2009-07-07 Lg Electronics, Inc. Recording medium and method and apparatus for reproducing and recording text subtitle streams
US7512322B2 (en) 2004-03-17 2009-03-31 Lg Electronics, Inc. Recording medium, method, and apparatus for reproducing text subtitle streams
US7634175B2 (en) 2004-04-26 2009-12-15 Lg Electronics Inc. Recording medium, reproducing method thereof and reproducing apparatus thereof
US7571386B2 (en) 2004-05-03 2009-08-04 Lg Electronics Inc. Recording medium having a data structure for managing reproduction of text subtitle data and methods and apparatuses associated therewith
US8429532B2 (en) 2004-05-03 2013-04-23 Lg Electronics Inc. Methods and apparatuses for managing reproduction of text subtitle data
CN115086574A (zh) * 2022-06-10 2022-09-20 北京字跳网络技术有限公司 视频合成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US8798168B2 (en) Video telecommunication system for synthesizing a separated object with a new background picture
KR100563013B1 (ko) 아스키포맷으로오브젝트를규정하는코드와멀티플렉스되는이진화상/오디오데이터를포함하는비트스트림의생성
US6088484A (en) Downloading of personalization layers for symbolically compressed objects
JP4208315B2 (ja) データ通信制御装置及びその制御方法、データ通信システム、記録媒体
KR0180543B1 (ko) 화상통신장치
KR20020020961A (ko) 콘텐츠 검색 배신 장치 및 콘텐츠 검색 배신 방법
JP2000013769A (ja) 多点画像会議システム及びその具現方法
JP2000123191A (ja) 情報処理装置及び方法及び情報伝送システム
US6683993B1 (en) Encoding and decoding with super compression a via a priori generic objects
CN116962742A (zh) 网络直播的视频图像数据传输方法、装置及直播系统
JP2003061098A (ja) 画像処理装置、画像処理方法、記録媒体及びプログラム
JP2004343232A (ja) 通信装置及び通信方法
JP2000023036A (ja) 画像データ処理方法及び装置並びに記憶媒体
JPH1013799A (ja) テレビ電話装置
JP4174960B2 (ja) 信号処理装置及び方法並びにファイル生成方法
US20020080399A1 (en) Data processing apparatus, data processing method, data processing program, and computer-readable memory storing codes of data processing program
JP2002051315A (ja) データ伝送方法およびその装置、並びにデータ伝送システム
JP2004537931A (ja) シーンを符号化する方法及び装置
US20040208481A1 (en) Apparatus and method for image processing, and image processing system using the same and program
JP4437514B2 (ja) 画像伝送システム
JP4053251B2 (ja) 画像検索システムおよび画像蓄積方法
JP2002094996A (ja) 受信装置
JP2002271798A (ja) データ符号化装置、データ復号化装置
JPH09116759A (ja) 画像復号化装置および画像符号化・復号化システム
JP2000152235A (ja) データ処理装置及びその方法、及びデータ処理システム