JP2014504468A

JP2014504468A - 画像運動情報に基づく２ｄから３ｄへの変換方法

Info

Publication number: JP2014504468A
Application number: JP2013540213A
Authority: JP
Inventors: フォン・トー; ジャン・イエンディン; ヤン・ドン
Original assignee: BEIJING GOLAND Tech CO Ltd
Current assignee: BEIJING GOLAND Tech CO Ltd
Priority date: 2011-08-18
Filing date: 2011-08-18
Publication date: 2014-02-20
Also published as: CN103053165A; US20130235155A1; WO2013023325A1; CN103053165B; EP2629531A1; EP2629531A4

Abstract

本発明は画像運動情報に基づく2Dから3Dへの変換方法を開示し、2Dから3Dに変換する技術分野に関する。この方法は、運動推定の方法により、入力された2D画像における画素の深度値を得るステップS1と、各画素の輝度値により、各画素の深度値を加算し、入力された2D画像の深度マップを得るステップS2と、ステップS2により得られる深度マップにより、深度マップによる画像の再構築を行って、左目画像及び/又は右目画像を再構築するステップS3と、ステップS4による左目画像及び右目画像を合成して出力し、3D画像を得るステップS4と、を含む。本発明において、運動推定により得られた深度値に対して加算処理を行うことで、得られた深度マップは連続で且つ密であるため、再構築された画像の品質及び3Dの視覚効果を向上させることができる。
【選択図】図１

Description

本発明は2Dから3Dに変換する技術分野に関する、特に、画像運動情報に基づく2Dから3Dへの変換方法に関する。

スリーディー(Three Dimensions、3D)テレビが席巻してきて、世界のテレビ産業の新しい発展方向となり、各大手テレビメーカーは相次いで各自の3Dテレビを開発してきた。3D技術の応用は生活の中でますます人気が高まり、3D映画が絶えず制作されているが、3Dビデオ素材はまだ現在の市場ニーズを満足できない。ツーディー(Two Dimensions、2D)ビデオ素材を自動的に3Dに変換することは、新たな市場ニーズとなった。2Dから3Dへの変換は即ち2D画像内容に基づく第二画像・ビデオを作成することであり、この過程は、深度推定により深度マップ(depth map/image)を得ることと、深度マップに基づき画像を再構築する(Depth Image Based Rendering, DIBR)ことの二つの処理を含む。深度マップには8ビットのグレー値で深度情報が格納されている(グレー値0は最も遠い値であり、グレー値255は最も近い値である)。近年に、2Dから3Dへの変換の分野には、たくさんのアルゴリズムが開発され、運動推定に基づく2Dから3Dへの変換アルゴリズムがよく用いられる。この方法は、運動推定の方法により入力された画像の深度マップを得る。但し、深度マップはかなりの密度と精度を必要とするが、従来の、運動推定に基づく2Dから3Dへの変換アルゴリズムにより得られる深度マップは疎らであるため、物体を分解する時、異なる物体を区別できないので、DIBRによる画像の品質を影響する。従って、この方法が広く使用されることに制限がある。

本発明は、画像運動情報に基づく2Dから3Dへの変換方法により得られる画像の品質を向上させることを目的とする。

上記の課題を解決するために、本発明は、画像運動情報に基づく2Dから3Dへの変換方法を提供する。この方法は、
運動推定の方法により、入力された2D画像における各画素の深度値を得るステップS1と、
各画素の輝度値により、前記各画素の深度値を加算し、前記の入力された2D画像の深度マップを得るステップS2と、
ステップS2により得られる深度マップにより、深度マップによる画像の再構築を行い、左目画像及び/又は右目画像を再構築するステップS3と、
ステップS4による左目画像及び右目画像を合成して出力し、3D画像を得るステップS4と、を含む。

好ましくは、ステップS1は、
運動推定の方法により、各画素の動きべクトルを算出するステップS1.1と、
ステップS1.1により得られる動きべクトルを用い、各画素の深度値を算出するステップS1.2と、をさらに含む。

好ましくは、前記深度値の計算式は以下の通りである。

好ましくは、前記運動推定の方法は、ダイヤモンド検索アルゴリズム(diamond search algorithm)である。

好ましくは、ステップS2は、
前記の入力された2D画像の一行目から、各画素の深度値を加算して、画素ごとの深度加算値D(x,y)'を得るステップS2.1と、
以下の式により、前記深度加算値を[0,255]の間に正規化して、正規化された深度値D(x,y)''を得るステップS2.2と、を更に含む。

（式の中に、I(x,y)は(x,y)に位置する画素の輝度値であり、その値は[0,255]の範囲にあり、SCALEは輝度値のスケーリング係数であり、widthは前記の入力された2D画像の幅であり、heightは前記の入力された2D画像の高さであり、DEPTH_SCALEは深度値のスケーリング係数であり、

である。）

好ましくは、ステップS2.1は、
yは0である場合、D(x,y)'=0であるが、そうではない場合、ステップS2.12へ進むステップS2.11と、
yは奇数である場合、且つxは0であると、D(x,y)'=D(x,y-1)'+D(x,y)であって、xは0ではないと、

であるが、そうではない場合、ステップS2.13へ進むステップS2.12と、
x=width-1である場合、D(x,y)'=D(x,y-1)'+D(x,y)であるが、そうではない場合、

であるステップS2.13と、
y＜heightである場合、ステップS2.11に戻るが、そうではない場合、ステップS2.12またはS2.13によるD(x,y)'を出力するステップS2.14とを、更に含む。

好ましくは、SCALE＝0.1である。

好ましくは、DEPTH_SCALE＝120である。

好ましくは、ステップS3は、
以下の式により左目画像または右目画像を再構築するステップS3.1と、

（式の中に、xl、xrは、それぞれ左目画像及び右目画像において、入力された2D画像の位置xcに対応する位置であり、fは目の焦点距離であり、txは左右の目の間隔であり、Zは画素の点が人の目から離れる距離であり、Dzeroはゼロ平面の位置で、その値が[0,255]の範囲にある。）
(xc,y)に位置する画素値を、対応する(xl,y)または(xr,y)にコピーするステップS3.2と、を更に含む。

好ましくは、Dzero=255である。

本発明において、運動推定により得られた深度値に対して、加算処理を行うため、得られた深度マップは連続で且つ密であり、再構築された画像の品質及び3Dの視覚効果を向上させることができる。

本発明の一実施形態に係る、画像の運動情報に基づく2Dから3Dへの変換方法を示すフローチャートである。デュアルカメラによる視覚モデルを示す模式図である。

次に、図面と実施例を参考にして、本発明に係る、画像の運動情報に基づく2Dから3Dへの変換方法を詳しく説明する。

図１に示すように、本発明の一実施形態に係る、画像の運動情報に基づく2Dから3Dへの変換方法は、
運動推定の方法により、入力された2D画像における各画素の深度値を得るステップS1と、
各画素の輝度値により、各画素の深度値を加算し、入力された2D画像の深度マップを得るステップS2と、
ステップS2により得られる深度マップにより、深度マップによる画像の再構築を行い、左目画像及び/又は右目画像を再構築するステップS3と、
ステップS4による左目画像及び右目画像を合成して出力し、3D画像を得るステップS4とを含む。

この実施形態において、ステップS1は、
運動推定の方法により、各画素の動きべクトルを算出するステップS1.1と、
ステップS1.1により得られる動きべクトルを用い、各画素の深度値を算出するステップS1.2とをさらに含む。
ステップS1.1の中、運動推定の方法として、ダイヤモンド検索アルゴリズムが用いられ、まず、大きいダイヤモンドの検索を行い、次は小さいダイヤモンドの検索を行い、最後には、整数画素精度の動きベクトルを得る。当然ながら、ここでは、本発明の方法はこれに限定されなく、他の検索アルゴリズムも適用できる。

中には、深度値の計算式は以下の通りである。

（式の中に、yは画素の位置する行番号であり、xは画素の位置する列番号であり、D(x,y)は未知の(x,y)に位置する画素の深度値であり、MV_x及びMV_yはそれぞれ上記画素の水平方向及び垂直方向における動きベクトルであり、Cは定数であり、本実施形態において、C=1である。）

ステップS1.1において検索の精度を向上させ、ノイズ(特に、ビデオ素材に加えたごま塩ノイズ)による動き検索への影響を低減させるために、ステップS1.1の動き検索を行う前に、入力された2D画像に対してノイズ除去処理を行ってもよい。これは当業者にとって周知なものであるため、ここでは贅言しない。

動き検索による動きベクトルは連続ではなく、直接的に算出すると、得られる深度マップが疎らであるが、実際の深度マップが密であるはずだ。従って、本発明において、各画素の輝度値によって、動きベクトルから算出した深度値を加算する。

この実施形態において、ステップS2は、
入力された2D画像の一行目から、各画素の深度値を加算して、画素ごとの深度加算値D(x,y)'を得るステップS2.1と、
以下の式により、深度加算値を[0,255]の間に正規化して、正規化された深度値D(x,y)''を得ることで、連続で且つ密な深度マップを得るステップS2.2と、

（式の中に、I(x,y)は (x,y)に位置する画素の輝度値であり、その値は[0,255]の範囲にあり、SCALEは輝度値のスケーリング係数であり、本実施形態において、SCALE＝0.1であり、widthは入力された2D画像の幅であり、heightは入力された2D画像の高さであり、DEPTH_SCALEは深度値のスケーリング係数であり、本実施形態において、DEPTH_SCALE＝120であり、

である。）
ステップS2.2で得られる、正規化された深度値D(x,y)''に対して、非対称ガウスのフィルタリング処理を行い、最終の深度値D(x,y)''を得るステップS2.3とを、さらに含む。この非対称ガウスのフィルタリング処理は本分野において周知なものであるため、ここでは贅言しない。
さらに、このステップS2.1は、
yは0である場合、D(x,y)'=0であり、そうではない場合、ステップS2.12へ進むステップS2.11と、
yは奇数である場合、且つ、xは0であると、D(x,y)'=D(x,y-1)'+D(x,y)であり、xは0ではないと、

であるが、そうではない場合、ステップS2.13へ進むステップS2.12と、
x=width-1である場合、D(x,y)'=D(x,y-1)'+D(x,y)であり、そうではない場合、

であるステップS2.13と、
y＜heightである場合、ステップS2.11に戻るが、そうではない場合、ステップS2.12またはS2.13によるD(x,y)'を出力するステップS2.14とをさらに含む。

画像の水平方向に投影変換を行うので、水平方向において、深度値の連続性をできるだけ保持して、動き検索によるノイズからの大きな影響を避ける。従って、本発明において、スケールモーション(Scale Motion)に水平グラデーション値を用いずに深度値を得る。

人の目の視覚特性によると、視感覚が右目に頼る人は70％で、視感覚が左目に頼る人は20％である。そして、計算量を低減させるために、本発明において、DIBRにより画像を再構築する際に、一般性を失うことないように、ユーザーの頼らない目だけを再構築する。ここで、左目を黙認する。しかも、この場合、再構築されたフレームは品質が低下であるが、3Dの視覚効果に影響を与えない。従って、本実施形態におけるステップS3では、左目の画像を例として、即ち、ステップS3において、ステップS2による深度マップに基づいて、DIBRにより左目の画像を再構築する。

図２に示すように、その中に、Ccは入力された2D画像であり、Clは再構築された左目画像であり、Crは再構築された右目画像であり、fは目の焦点距離であり、txはベースライン距離であり、即ち、左右の目の間隔であり、Zは観察される画素の点が人の目から離れる距離であり、式(11)により算出する。Dzeroはゼロ平面の位置で、その値が[0,255]の範囲にあるが、本実施形態において、255になってもよい。式(9)(10)は、図２において、Cl、Cr、Ccにおける同一の画素の点に対応する投影の幾何学的関係である。式(9)(10)により、入力された2D画像の位置xcに対応する位置xlまたはxrの値を算出する。その後、 (xc,y)に位置する画素値を、対応する位置(xl,y)または(xr,y)にコピーする(本実施形態には位置(xl,y)にコピーする)。

即ち、ステップS3は、
以下の式により左目画像または右目画像を再構築するステップS3.1と、

（式の中に、xl、xrは、それぞれ左目画像及び右目画像において、入力された2D画像の位置xcに対応する位置であり、fは目の焦点距離であり、txは左右の目の間隔であり、Zは画素の点が人の目から離れる距離であり、Dzeroはゼロ平面の位置であり、その値は[0,255]の範囲にある。）
(xc,y)に位置する画素値を、対応する(xl,y)または(xr,y)にコピーするステップS3.2とを、さらに含む。

再構築された画像におけるのこぎり効果(saw teeth effect)を低減させるために、まず、入力された2D画像を水平方向にスケーリングすることで、投影する際の画像精度を向上させる。本実施形態において、水平方向に画像を元の4倍になるように引っ張って、上記した人の目の視覚関係により、行ごとのxlに対応する1/4の画像精度のx値を算出する。xlに対応するx値は画像範囲を超える場合、補間値によりxlに位置する画素値を得る。複数のxlに対応するx値は同じである場合、D(x,y)''の中の最大のxl値を採用し、他のxl位置の値は補間値により得る。xlに対応するx値は唯一である場合、xlに位置する画素値は入力された2D画像の、xに位置する画素値である。

上記した実施形態は本発明を説明したものに過ぎず、本発明は上述した実施の形態に限定されない。当業者であれば、本発明の主旨及び範囲から逸脱しない範囲で、種々の変更や変形が可能である。そのため、あらゆる同等の技術案は本発明の範囲に属し、本発明の保護しようとする範囲は請求の範囲により決定される。

本発明に係る画像の運動情報に基づく2Dから3Dへの変換方法を利用して得られた画像の再構築は、画像の品質が高く、3Dの視覚効果が優れる。これによって、2Dビデオ素材を3Dに自動的に変換する市場開発を進める上で重大な意義を持っている。

上記の課題を解決するために、本発明は、画像運動情報に基づく2Dから3Dへの変換方法を提供する。この方法は、
運動推定の方法により、入力された2D画像における各画素の深度値を得るステップS1と、
各画素の輝度値により、前記各画素の深度値を加算し、前記の入力された2D画像の深度マップを得るステップS2と、
ステップS2により得られる深度マップにより、深度マップによる画像の再構築を行い、左目画像及び/又は右目画像を再構築するステップS3と、
ステップS3による左目画像及び右目画像を合成して出力し、3D画像を得るステップS4と、を含む。