TW201424406A

TW201424406A - 多視點圖像編碼方法及多視點圖像解碼方法

Info

Publication number: TW201424406A
Application number: TW103106224A
Authority: TW
Inventors: Shinya Shimizu; Hideaki Kimata; Masayuki Tanimoto
Original assignee: Nippon Telegraph & Telephone; Univ Nagoya Nat Univ Corp
Priority date: 2009-02-23
Filing date: 2010-02-23
Publication date: 2014-06-16
Also published as: BRPI1008500B1; CN102326391A; ES2524973T3; JPWO2010095471A1; CN102326391B; KR20110119709A; CA2752567C; US8548228B2; BRPI1008500A2; JP5521202B2; TWI517674B; TW201103339A; CA2752567A1; TWI433544B; RU2498522C2; EP2400759A4; WO2010095471A1; US20120027291A1; EP2400759A1; RU2011133831A

Abstract

本發明之多視點圖像編碼/解碼裝置係首先求取在處理對象區域所拍攝之拍攝對象的深度資訊。其次，在與處理對象區域鄰接之已進行編碼(解碼)過的區域中，從深度資訊求取拍攝有與處理對象區域相同的拍攝對象之畫素群而設定樣本畫素群。接著，針對包含在樣本畫素群之畫素與包含在處理對象區域之畫素而產生視點合成圖像。然後，從樣本畫素群之視點合成圖像及解碼圖像推估補正亮度與顏色的不匹配之補正參數。接著，藉由使用所推估之補正參數，將針對處理對象區域所產生之視點合成圖像予以補正來產生預測圖像。

Description

多視點圖像編碼方法及多視點圖像解碼方法

本發明係有關：將利用拍攝某拍攝對象之複數台攝影機所拍攝到之圖像予以編碼之多視點圖像編碼方法及其裝置；利用該多視點圖像編碼方法將已編碼過之編碼資料予以解碼之多視點圖像解碼方法及其裝置；實現該多視點圖像編碼方法所使用之多視點圖像編碼程式；以及實現該多視點圖像解碼方法所使用之多視點圖像解碼程式。

本申請案係根據於2009年2月23日在日本提出申請之特願2009-38786號主張優先權，並在此引用其內容。

所謂多視點圖像係指利用複數台攝影機將相同的拍攝對象與背景予以拍攝之複數張圖像，而多視點動畫(多視點影像)係指該動畫。

以使用於一般性的動畫編碼與多視點動畫編碼之技術而言，已有動作補償預測與視差補償預測之提案。

動作補償預測係於在H.264為代表之近幾年的動畫編碼方式之國際標準亦被採用的手法，其係於編碼對象圖框與已進行過編碼的參考圖框之間將拍攝對象之動作進行補償以取得圖像信號之圖框間差分，而僅對該差分信號進行編碼(參照非專利文獻1)。

另一方面，視差補償預測係藉由將使用其他的攝影機所拍攝之圖框作為參考圖框來補償拍攝對象的視差，並一邊取得圖像信號之圖框間差分一邊進行編碼(參照非專利文獻2)。

在此使用之視差，係指在配置於不同位置的攝影機之圖像平面上，將拍攝對象上之相同的位置進行投影之位置的差。於視差補償預測中，係以二維向量來表現該視差而進行編碼。如第9圖所示，視差係取決於攝影機的位置以及攝影機與拍攝對象之距離(深度(depth))而產生的資訊，故存在有一種被稱之為利用此原理之視點合成預測(視點內插預測)之方式。

視點合成預測(視點內插預測)之方式如下述。即，針對在編碼側或解碼側所得到之多視點影像，利用攝影機的位置資訊以及三角測量的原理來推估拍攝對象的深度，且使用該推估之深度資訊將編碼對象圖框予以合成(內插)來作為預測圖像(參照專利文獻1、非專利文獻3)。此外，在編碼側推估深度時，必須將使用之深度加以編碼。

於使用以該等其他的攝影機所拍攝的圖像進行之預測中，當在攝影機之攝影元件的回應上有個體差異、或依各台攝影機來進行增益控制與伽瑪校正、或依各台攝影機拍攝對象深度與光圈等之設定不同、或於場景有方向依存之照明效應時，編碼效率會劣化。其理由係在編碼對象圖框與參考圖框中拍攝對象的亮度與顏色係相同之前提下進行預測之故。

以為了對應上述拍攝對象的亮度與顏色之變化而進行檢討之方式而言，有稱為亮度補償與顏色補正者。在此方式中，係藉由將補正參考圖框的亮度與顏色之圖框作為使用於預測之圖框，來將進行編碼之預測殘差抑制於較小。

在H.264中，採用有使用一次函數進行補正之Weighted Prediction(加權預測)(參照非專利文獻1)，其係在非專利文獻3中，提案有使用顏色表進行補正之方式。

(先前技術文獻) (專利文獻)

(專利文獻1)日本特開2007-036800號公報，“影像編碼方法、影像解碼方法、影像編碼程式、影像解碼程式及記錄有上述程式之電腦可讀取的記錄媒體”

(非專利文獻)

(非專利文獻1)ITU-T Rec. H. 264/ISO/IEC 11496-10, “Advanced Video coding for generic audiovisual services”, Final Committee Draft, Document JVT-E022d7, September 2002. (pp.10-13, pp.62-73)

(非專利文獻2)Hideaki Kimata and Masaki Kitahara, “Preliminary results on multiple view video coding (3DAV)”, document M10976 MPEG Redmond Meeting, July, 2004.

(非專利文獻3)K. Yamamoto, M. kitahara, H. kimata, T. Yendo, T. Fujii, M. Tanimoto, S. Shimizu, K. Kamikura, and Y. Yashima, “Multiview Video Coding Using View Interpolation and Color Correction,” IEEE Transactions on Circuits and System for Video Technology, Vol. 17, No. 11, pp.1436-1449, November, 2007.

使用上述亮度補償與顏色補正進行編碼時，有下面二個問題。

第一個問題係因附加亮度補償/顏色補正參數所導致之編碼量的增加。在一般的視差補償預測與視點合成(內插)預測中產生必須對不必進行編碼之亮度補償/顏色補正參數等進行編碼，故編碼效率降低。

第二個問題係補正之精確度。一般的動畫編碼之褪色(fade)與閃光(flash)的情況中，因於整個畫面產生相同的變化，故以單一的補正參數可進行充分的亮度補償與顏色補正。但是，拍攝對象非為完全擴散反射體、以及每台攝影機的景深與焦點非為完全一致所引起之不匹配(亮度與顏色的不一致)並非因場景，而是取決於拍攝對象之不匹配。因此，以單一的補正參數進行補正的情形中，有時會因拍攝對象而使不匹配擴大。

針對此問題，為了因應各個拍攝對象之不匹配，可考慮使用複數個補正參數的方法。但是，使用此方法時，不僅是將複數個補正參數進行編碼之編碼量而已，而且必須將用以表示要按各個圖像區域使用哪一個補正參數之資訊亦進行編碼，故導致編碼量更增加而無法解決第一個問題。

本發明係鑑於上述課題而研創者，其目的在提供一種嶄新的多視點圖像編碼及解碼技術，即使在攝影機間伴隨有局部性的亮度與顏色的不匹配之類的多視點圖像(多視點的靜止圖像或動畫)中，亦能實現高效率的編碼，且於實現該編碼時達成削減所需之編碼量。

[1]本發明之基本的技術思想

為了解決前述課題，在本發明中，係於分割編碼/解碼對象圖框，且按各區域進行多視點圖像編碼/解碼時，採取以下手段。

首先，求取在處理對象區域所拍攝之拍攝對象的深度資訊。其次，在與處理對象區域鄰接之已編碼(解碼)過的區域中，從深度資訊求取拍攝有與處理對象區域相同的拍攝對象之畫素群而將之設為樣本畫素群。接著，針對包含在此樣本畫素群之畫素產生視點合成圖像之同時，針對包含在處理對象區域之畫素而產生視點合成圖像。接著，從樣本畫素群之視點合成圖像及解碼圖像來推估補正亮度與顏色的不匹配之補正參數。接著，藉由使用所推估之補正參數，針對處理對象區域將所產生之視點合成圖像進行補正，而產生使用於處理對象區域之圖像信號的編碼(解碼)之預測圖像。

於比較編碼對象圖框與參考圖框來算出補正參數之習知方法之情形中，由於無法在解碼側得到編碼對象圖框，故必須將補正參數進行編碼。

另一方面，在本發明中，將編碼/解碼對象圖框之已進行過編碼/解碼之區域的圖像信號、以及使用參照圖框所產生之視點合成圖像的資訊加以比較來算出補正參數。由於這些係可在解碼側取得，故不必對補正參數進行編碼。亦即，透過本發明，可解決編碼量增加之問題。

再者，編碼處理係為儘可能忠實地轉換輸入信號之處理，故編碼對象的圖像信號與已進行過編碼/解碼之圖像信號係可視為相同。亦即，透過本發明所算出之補正參數係使視點合成圖像接近編碼射線圖框，而可充分地減小必須進行編碼之預測差分。

此外，在本發明中，使用拍攝有與於處理對象區域所拍攝之拍攝對象相同的拍攝對象之鄰接區域的資訊來進行補正參數的推估。藉此方式，取決於拍攝對象之亮度與顏色可進行補正。再者，於此拍攝對象之判定上係使用產生視點合成圖像時所需之深度資訊，故不必將資訊另行編碼並予以傳送。

在上述多視點圖像編碼/解碼中，藉由求取處理對象區域之深度資訊的分散且與事先訂定之閾值進行比較，來判定在處理對象區域是否拍攝有複數個拍攝對象，於拍攝有複數個拍攝對象時，按各個拍攝對象訂定深度資訊及樣本畫素群來推估補正參數。此外，藉由將在處理對象區域只具有未達一定畫素之拍攝對象與別的拍攝對象同時進行處理，亦可預防運算量的增加。

並且，在上述多視點圖像編碼/解碼方法中，係根據樣本畫素群之畫素數，來改變複數個存在之補正模型(補正參數數量)。

[2]本發明之構成

其次，就本發明之多視點圖像編碼裝置及多視點圖像解碼裝置的構成加以說明。

[2-1]本發明之多視點圖像編碼裝置的構成

本發明之多視點圖像編碼裝置係將以第1攝影機所拍攝的拍攝對象之輸入圖像分割為複數個編碼對象區域，且使用由有關前述輸入圖像之深度資訊以及以與前述第1攝影機配置在不同位置之第2攝影機所拍攝之前述拍攝對象的已編碼過的圖像所合成之視點合成圖像，按各個前述編碼對象區域進行預測編碼來將多視點圖像(多視點之靜止圖像與動畫)予以編碼之裝置，其具備：(1)代表深度設定部，係在前述編碼對象區域中設定有關所拍攝的拍攝對象之代表深度資訊；(2)樣本畫素群設定部，係根據與前述編碼對象區域鄰接之已編碼過的區域的深度資訊以及代表深度資訊，求取拍攝有與前述編碼對象區域內相同的拍攝對象之畫素群且將之設定為樣本畫素群；(3)補正參數推估部，係根據有關樣本畫素群之前述視點合成圖像以及有關前述樣本畫素群已進行解碼過的解碼圖像，來推估補正亮度及顏色的不匹配之補正參數；(4)視點合成圖像補正部，係使用前述補正參數，將有關前述編碼對象區域之前述視點合成圖像予以補正來產生補正視點合成圖像；(5)圖像編碼部，係使用前述補正視點合成圖像，將前述編碼對象區域之圖像信號進行編碼而產生編碼資料；以及(6)圖像解碼部，係將前述編碼資料進行解碼，而產生前述編碼對象區域之解碼圖像。

本發明的實施形態之多視點圖像編碼裝置，復可具備(7)拍攝對象判定部，係以該畫素的深度資訊為基準將前述編碼對象區域之畫素進行分組。在此情形中，亦可設為代表深度設定部按各個在拍攝對象判定部所求得之組群設定代表深度資訊，而樣本畫素群設定部按各個在拍攝對象判定部所求得之組群設定樣本畫素群，至於補正參數推估部按各個在拍攝對象判定部所求得之組群推估補正參數，而視點合成圖像補正部按各個在拍攝對象判定部所求得之組群補正視點合成圖像。

此外，本發明的實施形態之多視點圖像編碼裝置可復具備：(8)補正模型選擇部，係按照樣本畫素群的畫素數來選擇補正有關前述編碼對象區域之前述視點合成圖像的補正模型。此情形中，補正參數推估部係將在補正模型選擇部所選擇的補正模型之補正參數予以推估，而視點合成圖像補正部係使用在補正模型選擇部所選擇之補正模型來補正視點合成圖像。

藉由以上各處理手段進行動作而達成之本發明的多視點圖像編碼方法亦可利用電腦程式來達成。此電腦程式係記錄在適當的電腦可讀取之記錄媒體來提供，或透過網路而提供，而實施本發明時可藉由進行安裝且在CPU等控制手段上進行動作來達成本發明。

[2-2]本發明之多視點圖像解碼裝置的構成

本發明之多視點圖像解碼裝置係藉由對以第1攝影機所拍攝之拍攝對象的圖像使用以配置在與前述第1攝影機不同的位置之第2攝影機所拍攝之前述拍攝對象的圖像進行過編碼的解碼對象圖像之編碼資料，使用由有關前述解碼對象圖像之深度資訊以及利用前述第2攝影機所拍攝之已進行過解碼的前述拍攝對象的圖像所合成之視點合成圖像，按各個分割前述解碼對象圖像之複數個解碼對象區域進行解碼，而將多視點圖像(多視點的靜止圖像與動畫)的編碼資料進行解碼者，該裝置具備：(1)代表深度設定部，係在前述解碼對象區域中設定有關所拍攝的拍攝對象之代表深度資訊；(2)樣本畫素群設定部，係根據與前述解碼對象區域鄰接之已進行過解碼的區域之深度資訊與前述代表深度資訊，求取拍攝有與前述解碼對象區域內相同的拍攝對象之畫素群且將之設定為樣本畫素群；(3)補正參數推估部，係根據有關樣本畫素群之前述視點合成圖像以及有關前述樣本畫素群已進行解碼過的解碼圖像，將補正亮度及顏色之不匹配的補正參數予以推估；(4)視點合成圖像補正部，係使用前述補正參數，而將有關前述解碼對象區域之前述視點合成圖像予以補正，以產生補正視點合成圖像；以及(5)圖像解碼部，係使用前述補正視點合成圖像，將前述解碼對象區域的圖像信號進行解碼。

本發明的實施形態之多視點圖像解碼裝置，復可具備：(6)拍攝對象判定部，係以該畫素之深度資訊為基準將前述解碼對象區域之畫素進行分組。在此情形中，亦可設為代表深度設定部按各個在拍攝對象判定部所求得之組群來設定代表深度資訊，而樣本畫素群設定部按各個在拍攝對象判定部求得之組群來設定樣本畫素群，至於補正參數推估部係按各個在拍攝對象判定部所求得之組群推估補正參數，而視點合成圖像補正部按各個在拍攝對象判定部所求得之組群來補正視點合成圖像。

此外，本發明的實施形態之多視點圖像解碼裝置可復具備：(7)補正模型選擇部，係按照樣本畫素群之畫素數來選擇補正有關前述解碼對象區域之前述視點合成圖像之補正模型。此情形中，補正參數推估部係將在補正模型選擇部所選擇的補正模型之補正參數予以推估，而視點合成圖像補正部係使用在補正模型選擇部選擇之補正模型來補正視點合成圖像。

藉由以上各處理手段進行動作而達成之本發明的多視點圖像解碼方法亦可利用電腦程式來達成。此電腦程式係記錄在適當的電腦可讀取之記錄媒體來提供，或透過網路而提供，而實施本發明時，可藉由進行安裝且在CPU等控制手段上進行動作來達成本發明。

依據本發明，即使在攝影機間對應拍攝對象局部性地產生亮度與顏色之不匹配時，亦設為對應拍攝對象局部性地求得用以因應此不匹配之補正參數，故可減小預測差分。因此，可達成效率高的多視點圖像與多視點動畫之編碼及解碼。

而且，依據本發明，從不必另外對以此方式求得之補正參數進行編碼/解碼之方面來看，可大幅地減少為進行多視點圖像與多視點動畫之編碼及解碼所需之編碼量。

100‧‧‧多視點影像編碼裝置

101‧‧‧編碼對象圖像輸入部

102‧‧‧編碼對象圖像記憶體

103‧‧‧視點合成圖像輸入部

104‧‧‧視點合成圖像記憶體

105‧‧‧深度資訊輸入部

106‧‧‧深度資訊記憶體

107‧‧‧補正參數產生部

108‧‧‧視點合成圖像補正部

109‧‧‧圖像編碼部

110‧‧‧圖像解碼部

111‧‧‧解碼圖像記憶體

200‧‧‧多視點影像解碼裝置

201‧‧‧編碼資料輸入部

202‧‧‧編碼資料記憶體

203‧‧‧視點合成圖像輸入部

204‧‧‧視點合成圖像記憶體

205‧‧‧深度資訊輸入部

206‧‧‧深度資訊記憶體

207‧‧‧補正參數產生部

208‧‧‧視點合成圖像補正部

209‧‧‧圖像解碼部

210‧‧‧解碼圖像記憶體

第1圖係表示本發明第1實施形態之多視點影像編碼裝置的方塊圖。

第2圖係表示本發明第1實施形態之多視點影像編碼裝置所執行之處理的流程圖。

第3圖係表示本發明第1實施形態之多視點影像編碼裝置所執行之處理的詳細流程圖。

第4圖係表示本發明第1實施形態之多視點影像編碼裝置所執行之處理的流程圖。

第5圖係表示本發明第2實施形態之多視點影像解碼裝置的方塊圖。

第6圖係表示本發明第2實施形態之多視點影像解碼裝置所執行之處理的流程圖。

第7圖係表示本發明第2實施形態之多視點影像解碼裝置所執行的處理之詳細流程圖。

第8圖係表示本發明第1及第2實施形態的補正參數產生部之方塊圖。

第9圖係表示視差補償預測方式之圖示。

以下，參照表示本發明的實施形態之圖示詳細說明本發明。

此外，在以下的說明中，藉由在影像(圖框)與深度資訊附加可界定位置之資訊(即，以記號[ ]包夾之資訊，其為可與座標值或座標值相對應之指數)，來表示在該位置的畫素所拍攝之拍攝對象的圖像信號與深度資訊(按各個畫素來定義)。

[1]本發明第1實施形態之多視點影像編碼裝置

在第1圖，將本發明第1實施形態之多視點影像編碼裝置100的裝置構成予以圖示。

如第1圖所示，在本實施形態之多視點影像編碼裝置100中，編碼對象圖像輸入部101係將利用第1攝影機拍攝之拍攝對象的圖像(圖框)作為編碼對象而輸入。編碼對象圖像記憶體102係將從編碼對象圖像輸入部101所輸入之編碼對象圖框予以儲存。所儲存之編碼對象圖框，係供應到圖像編碼部109。

視點合成圖像輸入部103係輸入關於使用利用配置在與第1攝影機不同的位置之另外的第2攝影機拍攝相同的拍攝對象而得到的圖像之已編碼過的圖框所產生之編碼對象圖框之視點合成圖像。視點合成圖像記憶體104，係將從視點合成圖像輸入部103輸入之視點合成圖像予以儲存。所儲存之視點合成圖像係供應到補正參數產生部107及視點合成圖像補正部108。

深度資訊輸入部105係輸入關於編碼對象圖框之深度資訊。深度資訊記憶體106係將從深度資訊輸入部105輸入之深度資訊予以儲存。所儲存之深度資訊係供應到補正參數產生部107。

補正參數產生部107係使用編碼對象區域的周邊區域之視點合成圖像、深度資訊及解碼圖像、以及編碼對象區域之深度資訊來推估補正參數。視點合成圖像補正部108係使用所推估的補正參數來補正編碼對象區域的視點合成圖像。

圖像編碼部109係一邊將補正過的視點合成圖像作為預測信號來使用，一邊對編碼對象區域之圖像信號進行編碼。圖像編碼部109將編碼過的圖像信號進行解碼。解碼圖像記憶體110係儲存由圖像編碼部109所解碼過的圖像。儲存在解碼圖像記憶體101之解碼圖像，係供應到補正參數產生部107。

如第8圖所示，補正參數產生部107具有接收來自深度資訊記憶體106的深度資訊之拍攝對象判定部107a、按照順序連接在此拍攝對象判定部107a的下游之代表深度設定部107b及樣本畫素群設定部107c。在樣本畫素群設定部107c的下游係按照順序連接補正模型選擇部107d及補正參數推估部107e。在補正參數推估部107e，係接收來自解碼圖像記憶體111之解碼圖像及來自視點合成圖像記憶體104之視點合成圖像，且將使用所接收之解碼圖像及視點合成圖像進行推估之補正參數供應到視點合成圖像補正部108。

在第2圖，表示如上述構成之本實施形態的多視點影像編碼裝置100執行的處理流程。

依照此處理流程，就本實施形態之多視點影像編碼裝置100執行之處理加以詳細說明。

首先，利用編碼對象圖像輸入部101輸入編碼對象圖框Org且將之儲存到編碼對象圖像記憶體102。利用視點合成圖像輸入部103將針對編碼對象圖框Org之視點合成圖像Synth予以輸入且將之儲存到視點合成圖像記憶體104。利用深度資訊輸入部105將針對編碼對象圖框Org之深度資訊Depth予以輸入且將之儲存到深度資訊記憶體106[A1]。

在此輸入之視點合成圖像與深度資訊係與利用解碼裝置所得到者相同。其原因係藉由使用與利用解碼裝置所得到之資訊相同的資訊來抑制漂移等之編碼雜訊的發生之故。但是，容許產生這些編碼雜訊時，亦可輸入編碼前之原有資訊。

此外，雖將深度資訊設為由多視點影像編碼裝置100的外部提供，但如非專利文獻3所記載，亦可從已編碼過之其他攝影機的圖框來推估而求取。因此，並不一定需要從傳送側傳送到接收側。再者，視點合成圖像係使用已編碼過之第2攝影機的圖框與深度資訊而產生。

其次，將編碼對象圖框分割成複數個編碼對象區域，且一邊按各個區域補正視點合成圖像，一邊在圖像編碼部109將編碼對象圖框之圖像信號進行編碼[A2至A15]。

亦即，將編碼處理區塊的指數以blk表示，且將總編碼處理區塊數以numBlks來表示時，以0將blk進行初始化後[A2]，一邊在blk加算1[A14]，一邊直到blk成為numBlks為止[A15]，重複以下的步驟[A3至A13]。

在按各個編碼處理區塊進行重複之處理中，編碼裝置100首先求取區塊blk(編碼對象區域)的周邊之已編碼過的區域之畫素的集合N_blk[A3]。

以周邊區域而言，係可使用與區塊blk鄰接之編碼處理區塊與鄰接畫素等種種的單位者。亦可使用任何的定義之周邊區域，但必須使用與在解碼側使用之定義相同者。

其次，補正參數產生部107之拍攝對象判定部107a，以按各個畫素所給予之深度資訊為基準，進行區塊blk內之畫素的分組[拍攝對象判定步驟A4]。

將此結果之各組群的指數表示為obj，而將組群數表示為numObjs，而將屬於組群obj之畫素表示為C_obj。

於分組上雖可使用任何方法，但必須使用與在解碼側使用之方法相同者。以最簡單之分組方法而言，有一個方法，係求取區塊blk內之畫素的深度資訊之分散，若該值在閾值以下時則整體上設為1個組群，而比閾值大時以深度值的平均作為邊界分割為2個組群。此情形時，包含在所有組群之畫素的深度資訊之分散成為某個閾值以下後結束分組。

至於更複雜的分組方法而言，有一個方法，係起初設為各畫素形成1個組群，而融合某2個組群時，按照順序將組群內之畫素具有深度資訊的分散之增加最少者予以融合。此情形時，縱使融合任何2個組群，只要具有超過某閾值之分散的組群產生時，便結束分組。

此外，組群數目增加時演算量將會增加，故可事先定義組群的最大數。藉由設為以組群數成為該最大值後便結束分組，或事先將包含在1組群之畫素的最小數予以定義，而不產生小的組群之方式，可防止組群數的增大。區塊尺寸為一般的圖像編碼之單位區塊尺寸之16×16畫素時，一般而言，在相同的區塊對多數的拍攝對象進行拍攝係少有的現象。因此，最大組群數即使為2亦可進行精確度高之分組。

結束分組後，藉由按各組群之各個畫素補正視點合成圖像來產生預測圖像Pred[A5至A11]。

亦即，將組群指數obj進行初期化為0後[A5]，一邊在obj加算1[A10]，一邊直到obj成為numObjs為止[A11]，在補正參數產生部107中，進行推估用以補正視點合成圖像之補正參數的步驟[A6至A8]。在進行此處理之同時，於視點合成圖像補正部108中，重複步驟[A9]，係使用所推估之補正參數將針對包含在組群obj之畫素的視點合成圖像予以補正而產生預測圖像。

在補正參數之推估處理中，首先以深度資訊為依據，求取包含在區塊blk(編碼對象區域)周邊之已編碼過的區域之畫素的集合N_blk之集合N_blk,obj(樣本畫素群)[代表深度設定步驟及樣本畫素群設定步驟A6]，其中集合N_blk,obj係拍攝有與組群obj相同的拍攝對象之畫素的集合。

以具體的處理而言，首先，在代表深度設定部107b中，求取組群obj之代表深度值Dobj(代表深度設定步驟)。以求取代表深度值D_obj之方法而言，只要可使用針對組群obj內之畫素C_obj的深度資訊求取1個深度資訊，則可使用任何方法。但是，必須以與解碼側相同的處理來求取。例如，可使用平均值與中央值等。使用平均值時之代表深度值D_obj係可由下一個式(1)表示。此外，∥ ∥表示該集合之畫素數。

此外，有一種手法，係在拍攝對象判定步驟A4以深度資訊為基準進行畫素的分組時，一邊決定表示成為組群的代表之畫素與組群之深度資訊，一邊進行畫素的分組。使用此種手法時，亦可將表示作為此時之組群的代表所使用的畫素之具有的深度資訊或組群之深度資訊作為代表深度值。在此情形中，代表深度設定步驟之處理係在拍攝對象判定步驟A4同時進行。以作為同時進行組群的代表決定與分組之手法而言，具代表性者有稱為Affinty Propagation之手法。此手法記載在B,J,Frey and D,Dueck,“Clustering by Passing Messages Between Data Points”,Science2007,Vol.315(5814)：pp.972-976。

當以如此方式求取代表深度值D_obj後，接著，在樣本畫素群設定部107c中，求取拍攝有與包含在集合N_blk之組群obj相同的拍攝對象之畫素的集合N_blk,obj(樣本畫素群)(樣本畫素群設定步驟)。集合N_blk,obj係如下一個式(2)所示，可藉由針對該畫素之深度值與代表深度值之差分絕對值未達事先所提供的閾值thSameObj來加以定義。

求得集合N_blk,obj後，按照該集合之畫素數，在補正模型選擇部107d中，從事先準備之補正模型中選擇使用的模型[補正模型選擇步驟A7]。

雖亦可準備幾個補正模型，但必須在解碼側亦準備相同的補正模型，且依相同的判斷基準選擇使用之補正模型。再者，補正模型只準備1個時，可省略此步驟。

將要在後述之步驟A9執行之視點合成圖像進行補正而產生預測圖像之處理，可表達為一個函數，係將視點合成圖像作為輸入來輸出預測圖像。所謂補正模型係指此時使用之函數的模型。例如，有利用偏移(offset)之補正、使用一次函數之補正、階數長度(tap length)k之二維線形濾波處理等。若將補正對象之畫素設為p時，上述可各別由以下式(3)至式(5)來表示。

[數學式3]Pred[p]=Synth[p]+offset．．．．式(3)

Pred[p]=α．Synth[p]+β．．．．式(4)

利用偏移之補正與使用一次函數之補正，係利用線形濾波處理進行補正之特殊例。此外，補正處理不必為線形處理，只要可進行補正參數推估亦可使用非線形濾波。以非線形之補正方法的例子而言，有伽瑪校正。伽瑪校正可用下一個式(6)來表示。

在上述補正模型之例子中，offset、(α,β)、({F_i,j},o)、(γ,a,b)各別為補正參數。亦即，依補正模型補正參數的數目產生變化。

補正參數的數目愈多愈可進行精確度高的補正，但為了決定這些補正參數，最低的數目亦必須有與補正參數相同數目之程度的樣本。如後述，由於此樣本成為包含在前述的集合N_blk,obj之樣本畫素的視點合成圖像及解碼圖像，故藉由按照集合N_blk,obj之畫素數決定補正模型，可精準地進行補正。此外，於進行補正參數推估方面最好儘可能使用多的樣本，以提高所推估之補正參數的穩健度。因此，最好選擇補正模型以維持充分的穩健度。

選擇1個補正模型後，在補正參數推估部107e中，將針對包含在集合N_blk,obj的畫素之視點合成圖像Synth及解碼圖像Dec設為樣本，來進行包含在該補正模型之補正參數的推估[補正參數推估步驟A8]。

在此進行之補正參數的推估中，將包含在集合N_blk,obj之畫素的補正前的值設為視點合成圖像，且將理想的補正後的值設為解碼圖像時，以實際上用補正模型做補正時的值與理想值的誤差儘可能小之方式來求取。

例如，當設補正為線形處理時，可使用最小平方法決定補正參數。亦即，以函數M表示補正時，只要將以由下一個式(7)表示之補正參數的二次函數所表示的值減到最少即可。

亦即，藉由解關於各補正參數之式(7)的偏微分值成為0之連立方程式，可求取補正參數。

推估補正參數後，在視點合成圖像補正部108中，藉由依照補正參數補正關於區塊blk之組群obj之視點合成圖像Synt，來產生關於區塊blk的組群obj之預測圖像Pred[視點合成圖像補正步驟A9]。

此預測圖像Pred之產生處理，具體而言，係如第3圖之處理流程所示，按各個畫素進行。在第3圖之處理流程中，pix表示畫素之識別資訊，而numPix_blk,obj表示區塊blk的組群obj內之畫素數。

例如，進行使用有偏移值之補正時，依照前述的式(3)產生預測圖像Pred。

關於此預測圖像Pred的產生，作為補正方法(補正模型)，就進行使用有偏移值之式子(3)的補正之例子加以說明。如第4圖所示，在補正參數推估步驟A8中，藉由將針對存在於周邊之已編碼過的區域之相同的拍攝對象之視點合成圖像的畫素值設為In，且對將該拍攝對象之解碼圖像的畫素值設為Out時之offset進行推估，來決定成為畫素值轉換式之補正模型。其次，在處理A9中，藉由將關於區塊blk的組群obj之視點合成圖像的畫素值代入到該決定之畫素值轉換式之In，以將關於區塊blk的組群obj之預測圖像予以補正的方式進行處理。

結束關於區塊blk的預測圖像之補正後，在圖像編碼部108中，一邊將在步驟A9產生之預測圖像Cpred設為預測信號，一邊進行關於區塊blk之編碼對象圖框Org的編碼[圖像編碼步驟A12]。

在此編碼步驟A12中，雖可使用任何的編碼方法，惟在H.264等一般性的編碼手法，係藉由針對Org與Pred之差分，進行DCT/量化/2值化/熵編碼來進行編碼。

編碼結果之位元流成為多視點影像編碼裝置100的輸出。此外，編碼結果之位元流係按各個區塊在圖像解碼部110進行解碼，且為了進行其他區塊之補正參數推估而將解碼結果之處的解碼圖像Dec儲存到解碼圖像記憶體111[圖像解碼步驟A13]。

如此，如第1圖所示之構成的多視點影像編碼裝置100，係在攝影機間對應拍攝對象局部性地產生亮度與顏色之不匹配時，亦為了可高效率地將多視點影像進行編碼，對應拍攝對象局部性地求取用以應付此不匹配之補正參數。此外，此多視點影像編碼裝置100，為了避免編碼量的增加，一邊以不須另外進行編碼/解碼之形態來求取該補正參數，且一邊執行該多視點影像的編碼。

在本實施形態中，雖針對必須使用視點合成圖像將區塊blk的圖像信號進行編碼之情況作了說明，但亦可將使用本實施形態所說明之視點合成圖像的影像預測，作為具有複數個預測模式之1種來使用。

[2]本發明第2實施形態之多視點影像解碼裝置

在第5圖，將本發明第2實施形態之多視點影像解碼裝置200的裝置構成予以圖示。

如第5圖所示，在本實施形態之多視點影像解碼裝置200中，編碼資料輸入部201係將利用第1攝影機拍攝之拍攝對象的圖像(圖框)之編碼資料作為解碼對象而予以輸入。編碼資料記憶體202係儲存從編碼資料輸入部201所輸入之編碼資料。所儲存之編碼資料係供應到圖像解碼部209。

視點合成圖像輸入部203，係使用利用配置在與第1攝影機不同的位置之第2攝影機拍攝相同的拍攝對象所得到的圖像之已解碼過的圖框，將針對所產生的解碼對象圖框之視點合成圖像予以輸入。視點合成圖像記憶體204係將從視點合成圖像輸入部203輸入的視點合成圖像予以儲存。所儲存之視點合成圖像係供應到補正參數產生部207及視點合成圖像補正部208。

深度資訊輸入部205係輸入關於解碼對象圖框之深度資訊。深度資訊記憶體206係將從深度資訊輸入部205輸入之深度資訊予以儲存。所儲存之深度資訊係供應到補正參數產生部207。

補正參數產生部207係使用解碼對象區域的周邊區域之視點合成圖像、深度資訊與解碼圖像、以及解碼對象區域之深度資訊來推估補正參數。視點合成圖像補正部208係使用所推估之補正參數來補正解碼對象區域的視點合成圖像。

圖像解碼部209係一邊將補正過的視點合成圖像作為預測信號來使用，一邊將解碼對象區域的圖像信號進行解碼。解碼圖像記憶體210在圖像解碼部209將解碼過的圖像予以儲存。

如第8圖所示，補正參數產生部207係具有供應來自深度資訊記憶體206的深度資訊之拍攝對象判定部207a，以及按照順序連接在此拍攝對象判定部207a的下游之代表深度設定部207b及樣本畫素群設定部207c。在樣本畫素群設定部207c之下游係按照順序連接補正模型選擇部207d及補正參數推估部207e。於補正參數推估部207e，係供應來自解碼圖像記憶體210之解碼圖像以及來自視點合成圖像記憶體204之視點合成圖像，且使用所供應之解碼圖像及視點合成圖像將所推估之補正參數供應到視點合成圖像補正部208。

於第6圖，表示如上述構成之第2實施形態的多視點影像解碼裝置200執行之處理流程。

依照此處理流程，針對多視點影像解碼裝置200執行之處理加以詳細說明。

首先，利用編碼資料輸入部201將解碼對象圖框的編碼資料予以輸入且儲存在編碼資料記憶體202。藉由視點合成圖像輸入部203將針對解碼對象圖框之視點合成圖像Synth予以輸入且儲存在視點合成圖像記憶體204。利用深度資訊輸入部205將針對解碼對象圖框之深度資訊Depth予以輸入且儲存到深度資訊記憶體206[B1]。

在此輸入之視點合成圖像與深度資訊係與編碼裝置得到者相同。此係藉由使用與在編碼裝置得到之資訊相同的資訊來抑制漂移等編碼雜訊之產生。但是，容許上述編碼雜訊產生時，亦可輸入與編碼裝置不同者。

此外，深度資訊雖設為由多視點影像解碼裝置200的外部給予，惟如非專利文獻3所記載，亦可從已進行過解碼之其他的攝影機的圖框來推估求取。因此，並不一定必須從傳送側傳送到接收側。再者，視點合成圖像係使用已進行過解碼的第2攝影機之圖框與深度資訊而產生。

其次，將解碼對象圖框分割為複數個解碼對象區域，且一邊按各個該區域對視點合成圖像進行補正，一邊在圖像解碼部209將解碼對象圖框之圖像信號予以解碼[B2至 B14]。

亦即，將解碼處理區塊之指數以blk表示，且將總解碼處理區塊數以numBlks表示時，於以0將blk進行初始化後[B2]，一邊在blk加算1[B13]，一邊直到blk成為numBlks為止[B14]，重複以下的步驟[B3至B12]。

按各個解碼處理區塊重複之處理中，解碼裝置200首先求取區塊blk(解碼對象區域)周邊之解碼過的區域之畫素的集合N_blk[B3]。

以周邊區域而言，可使用與區塊blk鄰接之解碼處理區塊與鄰接畫素等種種的單位。雖可使用任何定義之周邊區域，但必須與在編碼側使用之定義相同者。

其次，補正參數產生部207之拍攝對象判定部207a，以按各個畫素所給予之深度資訊為基準，進行區塊blk內之畫素的分組[拍攝對象判定步驟B4]。

將此結果之各組群的指數表示為obj，且將組群數表示為numObjs，並將屬於組群obj之畫素表示為C_obj。在此之處理與第1實施形態的拍攝對象判定步驟A4相同。

結束分組後，藉由按各組群之各個畫素補正視點合成圖像來產生預測圖像Pred[B5至B11]。

亦即，將組群指數obj進行初始化為0後[B5]，一邊在obj加算1[B10]，一邊直到obj成為numObjs為止[B11]，在補正參數產生部207中，進行推估用以補正視點合成圖像之補正參數的步驟[B6至B8]。進行此處理之同時，在視點合成圖像補正部208中，重複以下步驟[09]，即使用所推估之補正參數將關於包含在組群obj的畫素之視點合成圖像予以補正而產生預測圖像。

在此步驟B9之處理係與第1實施形態的步驟A9相同，如第7圖的處理流程所示，按各個畫素進行。在此，於第7圖的處理流程中，pix表示畫素的識別資訊，numPix_blk,obj表示區塊blk之組群obj內的畫素數。藉由代表深度設定部207b、樣本畫素群設定部207c、補正模型選擇部207d及補正參數推估部207e進行之補正參數的推估步驟[B6至B8]，係與第1實施形態之步驟A6至A8相同。

結束有關區塊blk之預測圖像的產生後，在圖像解碼部209中，一邊將在步驟B9產生之預測圖像Pred設為預測信號，一邊將關於區塊blk之解碼對象圖像Dec進行解碼[B12]。

在此進行之解碼處理的方法，必須使用對應產生編碼資料時所使用之方法。例如，使用H.264進行編碼時，藉由對於進行熵解碼、多值化、反量化、反DCT而解碼過之殘差信號加總預測信號來進行解碼處理。

解碼結果之解碼圖像係成為多視點影像解碼裝置200的輸出，同時為了進行其他區塊之補正參數推估而儲存到解碼圖像記憶體210。

如此，如第5圖所構成之多視點影像解碼裝置200，係將第1圖所示之多視點影像編碼裝置100所產生之多視點影像解碼的編碼資料進行解碼。

在本實施形態中，以必須使用視點合成圖像將區塊blk 進行過編碼者作了說明。作為具有複數個使用視點合成圖像的預測模式之1種來使用且將編碼資料進行解碼時，亦僅使用有該預測模式時依照前述處理流程將圖像進行解碼，而使用其他預測模式時，藉由使用依照該預測模式(其他預測模式)之習知的解碼方法可將圖像進行解碼。

在上述所說明之第1及第2實施形態中，係設為於所有區塊進行補正，惟亦可採用藉由按各個區塊將1位元的旗標資訊進行編碼，以選擇是否進行補正與否。

此外，亦有一方法，係不對1位元之旗標資訊進行編碼，而是測量補正參數之可靠度，且選擇是否按照該可靠度進行補正。

具體而言，在步驟A8及步驟B8中求取補正參數後，亦可求取表達如以下的式(8)至式(10)所示之補正的正確度與有效性之值。補正參數產生部107及207，係僅於該值比事先賦予之閾值為大的情況之下，在步驟A9及步驟B9中把將視點合成圖像進行補正者設為預測圖像，其他情況中，便直接將視點合成圖像設為預測圖像。

在此，式(8)之第1項係表示解碼圖像Dec與視點合成圖像Synth的差分絕對值和，第2項表示解碼圖像Dec與預測圖像Pred之差分絕對值和。亦即，式(8)係表示藉由進行補正使真值與預測值之差分絕對值和減少多少的程度。此外，式(9)之第1項係表示解碼圖像Dec與視點合成圖像Synth之差分平方和，第2項係表示解碼圖像Dec與預測圖像Pred之差分平方和。亦即式(9)係表示透過進行補正使真值與預測值的差分平方和減少多少的程度。再者，式(10)係表示對獲得有補正模型的樣本有多少程度的正確性。在此，其任何值皆不是使用處理對象區塊，而是使用周邊區域的值來求得，故整體上僅對使用之閾值進行編碼而僅通知解碼側即可。

再者，在本實施形態中，將對1台攝影機之1圖框進行編碼或解碼之處理作了說明，惟亦可藉由按各個圖框重複此處理，達成多視點影像之編碼或解碼。並且，藉由按各台攝影機進行重複處理可達成複數台攝影機之多視點影像的編碼或解碼。

以上說明之處理，亦可利用電腦與軟體程式來達成。該程式可記錄在電腦可讀取記錄媒體來提供，亦可透過網路來提供。

此外，在以上實施形態中，以多視點影像編碼裝置及多視點影像解碼裝置為中心作了說明，惟亦可藉由對應此多視點影像編碼裝置之各部的動作之步驟來達成本發明之多視點影像編碼方法。相同地，可藉由對應此多視點影像解碼裝置之各部的動作之步驟來實現本發明的多視點影像解碼方法。

以上參照圖示將本發明之實施形態作了說明，而上述實施形態僅為本發明之例示，顯然地，本發明不限定於上述實施形態。因此，只要在不脫離本發明之範圍內，亦可進行構成要素的追加、省略、替換、其他變更。

[產業上之可利用性]

本發明係可應用於多視點圖像之編碼手法，而藉由應用本發明，即使在攝影機間局部性地產生亮度與顏色之不匹配時，亦可實現有效率的。此外，可大幅減少實現多視點圖像與多視點動畫的編碼及解碼時之編碼量。