TWI653881B

TWI653881B - 運動向量預測的方法與裝置

Info

Publication number: TWI653881B
Application number: TW106142914A
Authority: TW
Inventors: 邱銘豪; 鄭佳韻; 張永昌
Original assignee: 聯發科技股份有限公司
Priority date: 2017-04-06
Filing date: 2017-12-07
Publication date: 2019-03-11
Also published as: CN108696754B; CN108696754A; US10298951B2; US20180295380A1; TW201838418A

Abstract

公開了一種用於視訊編碼或解碼的方法以及裝置，由AVS2(第二代音視訊編碼標準)視訊轉碼器或解碼器分別使用。根據這一方法，決定與當前塊的複數個空間相鄰塊有關的複數個第一運動向量；對於每一空間相鄰塊，如果該當前參考圖像與一對應的該第一參考圖像兩者都是G圖像或GB圖像，將一值1分配給與該空間相鄰塊有關的一第一BlockDistance；根據對應的一第一BlockDistance與一當前BlockDistance，透過縮放每一該第一運動向量從該等第一運動向量中獲得複數個運動向量預測子候選；在該等運動向量預測子候選中決定一最終運動向量預測子；使用該最終運動向量預測子對該當前運動向量進行編碼或解碼。

Description

運動向量預測的方法與裝置

【交叉引用】

本發明要求遞交於2017年4月6日的，號碼為62/482,233的美國臨時專利申請案的優先權，該美國臨時專利申請案整體透過引用納入本申請中。

本發明涉及視訊編解碼技術，具體地，本發明涉及運動向量預測(motion vector prediction，简称MVP)的方法及裝置，用於相鄰塊的運動向量指向對應於AVS2標準(音訊與視訊的高效編碼-部分1：視訊，GY/T 299.1-2016，音視訊編碼標準第二代，中國的音訊與視訊編碼標準工作組)中G圖像或GB圖像的參考圖像。

運動估計是利用視訊序列中時間冗餘(temporal redundancy)的有效的幀間編解碼技術。運動補償的幀間編解碼已經廣泛的用於各種各樣的視訊編碼標準，例如H.264，HEVC(High Efficiency Video Coding，高效視訊編碼)以及AVS2。各種各樣編碼標準所採用的運動估計通常是基於塊的技術，其中為每一宏區塊(macroblock)、編碼單元(coding unit)或相似的塊配置決定運動資訊，如編解碼模式以及運動向量。此外，也適應性地應用幀內編解碼，其中圖像在沒有參考任何其他圖像的情況下被處理。幀間預測或幀內預測殘差通常進一步由轉換、量化以及熵編碼進一步處理以生成壓縮的視訊位元流。對於幀間預測，一或複數個先前編碼的圖像被用於獲得用於當前圖像的幀間預測，該等先前編碼的圖像被稱為複數個參考圖像並存儲於解碼圖像緩衝器(Decoded Picture Buffer，簡稱DPB)中。

對於AVS2，使用了各種各樣的圖像類型，包括I/P/B/F/G/GB以及S圖像。I、P以及B圖像的使用類似於H.264以及HEVC，其中I指幀內編碼的圖像，P指基於一參考圖像向前預測的圖像，以及B指使用顯示次序(display order)中當前圖像之前的一圖像與之後的一圖像的雙向預測(bi-direction predicted)的圖像。在AVS2中，F指基於一或兩個參考圖像的向前預測的圖像，G圖像與GB圖像系指AVS2標準(中國第二代數字視訊編碼標準)的場景圖像(scene picture)，當使用幀內預測場景圖像時，將輸出G圖像以及不輸出GB圖像，S指基於一參考圖像的幀內預測圖像或向前預測的圖像，此外S圖像僅適用最近解碼的G或GB作為參考圖像。

AVS2也使用基於塊的編解碼，其中圖像、切片(slice)被分割成複數個塊並將編解碼處理應用於每一塊。此外，塊分割進程通常開始於最大的編碼單元(Largest coding unit，簡稱LCU)並且使用四叉樹分割(quadtree partition)或二叉樹分割(binary-tree partition)將該LCU被分割成一或複數個編碼單元，也使用了其他相似的圖像單元，如超級塊(super block，簡稱SB)或者編碼樹塊(coding tree block，簡稱CTB)。在用於AVS2的序列資料頭(sequence header) 中，包括了指示LCU尺寸的語法元素。對於AVS2，包括了語法元素progressive_sequence以指示與該序列資料頭有關的複數個圖像是否是漸進的(progressive)，progressive_sequence等於1表示序列中的所有圖像是幀圖像(frame picture)以及progressive_sequence等於0表示序列中的所有圖像是幀圖像或場圖像(field picture)。類似地，序列資料頭中包括了語法元素field_coded_sequence，其中field_coded_sequence等於1表示序列中的所有圖像是場圖像以及field_coded_sequence等於0表示序列中的所有圖像是幀圖像。如果progressive_sequence等於1，那麼field_coded_sequence應該是0。另外，序列資料頭中包括了語法元素bitdepth以指示與序列資料頭有關的複數個圖像的像素資料的位元深度(bit depth)。此外，資料頭中包括了語法元素chroma_format以指示用於與該序列資料頭有關的複數個圖像的色度格式，例如，該色度格式可以對應於4：0：0、4：2：0、4：2：2或4：4：4格式。

對於幀間預測模式，時間重建參考幀(temporal reconstructed reference frames)可以被用於生成運動補償預測，需要發信與當前PU有關的運動向量(MV)以致可以定位參考塊。為了提高MV編解碼的編解碼效率，使用運動向量預測子(Motion Vector Predictor，簡稱MVP)對該MV進行預測性地編碼。因此，當使用MVP對PU進行編解碼的時候，獲得當前MV與MVP之間的運動向量殘差(motion vector difference，簡稱MVD)並在視訊位元流中發信，在解碼器側，該MV根據MV=MVP+MVD進行重建。

MVP由編碼器從先前編碼的空間與時間的複數個相鄰塊生成的MVP候選列表中確定，解碼器維持該MVP候選列表相同的副本(copy)。此外，編碼器基於複數個相鄰PU的特性選擇MVP作為用於當前MV的預測子，並在解碼器側執行相同的選擇進程，因此，不需要發信MVP選擇資訊(例如MVP索引)。當MVP用於預測當前PU的MV的時候，當前CU的MV可以與MVP的MV相同，在這種情況下，MVD是0並且不需要傳輸該MVD。當前PU的運動資訊可以繼承MVP的運動資訊，因此，可以從MVP的運動資訊中繼承用於當前MV的運動資訊(例如，運動向量、預測方向以及參考圖像數目)，該MVP可以不需要MVP索引在解碼器側中被決定，其使得MVP是用於MV編解碼的一種非常有效率的編解碼工具。

獲得用於當前PU的殘差作為當前PU與編碼器側的參考塊之間的殘差，該殘差可以由該編碼器發信。當MV與MVP相同的時候，僅需要發信該殘差而不需要發信MVD。因為MVP的運動信息可以直接用作為重建當前MV，編碼模式被稱為“Direct”模式。此外，當前PU與參考PU之間的殘差可以是非常小或者是0(也就是參考PU與當前PU非常接近或相同)，在這種情況下，不需要發信殘差以及編碼模式被稱為“Skip”模式，換句話說，Skip模式編碼的塊可以在解碼器側使用所獲得MVP資訊進行重建而不需要發信任何殘差或MVD。

根據AVS2，獲得MVP候選集用於非Direct/Direct模式的複數個CU以及非Skip/Skip模式的複數個CU。對於非Direct模式與非Skip模式的複數個CU，複數個MVP候選從如第1圖所示的位於 L(141)、U(130)、UR(132)以及UL(140)的複數個空間相鄰塊的複數個MV中獲得，其中當前圖像110中的塊112對應於當前PU。用於Direct模式的複數個CU與Skip模式的複數個CU的MVP候選集(candidate set)從第1圖所示的位於L(141)、U(130)、UR(132)、UL(140)、L1(142)以及U1(131)的複數個空間相鄰塊的複數個MV獲得。此外，用於Direct模式的複數個CU與Skip模式的複數個CU的MVP候選集也包括來自於參考圖像120中同位PU122中的左上角塊Col-T(150)的MV的時間MVP候選。

用於非Direct模式的複數個CU與非Skip模式的複數個CU的MVP的獲取進程描述如下，該MVP獲取基於與四個空間向量的複數個塊(也就是第1圖中的L(141)、U(130)、UR(132)以及UL(140))有關的複數個MV。位於L(141)、U(130)、UR(132)以及UL(140)的複數個MV分別被稱為MVA、MVB、MVC以及MVE。當前圖像中當前塊與參考圖像中參考塊之間的塊距離(稱為BlockDistance)由當前塊的MV所指出，並獲得該塊距離用於當前塊以及所有候選塊(也就是塊L、U、UL與UR)。如上所提到的，在AVS2中，語法元素field_coded_sequence用於指示當前序列是否是場編碼(field coded)序列，如果field_coded_sequence的值為1，則該當前序列是場編碼序列，否則，該當前序列不是場編碼序列。在MVP獲取中使用了兩個變數delta1與delta2，其中delta1與delta2的值從field_coded_sequence中決定，如果field_coded_sequence的值為0，delta1與delta2兩者都是0。否則，根據mvX(X對應於 A、B或C)是否與頂場(top field)或底場(bottom field)中的塊有關以及mvX是否指向頂場或底場，delta1與delta2的值落入{-2,0,2}。

根據當前塊的塊距離(也就是BlockDdistanceE)以及相鄰塊的塊距離(也就是BlockDistanceX)，複數個相鄰塊的複數個MV必須適當地縮放：MVA_x=Clip3(-32768,32767,Sign(mvA_x)×((Abs(mvA_x)×BlockDistanceE×(16384/BlockDistanceA)+8192)>>14)) MVA_y=Clip3(-32768,32767,Sign(mvA_y+delta1)×((Abs(mvA_y+delta1)×BlockDistanceE×(16384/BlockDistanceA)+8192)>>14)-delta2) MVB_x=Clip3(-32768,32767,Sign(mvB_x)×((Abs(mvB_x)×BlockDistanceE×(16384/BlockDistanceB)+8192)>>14)) MVB_y=Clip3(-32768,32767,Sign(mvB_y+delta1)×((Abs(mvB_y+delta1)×BlockDistanceE×(16384/BlockDistanceB)+8192)>>14)-delta2) MVC_x=Clip3(-32768,32767,Sign(mvC_x)×((Abs(mvC_x)×BlockDistanceE×(16384/BlockDistanceC)+8192)>>14)) MVC_y=Clip3(-32768,32767,Sign(mvC_y+delta1)×((Abs(mvC_y+delta1)×BlockDistanceE×(16384/BlockDistanceC)+8192)>>14)-delta2)

在上述等式中，Clips(i,j,x)是限幅函數(clipping function)，其限制變數x處於i與j之間的範圍；Abs(x)是絕對值函數；以及Sign(x)是符號函數(sign function)，為非負的x輸出1以及為負的x輸出-1。如上所示，在MVP縮放中，塊距離起到了重要的作用，該塊距離如下獲得：

如果參考圖像在當前圖像之前：○BlockDistance=[(DistanceIndexCur-DistanceIndexRef)+512]%512○DistanceIndexCur是當前圖像的DistanceIndex，以及○DistanceIndexRef是參考圖形的DistanceIndex。

如果參考圖像在當前圖像之後：BlockDistance=[(DistanceIndexRef-DistanceIndexCur)+512]%512

DistanceIndex從位元流的語法中獲得如下：●如果field_coded_sequence=0,DistanceIndex=POI×2+1,●如果field_coded_sequence=1,DistanceIndex=POI×2，以及●POI(圖像次序索引)是圖像次序索引並且從位元流的語法中獲得。

當相鄰塊的參考圖像是G或者GB圖像的時候，如果當前塊也是指向G或者GB參考圖像的時候，相鄰塊的BlockDistance沒有在AVS2中定義。複數個相鄰塊包括如第2圖所示的L(141)、U(130)、UR(132)以及UL(140)。根據AVS2，如果用於當前圖像的SceneReferenceEnableFlag等於1(也就是當前圖像被允許使用G或GB參考圖像)，以及僅當前MV以及mvX之一指向位於參考圖像緩衝器的(RefPicNum-1)(也就是用於存儲G或GB圖像的位置)的參考圖像，那麼BlockDistanceX被定義為1。

當BlockDistanceX未被定義的時候，它可能會在編解碼進程中導致嚴重的問題。如上所提到的，BlockDistanceX用於縮放MVP以考慮與相鄰塊的MV有關的塊距離以及當前MV的塊距離之間的差異。為了克服BlockDistanceX未定義的問題，本發明公開了確保與指向G或GB圖像的相鄰塊的MV有關的BlockDistanceX被適當地定義的進程。

有鑑於此，本發明公開了一種用於視訊編碼或解碼的方法及裝置，以確保定義當前塊的空間相鄰塊與對應的參考塊之間的時間距離。

公開了一種用於視訊編碼或解碼的方法以及裝置，由AVS2(第二代音視訊編碼標準)視訊轉碼器或解碼器分別使用。根據這一方法，決定與當前塊的複數個空間相鄰塊有關的複數個第一運動向量，其中每一該等第一運動向量從該當前塊的一空間相鄰塊指向一第一參考圖像中的一個第一參考塊；對於每一空間相鄰塊，如果該當前參考圖像與一對應的該第一參考圖像兩者都是G圖像或GB圖像，將一值1分配給與該空間相鄰塊有關的一第一參數，其中該第一參數對應於該當前塊的該空間相鄰塊與對應的參考塊之間的一時間距離，該對應的參考塊由該當前塊的該空間相鄰塊的一對應的第一運動向量指定；根據對應的一第一參數與一當前參數，透過縮放每一該第一運動向量從該等第一運動向量中獲得複數個運動向量預測子候選，其中該當前參數對應於該當前塊與一當前參考塊之間的一當前時間距離，該當前參考塊由該當前塊的一當前運動向量指定；在該等運動向量預測子候選中決定一最終運動向量預測子；使用該最終運動向量預測子對該當前運動向量進行編碼或解碼。該當前塊的該等空間相鄰塊由四個相鄰塊組成，該四個相鄰塊對應於左邊的塊、上邊的塊、右上角的塊以及左上角的塊。

本發明的複數個方面進一步提供了一種存儲程式指令的非瞬態電腦可讀媒介，該程式指令使裝置的處理電路執行上述所提到的視訊編解碼方法。

本發明在相鄰塊的參考圖像是G或者GB圖像的時候，將當前塊的空間相鄰塊與對應的參考塊之間的時間距離定義(也就是第一參數，即第一BlockDistance)為1，避免因第一參數未定義而在編解碼過程中產生相應的問題。

110‧‧‧當前圖像

120‧‧‧參考圖像

122‧‧‧同位PU

112、130、131、132、140、141、142、150‧‧‧塊

310~350‧‧‧步驟

第1圖示出了根據AVS2(第二代音視訊編碼標準)，用於獲得Direct模式與Skip模式運動向量預測候選清單的當前塊的空間相鄰塊以及時間同位塊。

第2圖示出了根據AVS2(第二代音視訊編碼標準)，用於獲得非Direct與Skip模式運動向量預測候選清單的當前塊的空間相鄰塊以及時間同位塊。

第3圖示出了根據本發明一實施例的合併運動向量預測的示例性視訊編碼系統的流程圖。

下面的描述是實施本發明的最佳實施方式，所做出的描述是為了說明本發明的基本原則且不應該做限制性理解，本發明的範圍由參考所附申請專利範圍最佳確定。

如上述所提到的，當相鄰塊的參考圖像是G或者GB圖像的時候，如果當前塊也是指向G或GB參考圖像，沒有在AVS2中定義相鄰塊的參數，也就是BlockDistance，如第2圖所示，複數個相鄰塊包括L(141)、U(130)、UR(132)以及UL(140)，參數BlockDistance用於MVP縮放。如果BlockDistance未被適當地定義，它可能會影響MVP縮放的正確性，因此，可能會降低編碼效率。

為了克服這一問題，本發明的一實施例檢測相鄰塊的參考圖像是否是G或GB圖像，如果相鄰塊的參考圖像是G或GB圖像，與相鄰塊的運動向量有關的BlockDistance被分配給1，因此，相鄰塊的BlockDistance將一直是被定義的。

第3圖示出了根據本發明一實施例的合併運動向量預測的示例性視訊編解碼系統的流程圖。流程圖中所示的步驟可以被實施為在解碼器側一或複數個處理器(例如一或複數個CPU)可執行的程式碼，流程圖中所示的步驟也可以基於硬體實施，例如用於執行流程圖中的步驟的一或複數個電子設備或處理器。根據這一方法，如步驟310所示，決定與一當前塊的複數個空間相鄰塊有關的複數個第一運動向量，其中每一第一運動向量從該當前塊的一空間相鄰塊指向一第一參考圖像中的一第一參考塊。如上述所提到的，如第2圖所示的該當前塊的複數個空間相鄰塊包括L(141)、U(130)、UR(132)以及UL(140)，在編碼器側，這些相鄰塊已經被編碼並且複數個MV(稱為複數個第一運動向量)是已知的，在解碼器側，這些相鄰塊的複數個MV已經被解碼並且是已知的，這些空間相鄰塊的複數個MV用於獲得MVP候選列表。如步驟320所示，對於每一空間相鄰塊，如果對應的第一參考圖像是G或者GB圖像，將值1分配給與該空間相鄰塊有關的第一BlockDistance，其中該第一BlockDistance對應於該當前塊的空間相鄰塊與對應的參考塊之間的時間距離，該對應的參考塊由該當前塊的該空間相鄰塊的對應的第一運動向量指定。在編碼器側以及解碼器側執行MVP候選列表的獲得，如上述所提到的，根據AVS2，這種情況下的BlockDistance未被定義。在步驟330中，根據對應的第一BlockDistance與當前BlockDistance，透過縮放每一第一運動向量從該等第一運動向量中獲得複數個運動向量預測子候選，其中當前BlockDistance對應於該當前塊與當前參考塊之間的當前時間距離(current temporal distance)，該當前參考塊由該當前塊的當前運動向量所指定。如之前所提到的，相鄰塊的運動向量可以指向不同於該當前塊的目標參考圖像的參考圖像，因此，該MVP需要使用該BlockDistance進行縮放。在步驟340中，在該等運動向量預測子候選中決定最終一運動向量預測子。在解碼器側，該最終運動向量預測子可以透過選擇實現最佳編碼性能的一MVP候選來決定。如本領域技術人員所習知的，編碼器可以使用率失真優化(rate-distortion optimization，簡稱RDO)進程以選擇最佳MVP候選，該最終MVP被發信到解碼器以致解碼器可以根據MVP索引從該 MVP候選列表中決定該最終MVP。在步驟350中，使用該最終運動向量預測子對該當前運動向量進行編碼或解碼。

上述所示的流程圖旨在說明根據本發明的視訊編碼或解碼進程的示例。在不背離本發明精神的情況下，本領域技術人員可以修改每一步驟、重新排列這些步驟、拆分一個步驟或者合併複數個步驟以實施本發明，在本發明中，已經使用了特定的語法與語義以說明實施本發明實施例的示例，本領域技術人員在不背離本發明精神的前提下，可以透過用相等的語法與語義替換這些語法與語義來實施本發明。

Claims

一種視訊編碼或解碼方法，該方法包括：決定與當前塊的複數個空間相鄰塊有關的複數個第一運動向量，其中每一該等第一運動向量從該當前塊的一空間相鄰塊指向一第一參考圖像中的一第一參考塊；對於每一空間相鄰塊，如果該當前參考圖像與一對應的該第一參考圖像兩者都是G圖像或GB圖像，將一值1分配給與該空間相鄰塊有關的一第一參數，其中該第一參數對應於該當前塊的該空間相鄰塊與對應的參考塊之間的一時間距離，該對應的參考塊由該當前塊的該空間相鄰塊的一對應的第一運動向量指定；根據對應的一第一參數與一當前參數，透過縮放每一該第一運動向量從該等第一運動向量中獲得複數個運動向量預測子候選，其中該當前參數對應於該當前塊與一當前參考塊之間的一當前時間距離，該當前參考塊由該當前塊的當前運動向量指定；在該等運動向量預測子候選中決定一最終運動向量預測子；以及使用該最終運動向量預測子對該當前運動向量進行編碼或解碼。
如申請專利範圍第1項所述之視訊編碼或解碼方法，其中該當前塊的該等空間相鄰塊由四個相鄰塊組成，該四個相鄰塊對應於左邊的塊、上邊的塊、右上角的塊以及左上角的塊。
一種視訊編碼或解碼裝置，該裝置包括一或複數個電子電路或處理器用於：決定與當前塊的複數個空間相鄰塊有關的複數個第一運動向量，其中每一該等第一運動向量從該當前塊的一空間相鄰塊指向一第一參考圖像中的一第一參考塊；對於每一空間相鄰塊，如果該當前參考圖像與一對應的該第一參考圖像兩者都是G圖像或GB圖像，將一值1分配給與該空間相鄰塊有關的一第一參數，其中該第一參數對應於該當前塊的該空間相鄰塊與對應的參考塊之間的一時間距離，該對應的參考塊由該當前塊的該空間相鄰塊的一對應的第一運動向量指定；根據對應的一第一參數與一當前參數，透過縮放每一該第一運動向量從該等第一運動向量中獲得複數個運動向量預測子候選，其中該當前參數對應於該當前塊與一當前參考塊之間的一當前時間距離，該當前參考塊由該當前塊的當前運動向量指定；在該等運動向量預測子候選中決定一最終運動向量預測子；以及使用該最終運動向量預測子對該當前運動向量進行編碼或解碼。
如申請專利範圍第3項所述之視訊編碼或解碼裝置，其中該當前塊的該等空間相鄰塊由四個相鄰塊組成，該四個相鄰塊對應於左邊的塊、上邊的塊、右上角的塊以及左上角的塊。
一種存儲程式指令的非瞬態電腦可讀介質，使裝置的處理電路執行視訊編碼或解碼方法，該方法包括：決定與當前塊的複數個空間相鄰塊有關的複數個第一運動向量，其中每一該等第一運動向量從該當前塊的一空間相鄰塊指向一第一參考圖像中的一第一參考塊；對於每一空間相鄰塊，如果該當前參考圖像與一對應的該第一參考圖像兩者都是G圖像或GB圖像，將一值1分配給與該空間相鄰塊有關的一第一參數，其中該第一參數對應於該當前塊的該空間相鄰塊與對應的參考塊之間的一時間距離，該對應的參考塊由該當前塊的該空間相鄰塊的一對應的第一運動向量指定；根據對應的一第一參數與一當前參數，透過縮放每一該第一運動向量從該等第一運動向量中獲得複數個運動向量預測子候選，其中該當前參數對應於該當前塊與一當前參考塊之間的一當前時間距離，該當前參考塊由該當前塊的當前運動向量指定；在該等運動向量預測子候選中決定一最終運動向量預測子；以及使用該最終運動向量預測子對該當前運動向量進行編碼或解碼。
如申請專利範圍第5項所述之存儲程式指令的非瞬態電腦可讀介質，其中該當前塊的該等空間相鄰塊由四個相鄰塊組成，該四個相鄰塊對應於左邊的塊、上邊的塊、右上角的塊以及左上角的塊。