TWI866163B

TWI866163B - 使用梯度和模板改進幀內模式推導和預測的方法和裝置

Info

Publication number: TWI866163B
Application number: TW112113631A
Authority: TW
Inventors: 蔡佳銘; 陳俊嘉; 江嫚書; 莊政彥; 林郁晟; 莊子德; 徐志瑋; 陳慶曄; 黃毓文
Original assignee: 聯發科技股份有限公司
Priority date: 2022-04-15
Filing date: 2023-04-12
Publication date: 2024-12-11
Also published as: TW202344053A; EP4508841A1; WO2023197837A9; WO2023197837A1; CN119547431A; US20250343945A1

Abstract

用於視頻編解碼的方法和設備。當當前塊的當前幀內角度預測模式不在MPM列表中時，根據基於DIMD或TIMD導出的第一信息來發送或解析與當前塊的當前幀內預測模式相關的模式語法。基於包括第一信息和模式語法的第二信息生成最終幀內預測子。使用基於包括語法的信息導出的最終模式對當前塊進行編碼或解碼。

Description

使用梯度和模板改進幀內模式推導和預測的方法和裝置

本發明涉及視頻編碼系統中的幀內預測。特別地，本發明涉及使用DIMD（Decoder Side Intra Mode Derivation，解碼器側幀內模式推導）或TIMD（Template-based Intra Mode Derivation，基於模板的幀內模式推導）的幀內預測模式的位元節省技術。

通用視頻編碼(VVC)是由ITU-T視頻編碼專家組(VCEG)的聯合視頻專家組(JVET)和ISO/IEC運動圖像專家組(MPEG)共同製定的最新國際視頻編碼標準,該標準已作為 ISO 標準發布：ISO/IEC 23090-3:2021，信息技術 - 沉浸式媒體的編碼表示-第3部分：通用視頻編碼，2021年2月發布。VVC是在其前身 HEVC（High Efficiency Video Coding）通過添加更多的編解碼工具來提高編解碼效率，還可以處理各種類型的視頻源，包括3維（3D）視頻信號。

第1A圖說明了包含循環處理的示例性自適應幀間/幀內視頻編碼系統。對於幀內預測，預測資料是根據當前圖片中先前編碼的視頻資料導出的。對於幀間預測112，在編碼器側執行運動估計(ME)並且基於ME的結果執行運動補償(MC)以提供從其他圖片和運動資料導出的預測資料。開關114選擇幀內預測110或幀間預測112並且所選擇的預測資料被提供給加法器116以形成預測誤差，也稱為殘差。預測誤差然後由變換(T)118和隨後的量化(Q)120處理。變換和量化的殘差然後由熵編碼器122編碼以包括在對應於壓縮視頻資料的視頻位元流中。與變換係數相關聯的位元流然後與輔助信息（例如與幀內預測和幀間預測相關聯的運動和編碼模式）以及其他信息（例如與應用於底層圖像區域的環路濾波器相關聯的參數）一起打包。與幀內預測110、幀間預測112和環內濾波器130相關聯的輔助信息被提供給熵編碼器122，如第1A圖所示。當使用幀間預測模式時，也必須在編碼器端重建一個或多個參考圖片。因此，經變換和量化的殘差由逆量化（IQ）124和逆變換（IT）126處理以恢復殘差。然後在重建(REC)128處將殘差加回到預測資料136以重建視頻資料。重建的視頻資料可以存儲在參考圖片緩衝器134中並用於預測其他幀。

如第1A圖所示，輸入的視頻資料在編碼系統中經過一系列處理。由於一系列處理，來自REC128的重建視頻資料可能會受到各種損害。因此，環路濾波器130經常在重構視頻資料被存儲在參考圖片緩衝器134中之前應用於重構視頻資料以提高視頻質量。例如，可以使用去塊濾波器（DF）、樣本自適應偏移（SAO）和自適應環路濾波器（ALF）。可能需要將環路濾波器信息合併到位元流中，以便解碼器可以正確地恢復所需的信息。因此，環路濾波器信息也被提供給熵編碼器122以合併到位元流中。第1A圖中，環路濾波器130在重構樣本被存儲在參考圖片緩衝器134中之前被應用於重構視頻。第1A圖中的系統旨在說明典型視頻編碼器的示例性結構。它可能對應於高效視頻編碼 (HEVC) 系統、VP8、VP9、H.264 或 VVC。

如第1B圖所示，解碼器可以使用與編碼器相似或相同的功能塊，除了變換118和量化120之外，因為解碼器只需要逆量化124和逆變換126。替代熵編碼器122，解碼器使用熵解碼器140將視頻位元流解碼為量化的變換係數和所需的編碼信息(例如ILPF信息、幀內預測信息和幀間預測信息)。解碼器側的幀內預測150不需要執行模式搜索。相反，解碼器僅需要根據從熵解碼器140接收的幀內預測信息生成幀內預測。此外，對於幀間預測，解碼器僅需要根據從熵解碼器140接收的幀間預測信息執行運動補償（MC152）而無需運動估計。

根據VVC，類似於HEVC，輸入圖片被劃分為稱為CTU(編碼樹單元）的非重疊方形塊區域。每個CTU都可以劃分為一個或多個較小尺寸的編碼單元(CU)。生成的CU分區可以是正方形或矩形。此外，VVC將CTU劃分為預測單元(PU)，作為應用預測過程的單元，例如幀間預測、幀內預測等。

VVC標準合併了各種新的編碼工具以進一步提高超過HEVC標準的編碼效率。在各種新的編碼工具中，與本發明相關的一些編碼工具綜述如下。

使用樹結構劃分 CTU

在HEVC中，通過使用表示為編碼樹的四叉樹(QT)結構將CTU分成CU以適應各種局部特性。使用圖片間（時間）或圖片內（空間）預測對圖片區域進行編碼的決定是在葉CU級別做出的。每個葉CU可以根據PU分割類型進一步分割成一個、兩個或四個PU。在一個PU內部，應用相同的預測過程，並將相關信息以PU為基礎傳輸到解碼器。在通過應用基於PU分割類型的預測過程獲得殘差塊之後，葉CU可以根據類似於CU的編碼樹的另一種四叉樹結構被劃分為變換單元（TU）。HEVC結構的關鍵特徵之一是它具有多個分區概念，包括CU、PU和TU。

在VVC中，使用二元和三元分割結構的具有嵌套多類型樹的四叉樹取代了多分割單元類型的概念，即它除了對於具有對於最大變換長度來說尺寸太大的CU來説，去除了CU、PU和TU概念的分離，並且支持更靈活的CU分區形狀。在編碼樹結構中，CU可以是正方形或長方形。編碼樹單元(CTU)首先按四叉樹(quaternary tree)（也稱為quadtree）結構進行分區。然後四叉樹葉節點可以進一步劃分為多類型樹結構。如第2圖所示，多類型樹結構中有四種分割類型，垂直二元分割（SPLIT_BT_VER 210），水平二元分割（SPLIT_BT_HOR 220），垂直三元分割（SPLIT_TT_VER 230），水平三元分割（SPLIT_TT_HOR 240）。多類型樹葉節點稱為編碼單元(CU)，除非CU對於最大變換長度來說太大，否則此分段將用於預測和變換處理，而無需進一步劃分。這意味著，在大多數情況下，CU、PU和TU在具有嵌套多類型樹編碼塊結構的四叉樹中具有相同的塊大小。當支持的最大變換長度小於CU顏色分量的寬度或高度時會發生異常。

第3圖示出了具有嵌套多類型樹編碼樹結構的四叉樹中的分區分割信息的信令機制。編碼樹單元（CTU）被視為四叉樹的根，並且首先由四叉樹結構劃分。每個四叉樹葉節點（當足夠大以允許它時）然後由多類型樹結構進一步劃分。在多類型樹結構中，發送第一標誌(mtt_split_cu_flag)以指示節點是否被進一步劃分；當一個節點被進一步劃分時，第二個標誌（mtt_split_cu_vertical_flag）被發送以指示分割方向，然後第三個標誌（mtt_split_cu_binary_flag）被發送以指示分割是二元分割還是三元分割。根據mtt_split_cu_vertical_flag和mtt_split_cu_binary_flag的值，推導出一個CU的多類型樹分割模式（MttSplitMode），如表1所示。表1 – 基於多類型樹語法元素導出MttSplitMode

MttSplitMode	mtt_split_cu_vertical_flag	mtt_split_cu_binary_flag
SPLIT_TT_HOR	0	0
SPLIT_BT_HOR	0	1
SPLIT_TT_VER	1	0
SPLIT_BT_VER	1	1

第4圖示出了CTU被劃分為具有四叉樹和嵌套多類型樹編碼塊結構的多個CU，其中粗體塊邊緣表示四叉樹分區，其餘邊緣表示多類型樹分區。具有嵌套多類型樹分區的四叉樹提供了由CU組成的內容自適應編碼樹結構。CU的大小可以與CTU一樣大，也可以以亮度樣本為單位小至 4×4。對於4:2:0色度格式，最大色度CB大小為64×64，最小色度CB大小由16個色度樣本組成。

在VVC中，支持的最大亮度變換大小為64×64，支持的最大色度變換大小為32×32。當CB的寬度或高度大於最大變換寬度或高度時，CB會自動在水平和/或垂直方向上拆分以滿足該方向上的變換大小限制。

以下參數由用於具有嵌套多類型樹編碼樹方案的四叉樹的SPS語法元素定義和指定。 –CTU 尺寸：四叉樹的根節點大小 – MinQTSize：允許的最小四叉樹葉節點大小 – MaxBtSize：允許的最大二叉樹根節點大小 – MaxTtSize：最大允許的三叉樹根節點大小 – MaxMttDepth：從四叉樹葉節點分割出的多類型樹的最大允許深度 – MinBtSize：允許的最小二叉樹葉節點大小 – MinTtSize：允許的最小三叉樹葉節點大小

在具有嵌套多類型樹編碼樹結構的四叉樹的一個示例中，CTU大小被設置為128×128亮度樣本和兩個對應的64×64塊的4:2:0色度樣本， MinQTSize被設置為16×16， MaxBtSize設置為128×128， MaxTtSize設置為64×64， MinBtSize和 MinTtSize（寬度和高度）設置為4×4，MaxMttDepth設置為4。樹劃分首先應用於CTU以生成四叉樹葉節點。四叉樹葉節點的大小可以從16×16（即 MinQTSize）到128×128（即CTU大小）。如果葉QT節點為128×128，由於大小超過了 MaxBtSize和 MaxTtSize（即64×64），二叉樹將不再進一步分割。否則，四叉樹葉節點可能會被多類型樹進一步劃分。因此，四叉樹葉節點也是多元樹的根節點，其多元樹深度（ mttDepth）為0。當多元樹深度達到 MaxMttDepth（即4）時，被認為不再進一步分割。當多類型樹節點的寬度等於 MinBtSize且小於或等於2 * MinTtSize時，不再考慮進一步水平分割。類似地，當多類型樹節點的高度等於 MinBtSize且小於或等於2 * MinTtSize時，不考慮進一步的垂直分割。

在VVC中，編碼樹方案支持亮度和色度具有單獨的塊樹結構的能力。對於P和B切片，一個CTU中的亮度和色度CTB必須共享相同的編碼樹結構。然而，對於I切片，亮度和色度可以具有單獨的塊樹結構。當應用分別的塊樹模式時，亮度CTB被一種編碼樹結構分割成CU，色度CTB被另一種編碼樹結構分割成色度CU。這意味著I切片中的CU可能由亮度分量的編碼塊或兩個色度分量的編碼塊組成，而P或B切片中的CU總是由所有三種顏色分量的編碼塊組成，除非視頻是單色。

虛擬管道資料單元（ Virtual Pipeline Data Units ， VPDU)

虛擬流水線資料單元(VPDU)被定義為畫面中的非重疊單元。在硬件解碼器中，連續的VPDU由多個流水線級同時處理。在大多數流水線階段，VPDU大小與緩衝區大小大致成正比，因此保持VPDU大小較小很重要。在大多數硬件解碼器中，VPDU大小可以設置為最大變換塊(TB)大小。然而，在VVC中，三叉樹(TT)和二叉樹(BT)分區可能會導致VPDU大小增加。

為了將VPDU大小保持為64x64亮度樣本，在VTM中應用以下規範分區限制（具有語法信令修改），如第5圖所示： – 對於寬度或高度或寬度和高度均等於128的CU，不允許進行TT拆分（如第5圖中的“X”所示）。 –對於N≤64的128xNCU（即寬度等於128且高度小於128），不允許水平BT。

對於N≤64(即高度等於128且寬度小於128)的Nx128 CU，不允許垂直BT。在第5圖中，亮度塊大小為128x128。虛線表示塊大小為64x64。根據上述約束條件，不允許分區的示例用“X”表示，如第5圖中的各種示例（510-580）所示。

具有 67 種幀內預測模式的幀內模式編碼

為了捕獲自然視頻中呈現的任意邊緣方向，VVC中的方向幀內模式的數量從HEVC中使用的33個擴展到65個。HEVC中沒有的新方向模式在第6圖中被描繪為虛線箭頭、平面和DC模式保持不變。這些更密集的方向幀內預測模式適用於所有塊大小以及亮度和色度幀內預測。

在VVC中，針對非正方形塊，幾種傳統的角度幀內預測模式被自適應地替換為廣角(wide-angle)幀內預測模式。

在HEVC中，每個幀內編碼塊具有正方形形狀並且其每條邊的長度是2的冪。因此，不需要除法運算來使用DC模式生成幀內預測器。在VVC中，塊可以具有矩形形狀，這在一般情況下需要對每個塊使用除法運算。為了避免DC預測的除法操作，只有較長的邊用於計算非方形塊的平均值。

為了保持最可能模式(MPM)列表生成的複雜度較低，通過考慮兩個可用的相鄰幀內模式，使用具有6個MPM的幀內模式編碼方法。構建MPM列表考慮以下三個方面： – 默認幀內模式 – 相鄰幀內模式 – 導出的幀內模式。

統一的6-MPM列表用於幀內塊，而不管是否應用MRL和ISP編碼工具。MPM列表是基於左側和上方相鄰塊的幀內模式構建的。假設左邊的模式記為Left，上方塊的模式記為Above，則統一的MPM列表構造如下： – 當相鄰塊不可用時，其幀內模式默認設置為平面。 – 如果Left和Above兩種模式都是非角度模式： – MPM 列表 →{平面, DC, V, H, V − 4, V + 4} – 如果Left和Above模式之一是角度模式，另一個是非角度模式： – 將模式Max設置為Left和Above中的較大模式 –MPM列表→{平面, Max, DC, Max − 1, Max + 1, Max − 2} – 如果Left和Above都是有角度的並且它們不同： – 將模式Max設置為Left和Above中的較大模式 – 如果模式Left和Above的差異在2到62的範圍內，包括 •MPM列表→{平面, Left, Above, DC, Max − 1, Max + 1} - 否則 •MPM列表→{平面, Left, Above, DC, Max − 2, Max + 2} – 如果 Left 和 Above 都是有角度的並且它們是相同的： –MPM列表→{平面, Left, Left − 1, Left + 1, DC, Left − 2}

此外，MPM索引碼字的第一個二進制碼（bin）是CABAC上下文編碼的。總共使用了三個上下文，對應於當前幀內塊是啟用MRL、啟用ISP還是正常幀內塊。

在6 MPM列表生成過程中，修剪用於去除重複的模式，使得只有獨特的模式可以被包括到MPM列表中。對於61種非MPM模式的熵編碼，使用截斷二進制代碼(Truncated Binary Code， TBC)。

非方形塊的廣角幀內預測

常規角度幀內預測方向被定義為順時針方向從45度到-135度。在VVC中，幾種傳統的角度幀內預測模式被自適應地替換為非方形塊的廣角幀內預測模式。替換的模式使用原始模式索引發出信號，原始模式索引在解析後重新映射到廣角模式的索引。幀內預測模式總數不變，即67，幀內模式編碼方式不變。

為了支持這些預測方向，分別如第7A圖和第7B圖所示定義了長度為2W+1的頂部參考和長度為2H+1的左側參考。

廣角方向模式中替換模式的數量取決於塊的縱橫比。替換的幀內預測模式如表 2 所示。表 2 – 被廣角模式取代的幀內預測模式

縱橫比	替代的幀内預測模式
W / H == 16	模式 12, 13,14,15
W / H == 8	模式 12, 13
W / H == 4	模式 2,3,4,5,6,7,8,9,10,11
W / H == 2	模式 2,3,4,5,6,7,
W / H == 1	無
W / H == 1/2	模式 61,62,63,64,65,66
W / H == 1/4	模式 57,58,59,60,61,62,63,64,65,66
W / H == 1/8	模式 55, 56
W / H == 1/16	模式 53, 54, 55, 56

在VVC中，支持4:2:2、4:4:4以及4:2:0色度格式。4:2:2 色度格式的色度導出模式(derived mode，DM)推導表最初是從HEVC移植的，將條目數從35擴展到67，以與幀內預測模式的擴展保持一致。由於HEVC規範不支持-135˚以下和45˚以上的預測角度，亮度幀內預測模式從2到5映射到2。因此，4:2:2色度格式的色度DM推導表更新方式是替換映射表條目的一些值，以更精確地轉換色度塊的預測角度。

解碼器端幀內模式推導 (DIMD)

當應用DIMD時，兩個幀內模式從重建的相鄰樣本中導出，並且這兩個預測與平面模式預測結合，權重從梯度中導出。DIMD模式用作替代預測模式，並始終在高複雜度RDO（Rate-Distortion Optimization，率失真最優化）模式下進行檢查。

為了隱式導出塊的幀內預測模式，在編碼器和解碼器側都執行紋理梯度分析(texture gradient analysis)。此過程從具有65個條目的空梯度直方圖(HoG)開始，對應於65個角度模式。這些條目的幅度在紋理梯度分析期間確定。

在第一步中，DIMD從當前塊的左側和上方分別選取一個T=3列和行的模板（template）。該區域用作基於梯度的幀內預測模式推導的參考。

在第二步中，水平和垂直Sobel濾波器應用於所有3×3窗口位置，以模板中線的像素為中心。在每個窗口位置，索貝爾濾波器計算純水平和垂直方向的強度分別為和。然後，窗口的紋理角度計算為： (1)

可以轉換為 65 種角度幀內預測模式之一。一旦當前窗口的幀內預測模式索引被導出為 idx，其在HoG[ idx]中的條目的幅度通過添加更新： (2)

第8A-C圖顯示了在對模板中的所有像素位置應用上述操作之後計算的HoG的示例。第8A圖圖示了為當前塊810選擇的模板820的示例。模板1020包括當前塊上方的T行和當前塊左側的T列。對於當前塊的幀內預測，當前塊上方和左側的區域830對應於重構區域，而塊下方和右側的區域840對應於不可用區域。第8B圖圖示了T＝3的示例並且HoG是針對中間行中的像素860和中間列中的像素862計算的。例如，對於像素852，使用3x3窗口850。第8C圖圖示了對於如從等式(1)確定的角度幀內預測模式，基於等式(2)計算的幅度(Ampl)的示例。

一旦計算出HoG，就選擇具有兩個最高直方圖條的索引作為塊的兩個隱式導出的幀內預測模式，並進一步與平面模式集合合作為DIMD模式的預測。預測融合被應用為上述三個預測變量的加權平均。為此，平面的權重固定為21/64（~1/3）。剩餘的43/64(~2/3)權重然後在兩個HoG IPM之間共享，與它們的HoG條的幅度成比例。第9圖說明了混合過程的示例。如第9圖所示，根據具有直方圖條1110的兩個最高條的索引選擇兩個幀內模式（M ₁912和M ₂914）。三個預測子（ Pred ₁ 940、 Pred ₂ 942和 Pred ₃ 944）用於形成混合預測。三個預測子對應於將M ₁、M ₂和平面幀內模式（分別為920、922和924）應用到參考像素930以形成相應的預測子。三個預測變量由相應的加權因子（ω ₁, ω ₂與ω ₃）950加權。使用加法器952對加權預測變量求和以生成混合預測變量960。

此外，將兩個隱式導出的幀內模式包含在MPM列表中，以便在構造MPM列表之前執行DIMD過程。DIMD塊的主要導出幀內模式與塊一起存儲，並用於相鄰塊的MPM列表構造。

基於模板的幀內模式推導（ TIMD)

基於模板的幀內模式推導（TIMD)模式在編碼器和解碼器處使用相鄰模板隱式地推導CU的幀內預測模式，而不是將幀內預測模式發信號通知給解碼器。如第10圖所示，使用每個候選模式的模板的參考樣本（1020和1022）生成當前塊1010的模板的預測樣本（1012和1014）。成本被計算為模板的預測樣本和重建樣本之間的SATD（絕對轉換差異之和）。選擇成本最小的幀內預測模式作為DIMD模式並用於CU的幀內預測。候選模式可以是如VVC中的67種幀內預測模式或擴展到131種幀內預測模式。通常，MPM可以提供線索來指示CU的方向信息。因此，為了減少幀內模式搜索空間並利用CU的特性，可以從MPM列表中隱式導出幀內預測模式。

對於MPM中的每個幀內預測模式，計算模板的預測和重建樣本之間的SATD。選擇具有最小SATD的前兩種幀內預測模式作為TIMD模式。這兩種TIMD模式在應用PDPC過程後與權重融合，這種加權的幀內預測用於對當前CU進行編碼。位置相關幀內預測組合(Position dependent intra prediction combination， PDPC)包含在TIMD模式的推導中。

將兩種選擇模式的成本與閾值進行比較，在測試中，成本因子2應用如下： costMode2＜2* costMode1。其中costMode2為模式2成本，costMode1為模式1成本。

如果該條件為真，則應用融合，否則僅使用模式1。模式的權重(weight)根據其SATD成本計算如下： weight1 = costMode2/(costMode1+ costMode2) weight2 = 1 - weight1。

在本公開中，公開了改進幀內預測模式以節省位元的方法和裝置。

公開了一種用於視頻編解碼的方法和設備。根據該方法，在編碼器側接收與當前塊相關聯的像素資料或在解碼器側與待解碼的當前塊相關聯的編碼資料。當當前塊的當前幀內角度預測模式不在可能模式集合中時，根據基於DIMD(解碼器側幀內模式推導)或TIMD(基於模板幀内模式推導)的第一信息，信令發送或者解析用於當前塊的當前幀内預測模式的模式語法，其中可能的模式集合包括最可能模式(Most Probable Modes，MPM)列表中的候選模式。基於包括第一信息和模式語法的第二信息生成最終幀內預測子。

在一個實施例中，將所有幀內角度預測模式劃分為多個集合，並且第一信息對應於基於DIMD或TIMD為當前塊確定的目標集合。在另一個實施例中，模式語法與指示目標集合內的當前幀内角度預測模式有關。

在一個實施例中，可能的模式集合包括MPM列表中的候選模式、使用除DIMD和TIMD之外的隱式編碼工具導出的精確幀內預測模式、或其組合。

根據本發明的另一種方法，為當前塊確定初始MPM(最可能模式)列表。使用當前塊的模板生成一個或多個DIMD候選模式。確定與當前塊的一個或多個相鄰塊相關聯的一個或多個相鄰幀內預測模式。通過將一個或多個附加候選模式添加到初始MPM列表來生成最終MPM列表，其中所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式。使用包含最終MPM列表的信息對當前塊進行編碼或解碼。

在一個實施例中，所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式、所述一個或多個相鄰幀內預測模式、所述一個或多個DIMD候選模式的一個或多個導出模式、所述一個或多個相鄰幀內預測模式的一個或多個導出模式、或其組合。在一個實施例中，所述一個或多個DIMD候選模式的所述一個或多個導出模式包括模式編號對應於(一個DIMD候選模式+k)的模式，其中k是非零整數。在一個實施例中，所述一個或多個相鄰幀內預測模式的所述一個或多個導出模式包括模式編號對應於(一個相鄰幀內預測模式+k)的模式，其中k是非零整數。

在一個實施例中，所述一個或多個相鄰幀內預測模式包括上方相鄰塊的上方相鄰幀內預測模式、頂部相鄰塊的頂部相鄰幀內預測模式或兩者。在另一實施例中，在所述一個或多個相鄰幀內預測模式的所述一個或多個導出模式之後或在所述一個或多個相鄰幀內預測之後，將所述一個或多個DIMD候選模式的所述一個或多個導出模式包括在最終MPM列表中。

將容易理解的是，如本文附圖中大體描述和圖示的本發明的組件可以以多種不同的配置來佈置和設計。因此，以下對如圖所示的本發明的系統和方法的實施例的更詳細描述並不旨在限制所要求保護的本發明的範圍，而僅代表本發明的選定實施例 . 貫穿本說明書對“一個實施例”、“一個實施例”或類似語言的引用意味著結合該實施例描述的特定特徵、結構或特性可以包括在本發明的至少一個實施例中。因此，貫穿本說明書各處出現的短語“在一個實施例中”或“在一個實施例中”不一定都指代相同的實施例。

此外，所描述的特徵、結構或特性可以以任何合適的方式組合在一個或多個實施例中。然而，相關領域的技術人員將認識到，本發明可以在沒有一個或多個特定細節的情況下，或使用其他方法、組件等來實踐。在其他情況下，未顯示或未顯示眾所周知的結構或操作詳細描述以避免模糊本發明的方面。參考附圖將最好地理解本發明的所示實施例，其中相同的部分自始至終由相同的數字表示。下面的描述僅旨在作為示例，並且簡單地說明與如本文要求保護的本發明一致的設備和方法的某些選定實施例。

提出以下方法來提高幀內模式推導和預測精度或編碼性能：

藉由 TIMD/DIMD 的剩餘模式信令

如前所述，在HEVC和VVC中，使用MPM列表以提高當前幀內預測模式的編碼效率。當當前幀內預測模式在MPM列表中時，當前幀內預測模式可以被有效地編碼，因為MPM列表僅包含少量候選者（例如6）。如果當前幀內預測模式不在MPM列表中，則當前幀內預測模式稱為剩餘模式(remaining mode)。在這種情況下，編碼器需要用信號通知剩餘模式中的哪一個是當前幀內預測模式。由於剩餘模式的候選較多，因此希望提高當前幀內預測模式為剩餘模式時的編碼效率。因此，公開了一種利用DIMD/TIMD的方法，以在當前幀內預測模式為剩餘模式的情況下改進信令。

根據該方法，如果當前幀内角度預測模式是剩餘模式，則當前幀内角度預測模式的信令取決於通過使用DIMD/TIMD導出的導出幀内角度模式。在HEVC和VVC中，當當前幀內預測模式不在MPM列表中時，稱為剩餘模式。在本發明中，當當前幀內預測模式不在MPM(Most Probable Modes)列表中，或被其他隱式幀內編碼工具準確預測時，稱為剩餘模式。本發明已經擴展了可能的模式集合以包括MPM列表和使用除DIMD和TIMD之外的隱式編碼工具導出的精確幀內預測模式(precise intra prediction mode)。使用與由DIMD/TIMD導出的導出幀内角度模式相關的信息的關鍵思想是縮小或減少要用信號通知的剩餘模式的候選者的數量。例如，首先將所有角度模式劃分為多個模式集合，然後使用DIMD/TIMD導出當前幀內預測模式所屬的最可能的模式集合。當最可能的模式集合被確定時，一些額外的編碼位元（對應於一個或多個語法，例如模式語法）被用信令發送以指示最可能的模式集合內的實際當前幀内角度預測模式。預計最可能模式集合中的候選者數量遠小於剩餘模式的數量。因此，根據本發明提高了編碼效率。

在 MPM 列表中包括 DIMD 導出模式

當導出MPM列表時，一個或多個DIMD導出模式、DIMD導出模式的一個或多個導出模式或兩者可以包括在MPM列表中。在一個實施例中，MPM列表包括：平面模式、一個或多個上相鄰幀內模式(即上相鄰塊的幀內模式)、一個或多個左相鄰幀內模式(即左相鄰塊的幀內模式)、一個或多個DIMD導出模式，一個或多個相鄰模式的導出模式（例如，相鄰模式+k，或相鄰模式-k），一個或多個DIMD導出模式的導出模式（例如，DIMD導出模式 +k，或DIMD導出模式-k)，一個或多個默認模式、或它們的任意組合。在上述描述中，(相鄰模式+k)對應於模式編號等於((相鄰模式的模式編號)+k)的幀內模式，k為正整數。對於VVC，模式號是從0到66，其他編碼標準的模式編號可能不同。

在一個實施例中，DIMD導出模式的導出模式在包括相鄰模式的導出模式之後，或者在包括上相鄰幀內模式或左相鄰幀內模式之後被包含在MPM列表中。在又一實施例中，僅DIMD導出模式中具有最高幅度的導出模式被包括在MPM列表中。在又一個實施例中，只有具有第i個最高幅度的DIMD導出模式的導出模式被包括在MPM列表中。

指示 DIMD 和 TIMD 模式的開 / 關

在指示DIMD和TIMD的開/關控制語法之前，可以用信令發送第一語法以指示對於當前塊是否允許/啟用DIMD或TIMD中的一個。例如，如果第一個語法為假，則推斷當前塊不允許/啟用DIMD或TIMD。在這種情況下，DIMD和TIMD的開/關控制語法未用信號通知。又例如，如果第一語法為真而DIMD開/關控制語法為假，則TIMD被隱式推斷為對於當前塊是允許的/啟用的。對於又一示例，如果第一語法為真且DIMD開/關控制語法為真，則TIMD被隱式推斷為對於當前塊不允許/啟用。

可以在編碼器和/或解碼器中實現由TIMD/DIMD發送信號並且包括MPM列表方法中的DIMD導出模式的任何前述剩餘模式。例如，所提出的任何方法都可以在編碼器的幀內預測模塊（例如，第1A圖中的幀內預測110）和/或解碼器的幀內預測模塊（例如，第1B圖中的幀內預測150）中實現。然而，編碼器或解碼器也可以使用額外的處理單元來實現所需的處理。或者，所提出的任何方法都可以實現為耦合到編碼器的幀間/幀內/預測模塊和/或解碼器的幀間/幀內/預測模塊的電路，以便提供幀間/幀內/預測模塊所需的信息。此外，可以使用編碼器中的熵編碼器122或解碼器中的熵解碼器140來實現與所提出的方法相關的信令。

第11圖圖示了示例性視頻編解碼系統的流程圖，其中當前幀内角度預測模式的信令取決於如根據本發明的一個實施例的DIMD/TIMD導出的導出幀内角度模式。流程圖中所示的步驟可以實現為可在編碼器側的一個或多個處理器(例如，一個或多個CPU)上執行的程序代碼。流程圖中所示的步驟也可以基於硬件來實現，諸如被佈置為執行流程圖中的步驟的一個或多個電子設備或處理器。根據該方法，在步驟1110中，在編碼器側接收與當前塊相關聯的像素資料或在解碼器側與要解碼的當前塊相關聯的編碼資料。在步驟1120中檢查最可能模式集合中是否存在當前塊的當前幀內角度預測模式。如果當前塊的當前幀内角度預測模式不在可能的模式集合中（即，來自步驟1120的“否”分支），則執行步驟1130至1150。否則，（即，來自步驟1120的“是”分支），跳過步驟1130到1150。在步驟1130中，根據基於DIMD(解碼器側幀內模式推導)或TIMD(基於模板的幀內模式推導)推導的第一信息，信令發送或解析與當前塊的當前幀內預測模式相關的模式語法，其中可能模式集合包括MPM(Most Probable Modes)列表中的候選模式、使用除DIMD和TIMD之外的隱式編碼工具導出的精確幀內預測模式、或其組合。在步驟1140中，基於包括第一信息和模式語法的第二信息生成最終幀內預測子。在步驟1150中，使用基於包括模式語法的信息導出的最終模式對當前塊進行編碼或解碼。

第12圖圖示了根據本發明的一個實施例的在MPM列表中包括DIMD導出模式的示例性視頻編解碼系統的流程圖。根據該方法，在步驟1210中，在編碼器側接收與當前塊相關聯的像素資料或在解碼器側與待解碼的當前塊相關聯的編碼資料。在步驟1220中確定當前塊的初始MPM（最可能模式）列表。在步驟1230中使用當前塊的模板生成一個或多個DIMD(解碼器側幀內模式推導)候選模式。在步驟1240中確定與當前塊的一個或多個相鄰塊相關聯的一個或多個相鄰幀內預測模式。在步驟1250中通過將一個或多個附加候選模式添加到初始MPM列表來生成最終MPM列表，其中所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式。或者所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式所述一個或多個相鄰幀內預測模式、所述一個或多個DIMD候選模式的一個或多個導出模式、所述一個或多個相鄰幀內預測模式的一個或多個導出模式、或者組合。在步驟1260中使用包括最終MPM列表的信息編碼或解碼的當前塊。

所示流程圖旨在說明根據本發明的視頻編碼的示例。在不脫離本發明的精神的情況下，本領域的技術人員可以修改每個步驟、重新安排步驟、拆分步驟或組合步驟來實施本發明。在本公開中，已經使用特定語法和語義來說明示例以實現本發明的實施例。在不脫離本發明的精神的情況下，技術人員可以通過用等同的語法和語義替換語法和語義來實施本發明。

提供以上描述是為了使本領域普通技術人員能夠實踐在特定應用及其要求的上下文中提供的本發明。對所描述的實施例的各種修改對於本領域技術人員而言將是顯而易見的，並且本文定義的一般原理可以應用於其他實施例。因此，本發明並不旨在限於所示出和描述的特定實施例，而是符合與本文公開的原理和新穎特徵一致的最寬範圍。在以上詳細描述中，舉例說明了各種具體細節以提供對本發明的透徹理解。然而，本領域的技術人員將理解可以實施本發明。

如上所述的本發明的實施例可以以各種硬件、軟件代碼或兩者的組合來實現。例如，本發明的一個實施例可以是集成到視頻壓縮芯片中的一個或多個電路電路或者集成到視頻壓縮軟件中的程序代碼以執行這裡描述的處理。本發明的實施例還可以是要在數字信號處理器(DSP)上執行以執行這裡描述的處理的程序代碼。本發明還可以涉及由計算機處理器、數字信號處理器、微處理器或現場可編程門陣列(FPGA)執行的許多功能。這些處理器可以被配置為通過執行定義由本發明體現的特定方法的機器可讀軟件代碼或固件代碼來執行根據本發明的特定任務。軟件代碼或固件代碼可以以不同的編程語言和不同的格式或風格來開發。也可以為不同的目標平台編譯軟件代碼。然而，軟件代碼的不同代碼格式、風格和語言以及配置代碼以執行根據本發明的任務的其他方式都不會脫離本發明的精神和範圍。

本發明可以在不脫離其精神或基本特徵的情況下以其他特定形式體現。所描述的示例在所有方面都應被視為說明性而非限制性的。因此，本發明的範圍由所附請求項而不是由前述描述來指示。落入請求項等同物的含義和範圍內的所有變化都應包含在其範圍內。

112:幀間預測 114:開關 110、150:幀內預測 116:加法器 118:變換(T) 120:量化(Q) 122:熵編碼器 130:環內濾波器 124:逆量化（IQ） 126:逆變換（IT） 128:重建(REC) 136:預測資料 134:參考圖片緩衝器 140:熵解碼器 152:MC 210:垂直二元分割（SPLIT_BT_VER） 220:水平二元分割（SPLIT_BT_HOR） 230:垂直三元分割（SPLIT_TT_VER） 240:水平三元分割（SPLIT_TT_HOR） 510-580:不允許分區 810、812、820、822:樣本 910:直方圖條 920、922、924、940、942、944:預測子 930:參考像素 952:加法器 950:加權因子 960:混合預測變量 1020、1022:參考樣本 1010:當前塊 1012、1014:預測樣本 1110-1150、1210-1260:步驟

第1A圖示出了包含循環處理的示例性自適應幀間/幀內視頻編碼系統。第1B圖示了第1A圖中的編碼器的相應解碼器。第2圖示出了對應於垂直二元分割(SPLIT_BT_VER)、水平二元分割(SPLIT_BT_HOR)、垂直三元分割(SPLIT_TT_VER)和水平三元分割(SPLIT_TT_HOR)的多類型樹結構的示例。第3圖示出了具有嵌套多類型樹編碼樹結構的四叉樹中的分區分割信息的信令機制的示例。第4圖示出了CTU被劃分為具有四叉樹和嵌套多類型樹編碼塊結構的多個CU的示例，其中粗體塊邊緣表示四叉樹分區，其餘邊緣表示多類型樹分區。第5圖示出了當亮度編碼塊的寬度或高度大於64時禁止TT分割的一些示例。第6圖示出了VVC視頻編碼標准採用的幀內預測模式。第7A-B圖示出了寬度大於高度的塊（第7A圖）和高度大於寬度的塊（第7B圖）的廣角幀內預測的示例。第8A圖圖示了為當前塊選擇的模板的示例，其中模板包括當前塊上方的T行和當前塊左側的T列。第8B圖示出了T=3的示例，並且為中間行中的像素和中間列中的像素計算了HoG（梯度直方圖）。第8C圖圖示了角度幀內預測模式的振幅(Ampl)的示例。第9圖圖示了混合過程的示例，其中根據具有直方圖條的兩個最高條的索引選擇兩個幀內模式（M _l和M ₂)和平面模式。第10圖圖示了基於模板的幀內模式推導（TIMD)模式的示例，其中TIMD在編碼器和解碼器處使用相鄰模板隱式推導CU的幀內預測模式。第11圖圖示了示例性視頻編解碼系統的流程圖，其中當前幀内角度預測模式的信令發送取決於如根據本發明的一個實施例的DIMD/TIMD所導出的幀内角度模式。第12圖圖示了根據本發明的一個實施例的在MPM列表中包括DIMD導出模式的示例性視頻編解碼系統的流程圖。

1110-1150:步驟

Claims

一種視頻編解碼方法，該方法包括：在編碼器側接收與當前塊相關聯的像素資料或在解碼器側接收與當前待解碼塊相關聯的編碼資料；以及當所述當前塊的當前幀内角度預測模式不在可能模式集合中時：根據基於解碼器側幀內模式推導（DIMD）或基於模板的幀內模式推導（TIMD）導出的第一信息，用信號通知或解析與所述當前塊的當前幀內預測模式相關的模式語法，其中可能的模式集合包括候選最可能模式（MPM）列表中的模式；基於包括所述第一信息和所述模式語法的第二信息生成最終幀內預測子；以及使用基於包括所述模式語法的信息導出的最終模式對所述當前塊進行編碼或解碼。
如請求項1所述的方法，其中，所有幀內角度預測模式被分成多個集合，並且所述第一信息對應於基於DIMD或TIMD為所述當前塊確定的目標集合。
如請求項2所述的方法，其中，所述模式語法與指示所述目標集合內的所述當前幀内角度預測模式有關。
如請求項1所述的方法，其中，所述可能模式集合包括MPM中的候選模式、使用除DIMD和TIMD之外的隱式編碼工具導出的精確幀內預測模式、或其組合。
一種用於視頻編解碼的設備，該設備包括一個或多個電子設備或處理器，用於：在編碼器側接收與當前塊相關聯的像素資料或在解碼器側接收與當前待解碼塊相關聯的編碼資料；當所述當前塊的當前幀内角度預測模式不在可能模式集合中時：根據基於解碼器側幀內模式推導(DIMD)或基於模板的幀內模式推導(TIMD)導出的第一信息，信令發送或解析與所述當前塊的所述當前幀內預測模式相關的模式語法，其中可能的模式集合包括候選最可能模式（MPM）列表中的模式；基於包括所述第一信息和所述模式語法的第二信息生成最終幀內預測子；以及使用基於包括所述模式語法的信息導出的最終模式對所述當前塊進行編碼或解碼。
一種視頻編解碼方法，該方法包括：在編碼器側接收與當前塊相關聯的像素資料或在解碼器側接收與當前待解碼塊相關聯的編碼資料；確定所述當前塊的初始最可能模式（MPM）列表；使用所述當前塊的模板生成一個或多個解碼器側幀內模式推導（DIMD）候選模式；通過將一個或多個附加候選模式添加到所述初始MPM列表來生成最終MPM列表，其中所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式；以及使用包含最終MPM列表的信息對所述當前塊進行編碼或解碼。
如請求項6所述的方法，包含，確定與所述當前塊的一個或多個相鄰塊相關聯的一個或多個相鄰幀內預測模式；其中所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式、所述一個或多個相鄰幀內預測模式、所述一個或多個DIMD候選模式的一個或多個導出模式、所述一個或多個相鄰幀內預測模式的一個或多個導出模式、或其組合。
如請求項7所述的方法，其中，所述一個或多個DIMD候選模式的所述一個或多個導出模式包括對應於模式編號為(一個DIMD候選模式+k)的模式，其中k是非零整數。
如請求項7所述的方法，其中，所述一個或多個相鄰幀內預測模式的所述一個或多個導出模式包括模式編號對應於(一個相鄰幀內預測模式+k)的模式，其中k是非零整數。
如請求項7所述的方法，其中所述一個或多個相鄰幀內預測模式包括上方相鄰塊的上方相鄰幀內預測模式、左側相鄰塊的左側相鄰幀內預測模式或兩者。
如請求項7所述的方法，其中在所述一個或多個相鄰幀內預測模式的所述一個或多個導出模式之後或在所述一個或多個相鄰幀內預測模式之後，將所述一個或多個DIMD候選模式的所述一個或多個導出模式包括在最終MPM列表中。
一種用於視頻編解碼的設備，該設備包括一個或多個電子設備或處理器，被佈置成：在編碼器側接收與當前塊相關聯的像素資料或在解碼器側接收與當前待解碼塊相關聯的編碼資料；確定所述當前塊的初始最可能模式（MPM）列表；使用所述當前塊的模板生成一個或多個解碼器側幀內模式推導（DIMD）候選模式；確定與所述當前塊的一個或多個相鄰塊相關聯的一個或多個相鄰幀內預測模式；通過將一個或多個附加候選模式添加到初始MPM列表來生成最終MPM列表，其中所述一個或多個附加候選模式包括所述一個或多個DIMD候選模式、所述一個或多個相鄰幀內預測模式、所述一種或多種DIMD候選模式的一個或多個導出模式、所述一種或多種相鄰幀內預測模式的一種或多種導出模式或其組合；以及使用包含所述最終MPM列表的信息對所述當前塊進行編碼或解碼。