TW202439820A - 視訊編解碼方法與裝置 - Google Patents
視訊編解碼方法與裝置 Download PDFInfo
- Publication number
- TW202439820A TW202439820A TW113109678A TW113109678A TW202439820A TW 202439820 A TW202439820 A TW 202439820A TW 113109678 A TW113109678 A TW 113109678A TW 113109678 A TW113109678 A TW 113109678A TW 202439820 A TW202439820 A TW 202439820A
- Authority
- TW
- Taiwan
- Prior art keywords
- mode
- prediction
- block
- current block
- intra
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一種使用基於範本回歸的技術進行幀內預測的方法和裝置被提出。根據該方法,基於回歸的幀內預測子被導出,其中基於回歸的幀內預測子包括一個或多個源項的加權組合,以及其中一個或多個源項的加權組合的一個或多個權重使用基於對一個或多個範本的關係估計的回歸技術導出,以及其中所述一個或多個源項對應於根據當前塊的待預測樣本決定的樣型的成員樣本,或者所述一個或多個源項對應於當前塊的不同預測模式或不同模式類型。當前塊使用基於回歸的幀內預測子進行編碼或解碼。
Description
本發明涉及視訊編解碼系統。特別是,本發明涉及使用基於迴歸的技術進行幀內預測,以決定基於濾波器的預測子的加權,或結合多個預測假設以提升幀內預測編解碼的性能。
多功能視訊編解碼(Versatile Video Coding,簡稱 VVC)是由國際電信聯盟-電信標準化部門(International Telecommunication Union Telecommunication Standardization Sector,簡稱ITU-T)視訊編解碼專家組(Video Coding Experts Group,簡稱 VCEG)和國際標準化組織/國際電工委員會(International Organization For Standardization/International Electrotechnical Commission,簡稱ISO/IEC)動態圖片專家組(Moving Picture Experts Group,簡稱 MPEG)的聯合視訊專家組(Joint Video Experts Team,簡稱 JVET)開發的最新國際視訊編解碼標準。該標準已作為 ISO 標準於 2021 年 2 月發布:ISO/IEC 23090-3:2021,資訊技術 - 沉浸式媒體的編解碼表示 - 第3部分:多功能視訊編解碼。VVC 是在其前身高效率視訊編解碼(High Efficiency Video Coding,簡稱HEVC)的基礎上開發的,藉由添加更多的編解碼工具來提高編解碼效率,以及處理包含三維(three dimensional,簡稱3D)視訊訊號在內的各種類型的視訊源。
第1A圖示出包含環路處理的示例性適應性幀間/幀內視訊編碼系統。對於幀內預測,預測資料基於當前圖片中先前編解碼的圖片視訊資料導出。對於幀間預測112,運動估計(Motion Estimation,ME)在編碼器端進行,以及基於ME的結果進行運動補償(Motion Compensation,MC),以提供從其他圖片和運動資料導出的預測資料。開關114選擇幀內預測110或幀間幀間預測112,並將選擇的預測資料提供給加法器116以形成預測誤差,也稱為殘差。然後對預測誤差進行變換(Transform,簡稱T)118處理,隨後是量化(Quantization,簡稱Q)120。變換和量化的殘差隨後由熵編碼器122編碼,以包含在對應於壓縮視訊資料的視訊位元流中。與變換係數相關的位元流隨後與輔助資訊(與幀內預測和幀間預測相關的運動和編解碼模式等)以及與應用於底層影像區域的環路濾波器相關的參數等其他資訊一起打包。如第1A圖所示,與幀內預測110、幀間預測112和環路濾波器130相關的輔助資訊,被提供給熵編碼器122。當幀間預測模式被使用時,一個或多個參考圖片也必須在編碼器端重構。因此,變換和量化的殘差由逆量化(Inverse Quantization,簡稱IQ)124和逆變換(Inverse Transformation,簡稱IT)126處理以恢復殘差。然後殘差被添加回預測資料136,在重構(Reconstruction,簡稱REC)128處重構視訊資料。重構的視訊資料可以存儲在參考圖片緩衝器134中,並用於其他幀的預測。
如第1A圖所示,傳入的視訊資料在編碼系統中經歷一系列處理。來自 REC 128 的重構視訊資料可能會因一系列處理而受到各種損害。因此,在將重構的視訊資料存儲在參考圖片緩衝器134中之前,通常會對重構的視訊資料應用環路濾波器130,以提高視訊質量。例如,可以使用去塊效應濾波器(Deblocking Filter,DF)、樣本適應性偏移(Sample Adaptive Offset,SAO)和適應性環路濾波器(Adaptive Loop Filter,ALF)。可能需要將環路濾波器資訊納入位元流,以便解碼器能夠正確恢復所需資訊。因此,環路濾波器資訊也提供給熵編碼器122,以納入位元流。在第1A圖中,環路濾波器130應用於重構的視訊,然後將重構的樣本存儲在參考圖片緩衝器134中。第1A圖中的系統旨在示出典型視訊編碼器的示例性結構。它可以對應於高效率視訊編解碼(High Efficiency Video Coding,簡稱HEVC)系統、VP8、VP9、H.264或VVC。
如第1B圖所示,除了變換118和量化120之外,解碼器可以使用與編碼器相同或部分相同的功能塊,因為解碼器只需要逆量化124和逆變換126。解碼器使用熵解碼器140代替熵編碼器122,將視訊位元流解碼為量化變換係數和所需的編解碼資訊(例如 ILPF 資訊、幀內預測資訊和幀間預測資訊)。解碼器端的幀內預測150不需要進行模式搜索。相反,解碼器只需要根據從熵解碼器140接收的幀內預測資訊生成幀內預測。此外,對於幀間預測,解碼器只需要根據從熵解碼器140接收的幀間預測資訊進行運動補償(MC 152),而不需要運動估計。
根據VVC,輸入圖片被劃分為非重疊的正方形塊區域,被稱為編解碼樹單元(Coding Tree Unit,簡稱 CTU),類似於HEVC。每個CTU可以被劃分為一個或多個較小尺寸的編解碼單元(coding unit,簡稱CU)。得到的CU分割可以是正方形或矩形。此外,VVC將CTU劃分為預測單元(prediction unit,簡稱PU),作為應用預測處理(例如幀間預測、幀內預測等)的單元。
使用樹狀結構劃分 CTUs
在VVC中,使用二元和三元分割的巢狀多類型樹結構的四叉樹取代多個分割單元類型的概念,即它消除CU、PU和TU概念的分離(除了對於最大變換長度來説尺寸過大的CU所需要之外),以及支援更靈活的CU 分割形狀。在編解碼樹結構中,CU 可以是正方形或矩形。編解碼樹單元(CTU)首先由四叉樹(又稱四分樹)結構進行劃分。然後,四叉樹葉節點可以進一步由多類型樹結構進行劃分。在大多數情況下,CU、PU 和 TU 在巢狀多類型樹編碼塊結構的四叉樹中具有相同的塊大小。當最大支援的變換長度小於CU的彩色分量的寬度或高度時,會發生例外。
在VVC中,編解碼樹方案支援亮度和色度具有獨立的塊樹結構。對於P和B切片,一個CTU中的亮度和色度CTB必須共享相同的編解碼樹結構。然而,對於I切片,亮度和色度可以具有獨立的塊樹結構。當應用獨立塊樹模式時,亮度CTB由一個編碼樹結構劃分為多個CU,色度CTB由另一個編解碼樹結構劃分為多個色度CU。這意味著I切片中的CU可以由亮度分量的編解碼塊或兩個色度分量的編解碼塊組成,而P或B切片中的CU始終由所有三種顏色分量的編解碼塊組成,除非視訊是單色的。
幀內模式編碼與67
種幀內預測模式
為了獲取自然視訊中呈現的任意邊緣方向,VVC中的方向性幀內模式數量從HEVC中使用的33個擴展到65個。
在VVC中,幾個傳統的角度幀內預測模式被適應性地替換為非正方形塊的寬角幀內預測模式。
為了保持最可能模式(Most Probable Mode,MPM)列表生成的複雜性低,考慮到兩個可用的相鄰幀內模式,使用具有6個MPM的幀內模式編解碼方法。構建MPM列表時考慮以下三個方面:
– 默認幀內模式
– 相鄰幀內模式
– 導出的幀內模式。
如 JVET-D0114(Seregin 等人,“Block shape dependent intra mode coding”,聯合視訊探索小組(JVET)的 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29/WG 11,第 4 次會議:成都,CN,2016 年 10 月 15-21 日,文件 JVET-D0114)中所述,次要MPM列表被引入。現有的主要MPM(PMPM)列表包含6個條目,次要MPM(SMPM)列表包含16個條目。首先構建包含22個條目的通用MPM列表,然後將該通用MPM列表中的前6個條目納入PMPM列表,其餘條目形成SMPM列表。通用MPM列表中的第一條目是平面模式。其餘條目由以下模式組成:左(L)、上(A)、左下(BL)、右上(AR)和左上(AL)相鄰塊的幀內模式,從相鄰塊的前兩個可用方向性模式中添加了偏移的方向性模式,以及默認模式。
解碼器端幀內模式導出(Decoder Side Intra Mode Derivation
,DIMD
)
當DIMD被應用時,從重構的相鄰樣本導出多個幀內模式(例如,DIMD導出處理建議的模式1和模式2),這些預測子與平面模式預測子結合,並具有從梯度導出的權重。DIMD模式用作可選預測模式,並始終在高複雜性RDO模式中檢查。
為了隱式導出塊的幀內預測模式,在編碼器和解碼器端進行紋理梯度分析。該處理從空的梯度直方圖(Histogram of Gradient,HoG)開始,其中包含65個條目,對應於65個角度模式。這些條目的幅度在紋理梯度分析期間決定。
在第一步中,解碼器端幀内模式導出(Decoder Side Intra Mode Derivation,簡稱DIMD)從當前塊的左側和上方分別選取了T=3列和行作為範本。這個區域被用作基於梯度的幀内預測模式導出的參考。
在第二步中,水平和垂直的Sobel濾波器被應用於所有3×3窗口位置,這些窗口位置以範本中間行的像素為中心。在每個窗口位置,Sobel濾波器分別計算純水平和垂直方向的強度為
和
。然後,計算窗口的紋理角度為:
(1)
這可以轉換為65個角度幀内預測模式中的一個。一旦當前窗口的幀内預測模式索引被導出為
idx,則其在HoG[
idx]中的條目的振幅藉由添加以下內容進行更新:
(2)
第2A-2C圖展示在範本的所有像素位置上應用上述操作後計算出的HoG的例子。第2A圖示出當前塊210的選定範本220的一個例子。範本220包括當前塊上方的T行和當前塊左側的T列。對於當前塊的幀内預測,上方和左側的區域230對應於重構區域,而塊下方和右側的區域240對應於不可用區域。第2B圖示出T=3的一個例子,以及對中間行的像素260和中間列的像素262計算HoGs。例如,對於像素252,3x3窗口250被使用。第2C圖示出根據方程式(2)對從方程式(1)決定的角度幀内預測模式計算的振幅(ampl)的例子。
一旦計算出HoG,如果導出了兩個幀内預測模式,則選擇直方圖中兩個最高的直方條作為塊的兩個隱含導出的幀内預測模式,並進一步與平面模式結合作為DIMD模式的預測。預測融合作為上述三個預測子的加權平均值應用。為此,平面的權重固定為21/64(約1/3)。然後,剩餘的43/64(約2/3)權重在兩個HoG IPM之間按照其HoG條的振幅比例共享。第3圖示出混合處理的一個例子。如第3圖所示,根據直方圖條310中兩個最高條的索引,兩個幀内模式(M1 312和M2 314)被選擇。這三個預測子(340、342和344)被用來形成混合預測。這三個預測子對應於將M1、M2和平面幀内模式(分別為320、322和324)應用於參考像素330以形成相應的預測子。這三個預測子由相應的權重因子(ω
1、ω
2和ω
3)350加權。使用加法器352將已加權的預測子求和以生成混合預測子360。請注意,如果直方圖中只存在一種模式(即單一模式),則沒有混合處理,也沒有第二DIMD模式。
此外,這兩個隱含導出的幀内模式被包含在MPM列表中,以便在構建MPM列表之前進行DIMD處理。DIMD塊的主導出幀内模式與塊一起存儲,並用於相鄰塊的MPM列表構建。
基於範本的幀内模式導出(Template-based Intra Mode Derivation
,簡稱TIMD
)
基於範本的幀内模式導出(Template-based Intra Mode Drivation,簡稱TIMD)模式在編碼器和解碼器處使用相鄰範本隱式地導出CU的幀内預測模式,而不是將幀内預測模式訊號傳送到解碼器。如第4圖所示,當前塊410的範本(412和414)的預測樣本使用每個候選模式的範本的參考樣本(420和422)來生成。計算預測樣本和範本的重構樣本之間的SATD(Sum of Absolute Transformed Differences)作為成本。選擇具有最小成本的幀内預測模式作為DIMD模式,並用於CU的幀内預測。候選模式可能是VVC中的67個幀内預測模式,或擴展到131個幀内預測模式。一般來說,MPM可以提供線索以指示CU的方向資訊。因此,為了減少幀内模式搜索空間並利用CU的特性,幀内預測模式可以從MPM列表中隱含導出。
對於MPM中的每個幀内預測模式,計算範本的預測和重構樣本之間的SATD(TIMD成本)。前兩個具有最小SATD的幀内預測模式被選擇作為TIMD導出處理建議的TIMD模式。這兩個TIMD模式在應用PDPC處理後與權重融合,以及這種加權幀内預測被用來編解碼當前CU。位置依賴的幀内預測組合(Position dependent intra prediction combination,簡稱PDPC)被包含在TIMD模式的導出中。
將選擇的兩種模式的成本與閾值進行比較,在測試中,成本因子為2被應用如下:
costMode2 < 2*costMode1。
如果這個條件為真,則應用融合,否則只使用模式1(即單一模式情況)。模式的權重根據它們的SATD成本計算如下:
weight1 = costMode2/(costMode1+ costMode2)
weight2 = 1 - weight1。
範本匹配預測(Template Matching Prediction
,簡稱TMP
)
範本匹配預測(TMP)是一種特殊的幀内預測模式,它從當前幀的重構部分複製最佳預測塊,其L形範本與當前範本匹配。
交叉分量線性模型(Cross Component Linear Model
,簡稱CCLM
)
CCLM模式(有時被稱為LM模式)背後的主要思想如下:塊的色度分量可以藉由線性模型從同位的重構亮度樣本進行預測,該線性模型的參數從與該塊相鄰的已重構亮度和色度樣本導出。
在VVC中,CCLM模式利用幀間通道的依賴性,藉由使用線性模型從重構的亮度樣本預測色度樣本。這種預測使用的線性模型的形式為
。 (3)
這裡,
代表CU中預測的色度樣本,
代表同一CU的重構亮度樣本,對於非4:4:4色彩格式的情況,這些樣本被下採樣。模型參數
和
基於在編碼器和解碼器端的已重構的相鄰亮度和色度樣本導出,無需顯式發送。
VVC中指定了三種CCLM模式,即CCLM_LT、CCLM_L和CCLM_T。這三種模式在用於模型參數導出的參考樣本的位置方面有所不同。CCLM_T模式僅涉及來自頂部邊界的樣本,CCLM_L模式僅涉及來自左邊界的樣本。在CCLM_LT模式中,使用來自頂部邊界和左邊界的樣本。
MMLM
概述
正如名稱所示,原始的CCLM模式使用一個線性模型從亮度樣本預測整個CU的色度樣本,而在多模型CCLM(Multiple Model CCLM,簡稱MMLM)中,可以有兩個模型。在MMLM中,當前塊的相鄰亮度樣本和相鄰色度樣本被分類為兩組,每組作為訓練集來導出線性模型(即,對特定組導出特定的α和β)。此外,當前亮度塊的樣本也根據對相鄰亮度樣本的分類規則進行分類。
o 閾值被計算為相鄰重構亮度樣本的平均值。具有
[x,y] <= Threshold的相鄰樣本被分類為第1組;而具有
[x,y] > Threshold的相鄰樣本被分類為第2組。
o 相應地,使用線性模型獲得色度的預測:
卷積交叉分量模型(Convolutional Cross-Component Model
,簡稱 CCCM
)
在CCCM中,卷積模型來提升色度預測的性能被應用。該卷積模型具有7抽頭的濾波器,包括5抽頭的加號形狀空間組件、非線性項,以及偏置項。
濾波器的輸出使用濾波器係數和輸入值之間的卷積來計算,以及被限制在有效色度樣本的範圍內。
濾波器係數藉由最小化參考區域中預測和重構色度樣本之間的均方誤差(Mean Squared Error,簡稱MSE)來計算。
MSE最小藉由計算亮度輸入的自相關矩陣和亮度輸入與色度輸出之間的交叉相關向量來進行。自相關矩陣進行LDL分解,最終的濾波器係數使用回代法計算。該處理大致遵循ECM中ALF濾波器係數的計算,但選擇了LDL 分解而不是Cholesky分解,以避免使用平方根運算。
梯度線性模型(Gradient Linear Model
,簡稱 GLM
)
與CCLM相比,GLM利用亮度樣本的梯度而不是下採樣的亮度值來導出線性模型。具體來說,當應用GLM 時,CCLM處理的輸入,即下採樣的亮度樣本
,被亮度樣本梯度
所取代。CCLM的其他部分(例如,參數導出、預測樣本線性變換)保持不變。
在發送時,如果當前CU啟用CCLM 模式,則分別對Cb和Cr分量發送兩個標誌,以指示是否對每個分量啟用GLM。如果對一個分量啟用GLM,則進一步發送語法元素以從16個梯度濾波器(第5圖中的510-540)中選擇一個用於梯度計算。GLM可以藉由在位元流中發送一個額外的標誌與現有的CCLM結合。當這種組合被應用時,用於導出線性模型的輸入亮度樣本的濾波器係數使用GLM選定的梯度濾波器和CCLM的下採樣濾波器的組合來計算。
空間GPM
JVET-Z0124(Fan Wang 等人,“Non-EE2: Spatial GPM”,聯合視訊探索小組(Joint Video Exploration Team,簡稱 JVET)的 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29/WG 11,第26次會議,通過電話會議,2022年4月20日至29日,文件 JVET-Z0124)提出將 GPM 擴展到幀內預測。與幀間 GPM 類似,SGPM 包括一個分割模式和兩個相關的幀內預測模式。
範本被用來生成這個候選列表。範本的形狀如第6圖所示。對於一種分割模式和兩種幀內預測模式的每種可能組合,對範本生成預測,並將分割權重擴展到範本,如第6圖所示。這些組合根據它們在範本的預測和重構之間的SATD進行升序排列。候選列表的長度設定為16,這些候選被視為當前塊最可能的SGPM組合。編碼器和解碼器都基於範本構建相同的候選列表。
矩陣加權幀內預測
矩陣加權幀內預測(Matrix Weighted Intra Prediction,簡稱 MIP)方法是在VVC中新添加的一種幀內預測技術。為了預測寬度為
和高度為
的矩形塊的樣本,矩陣加權幀内預測(matrix weighted intra prediction,簡稱MIP)採用塊左側的一行H個重構相鄰邊界樣本和塊上方的一行
個重構相鄰邊界樣本作為輸入。如果重構樣本不可用,則按照傳統幀內預測中的方式生成它們。預測訊號的生成基於以下三個步驟,即平均、矩陣向量乘法和線性插值。
MIP
編解碼塊的LFNST
修改
在JVET-AB0067(Junyan Huo 等人,“EE2-4.1: Modification of LFNST for MIP coded block”,聯合視訊專家小組(Joint Video Experts Team,簡稱 JVET)的 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29,第28次會議,Mainz, DE, 2022年10月21日至28日,文件:JVET-AB0067)中,提出利用DIMD導出LFNST變換集以及決定LFNST轉置標誌。
在第7圖中,矩陣-向量乘法710應用於輸入資料以生成MIP預測輸出720。利用上採樣的MIP預測730被應用於MIP預測輸出720以生成上採樣的MIP預測740。所提出的方法使用DIMD 750根據上採樣前的MIP預測樣本導出當前塊的幀內預測模式。具體來說,對每個預測樣本計算水平梯度和垂直梯度以構建HoG 760,如第7圖所示。然後直方圖振幅值最大的幀內預測模式被用來決定LFNST變換集和LFNST轉置標誌。
此外,對於寬度和高度大於或等於4的MIP編解碼塊啟用LFNST。
色度DM
模式
對於色度DM模式,覆蓋當前色度塊中心位置的對應(同位)亮度塊的幀內預測模式被直接繼承。
幀內塊複製
幀內塊複製(Intra Block Copy,簡稱 IBC)是在HEVC擴展的熒幕內容編解碼(Screen Content Coding,簡稱SCC)中採用的工具。眾所周知,它顯著提高了熒幕內容材料的編解碼效率。由於IBC模式被實現為塊級編解碼模式,因此編碼器執行塊匹配(block matching,簡稱BM)以找到每個CU的最佳塊向量(或運動向量)。這裡,塊向量用於指示從當前塊到已在當前圖片內重構的參考塊的位移。IBC編解碼CU的亮度塊向量具有整數精度。色度塊向量也被四捨五入為整數精度。當與適應性運動向量解析度(Adaptive Motion Vector Resolution,簡稱AMVR)結合使用時,IBC模式可以在1-像素和4-像素運動向量精度之間切換。IBC編解碼的CU被視為除幀內或幀間預測模式之外的第三種預測模式。IBC模式適用於寬度和高度小於或等於64亮度樣本的CU。
色度預測的直接塊向量(Direct Block Vector
,簡稱 DBV
)模式
直接塊向量用於色度塊。標誌被發送以指示是否使用IBC模式對色度塊進行編解碼。如果預定位置中的亮度塊之一使用IBC或intraTMP模式進行編解碼,則其塊向量被縮放並用作色度塊的塊向量。範本匹配被用來執行塊向量縮放。
幀間預測概述
根據 JVET-T2002 第3.4節(Jianle Chen等人,“Algorithm description for Versatile Video Coding and Test Model 11 (VTM 11)”,聯合視訊專家小組(JVET)的 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29,第20次會議,通過電話會議,2020年10月7日至16日,文件:JVET-T2002),對於每個幀間預測的CU,運動參數由運動向量,參考圖片索引和參考圖片列表使用索引,以及所需的額外資訊組成VVC的新編解碼功能用於幀間預測樣本生成。運動參數可以以顯式或隱含的方式標記。當CU以跳過模式進行編解碼時,該CU與一個PU相關聯,沒有顯著的殘差係數,沒有已編解碼的運動向量增量或參考圖片索引。合併模式藉由從相鄰CU獲得的當前CU的運動參數(包括空間和時間候選)以及VVC中引入的附加排程來指定。合併模式可以應用於任一幀間預測的CU,不僅僅是跳過模式。合併模式的替代方案是運動參數的顯式傳輸,其中對每個CU顯式地發送運動向量、每個參考圖片列表的相應參考圖片索引和參考圖片列表使用標記以及其他需要的資訊。
除了HEVC中的幀間編解碼特性,VVC包括以下列出的許多新的和改進的幀間預測編解碼工具:
– 擴展合併預測
– 具有MVD(Merge mode with MVD,簡稱MMVD)的合併模式
– 對稱MVD(Symmetric MVD,簡稱SMVD)訊號
– 仿射運動補償預測
– 基於子塊的時間運動向量預測(Subblock-based temporal motion vector prediction,簡稱SbTMVP)
– 適應性運動向量解析度(Adaptive motion vector resoluation,簡稱AMVR)
– 運動場存儲:1/16
th亮度樣本MV存儲和8x8運動場壓縮
– 具有CU級別權重的雙向預測(Bi-prediction with CU-level weight,簡稱BCW)
– 雙向光流(Bi-directional optical flow,簡稱BDOF)
– 解碼器端運動向量精細化(Decoder side motion vector refinement,簡稱DMVR)
– 幾何分割模式(Geometric partitioning mode,簡稱GPM)
– 結合的幀間預測和幀內預測(Combined inter and intra prediction,簡稱CIIP)
以下描述提供了VVC中指定的那些幀間預測方法的詳細資訊。
擴展合併預測
在VVC中,藉由按順序包括以下五種類型的候選來構建合併候選列表:
1)來自空間相鄰CU的空間MVP
2)來自同位CU的時間MVP
3)來自FIFO表的基於歷史的MVP
4)成對平均MVP
5)零MV。
合併列表的大小在序列參數集(sequence parameter set,簡稱SPS)標頭中標記,合併列表的最大允許大小為6。對於以合併模式編解碼的每個CU,最佳合併候選的索引使用截斷一元二進制化(truncated unary binarization,簡稱TU)編碼。合併索引的第一個二進制位使用上下文編碼,其餘二進制位使用旁路編碼。
具有CU
級別權重的雙向預測(
Bi-Prediction with CU-level Wight
,簡稱BCW
)
在HEVC中,雙向預測訊號
藉由平均兩個預測訊號
和
生成,這兩個預測訊號來自兩個不同的參考圖片和/或使用兩個不同的運動向量。在VVC中,雙向預測模式擴展到允許對兩個預測訊號進行加權平均,而不僅僅是簡單的平均。
(4)
在加權平均雙向預測中允許五種權重
。對於每個雙向預測的CU,權重w以兩種方式之一決定:1)對於非合併CU,在運動向量差之後發送權重索引;2)對於合併 CU,根據合併候選索引從相鄰塊推斷權重索引。BCW僅適用於具有256個或更多亮度樣本的CU(即,CU寬度乘以CU高度大於或等於256)。對於低延遲圖片,使用所有5種權重。對於非低延遲圖片,僅使用3種權重(wϵ{3,4,5})。在編碼器中,應用快速搜索算法來找到權重索引,而不會顯著增加編碼器的複雜性。這些算法如下總結。詳細資訊在VTM軟體和文件 JVET-L0646(Yu-Chi Su 等人,“CE4-related: Generalized bi-prediction improvements combined from JVET-L0197 and JVET-L0296”,聯合視訊專家小組(JVET)的 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29,第12次會議:中國澳門,2018年10月3日至12日,文件:JVET-L0646)中披露。
BCW權重索引使用一個上下文編解碼的二進制位及隨後的旁路編碼的二進制位進行編解碼。第一個上下文編解碼的二進制位表示是否使用等權重;如果使用不等權重,則使用旁路編解碼發送額外的二進制位以指示使用哪種不等權重。
在VVC中,CIIP和BCW不能共同應用於CU。當CU以CIIP模式進行編解碼時,當前CU的BCW索引被設置為2(即,w=4表示等權重)。等權重意味著BCW索引的默認值。
幾何分割模式(
Geometric Partitioning Mode
,簡稱GPM
)
在VVC中,支援幾何分割模式用於幀間預測。作為一種合併模式,幾何分割模式使用CU級別標誌來發送,其他合併模式包括常規合併模式、MMVD模式、CIIP模式和子塊合併模式。幾何分割模式總共支援64種分割,適用於每種可能的CU大小
,其中
不包括8x64和64x8。
當使用此模式時,CU 由一條幾何位置的直線(如第8圖所示)分為兩部分。分割線的位置根據特定分割的角度和偏移參數以數學方式推導出來。CU中幾何分割的每個部分使用其自己的運動進行幀間預測;每個分割僅允許單向預測,即每部分有一個運動向量和一個參考索引。應用單向預測運動約束以確保與傳統的雙向預測一樣,每個CU只需要兩個運動補償預測。每個分割的單向預測運動被推導出來。
如果當前CU使用幾何分割模式,則進一步發送表示幾何分割的分割模式(角度和偏移)的幾何分割索引,以及兩個合併索引(每個分割一個)。最大GPM候選大小的數量在SPS中顯式發送,並指定GPM合併索引的語法二進制化。在預測幾何分割的每個部分後,藉由使用適應性權重的混合處理來調整沿幾何分割邊緣的樣本值。這是整個CU的預測訊號,如同其他預測模式一樣,變換和量化處理將應用於整個CU應用。最後,存儲使用幾何分割模式預測的CU的運動場。
單向預測候選列表構建
單向預測候選列表直接從根據擴展合併預測處理構建的合併候選列表導出。n被表示為在幾何單向預測候選列表中單向預測運動的索引。第n個擴展合併候選的LX運動向量(X = 0或1,即,LX = L0或L1),X等於n的奇偶性,用作幾何分割模式的第n個單向預測運動向量。如果第n個擴展合併候選的對應LX運動向量不存在,則改為使用相同候選的L(1 – X)運動向量作為幾何分割模式的單向預測運動向量。
沿幾何分割邊緣混合
在使用各自的運動預測幾何分割的每個部分後,對兩個預測訊號進行混合,以推導出圍繞幾何分割邊緣的樣本。CU中每個位置的混合權重基於個別位置與分割邊緣之間的距離推導出來。
結合的幀間預測和幀內預測(Combined Inter and Intra
Prediction
,簡稱CIIP)
在多功能視訊編解碼(Versatile Video Coding,簡稱 VVC)中,當編解碼單元(Coding Unit,簡稱 CU)以合併模式(merge mode)被編解碼時,如果該CU包含至少64個亮度樣本(即CU寬度乘以CU高度等於或大於64),且如果CU寬度和CU高度都小於128個亮度樣本,則額外標誌被發送以指示是否將結合的幀間/幀內預測(combined inter/intra prediction,簡稱 CIIP)模式應用於當前的CU。正如其名所示,CIIP預測將幀間預測訊號與幀內預測訊號相結合。在CIIP模式中的幀間預測訊號
使用與常規合併模式相同的幀間預測處理導出;而幀內預測訊號
則遵循平面模式(planar mode)的常規幀內預測處理導出。然後,使用加權平均法結合幀內和幀間預測訊號,其中權重值wt根據當前 CU 910的頂部和左側相鄰塊(如第9圖所示)的編解碼模式計算如下:
– 如果頂部相鄰可用且為幀內編解碼,則將isIntraTop設為1,否則將isIntraTop設為0;
– 如果左側相鄰可用且為幀內編解碼,則將isIntraLeft設為1,否則將isIntraLeft設為0;
– 如果(isIntraLeft + isIntraTop)等於2,則將wt設為3;
– 否則,如果(isIntraLeft + isIntraTop)等於1,則將wt設為2;
– 否則,將wt設為1。
CIIP預測形成如下:
(5)
多假設預測(Multi-hypothesis prediction
,簡稱 MHP
)(更多細節可以在 JVET-W2025
中找到。)
在多假設幀間預測模式(JVET-M0425)中,除了傳統的雙向預測訊號外,還會發送一個或多個額外的運動補償預測訊號。最終的整體預測訊號藉由樣本逐個加權疊加獲得。使用雙向預測訊號
和第一個額外的幀間預測訊號/假設
,最終的預測訊號
獲得如下:
加權因子
由新的語法元素 add_hyp_weight_idx 指定,根據表1中的映射。
表1. 加權因子 與 add_hyp_weight_idx 之間的映射。
| add_hyp_weight_idx | |
| 0 | 1/4 |
| 1 | -1/8 |
類似於上述,可以使用多於一個的額外預測訊號。最終的整體預測訊號藉由迭代累積每一個額外的預測訊號獲得。
最終的整體預測訊號被獲得並作為最後的
(即,擁有最大索引
的
)。例如,最多可以使用兩個額外的預測訊號(即,
限制為2)。
每一個額外的預測假設的運動參數可以藉由顯式指定參考索引、運動向量預測索引和運動向量差來顯式發送,或者藉由指定合併索引來隱式發送。單獨的多假設合併標誌區分這兩種發送模式。
在本發明中,提高幀內預測模式性能的方法被揭露。
本發明公開了一種視訊編解碼的方法及裝置。根據該方法,接收與當前塊相關的輸入資料,該當前塊包括一個或多個顏色分量,其中該輸入資料包括像素資料,該像素資料將在編碼器端被編碼,或已編碼資料,該已編碼資料與當前塊相關以及將在解碼器端被解碼。導出基於迴歸的幀內預測子,其中該基於迴歸的幀内預測子包括一個或多個源項的加權組合,以及其中用於該加權組合的該一個或多個源項的一個或多個加權使用基於一個或多個範本上的關係估計的迴歸技術導出,以及其中該一個或多個源項對應於樣型(pattern)的成員樣本,該樣型根據該當前塊的待預測樣本被決定,或該一個或多個源項對應於不同預測模式或該當前塊的不同模式(mode)類型。該當前塊使用該基於迴歸的幀内預測子進行編碼或解碼。
在一實施例中,該樣型包括當前待處理樣本。在另一實施例中,該樣型不包括當前待處理樣本。
在一實施例中,該一個或多個源項的總數被預定義。在另一實施例中,該一個或多個源項的總數根據與該當前塊或與相鄰塊相關的編解碼資訊、塊寬度、塊高度或塊面積被適應性地決定。
在一實施例中,該一個或多個範本被預定義。在一實施例中,該一個或多個範本包括該當前塊的空間相鄰區域。在一實施例中,該一個或多個範本包括該當前塊的上方參考區域、該當前塊的左側參考區域、該當前塊的左上方參考區域,或其組合。
在一實施例中,該關係估計對應於失真,該失真是根據在該一個或多個範本上的基於迴歸的預測子導出的多個預測樣本與在該一個或多個範本上評估的多個重構樣本之間的失真,以及該一個或多個加權使用該迴歸技術被決定,以達到最小失真。
在一實施例中,該迴歸技術被預定義。在一實施例中,亮度幀内預測模式的該迴歸技術與交叉分量色度預測模式統一。在一實施例中,該一個或多個源項對應於多個亮度樣本或多個色度樣本。
在一實施例中,該一個或多個源項對應於由一個或多個目標模式導出的多個預測樣本。在一實施例中,該一個或多個目標模式與基於範本的幀内模式導出(Template-based Intra Mode Derivation,簡稱TIMD)、解碼器端幀内模式導出(Decoder Side Intra Mode Derivation,簡稱DIMD)或幾何分割模式(Geometric partitioning mode,簡稱GPM)相關。在另一實施例中,該一個或多個源項對應於與該當前塊或該一個或多個範本相關的多個重構樣本。
本發明的組件,如一般所描述和在圖中所示,可以被安排和設計成各種不同的配置。因此,對於本發明的系統和方法的實施例的以下更詳細描述,如圖中所示,並不旨在限制本發明的範圍,如所請求的,而僅僅是代表本發明的選定實施例。在本說明書中的“一實施例”、“一個實施例”或類似語言的引用意味著在與該實施例相關的情況下描述的特定特徵、結構或特性可能至少包括在本發明的實施例中。因此,本說明書各處出現的“在一實施例中”或“在一個實施例中”的短語並不一定都指同一實施例。
此外,所描述的特徵、結構或特性可以在一個或多個實施例中以任一適當的方式組合。然而,相關技術領域的技術人員將認識到,可以在不使用一個或多個特定細節的情況下,或使用其他方法、組件等來實踐本發明。在其他情況下,眾所周知的結構或操作沒有詳細顯示或描述,以避免模糊本發明的方面。藉由參考圖紙,其中相同部分由相同數字指定,可以最好地理解本發明的實施例。以下描述僅僅是作為示例,並且僅僅說明與此處聲明的本發明一致的某些選定的裝置和方法的實施例。
在本發明中,一種用於導出當前塊的幀內預測的基於範本迴歸的方法被公開。例如,使用基於迴歸的技術來決定基於濾波器預測子的權重或結合多個預測假設以改進幀內預測編解碼的性能。
在本發明中,一種改進預測準確性的新機制被提出。當前塊的預測藉由結合一個或多個提出的源項和一個提出的權重設置形成。如方程式(6)所示,pred(i, j)是當前塊中的目標(預測)樣本,可以在此提出的機制之後獲得,sourceTermSet0包括來自亮度分量的一個或多個源項,sourceTermSet1包括來自色度分量的一個或多個源項,而biasTermSet包括一個或多個偏差項。
pred(i, j) = (sourceTermSet0(i, j) + sourceTermSet1(i, j) + … + biasTermSet) 具有提出的權重設置 (6)
其中(i, j)是當前塊中的樣本位置。
方程式(6)只是一個例子,提出的機制可以使用sourceTermSet0、sourceTermSet1和biasTermSet的任一子集或擴展。當前塊中的每個樣本或任一子集的樣本根據方程式(6)獲得其目標(預測)樣本。在下文中,第I節中描述了sourceTermSet0的內容,第II節中描述了sourceTermSet1的內容,第III節中描述了biasTermSet的內容,以及第IV節中描述了使用提出的源項和提出的加權設置的預測子導出。第IV節中描述了幾種編解碼工具,包含TIMD和/或DIMD和/或色度幀內預測模式(mode)的融合(或稱為色度融合模式),以及我們提出的機制。
I. sourceTermSet0(i, j)
的內容
SourceTermSet0(i, j)包括一個或多個亮度源項,表示為sourceTerm0
0,sourceTerm0
1,…,和/或sourceTerm0
n-1。n的值表示源項集的抽頭數。在一實施例中,源項可以是線性項和/或非線性項,只有線性項,和/或只有非線性項。在另一實施例中,n是預定義值,例如1、2、…或任一正整數。例如,預定義值在標準中是固定的。對於另一個例子,預定義值小於或等於位元流中語法指示的最大閾值,其中語法在塊、CTU、CTB、切片、圖塊、圖片、SPS、PPS和/或序列級別。在另一實施例中,n根據當前塊的編解碼資訊和/或樣本位置(i, j)決定。例如,當當前塊使用特定編解碼工具進行編解碼時,n是(1)固定的預定義值,(2)根據當前塊的塊寬度、塊高度、塊面積、編解碼資訊和/或樣本資訊決定,(3)根據當前塊的相鄰/非相鄰空間相鄰參考區域的編碼資訊和/或樣本資訊決定,和/或(4)根據當前塊的時間參考區域的編解碼資訊和/或樣本資訊決定。在另一實施例中,n抽頭的樣型(pattern)指的是圍繞/包含位置(i
L,j
L)的窗口區域M x N的任一子集所定義的樣型。也就是說,(i
L,j
L)用於導出一個或多個要使用的位置的窗口和/或樣型。對於一些例子,(i
L,j
L)指的是窗口和/或樣型的中心。然而,(i
L,j
L)不僅限於指窗口和/或樣型的中心。如果目標樣本是亮度,(i
L,j
L)是(i, j)。如果目標樣本是色度(cb或cr),(i
L,j
L)是(i, j)的同位亮度位置。
對於一個例子,(i
L,j
L)指的是窗口的中心,以及只使用窗口的中心(i
L,j
L),如第10A圖所示,其中中心由灰色方塊C表示。對於另一個例子,(i
L,j
L)指的是窗口的中心,樣型是5x5的十字形,可以包括也可以不包括中心(i
L,j
L),如第10B圖所示,其中用作源項的樣本顯示為點填充的方塊。對於另一個例子,(i
L,j
L)指的是窗口的中心,樣型是5x5的菱形,可以包括也可以不包括中心(i
L,j
L),如第10C圖所示,其中用作源項的樣本顯示為點填充的方塊。
在另一實施例中,不同的抽頭指的是來自不同預測模式或不同模式類型的源項。在一子實施例中,一個或多個抽頭來自模式類型幀內,另一個或多個抽頭來自模式類型幀間,和/或另一個或多個抽頭來自模式類型IBC。在另一子實施例中,一個或多個點來自MIP幀內預測模式,另一個或多個點來自非MIP幀內預測模式。
對於源項集中的源項,以下實施例用於決定源內容的生成。
在一實施例中,源內容基於預測模式生成的預測樣本和/或基於預測模式和重構殘差生成的重構樣本。
在一子實施例中,預測模式屬於模式類型幀內、模式類型幀間或第三模式類型(例如模式類型IBC)。例如,預測模式屬於模式類型幀內,預測模式指的是平面、DC、水平、垂直、其他角度(方向)預測模式、67/131幀內預測模式域中指定的任一幀內預測模式、寬角幀內預測(wide-angle intra prediction,簡稱WAIP)模式、TIMD導出模式、DIMD導出模式、intraTMP和/或標準中指定的任一幀內預測模式。對於屬於模式類型幀間的預測模式的另一個例子,預測模式指的是跳過模式、常規合併模式、MMVD模式、仿射模式、SbTMVP、AMVR、標準中指定的任一合併模式、標準中指定的任一AMVP(高級MVP,AMVP可以稱為非合併幀間)模式或標準中指定的任一幀間模式。對於屬於模式類型IBC的預測模式的另一個例子,預測模式指的是IBC合併、IBC AMVP或標準中指定的任一IBC模式。請注意,本發明支援預測模式和模式類型之間的任一可能組合。也就是說,任一提到的預測模式都可以根據標準定義在任一模式類型下。例如,根據標準定義,如果IBC模式屬於模式類型幀間,則實施例中屬於模式類型幀間的預測模式可以指IBC模式。
在另一子實施例中,源內容是經過濾波的源或經過任一預處理的源。例如,源內容是經過預定義模型或濾波器濾波後的預測/重構樣本。
在另一子實施例中,源內容是來自預測樣本和/或重構樣本的梯度資訊。如果目標樣本(i, j)屬於色度,以及同位亮度樣本(即中心圓)的梯度資訊使用以下任何一種Sobel濾波器(如第5圖中所示的梯度濾波器)或任一預定義的濾波器計算。圍繞中心圓的每個值都與同位亮度塊中對應的預測/重構樣本相乘,然後相互加和,形成目標樣本(i, j)的源項的梯度資訊。
在另一子實施例中,如果目標樣本屬於亮度樣本,則預測樣本和/或重構樣本位於當前塊內;否則(目標樣本屬於色度樣本(cb或cr)),預測樣本和/或重構樣本位於從當前(色度)塊的同位(亮度)塊內。預測樣本和/或重構樣本被視為初始樣本,並用作源內容以生成目標樣本。
在另一實施例中,源項的值進一步藉由預定義的偏移量進行調整(增加或減少)。如果目標樣本指的是亮度,則使用幾種實施例來生成源項的偏移量。在一子實施例中,偏移量被決定為當前塊或當前塊的參考區域中預測或重構樣本的(或任一子集的)平均值。在另一子實施例中,偏移量被決定為當前塊或當前塊的參考區域中預定義的預測或重構樣本的樣本值。例如,樣本值來自左上角位置(剛好在當前塊的左上角外)。如果目標樣本指的是色度,則使用幾種實施例來生成源項的偏移量。在一子實施例中,偏移量被決定為從當前(色度)塊的同位亮度塊或同位亮度塊的參考區域中預測或重構樣本的(或任一子集的)平均值。在另一子實施例中,偏移量被決定為同位亮度塊或同位亮度塊的參考區域中預定義的預測或重構樣本的樣本值。例如,樣本值來自左上角位置(就在同位亮度塊的左上角外)。
在另一實施例中,源項還可以包括位置資訊。例如,如果目標樣本指的是亮度,則(i, j)的水平位置(i)用於源項,(i, j)的垂直位置(j)用於源項;否則,樣本(i, j)的同位亮度塊的水平位置用於源項,以及樣本(i, j)的同位亮度塊的垂直位置用於源項。
II. SourceTermSet1(i, j)
的內容
SourceTermSet1(i, j)包括一個或多個色度(cb或cr)源項,表示為sourceTerm1
0,sourceTerm1
1,…,和/或sourceTerm1
m-1。m的值表示源項集的抽頭的數量。在一實施例中,源項可以是線性項和/或非線性項,僅線性項,和/或僅非線性項。在另一實施例中,m是預定義值,例如1, 2, …或任一正整數。例如,預定義值在標準中是固定的。另一個例子,預定義值小於或等於位元流中語法指示的最大閾值,該語法位於塊、CTU、CTB、切片、圖塊、圖片、SPS、PPS和/或序列級別。在另一實施例中,m由當前塊的編解碼資訊和/或樣本位置(i, j)決定。例如,當當前塊由特定編解碼工具進行編解碼時,m是(1)固定在一個預定義值,(2)根據塊寬度、塊高度、塊面積、編解碼資訊和/或當前塊的樣本資訊決定,(3)根據當前塊的相鄰/非相鄰空間相鄰參考區域的編解碼資訊和/或樣本資訊決定,和/或(4)根據當前塊的時間參考區域的編解碼資訊和/或樣本資訊決定。在另一實施例中,m抽頭的樣型指的是定義為圍繞/包含位置(i
C,j
C)的窗口區域M2 x N2的任一子集的樣型。也就是說,(i
C,j
C)用於導出一個或多個要使用的位置的窗口和/或樣型。對於一些例子,(i
C,j
C)指的是窗口和/或樣型的中心。然而,(i
C,j
C)不僅限於指窗口和/或樣型的中心。如果目標樣本是色度(cb或cr),(i
C,j
C)是(i, j)。如果目標樣本是亮度,(i
C,j
C)是(i, j)的同位色度位置。
例如,(i
C,j
C)指的是窗口的中心,並且僅使用窗口的中心(i
C,j
C),如第11A圖所示,其中中心由灰色方塊C表示。再例如,(i
C,j
C)指的是窗口的中心,樣型是5x5的十字形,可以包括也可以不包括中心(i
C,j
C),如第11B圖所示,其中用作源項的樣本顯示為點填充的方塊。又一個例子,(i
C,j
C)指的是窗口的中心,樣型是5x5的菱形,可以包括也可以不包括中心(i
C,j
C),如第11C圖所示,其中用作源項的樣本顯示為點填充的方塊。
在另一實施例中,不同的抽頭指的是來自不同預測模式或不同模式類型的源項。在一子實施例中,一個或多個抽頭來自模式類型幀內,另一個或多個抽頭來自模式類型幀間,和/或另一個或多個抽頭來自模式類型IBC。在另一子實施例中,一個或多個抽頭來自MIP幀內預測模式,另一個或多個抽頭來自非MIP幀內預測模式。
對於源項集中的源項,以下實施例用於決定源內容的生成。
在一實施例中,源內容基於預測模式生成的預測樣本和/或基於預測樣本和重構殘差生成的重構樣本。
在一子實施例中,預測模式屬於模式類型幀內、模式類型幀間或第三種模式類型(例如模式類型IBC)。預測模式屬於模式類型幀內的一個例子,預測模式指的是平面、DC、水平、垂直、其他角度(方向)預測模式、67/131幀內預測模式域中指定的任一幀內預測模式、寬角幀內預測(wide-angle intra prediction,簡稱WAIP)模式、TIMD導出模式、DIMD導出模式、幀內TMP、DBV、任何一種交叉分量模式(包括CCLM(包括CCLM_LT、CCLM_L和/或CCLM_T)、MMLM(包括MMLM_LT、MMLM_L和/或MMLM_T)、CCCM(包括CCCM_LT、CCCM_L和/或CCCM_T)、GLM,和/或上述模式的任一變體/擴展),和/或標準中指定的任一幀內預測模式。對於屬於模式類型幀間的預測模式的另一個例子,預測模式指的是跳過模式、常規合併模式、MMVD模式、仿射模式、SbTMVP、AMVR、標準中指定的任一合併模式、標準中指定的任一AMVP模式或標準中指定的任一幀間模式。預測模式屬於模式類型IBC的另一個例子,預測模式指的是IBC合併、IBC AMVP(高級MVP,其中AMVP可以稱為非合併幀間),或標準中指定的任一IBC模式。請注意,本發明支援預測模式和模式類型之間的任一可能組合。也就是說,根據標準定義,任一提到的預測模式都可以屬於任一模式類型。例如,根據標準定義,如果IBC模式屬於模式類型幀間,則實施例中屬於模式類型幀間的預測模式可以指的是IBC模式。
在另一子實施例中,源內容是經過濾波的源或經過任一預處理的源。例如,源內容是經過預定義的模型或濾波器濾波後的預測/重構樣本。
在另一子實施例中,源內容是來自預測樣本和/或重構樣本的梯度資訊。如果目標樣本(i, j)屬於亮度,以及同位色度樣本的梯度資訊使用任何一種Sobel濾波器、任何一種梯度濾波器或任一預定義的濾波器進行計算。
在另一子實施例中,如果目標樣本屬於色度樣本,則預測樣本和/或重構樣本位於當前塊內;否則(目標樣本屬於亮度樣本),預測樣本和/或重構樣本位於當前(亮度)塊的同位(色度)塊內。預測樣本和/或重構樣本被視為初始樣本,並用作生成目標樣本的源內容。
在另一實施例中,源項的值進一步藉由預定義的偏移量進行調整(增加或減少)。如果目標樣本指的是色度,有幾種實施例用於生成源項的偏移量。在一子實施例中,偏移量被決定為當前塊或當前塊的參考區域內預測或重構樣本的(或任一子集的)平均值。在另一子實施例中,偏移量被決定為當前塊或當前塊的參考區域內預定義的預測或重構樣本的樣本值。例如,樣本值來自當前塊的左上角位置(就在當前塊的左上角外)。如果目標樣本指的是亮度,有幾種實施例用於生成源項的偏移量。在一子實施例中,偏移量被決定為當前(亮度)塊的同位色度塊或同位色度塊的參考區域內預測或重構樣本的(或任一子集的)平均值。在另一子實施例中,偏移量被決定為當前(亮度)塊的同位色度塊或同位色度塊的參考區域內預定義的預測或重構樣本的樣本值。例如,樣本值來自同位色度塊的左上角位置(就在同位色度塊的左上角外)。
在另一實施例中,源項還可以包括位置資訊。例如,如果目標樣本指的是色度,則(i, j)的水平位置(i)用於源項,而(i, j)的垂直位置(j)用於源項;否則,樣本(i, j)的同位色度塊的水平位置用於源項,而樣本(i, j)的同位色度塊的垂直位置用於源項。
III. biasTermSet
的內容
偏差項是任一預定義值。在一實施例中,偏差項是根據標準中指定的bitDepth的midValue。例如,偏差項設定為(1« (bitDepth−1))。在另一實施例中,偏差項對當前塊中的每個樣本都是相同的。也就是說,偏差項與位置(i, j)無關。
IV.
對於樣本(i, j)
的預測子導出
IV.1.
提出的權重設置
提出的權重設置藉由預定義的迴歸方法估計這些源項的組合結果與當前塊的參考區域上的重構樣本之間的關係(例如,最小化失真),根據迴歸方法生成權重(指模型參數),然後將權重應用於源項以獲得當前塊中的目標(預測)樣本。在一實施例中,預定義的迴歸方法可以是線性最小均方誤差(linear minimum mean square error,簡稱LMMSE)方法,如交叉分量模式,例如CCLM,或者可以是與用於交叉分量模式的迴歸方法統一的任一方法,例如CCLM。在另一實施例中,預定義的迴歸方法可以是LDL分解方法,如CCCM,或者可以是與用於CCCM的迴歸方法統一的任一方法。在另一實施例中,預定義的迴歸方法可以是高斯消去法。
在一實施例中,當前塊的參考區域是當前塊1210的空間相鄰或非相鄰鄰近區域,如第12圖所示。當前塊的空間鄰近區域(作為當前塊的範本)包括上方參考區域1220、左側參考區域1230、左上方參考區域1240和/或上述任一子集。上方參考區域的大小是A
wxA
H,左側參考區域的大小是L
wxL
H,左上方參考區域的大小是AL
WxAL
H,其中
– A
w=當前塊的塊寬度(W),k*W,W + 當前塊的塊高度(H),任一預定義值,或任一適應性值,具體取決於當前塊的塊位置、塊寬度、塊高度和/或塊面積。
– A
H或AL
H=H,任一預定義值(1, 2, 4, …),或任一適應性值,具體取決於當前塊的塊位置、塊寬度、塊高度和/或塊面積。
– L
w或AL
W=W,任一預定義值(1, 2, 4, …),或任一適應性值,具體取決於當前塊的塊位置、塊寬度、塊高度和/或塊面積。
– L
H= H,k*H,H + W,任一預定義值,或任一的適應性值,具體取決於當前塊的塊位置、塊寬度、塊高度和/或塊面積。
IV.2.
不同的例子表達
IV.2.1:
在這個表達式中,目標樣本是色度,sourceTermSet0包括兩個抽頭,即G(i, j)和rec’L(i, j),sourceTermSet1未使用,biasTerm指的是另一個抽頭,即midValue。G(i, j)是從選定的梯度濾波器生成的梯度資訊,
是下採樣的重構亮度樣本。權重的模型參數(a0, a1, 和a2)基於:
– 使用當前塊的相鄰六行和六列樣本作為參考區域
– 使用LDL分解方法作為迴歸方法
IV.2.2.
在這個表達式中(類似於JVET-AC0054),目標樣本是色度,sourceTermSet0包括六個抽頭,即C(同位/對應的亮度重構樣本)、Gy(i, j)、Gx(i, j)、Y、X和P,sourceTermSet1被未使用,biasTerm指的是另一個抽頭,即midValue。
– Gy(i, j) 是從垂直梯度濾波器生成的梯度資訊。
– Gx(i, j) 是從水平梯度濾波器生成的梯度資訊。
– Y和X是同位亮度樣本的垂直和水平位置。
– 使用當前塊的相鄰六行和六列樣本作為參考區域
– 使用LDL分解方法作為迴歸方法。
IV.2.3.
在這個表達式中,目標樣本為基於範本的幀内模式導出(Template-based Intra Mode Derivation,簡稱TIMD)編解碼塊的亮度,sourceTermSet0包含s個抽頭,從Pmode_0到Pmode_s-1,sourceTermSet1未被使用,而biasTerm指向另一個抽頭,即midValue。
– Pmode_0(i, j)到Pmode_s-1(i, j)中的每一個或任一子集是由TIMD導出處理提出的模式所預測的樣本。例如,Pmode_0(i, j)是由TIMD導出處理提出的第一個模式所預測的樣本。例如,Pmode_s-1(i, j)是由TIMD導出處理提出的第s個(s
th)模式(或如果第一個模式是0
th模式,則為第s-1個((s-1)
th)模式)所預測的樣本。
– 參數
到
可以被視為組合來自待組合模式的每個預測子的加權。
在一實施例中,所提出的機制被視為可選模式(例如,TIMD的可選模式)。即,在編碼器/解碼器處發送/解析標誌以指示是否對當前塊(由TIMD編解碼)使用所提出的機制。在一子實施例中,該標誌位於塊級、CTU級、切片級、SPS級、圖塊級、PPS級和/或圖像級。在另一實施例中,該標誌為上下文編解碼。例如,只使用一個上下文來發送標誌。另一個例子,標誌的上下文選擇取決於當前塊的編解碼資訊、塊寬度、塊高度和/或塊面積,以及/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積。
在另一實施例中,所提出的機制是一種替代方法。當生成支援所提出機制的當前TIMD編解碼塊的預測子時,預測子的生成被推斷為遵循所提出的機制。
在另一實施例中,此處的s是預定義值。例如,s = 1, 2, 3或任一正整數。在一子實施例中,s在標準中固定為預定義值。在另一子實施例中,s根據當前塊的編解碼資訊、塊寬度、塊高度和/或塊面積,以及/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積來適應性地調整。例如,如果塊寬度、高度或面積大於預定義的閾值,s是一個較大的數;否則,s是一個較小的數。
在另一實施例中,當使用迴歸方法在當前塊的參考區域上導出模型參數時,待最小化的失真是組合結果(包含(1)在當前塊的參考區域上從模式0到s-1生成的預測子和(2)偏差以及(3)權重設置)與當前塊的參考區域上的重構樣本之間的失真。
在另一實施例中,sourceTermSet1可以在表達式中使用。即,相應的色度資訊可以用來生成目標亮度樣本。
在另一實施例中,當當前塊使用特定編解碼工具時,“TIMD”一詞可以被“DIMD”、“SGPM”和/或任一亮度編解碼工具替換,以應用所提出的機制。
IV.2.4.
在此表達式中,目標樣本為TIMD編解碼塊的亮度,sourceTermSet0包含s個抽頭,從Ppat_0到Ppat_s-1,sourceTermSet1未被使用,而biasTerm指向另一個抽頭,即midValue。
– Ppat_0(i, j)到Ppat_s-1(i, j)中的每一個或任一子集是遵循TIMD預測生成規則的組合的預測樣本。即,組合的預測樣本藉由對每個從TIMD待混合預測模式生成的預測子進行TIMD加權平均形成。0到s-1表示源項的s抽頭樣型(第I節中的任一預定義樣型)。
在一實施例中,所提出的機制被視為可選模式(例如,TIMD的可選模式)。即,在編碼器/解碼器處發送/解析標誌,以指示是否對當前塊(由TIMD編解碼)使用所提出的機制。在一子實施例中,該標誌位於塊級、CTU級、切片級、SPS級、圖塊級、PPS級和/或圖像級。在另一實施例中,該標誌為上下文編解碼。例如,只使用一個上下文來發送標誌。另一個例子,標誌的上下文選擇取決於當前塊的編解碼資訊、塊寬度、塊高度和/或塊面積,以及/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積。
在另一實施例中,所提出的機制是一種替代方法。當生成支援所提出機制的當前TIMD編碼塊的預測子時,預測子的生成被推斷為遵循所提出的機制。
在另一實施例中,此處的s是預定義值。例如,s = 1, 2, 3或任一正整數。在一子實施例中,s在標準中固定為預定義值。在另一子實施例中,s根據當前塊的編解碼資訊、塊寬度、塊高度和/或塊面積,以及/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積來適應性地調整。例如,如果塊寬度、高度或面積大於預定義的閾值,s是一個較大的數;否則,s是一個較小的數。
在另一實施例中,當使用迴歸方法在當前塊的參考區域上導出模型參數時,待最小化的失真是組合結果(包含(1)在當前塊的參考區域上從樣型抽頭0到s-1生成的組合預測子和(2)偏差以及(3)權重設置)與當前塊的參考區域上的重構樣本之間的失真。
在另一實施例中,sourceTermSet1可以在表達式中使用。即,相應的色度資訊可以用來生成目標亮度樣本。
在另一實施例中,“TIMD”一詞可以被“DIMD”、“SGPM”和/或任一亮度編解碼工具替換,以應用所提出的機制,當當前塊使用特定編解碼工具時。當特定編解碼工具是SGPM時,在當前塊的參考區域或在當前塊內生成組合預測子,SGPM加權平均遵循GPM分割線。即,遵循SGPM混合規則,對於接近分割線的樣本,對於來自SGPM待混合預測模式的兩個預測,使用相等的權重;對於遠離分割線的樣本,如果當前樣本位於屬於SGPM待混合模式之一的預測單元(不屬於另一個SGPM待混合模式),則對於來自SGPM待混合模式之一的預測使用較大的權重,對於來自另一個SGPM待混合模式的預測使用較小的權重。
IV.2.5.
在此表達式中,目標樣本為IBC(或DBV)編解碼塊的色度時,sourceTermSet1包括s個抽頭,從Pintra_0到Pintra_s-1,以及t個抽頭,從Pibc_0到Pibc_t-1,sourceTermSet0未被使用,而biasTerm指向另一個抽頭,即midValue。
– 每個或任一子集的
(i, j)到Pintra_s-1(i, j)是從編解碼模式的所有或任一候選幀內預測模式中選出的模式所導出的預測樣本。例如,P
_0(i, j)是從編解碼模式的所有或任一候選幀內預測模式中選出的第一個模式所導出的預測樣本。例如,Pintra_s-1(i, j)是從編解碼模式的所有或任一候選幀內預測模式中選出的第s個(s
th) 模式(或如果第一個模式是0
th模式,則為第s-1個((s-1)
th)模式)所導出的預測樣本。
– 每個或任何子集的
(i, j)到Pibc_t-1(i, j)是從編解碼模式的所有或任一候選IBC預測模式中選出的模式所導出的預測樣本。例如,P
_0(i, j)是從編解碼模式的所有或任一候選IBC預測模式中選出的第一個模式所導出的預測樣本。例如,Pibc_t-1(i, j)是從編解碼模式的所有或任一候選IBC預測模式中選出的第t個(t
th)模式(或如果第一個模式是0
th模式,則為第t-1個((t-1)
th) 模式)所導出的預測樣本。
在一實施例中,當編解碼模式的候選幀內預測模式只有一個時,s被設為1。例如,當編解碼模式為IBC(或DBV)時,只使用一個候選幀內預測模式(平面或TIMD導出的幀內預測模式或色度DM模式或DIMD導出的幀內預測模式)。
在另一實施例中,當編解碼模式的選定IBC預測模式只有一個時,t被設為1。例如,當編解碼模式為IBC(或DBV)時,只使用一個IBC預測模式(由發送/解析的IBC索引指示)。
在另一實施例中,所提出的機制被視為IBC(或DBV)編解碼塊的可選模式。即,在編碼器/解碼器處發送/解析一個標誌以指示是否對當前塊使用所提出的機制。在一子實施例中,該標誌位於塊級、CTU級、切片級、SPS級、圖塊級、PPS級和/或圖像級。在另一實施例中,該標誌為上下文編解碼。例如,只使用一個上下文來發送該標誌。另一個例子,該標誌的上下文選擇取決於當前塊和/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積。
在另一實施例中,所提出的機制是一種替代方法。當生成支援所提出機制的當前IBC(或DBV)編碼塊的預測子時,預測子的生成被推斷為遵循所提出的機制。
在另一實施例中,此處的s/t是預定義值。例如,s/t = 1、2、3或任一正整數。在一子實施例中,s/t在標準中固定為預定義值。在另一子實施例中,s/t根據當前塊和/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積適應性地調整。例如,如果塊寬度、高度或面積大於預定義的閾值,s/t是一個較大的數;否則,s/t是一個較小的數。
在另一實施例中,當使用迴歸方法在當前塊的參考區域上導出模型參數時,待最小化的失真是組合結果(包含(1)在當前塊的參考區域上從幀內預測模式0到s-1生成的預測子和(2)在當前塊的參考區域上從IBC預測模式0到t-1生成的預測子以及(3)偏差和(4)權重設置)與在當前塊的參考區域上的重構樣本之間的失真。
在另一實施例中,sourceTermSet0可以在表達式中使用。即,相應的亮度資訊可以用來生成目標色度樣本。例如,
、
和/或
被添加為sourceTermSet0中的源項。在另一實施例中,當目標樣本為IBC編解碼塊的亮度時,sourceTermSet0包括s個抽頭,從Pintra_0到Pintra_s-1,以及t個抽頭,從Pibc_0到Pibc_t-1,sourceTermSet1未被使用,而biasTerm指向另一個抽頭,即midValue。
IV.2.6.
在此表達式中,目標樣本為IBC(或DBV)編解碼塊的色度時,sourceTermSet0包括s個抽頭,從Rluma_0到Rluma_s-1,sourceTermSet1包括t個抽頭,從Pibc_0到Pibc_t-1,而biasTerm指向另一個抽頭,即midValue。
– 在一實施例中,Rluma_s-1(i, j)是來自當前(色度)塊的第s-1個同位亮度塊導出的重構亮度樣本。
– 在另一實施例中,Rluma_s-1(i, j)是來自當前(色度)塊的預定義的同位亮度塊中的預定義集合(包含s個樣本)的第s-1個重構亮度樣本。例如,s個重構亮度樣本對應於預定義的樣型,以及該預定義樣型的中心與當前(色度)塊的(i, j)位置同位。
– Pibc_t-1(i, j)是從編解碼模式的所有或任一候選IBC預測模式中選出的t-1模式所導出的預測樣本。
在一實施例中,當編解碼模式只使用一個亮度抽頭時,s被設為1。
在另一實施例中,當編解碼模式的選定IBC預測模式只有一個時,t被設為1。例如,當編解碼模式為IBC(或DBV)時,只使用一個IBC預測模式(由發送/解析的IBC索引指示)。
在另一實施例中,所提出的機制被視為IBC(或DBV)編解碼塊的可選模式。也就是說,在編碼器/解碼器處發送/解析標誌,以指示是否對當前塊使用所提出的機制。在一子實施例中,該標誌位於塊級、CTU級、切片級、SPS級、圖塊級、PPS級和/或圖像級。在另一實施例中,該標誌為上下文編解碼。例如,只使用一個上下文來發送該標誌。再例如,標誌的上下文選擇取決於當前塊和/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積。
在另一實施例中,所提出的機制是一種替代方法。當生成支援所提出機制的當前IBC(或DBV)編碼塊的預測子時,預測子的生成被推斷遵循所提出的機制。
在另一實施例中,s/t是預定義值。例如,s/t = 1、2、3或任一正整數。在一子實施例中,s/t在標準中固定為預定義值。在另一子實施例中,s/t根據當前塊和/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積是適應性的。例如,如果塊寬度、高度或面積大於預定義的閾值,則s/t是一個較大的數;否則,s/t是一個較小的數。
在另一實施例中,當使用迴歸方法在當前塊的參考區域上導出模型參數時,待最小化的失真是組合結果(包含(1)當前(色度)塊的同位亮度塊的參考區域上的亮度重構樣本和(2)從當前塊的參考區域上的模式0到t-1生成的預測子和(3)偏差和(4)權重設置)與當前塊的參考區域上的重構樣本之間的失真。
在另一實施例中,sourceTermSet0可以使用梯度資訊代替
,或者除了
之外還進一步使用梯度資訊。例如,
、
被添加為sourceTermSet0中的源項。
IV.2.7.
在這個表達式中,目標樣本是色度的,對於組合的幀內幀間編解碼塊,sourceTermSet0包括s個抽頭Pluma_0到Pluma_s-1,sourceTermSet1包括t個抽頭Pinter_0到Pinter_t-1,biasTerm指的是另一個抽頭,即midValue。
– 在一實施例中,
(i, j)到Pluma_s-1(i, j)的每個或任一子集是來自當前(色度)塊的同位亮度塊的預測/重構亮度樣本。例如,Pluma_0(i, j)是來自當前(色度)塊的第一個同位亮度塊的預測/重構亮度樣本。例如,Pluma_s-1(i, j)是來自當前(色度)塊的第s個(s
th)同位亮度塊(或者如果第一個同位亮度塊是0
th同位亮度塊,則是第s-1個((s-1)
th)同位亮度塊)的預測/重構亮度樣本。
– 在另一實施例中,
(i, j)到Pluma_s-1(i, j)的每個或任一子集是來自當前(色度)塊的一個預定義同位亮度塊中的預定義集合(包含s個樣本)中的預測/重構亮度樣本。例如,s個預測/重構亮度樣本對應於預定義樣型,以及/或該預定義樣型的中心與當前(色度)塊的(i, j)同位。例如,Pluma_0(i, j)是來自當前(色度)塊的一個預定義同位亮度塊中的預定義集合(包含s個樣本)中的第一個預測/重構亮度樣本。例如,Pluma_s-1(i, j)是來自當前(色度)塊的一個預定義同位亮度塊中的預定義集合(包含s個樣本)中的第s個(s
th)預測/重構亮度樣本(或者如果第一個預測/重構亮度樣本是0
th預測/重構亮度樣本,則是第s-1個((s-1)
th)預測/重構亮度樣本)。
– 例如,
Pinter_t-1(i, j)的每個或任一子集是從編解碼模式的所有或任何候選幀間預測模式中選擇的模式的預測樣本。例如,Pinter_0(i, j)是從編解碼模式的所有或任一候選幀間預測模式中選擇的第一個模式的預測樣本。例如,Pinter_t-1(i, j)是從編解碼模式的所有或任一候選幀間預測模式中選擇的第t個模式(或者如果第一個模式是0
th模式,則是第(t-1)((t-1)
th)個模式)的預測樣本。
在一實施例中,當編解碼模式只使用一個亮度抽頭時,s被設定為1。
在另一實施例中,當編解碼模式只使用一個幀間預測模式時,t被設定為1。例如,當編解碼模式是CIIP時,只使用一個幀間預測模式(由發送/解析的合併索引指示)。
在另一實施例中,所提出的機制被視為可選模式(例如,組合的幀內幀間編解碼塊的可選模式)。也就是說,在編碼器/解碼器處設置/解析一個標誌,以指示是否對當前塊使用所提出的機制。在一子實施例中,該標誌位於塊級、CTU級、切片級、SPS級、圖塊級、PPS級和/或圖像級。在另一實施例中,該標誌為上下文編解碼。例如,只使用一個上下文來發送該標誌。再例如,標誌的上下文選擇取決於當前塊和/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積。
在另一實施例中,所提出的機制是一種替代方法。當生成支援所提出機制的當前組合的幀內幀間編解碼塊的預測子時,預測子的生成被推斷遵循所提出的機制。
在另一實施例中,s/t是預定義值。例如,s/t = 1、2、3或任一正整數。在一子實施例中,s/t在標準中固定為預定義值。在另一子實施例中,s/t根據當前塊和/或相鄰塊的編解碼資訊、塊寬度、塊高度和/或塊面積是適應性的。例如,如果塊寬度、高度或面積大於預定義的閾值,則s/t是一個較大的數;否則,s/t是一個較小的數。
在另一實施例中,當使用迴歸方法在當前塊的參考區域上導出模型參數時,待最小化的失真是組合結果(包含(1)當前(色度)塊的同位亮度塊的參考區域上的亮度預測/重構樣本和(2)從當前塊的參考區域上的模式0到t-1生成的預測子和(3)偏差和(4)權重設置)與當前塊的參考區域上的重構樣本之間的失真。
在另一實施例中,sourceTermSet0可能使用梯度資訊而不是
/
,或者除了
之外,還可能進一步使用梯度資訊。例如,
、
被添加為sourceTermSet0中的源項。
在另一實施例中,當生成當前塊的目標預測子和/或在當前塊的參考區域上生成範本預測子時,長抽頭後濾波器被應用。濾波形狀可以是上述發明中提出的任一樣型。
本發明中提出的方法可以根據隱含規則(例如塊寬度、高度或面積)或根據顯式規則(例如塊、圖塊、切片、圖片、SPS或PPS級別的語法)來啟用和/或禁用。例如,當塊面積小於/大於閾值時,應用所提出的方法。
本發明中的“塊”一詞可以指TU/TB、CU/CB、PU/PB、預定義區域或CTU/CTB。
本發明中提出的任一方法組合都可以應用。以下是一個例子,用於色度使用所提出的機制。當應用所提出的機制時,允許更多的主要變換候選。
任一使用基於範本迴歸的技術導出幀內預測的方法都可以在編碼器和/或解碼器中實現。例如,任一所提出的方法都可以在編碼器的幀內/幀間/IBC/預測/變換模塊中實現,和/或在解碼器的幀內/幀間/IBC/預測/變換模塊中實現。或者,任何所提出的方法都可以作為一個電路與編碼器和/或解碼器的幀內/幀間/IBC/預測/變換模塊相連接,以提供幀內/幀間/IBC/預測/變換模塊所需的資訊。
任一使用基於範本迴歸的技術導出幀內預測的方法都可以在編碼器和/或解碼器中實現。例如,任一所提出的方法都可以在編碼器的幀內/幀間/預測模塊(例如第1A圖中的幀内預測 110)中實現,和/或在解碼器的幀內/幀間/預測模塊(例如第1B圖中的幀内預測150)中實現。或者,任一所提出的方法都可以作為一個電路與編碼器和/或解碼器的幀內/幀間/預測模塊相連接,以提供幀內/幀間/預測模塊所需的資訊。
第13圖展示根據本發明實施例的基於基於範本迴歸的技術導出幀內預測的一個示例性視訊編碼系統的流程圖。流程圖中顯示的步驟可以在編碼器端和/或解碼器端的一個或多個處理器(例如一個或多個CPU)上執行的程式碼來實現。流程圖中顯示的步驟也可以基於硬件來實現,例如一個或多個電子設備或處理器被安排來執行流程圖中的步驟。根據這種方法,在步驟1310中接收與當前塊相關的輸入資料,包括一個或多個顏色分量,其中輸入資料包括在編碼器端要編碼的像素資料或與當前塊相關要在解碼器端解碼的已編碼資料。在步驟1320中導出基於迴歸的幀內預測子,其中基於迴歸的幀內預測子包括一個或多個源項的加權組合,並且其中一個或多個加權用於一個或多個源項的加權組合使用基於一個或多個範本上的關係估計的迴歸技術導出,以及其中所述一個或多個源項對應於樣型的成員樣本,該樣型根據與當前塊的待預測樣本相關的資訊被決定,或者所述一個或多個源項對應於當前塊的不同預測模式或不同模式類型。在步驟1330中使用基於迴歸的幀內預測子編碼或解碼當前塊。
顯示的流程圖旨在說明根據本發明的視訊編解碼的一個例子。本領域的技術人員可以修改每個步驟,重新排列步驟,分割步驟,或結合步驟來實踐本發明,而不偏離本發明的精神。在披露中,使用了特定的語法和語義來說明實施本發明的實施例的例子。本領域的人員可以藉由用等效的語法和語義替換語法和語義來實踐本發明,而不偏離本發明的精神。
上述描述旨在使具有普通技術水平的人員能夠在特定應用和其要求的背景下實踐本發明。對於描述的實施例,本領域的技術人員將明顯的修改,並且在此處定義的一般原則可以應用於其他實施例。因此,本發明不打算僅限於顯示和描述的特定實施例,而是要被賦予與此處披露的原則和新特徵一致的最廣泛範圍。在上述詳細描述中,為了提供對本發明的徹底理解,描繪了各種特定細節。然而,本領域的技術人員將理解可以實踐本發明。
如上所述的本發明的實施例可以在各種硬件、軟體代碼中實現,或者兩者的組合。例如,本發明的實施例可以是一個或多個電路集成到視訊壓縮芯片中,或者程序代碼集成到視訊壓縮軟體中來執行此處描述的處理。本發明的實施例也可以是要在數字訊號處理器(Digital Signal Processor,簡稱DSP)上執行的程式碼來執行此處描述的處理。本發明還可能涉及由計算機處理器、數字訊號處理器、微處理器或現場可編程閘陣列(field programmable gate array,簡稱FPGA)執行的多個功能。這些處理器可以根據發明配置來執行特定任務,藉由執行機器可讀的軟體代碼或韌體代碼來定義發明所體現的特定方法。軟體代碼或韌體代碼可以用不同的編程語言和不同的格式或風格開發。軟體代碼也可以為不同的目標平台編譯。然而,不同代碼格式、風格和軟體代碼的語言以及其他配置代碼以根據發明執行任務的手段將不偏離發明的精神和範圍。
本發明可以在不偏離其精神或基本特徵的情況下以其他特定形式體現。所描述的例子應在各方面僅被視為說明性的,而不是限制性的。因此,本發明的範圍應該由所附的申請專利範圍而不是前述描述來指示。所有在申請專利範圍的意義和等價範圍內的變化都應該包含在其範圍內。
110:幀內預測
112:幀間預測
114:開關
116:加法器
118:變換
120:量化
122:熵編碼器
124:逆量化
126:逆變換
128:REC
130:環路濾波器
134:參考圖片緩衝器
136:預測資料
140:熵解碼器
150:幀內預測
152:MC
210:當前塊
220:區域
230:區域
240:區域
250:3x3窗口
252:像素
260:像素
262:像素
310:直方圖條
312:幀内模式
314:幀内模式
320:幀内模式
322:幀内模式
324:幀内模式
330:參考像素
340:預測子
342:預測子
344:預測子
350:權重因子
352:加法器
360:混合預測子
410:當前塊
412:範本
414:範本
420:參考樣本
422:參考樣本
510:梯度濾波器
512:梯度濾波器
514:梯度濾波器
516:梯度濾波器
518:梯度濾波器
520:梯度濾波器
522:梯度濾波器
524:梯度濾波器
526:梯度濾波器
528:梯度濾波器
530:梯度濾波器
532:梯度濾波器
534:梯度濾波器
536:梯度濾波器
538:梯度濾波器
540:梯度濾波器
710:矩陣-向量乘法
720:MIP預測輸出
730:利用上採樣的MIP預測
740:上採樣的MIP預測
750:DIMD
760:HoG
910:當前 CU
1210:當前塊
1220:上方參考區域
1230:左側參考區域
1240:左上方參考區域
1310:步驟
1320:步驟
1330:步驟
第1A圖展示包含迴圈處理的示例性適應性幀間/幀內視訊編碼系統。
第1B圖展示對應於第1A圖中編碼器的解碼器。
第2A圖展示當前塊選定範本的例子,其中範本包括當前塊上方的T行和當前塊左側的T列。
第2B圖展示T=3的例子,以及對中間行和中間列的像素計算了梯度直方圖(Histogram of Gradient,簡稱HoGs)。
第2C圖展示角度幀內預測模式的振幅(ampl)的例子。
第3圖展示混合處理的例子,其中根據直方圖中兩個最高條的索引選擇兩個角度幀內模式(M1和M2)。
第4圖展示基於範本的幀內模式導出(Template-based Intra Mode Derivation,簡稱TIMD)模式的例子,其中TIMD在編碼器和解碼器中隱式地使用相鄰範本導出編解碼單元(CU)的幀內預測模式。
第5圖展示梯度線性模型(Gradient Linear Model,簡稱GLM)的16種梯度樣型。
第6圖展示空間幾何分割模式(Spatial Geometric partitioning mode,簡稱SGPM)的範本例子。
第7圖展示對MIP編碼塊進行LFNST修改的例子,它利用解碼器端幀內模式導出(Decoder Side Intra Mode Derivation,簡稱DIMD)來導出LFNST變換集以及決定LFNST轉置標誌。
第8圖展示按相同角度分組的GPM分割的例子。
第9圖展示根據上方和左側相鄰塊的編解碼模式導出結合幀間和幀內預測(Combined Inter and Intra Prediction,簡稱CIIP)的權重值的例子。
第10A-C圖展示在中心(第10A圖)選擇源項的樣型例子,其中顯示了亮度分量的十字樣型(第10B圖)和鑽石 (或稱為菱形) 樣型(第10C圖)。
第11A-C圖展示在中心(第11A圖)選擇源項的樣型例子,其中顯示了色度分量的十字樣型(第11B圖)和鑽石樣型(第11C圖)。
第12圖展示當前塊的參考區域的例子,用於使用基於範本迴歸的技術導出幀內預測。
第13圖展示根據本發明實施例基於範本迴歸技術導出幀內預測的示例性視訊編解碼系統的流程圖。
1310、1320、1330:步驟
Claims (16)
- 一種視訊編解碼方法,該方法包括: 接收與一當前塊相關的輸入資料,該當前塊包括一個或多個顏色分量,其中該輸入資料包括像素資料,該像素資料將在一編碼器端被編碼,或已編碼資料,該已編碼資料與當前塊相關以及將在一解碼器端被解碼; 導出一基於迴歸的幀內預測子,其中該基於迴歸的幀内預測子包括一個或多個源項的加權組合,以及其中用於該加權組合的該一個或多個源項的一個或多個加權使用基於一個或多個範本上的關係估計的一迴歸技術導出,以及其中該一個或多個源項對應於一樣型的成員樣本,該樣型根據該當前塊的待預測樣本被決定,或該一個或多個源項對應於不同預測模式或該當前塊的不同模式類型;以及 使用該基於迴歸的幀内預測子編碼或解碼該當前塊。
- 如請求項1所述的視訊編解碼方法,其中該樣型包括一當前待處理樣本。
- 如請求項1所述的視訊編解碼方法,其中該樣型不包括一當前待處理樣本。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個源項的一總數被預定義。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個源項的一總數根據與該當前塊或與一相鄰塊相關的編解碼資訊、塊寬度、塊高度或塊面積被適應性地決定。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個範本被預定義。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個範本包括該當前塊的一空間相鄰區域。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個範本包括該當前塊的一上方參考區域、該當前塊的一左側參考區域、該當前塊的一左上方參考區域,或其組合。
- 如請求項1所述的視訊編解碼方法,其中該關係估計對應於一失真,該失真是根據在該一個或多個範本上的一基於迴歸的預測子導出的多個預測樣本與在該一個或多個範本上評估的多個重構樣本之間的失真,以及該一個或多個加權使用該迴歸技術被決定,以達到一最小失真。
- 如請求項1所述的視訊編解碼方法,其中該迴歸技術被預定義。
- 如請求項1所述的視訊編解碼方法,其中一亮度幀内預測模式的該迴歸技術與一交叉分量色度預測模式統一。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個源項對應於多個亮度樣本或多個色度樣本。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個源項對應於由一個或多個目標模式導出的多個預測樣本。
- 如請求項13所述的視訊編解碼方法,其中該一個或多個目標模式與基於範本的幀内模式導出(Template-based Intra Mode Derivation,簡稱TIMD)、解碼器端幀内模式導出(Decoder Side Intra Mode Drivation,簡稱DIMD)或幾何分割模式(Geometric partitioning mode,簡稱GPM)相關。
- 如請求項1所述的視訊編解碼方法,其中該一個或多個源項對應於與該當前塊或該一個或多個範本相關的多個重構樣本。
- 一種視訊編解碼裝置,該裝置包括一個或多個電子元件或處理器,被配置為: 接收與一當前塊相關的輸入資料,該當前塊包括一個或多個顏色分量,其中該輸入資料包括像素資料,該像素資料將在一編碼器端被編碼,或已編碼資料,該已編碼資料與當前塊相關以及將在一解碼器端被解碼; 導出一基於迴歸的幀內預測子,其中該基於迴歸的幀内預測子包括一個或多個源項的加權組合,以及其中用於該加權組合的該一個或多個源項的一個或多個加權使用基於一個或多個範本上的關係估計的一迴歸技術導出,以及其中該一個或多個源項對應於一樣型的成員樣本,該樣型根據該當前塊的待預測樣本被決定,或該一個或多個源項對應於不同預測模式或該當前塊的不同模式類型;以及 使用該基於迴歸的幀内預測子編碼或解碼該當前塊。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202363490803P | 2023-03-17 | 2023-03-17 | |
| US63/490,803 | 2023-03-17 | ||
| WOPCT/CN2024/081093 | 2024-03-12 | ||
| PCT/CN2024/081093 WO2024193386A1 (en) | 2023-03-17 | 2024-03-12 | Method and apparatus of template intra luma mode fusion in video coding system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW202439820A true TW202439820A (zh) | 2024-10-01 |
Family
ID=92840863
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW113109678A TW202439820A (zh) | 2023-03-17 | 2024-03-15 | 視訊編解碼方法與裝置 |
Country Status (3)
| Country | Link |
|---|---|
| CN (1) | CN121079974A (zh) |
| TW (1) | TW202439820A (zh) |
| WO (1) | WO2024193386A1 (zh) |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018021585A1 (ko) * | 2016-07-26 | 2018-02-01 | 엘지전자 주식회사 | 영상 코딩 시스템에서 인트라 예측 방법 및 장치 |
| WO2021110116A1 (en) * | 2019-12-04 | 2021-06-10 | Beijing Bytedance Network Technology Co., Ltd. | Prediction from multiple cross-components |
| WO2023023197A1 (en) * | 2021-08-19 | 2023-02-23 | Beijing Dajia Internet Information Technology Co., Ltd. | Methods and devices for decoder-side intra mode derivation |
-
2024
- 2024-03-12 CN CN202480029472.1A patent/CN121079974A/zh active Pending
- 2024-03-12 WO PCT/CN2024/081093 patent/WO2024193386A1/en not_active Ceased
- 2024-03-15 TW TW113109678A patent/TW202439820A/zh unknown
Also Published As
| Publication number | Publication date |
|---|---|
| WO2024193386A1 (en) | 2024-09-26 |
| CN121079974A (zh) | 2025-12-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI870823B (zh) | 視訊編碼解碼方法和裝置 | |
| TWI888773B (zh) | 一種用於彩色圖片幀內預測的方法與裝置 | |
| TWI852244B (zh) | 視頻編解碼系統中編解碼模式選擇的方法和裝置 | |
| TWI871556B (zh) | 用於視頻編解碼系統幀間預測的方法和装置 | |
| TWI852465B (zh) | 視訊編解碼方法及相關裝置 | |
| WO2023241637A1 (en) | Method and apparatus for cross component prediction with blending in video coding systems | |
| TW202327360A (zh) | 視頻編解碼系統中多重假設預測的方法和裝置 | |
| WO2023221993A1 (en) | Method and apparatus of decoder-side motion vector refinement and bi-directional optical flow for video coding | |
| TWI830334B (zh) | 視頻編解碼系統中低延遲模板匹配的方法和裝置 | |
| TW202439820A (zh) | 視訊編解碼方法與裝置 | |
| WO2024193431A9 (en) | Method and apparatus of combined prediction in video coding system | |
| WO2024153093A1 (en) | Method and apparatus of combined intra block copy prediction and syntax design for video coding | |
| CN116366836B (zh) | 视频编解码系统中多重假设预测的方法和装置 | |
| WO2024213093A1 (en) | Methods and apparatus of blending intra prediction for video coding | |
| WO2025007952A1 (en) | Methods and apparatus for video coding improvement by model derivation | |
| TW202533577A (zh) | 用於對彩色圖片或視訊進行編解碼的方法和裝置 | |
| TW202516932A (zh) | 視訊編解碼方法和裝置 | |
| TW202520711A (zh) | 從縮放參考圖片繼承交叉分量模型的影片編解碼方法與裝置 | |
| CN121488475A (zh) | 使用多个模型改进影片编解码的方法与装置 | |
| CN121153256A (zh) | 视频编解码系统中的色度预测方法和装置 | |
| TW202529439A (zh) | 幀內融合模式與外推的方法和裝置 | |
| CN121464629A (zh) | 构建用于继承邻近跨分量模型以进行色度帧间编码的候选列表的方法和设备 | |
| CN121002883A (zh) | 视频编解码系统中根据帧内预测模式选择变换的方法和装置 | |
| CN121014200A (zh) | 用于视频编解码的帧内矩阵预测的方法和装置 | |
| CN120770157A (zh) | 视频编解码的方法和装置 |