TW202537284A - 編碼及解碼沉浸式視訊 - Google Patents
編碼及解碼沉浸式視訊Info
- Publication number
- TW202537284A TW202537284A TW114101039A TW114101039A TW202537284A TW 202537284 A TW202537284 A TW 202537284A TW 114101039 A TW114101039 A TW 114101039A TW 114101039 A TW114101039 A TW 114101039A TW 202537284 A TW202537284 A TW 202537284A
- Authority
- TW
- Taiwan
- Prior art keywords
- representation
- pixel value
- scene
- regions
- light field
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一種位元流、用於編碼該位元流的一編碼器及方法、及用於解碼該位元流的一解碼器及方法。該位元流包含一場景的一經編碼體積表示及該場景的(多個)視圖相依區域的一經編碼光場(亦即,視圖相依)表示。
Description
本發明係關於沉浸式視訊之領域。
六自由度(six degree of freedom, 6 DoF)沉浸式視訊允許從不同位置及定向觀看場景。6 DoF沉浸式視訊的建立一般使用多個攝影機以從不同視點獲取場景的影像框。所獲取影像框用以在新視點處產生影像框。
來自場景之可用以在目標視點處產生影像框之所獲取影像框的資訊可以基於輿圖的格式編碼。一般而言,此涉及處理所獲取影像框以識別冗餘區域;接著將冗餘區域拋棄,並將剩餘區域包裝至輿圖中。接著將輿圖連同相關聯後設資料一起編碼至位元流中。接收經編碼輿圖及後設資料的裝置能夠藉由使用後設資料以在目標視點處將影像區域重建為影像框而在目標視點處產生影像框。
此程序依賴場景中的物體具有朗伯(亦即,漫射)反射性質的假設。具有非朗伯反射性質的表面(諸如光澤表面)不能使用來自單一視點的表面的影像區域演現至不同視點,因為此類表面的光度外觀取決於視點。
本發明由申請專利範圍定義。
根據本發明的一態樣的實例,提供一種位元流,其包含:一場景的一經編碼體積表示;及該場景的一或多個區域的一經編碼光場表示,其中該光場表示包含用以產生該體積表示之視訊資料的視圖的至少一子集的殘差信號,各殘差信號定義該各別視圖與該體積表示至該各別視圖的一重投影之間的一差異。
體積表示及光場表示各自提供場景的三維資訊。在場景的體積表示中,已將視點相依效果(諸如導因於光澤表面的效果)移除或平均。場景的光場表示可係殘差光場表示;亦即,定義體積表示與用以產生體積表示的視訊資料之間的差異的表示;此等差異導因於視點相依影響。
具體而言,場景的光場表示表示在含有光澤表面或其他視圖相依表面的區域中的光場。藉由將體積表示及光場表示組合在位元流中,位元流含有足以使場景中的視圖相依表面能夠在各種視點處準確地演現的資訊。
發明人已認知到僅包括用於場景的部分的光場表示降低位元流的位元率及像素率及使用位元流以在目標視點處演現影像的複雜性,同時仍包括場景的視圖相依態樣。
在一些實例中,該經編碼光場表示具有比該經編碼體積表示更小的一尺度。
發明人已認知到視圖相依照明性質不需要與其他視覺元素一樣高的解析度。光場表示因此可以比體積表示更小的尺度運算或縮小(若體積表示經縮小,藉由更大的縮放因子),同時仍使具有視圖相依態樣的區域能夠重建成所欲品質。以此方式,可降低光場表示的位元率及像素率。
在一些實例中,該位元流進一步包含該光場表示在演現中的使用係必需的或可選的一指示。
光場表示係可選的指示意謂著體積表示本身可用以在目標視點處演現場景的影像(儘管沒有任何視圖相依照明效果)。若有需要,此允許在演現期間拋棄或忽略光場表示。
在一些實例中,該位元流進一步包含如何在演現中組合該體積表示及該光場表示的一指示。
在一些實例中,該位元流進一步包含如何插補該光場表示的不同部分的一指示。
根據本發明的另一態樣的實例,提供一種用於編碼沉浸式視訊之方法,該方法包含:獲得包含一場景的複數個視圖的視訊資料;處理該視訊資料以產生該場景的一體積表示;處理該視訊資料及該體積表示以識別該視訊資料與該體積表示之間的任何差異,其中藉由以下步驟針對該視訊資料的各視圖識別該視訊資料與該體積表示之間的任何差異:將該體積表示重投影至該視圖;及運算定義該視圖與該各別重投影之間的一差異的一殘差信號;處理該場景之含有一經識別差異的任何區域的該視訊資料以定義該(等)區域的一光場表示,其中該光場表示包含該視訊資料之視圖的至少一子集的該等殘差信號及對應深度資訊;及將該體積表示及該光場表示編碼至一位元流中。
亦提供一種用於解碼一沉浸式視訊之方法,該方法包含:接收包含一場景的一經編碼體積表示及該場景的一或多個區域的一經編碼光場表示的一位元流,其中該光場表示包含用以產生該體積表示之視訊資料的視圖的至少一子集的殘差信號,各殘差信號定義該各別視圖與該體積表示至該各別視圖的一重投影之間的一差異;解碼該體積表示及該光場表示;定義一目標視點;處理該光場表示以定義一影像框中的一或多個第一區域在該目標視點處的一位置,該一或多個第一區域對應於該場景之藉由該光場表示表示的該一或多個區域;對於該一或多個第一區域的各像素,處理該光場表示以判定該像素的一第一像素值;處理該體積表示以定義該影像框中的一或多個第二區域在該目標視點處的一位置;對於該一或多個第二區域之像素的至少一子集,處理該體積表示以判定各像素的一第二像素值;及對於具有一第一像素值及一第二像素值二者的各像素,處理該第一像素值及該第二像素值以判定該像素的一最終像素值。
以此方式,在目標視點處的影像框可以比使用全光場表示演現整個影像框更低的複雜度演現而具有目標視點的場景的準確光度外觀。
一或多個第一區域係目標影像之含有場景中之具有視圖相依外觀的一或多個物體的區域。一或多個第二區域可與一或多個第一區域重疊。
在一些實例中,處理該第一像素值及第二像素值以判定該像素的一最終像素值的該步驟包含該第一像素值及該第二像素值的一混合。
在一些實例中,該體積表示經處理以僅判定在該光場表示中不具有完全可見性之像素的一第二像素值。
換言之,已判定影像框的至少一個區域在目標視點處的第一像素值,可不對其第一像素值具有0%透明度的像素判定第二像素值。此降低非自然瞬變的發生。
在一些實例中,處理該第一像素值及第二像素值以判定該像素的一最終像素值的該步驟包含該第一像素值及第二像素值的一加法組合。
在一些實例中,該方法進一步包含:獲得該影像框的一或多個區域的經修補資料;及對於不具有一第一像素值亦不具有一第二像素值的任何像素,處理該經修補資料以判定該像素的一第三像素值。
在一些實例中,使用一第一演現技術判定各第一像素值;及使用不同的一第二演現技術判定各第二像素值。
例如,第二像素值可使用簡單演現技術(諸如z緩衝)判定,而第一像素值可使用更複雜的演現技術判定。此在影像框中提供視圖相依效果的高品質演現,而不過度增加演現複雜度(因此使影像框能夠更有效率地演現)。
亦提供一種包含電腦程式碼構件之電腦程式產品,當該等電腦程式碼構件在具有一處理系統的一運算裝置上執行時,使該處理系統執行上述方法中之任一者的所有步驟。
根據本發明之另一態樣的實例,提供一種經組態以編碼沉浸式視訊的編碼器,該編碼器經組態以:獲得包含一場景的複數個視圖的視訊資料;處理該視訊資料以產生該場景的一體積表示;處理該視訊資料及該體積表示以識別該視訊資料與該體積表示之間的任何差異,其中藉由以下步驟針對該視訊資料的各視圖識別該視訊資料與該體積表示之間的任何差異:將該體積表示重投影至該視圖;及運算定義該視圖與該各別重投影之間的一差異的一殘差信號;處理該場景之含有一經識別差異的任何區域的該視訊資料以定義該等區域的一光場表示,其中該光場表示包含該視訊資料之視圖的至少一子集的該等殘差信號及對應深度資訊;及將該體積表示及該光場表示編碼至一位元流中。
亦提供一種經組態以解碼沉浸式視訊的解碼器,該解碼器經組態以:接收包含一場景的一經編碼體積表示及該場景的一或多個區域的一經編碼光場表示的一位元流,其中該光場表示包含用以產生該體積表示之視訊資料的視圖的至少一子集的殘差信號,各殘差信號定義該各別視圖與該體積表示至該各別視圖的一重投影之間的一差異;解碼該體積表示及該光場表示;定義一目標視點;處理該光場表示以定義一影像框中的一或多個第一區域在該目標視點處的一位置,該一或多個第一區域對應於該場景之藉由該光場表示表示的該一或多個區域;對於該一或多個第一區域的各像素,處理該光場表示以判定該像素的一第一色彩值;處理該體積表示以定義該影像框中的一或多個第二區域在該目標視點處的一位置;對於該一或多個第二區域之像素的至少一子集,處理該體積表示以判定各像素的一第二像素值;及對於具有一第一像素值及一第二像素值二者的各像素,處理該第一像素值及第二像素值以判定該像素的一最終像素值。
本發明的此等及其他態樣將參考下文描述的(多個)實施例闡明且將係顯而易見的。
將參考圖式描述本發明。
應該理解到,詳細說明與特定實例雖然指示了設備、系統、與方法的例示性實施例,但僅意圖用於說明的目的,而不意圖限制本發明的範圍。從以下描述、所附申請專利範圍、與附圖,將更佳地理解本發明的設備、系統、與方法的這些與其他特徵、態樣、與優點。應該理解到,圖式僅是示意性的,且未按比例繪製。也應該理解到,整個圖式使用相同的元件符號來表示相同或相似的部分。
本發明提供一種位元流、用於編碼該位元流的一編碼器及方法、及用於解碼該位元流的一解碼器及方法。該位元流包含一場景的一經編碼體積表示及該場景的(多個)視圖相依區域的一經編碼光場(亦即,視圖相依)表示。
圖1繪示根據本發明之一實施例的沉浸式視訊系統100。沉浸式視訊系統包含編碼器110及解碼器120。編碼器經組態以輸出由解碼器接收的位元流115。在圖1中,位元流115直接從編碼器傳輸至解碼器;然而,如所屬技術領域中具有通常知識者將容易理解,位元流可替代地在傳輸到解碼器之前經儲存在適合的儲存媒體上。
位元流115本身係本發明之一實施例。位元流包含場景的經編碼體積表示及該場景的一或多個區域的經編碼光場表示。經編碼光場表示係場景的視圖相依表示,而經編碼體積表示係非視圖相依的。例如,經編碼體積表示可提供場景中之複數個點的各者的色彩值,而經編碼光場表示可提供場景的一或多個區域中的複數條光線的各者的色彩及/或透明度值。場景的一或多個區域係含有視圖相依表面(諸如光澤表面及具有鏡面反射亮光的表面)的一或多個區域。在一些實例中,場景的一或多個區域可以體積表示以及光場表示表示;在其他實例中,由光場表示表示的一或多個區域的一些或全部可不包括在體積表示中。
在一些實例中,經編碼光場表示可完整地描述場景的一或多個區域的光場;在其他實例中,經編碼光場表示可僅含有的光場的視圖相依態樣,且可僅在與場景的體積表示組合時完整地描述光場。光場表示及體積表示於下文更詳細地描述。
設想用於將經編碼體積表示及經編碼光場表示配置在位元流115內的各種替代方案。例如,經編碼體積表示及經編碼光場表示可提供在位元流的不同輿圖中,或單一輿圖可含有體積表示的補片及光場表示的補片二者。在一些實例中,可將體積表示的補片及光場表示的補片配置在輿圖內,使得體積表示的補片及光場表示的補片含在輿圖的不同圖塊中。位元流可進一步包含指示哪個(哪些)輿圖、圖塊、及/或補片(視情況而定)含有體積表示(的部分)及哪些含有光場表示(的部分)的後設資料。
在一些實例中,該經編碼光場表示具有比該經編碼體積表示更小的一尺度。發明人已認知到場景的一或多個區域的視圖相依態樣的單獨表示(亦即,與場景的其他視覺元素的表示分開)可以大縮放因子(亦即,比一般用於縮小沉浸式視訊應用中之場景的表示的縮放因子更大)縮小,或以比一般用於沉浸式視訊應用中的場景的表示的更小尺度運算,而不顯著地影響視圖相依效果的重建品質。在一些實例中,光場表示的不同部分可藉由不同的縮放因子在位元流中縮小。位元流可進一步包含提供光場表示(或光場表示的特定部分)已縮小之縮放因子的後設資料;替代地,縮放因子可由外部構件提供。
在一些實例中,位元流115可進一步包含光場表示在演現中的使用係必需的或可選的指示(例如,提供在位元流的後設資料中)。位元流可包含光場表示為演現所需要的指示,其中光場表示表示場景之未由體積表示表示的一或多個區域。相反地,位元流可包含光場表示係可選的指示,其中體積表示表示整個場景(亦即,場景之藉由光場表示表示的任何區域亦藉由體積表示表示)。若位元流包含光場表示係可選的指示,在位元流上執行的任何縮小或細化可藉由縮小或移除光場表示而實行,因為體積表示本身提供足夠資訊以允許場景的完整視圖在目標視點處演現(儘管係以比亦使用光場表示時更低的品質)。
在一些實例中,位元流115可進一步包含如何在演現中組合體積表示及光場表示的指示(例如,提供在位元流的後設資料中)。例如,在光場表示本身未完整描述一或多個區域的光場的情況下,位元流可包含使用加法技術的指示。在光場表示完整描述一或多個區域的光場的情況下,位元流可包含使用混合技術的指示。用於在演現中組合體積表示及光場表示的技術於下文更詳細地描述。
在一些實例中,位元流115可包含如何插補光場表示的不同部分的指示(例如,提供在位元流的後設資料中)。例如,位元流可包含光場表示之在目標視點中重疊的不同部分將在目標視點處演現場景的影像框時混合的指示。在一些實例中,指示可包含光場表示的一個視圖至另一視圖的(非線性)瞬變的定義。
圖2繪示根據本發明之實施例之用於編碼沉浸式視訊的方法200。方法200可由圖1的編碼器110使用以產生位元流115。
方法200在步驟210開始,在該步驟,獲得包含場景的複數個視圖的視訊資料。視訊資料可包含複數個視訊框序列,各序列已藉由具有不同位置及/或定向的攝影機獲取。
在步驟220,視訊資料經處理以產生場景的體積表示。體積表示係非視圖相依之場景的表示(亦即,不描述場景的一部分的色彩如何取決於視點而變化的表示)。
例如,體積表示可藉由對於在視訊資料的至少一個影像框中的各像素識別在場景的其他視圖的影像框中的對應像素(例如,使用場景的深度資訊及用以獲取視訊資料的攝影機的位置/定向)以為場景中的複數個點的各者定義一組像素而產生。可將離群像素(例如,導因於遮擋)從各組像素移除,且一組中的剩餘像素可經處理以判定場景中的點在體積表示中的色彩(例如,該點的色彩可係該組中的平均色彩或最小(亦即,最暗)色彩)。該點在體積表示中的色彩的判定影響當在目標視點處演現影像框時將如何組合體積表示及光場表示。例如,在選擇各組中的最小色彩的情況下,在演現中可使用僅涉及正色彩值的加法組合。在各組的平均色彩使用在體積表示中的情況下,在演現中可使用涉及差量色彩值的加法組合。
場景的體積表示可包含複數個紋理補片及複數個深度補片,如一般在根據MPEG沉浸式視訊(MPEG Immersive Video, MIV)標準編碼沉浸式通訊時所使用者。紋理補片提供藉由視訊資料擷取的場景之區域的紋理資訊(例如,色彩),而深度補片提供場景之區域的深度資訊。各深度補片可對應於紋理補片。
在步驟230,視訊資料及體積表示經處理以識別視訊資料與體積表示之間的任何差異。
在步驟240,場景之含有經識別差異的任何區域的視訊資料經處理以定義含有經識別差異的各區域的光場表示。
在一些實例中,視訊資料與體積表示之間的差異可藉由針對視訊資料的各視圖(亦即,各「來源視圖」)將體積表示重投影至來源視圖而識別。定義來源視圖與各別重投影之間的差異的殘差信號可針對各來源視圖運算。殘差信號的運算可取決於當在目標視點處演現影像框時將如何組合體積表示及光場表示。例如,在使用加法組合技術的情況下,殘差信號可僅包含色彩值(例如,僅在體積表示為場景中的各點提供最小色彩的情況下的正色彩值,或在體積表示為場景中的各點提供平均色彩的情況下的差量色彩值)。在使用混合技術的情況下,殘差信號可包含色彩及透明度值(例如,RGBA值)或預乘以透明度值的色彩值(例如,[R.A, G.A, B.A, A]或另一色彩空間中的等效值)。
光場表示可包含來源視圖的至少一子集的殘差信號及對應深度資訊。在一些實例中,所有來源視圖的殘差信號可經處理以選擇使場景的視圖相依性能夠模型化成所欲品質的殘差信號的子集,且光場表示可包含經選擇子集及對應深度資訊。如所屬技術領域中具有通常知識者將理解的,此一子集中的殘差信號的數目將取決於場景中的表面的反射性質及場景中的照明的複雜性以及所欲品質。
在一些實例中,可僅針對場景之已識別為含有一或多個視圖相依表面(例如,具有非朗伯反射性質的表面,諸如光澤表面及具有鏡面反射亮光的表面)的區域識別體積表示與視訊資料之間的差異。可藉由將視訊資料中的各來源視圖重投影至至少一個其他來源視圖,且比較該等來源視圖的深度資訊以識別其點在場景中具有相同3D位置在不同來源視圖中具有不同色彩值(亦即,其在色彩值上的差異超過預定差異臨限或根據可用資源(諸如像素率)調整的臨限)的區域,而識別含有視圖相依表面的區域。
因此,在光場表示包含殘差信號及對應深度資訊的一些實例中,殘差信號可各自定義來源視圖的經識別為含有一或多個視圖相依表面的區域與體積表示至各別來源視圖的重投影的對應區域之間的差異。
在其他實例中,可針對整個來源視圖識別體積表示與視訊資料之間的差異以運算殘差信號。可將其殘差信號低於預定信號臨限的區域識別為具有很少或沒有視圖相依性的區域;此等區域的殘差信號可從光場表示省略。
在步驟250,將體積表示及光場表示編碼至位元流中。亦可將使經編碼體積表示及光場表示能夠解碼並用以在目標視點處演現影像框的後設資料編碼至位元流中。在一些實例中,可將體積表示及光場表示編碼至一或多個視訊子位元流中,且可將後設資料編碼至後設資料子位元流中;接著可將子位元流多工以形成位元流。體積表示、光場表示、及後設資料可使用任何合適的編解碼器編碼。
如參考圖1的位元流115於上文描述的,後設資料可包含識別體積表示及光場表示在位元流中的位置的資訊(例如,識別哪個(哪些)輿圖、(哪些)圖塊、及/或(哪些)補片包含體積表示(的部分)及哪些含有光場表示(的部分)的資訊),及用以獲得場景的視訊資料的攝影機的各者的資訊位置及/或定向。在一些實例中,後設資料可進一步包括如何在演現中組合體積表示及光場表示的指示,如上文描述的。在一些實例中,後設資料可包括如何插補光場表示的不同部分的指示,如上文描述的。
在一些實例中,光場表示可以比體積表示更小的尺度編碼。例如,將體積表示及光場表示編碼至位元流中的步驟250可包含縮小光場表示的子步驟。替代地,光場表示可以更小尺度運算(例如,在運算光場表示之前,藉由縮小視訊資料或至少縮小場景之待藉由光場表示表示的區域)。光場表示的(多個)縮放因子可包括在位元流中的後設資料中。
在一些實例中,光場表示的不同部分可藉由不同的縮放因子縮小。例如,在光場表示包含殘差信號及對應深度資訊的情況下,可為各殘差信號及其對應深度資訊判定所欲縮放因子。可判定各殘差信號及其對應深度信息的所欲縮放因子,使得給定來源視圖之藉由所欲縮放因子縮小的殘差信號及深度資訊(或來源視圖的區域,視情況而定)允許來源視圖以所欲品質重建。在一些實例中,所欲縮放因子可基於誤差度量判定,諸如原始光場表示與藉由經縮小光場表示的放大(色彩自適應)而獲得的光場表示之間的差異的總和。
各殘差信號及其對應深度資訊接著可藉由殘差信號的所欲縮放因子縮小。所欲縮放因子及識別(多個)殘差信號的資訊及與各所欲縮放因子相關聯的深度資訊可包括在後設資料中。
在一些實例中,編碼在位元流中的體積表示可係僅用於場景的部分的體積表示。例如,體積表示之對應於場景之完全表示在光場表示中之區域的區域(例如,由光場表示的所有視圖擷取的高鏡面反射區域)可從體積表示移除,且可將剩餘體積表示編碼至位元流中。在其他實例中,體積表示可表示場景的所有區域(亦即,包括由光場表示表示的所有區域)。
位元流中的後設資料可包括光場表示在演現中的使用係必需的(亦即,在體積表示不表示整個場景的情形中)或可選的(亦即,在藉由光場表示表示的區域亦由體積表示表示的情形中)的指示。
圖3繪示根據本發明之實施例之用於解碼沉浸式視訊的方法300。方法300可由圖1的解碼器120使用以解碼位元流115。
方法300在步驟310開,在該步驟,接收位元流。位元流包含場景的經編碼體積表示及該場景的一或多個區域的經編碼光場表示。位元流可進一步包含相關聯後設資料(例如,識別位元流中的經編碼體積表示及經編碼光場表示的後設資料、定義用以獲得場景之自其產生體積表示及光場表示之視訊資料的攝影機的各者的位置及/或定向的資訊等)。例如,經接收位元流可係參照圖1於上文描述的位元流115。
在步驟320,解碼體積表示及光場表示。體積表示及光場表示可使用任何合適的編解碼器解碼。
在步驟330處,定義目標視點。目標視點係在其演現場景之影像框的視點。
在步驟340,光場表示經處理以定義影像框中的一或多個第一區域在目標視點處的位置。一或多個第一區域對應於場景之藉由光場表示表示的一或多個區域。換言之,將光場表示扭曲至目標視點。在定義一個以上的第一區域的一些實例中,第一區域可彼此重疊(亦即,光場表示的不同部分在目標視點中重疊的情形)。
例如,如上文描述的,光場表示可包含定義體積表示與用以產生體積表示的來源視圖之間的差異的殘差信號及對應深度資訊。一或多個第一區域可藉由使用對應深度資訊將殘差信號的至少一子集扭曲為目標視圖(例如,扭曲至少具有最接近目標視點之視點的來源視圖的殘差信號)而定義。例如,各經扭曲殘差可定義第一區域。
在一些實例中,光場表示可已以位元流中的更小尺度編碼,如上文描述的。光場表示的(多個)縮放因子可提供在位元流的後設資料中或由外部構件提供。在此等實例中,定義影像框中的一或多個第一區域在目標視點處的位置的步驟340可包含使用(多個)縮放因子重縮放光場表示的子步驟(亦即,藉由以相關縮放因子放大光場表示的各部分)。例如,若光場表示(或光場表示的一部分)以16的因子縮小,光場表示(或相關部分,視情況而定)可藉由16之因子的放大而重擴縮。
在步驟350,光場表示經處理以判定一或多個第一區域中的各像素的第一像素值。經判定像素值可係像素的色彩值。在一些實例中,像素值可包括透明度。
在一些實例中,位元流中的後設資料可包含如何插補光場表示的不同部分的指示;在提供此指示的情況下,屬於一個以上的第一區域的任何像素的第一像素值可藉由如該指示所指示的插補光場表示的不同部分而判定。若指示未提供,可使用預定義的預設插補技術。
例如,在光場表示包含如上文描述的殘差信號及對應深度資訊且各第一區域藉由扭曲殘差信號而定義的情況下,將屬於單一第一區域的各像素的第一像素值判定為像素的相關經扭曲殘差信號的值。對於屬於一個以上的第一區域的像素,定義該像素所屬之第一區域的各經扭曲殘差信號可用以判定第一像素值:例如,像素之經扭曲殘差信號之各者的值可基於與目標視點的距離而加權。
在步驟360,體積表示經處理以定義影像框中的一或多個第二區域在目標視點處的位置。一或多個第二區域可與一或多個第一區域重疊(例如,在體積表示表示整個場景的情況下,一或多個第二區域可一起佔據整個影像框)。
在步驟370,體積表示經處理以判定一或多個第二區域中之像素的至少一子集的各者的第二像素值。第二像素值針對一或多個第二區域中的各像素或僅針對子集判定將取決於用以判定最終像素值的技術,如下文解釋的。
使用體積表示以判定影像框中的像素在目標視點處的像素值係眾所周知的。例如,在體積表示包含複數個紋理補片及複數個深度補片的情況下,可使用對應深度補片將各紋理補片扭曲至目標視點以定義一或多個第二區域,且第二區域中之像素所屬之經扭曲紋理補片的(多個)值可用以判定該像素的第二像素值。為改善演現效率,用以判定第二像素值的演現技術可係簡單演現技術(諸如z緩衝),因為在使用體積表示判定像素值時不需要在判定第一像素值時所使用的(多個)更複雜的演現技術。
在步驟380,對於具有第一像素值及第二像素值二者的各像素,該第一像素值及該第二像素值經處理以判定該像素的最終像素值。各像素的最終像素值係使用在影像框中之在目標視點處的像素值。對於僅具有第一像素值的像素,第一像素值係使用在影像框中之在目標視點處的像素值;類似地,對於僅具有第二像素值的像素,第二像素值係在影像框中之使用在目標視點處的像素值。
設想用於處理像素的第一像素值及第二像素值以判定最終像素值的各種技術。在一些實例中,位元流中的後設資料可包含如何在演現中組合體積表示及光場表示的指示;最終像素值接著可如後設資料中所指定地判定。在位元流不提供如何組合體積表示及光場表示之指示的情況下,可使用預定義的預設技術判定最終像素值(或可使用提供給光場表示的值以判定使用哪種技術;例如,若光場表示包括透明度值,可使用混合技術)。
在一些實例中,判定最終像素值的步驟380可包含,對具有第一像素值及第二像素值二者的各像素,混合該像素的第一像素值及第二像素值以判定最終像素值(例如,使用第一像素值的透明度以將第一像素值α混合在第二像素值上)。混合技術可在光場表示完整地描述場景的一或多個區域的光場的情況下使用。
在一些實例中,在使用混合技術以判定最終像素值的情況下,第二像素值可僅針對一或多個第二區域中之在光場表示中不具有完全可見性的像素判定。換言之,體積表示可經處理以判定一或多個第二區域中之像素的子集的各像素的第二像素值,其中該子集排除具有0%之透明度(或低於預定義透明度臨限的透明度)的第一像素值。一或多個第二區域中的像素子集可使用剔除技術產生,以決定體積表示的哪些區域係可見的。
在一些實例中,判定最終像素值的步驟380可包含,對於具有第一像素值及第二像素值二者的各像素,該像素的第一像素值及第二像素值的加法組合。在光場表示僅在與體積表示結合而完整地描述光場的情況下,可使用加法技術。
例如,在一些實例中(例如,其中體積表示為場景中的各點提供最小色彩),各第一像素值及各第二像素值可係正色彩值,且最終像素值係第一及第二像素值的總和。在其他實例中(例如,其中體積表示提供場景中的各點的平均色彩),各第一像素值可係定義場景中的相關點在體積表示中的色彩與來自目標視圖中的相關點的色彩之間的差異的差量色彩值。正差量色彩值指示來自目標視圖之相關點的色彩具有比體積表示中的對應值更高的值,而負差量色彩值指示來自目標視圖之相關點的色彩具有比體積表示中的對應值更低的值。零的差量色彩值指示場景中的相關點在體積表示中的色彩係來自目標視圖之相關點的色彩。
應理解圖3之方法300的步驟不一定以圖3所示的順序實行。例如,在一些實例中,步驟360及370可在步驟340及350之前或與之並行地執行。在一些實例中,步驟340至380的子步驟可彼此交錯:例如,可在判定影像框之另一區域的第一像素值及第二像素值之前判定影像框的一個區域在目標視點處的最終像素值。
在一些情形中,體積表示及光場表示可能無法提供足夠的資訊以允許在所有視點演現場景的視圖(例如,場景的某些區域可能在包括在視訊資料中的任何視圖中皆不可見)。對於一些目標視點,此將導致其之一些像素既不具有第一像素值亦不具有第二像素值的影像框。
在一些實例中,可獲得影像框的一或多個區域在目標視點處的經修補資料,且經修補資料可經處理以判定既不具有第一像素值亦不具有第二像素值的任何像素的第三像素值。對於此類像素,第三像素值係使用在影像框中之在目標視點處的像素值(係該像素可用的唯一像素值)。
在一些實例中,包含體積表示及光場表示的位元流可進一步包含場景的經修補資料(亦即,影像框的一或多個區域的經修補資料可藉由接收及解碼位元流,及將經修補資料扭曲至目標視點而獲得)。例如,位元流可包括經修補資料的經編碼補片及識別位元流中之經修補資料的補片的後設資料,如國際專利申請案第WO2022069325號中描述的。
本文中所描述之任何方法可係電腦實施的,其中電腦實施意謂該等方法之步驟由一或多個電腦執行,且其中電腦經定義為適用於處理資料之裝置。電腦可適用於根據規定指令處理資料。
應理解,由於所揭示之方法可係電腦實施的方法,因此亦提出一種電腦程式產品之概念,該電腦程式產品包含用於當該程式在處理系統上運行時實施任何所描述之方法的碼構件。
具有通常知識者將能夠輕易地發展用於實行本文描述之任何方法的處理器。因此,流程圖的各步驟可表示由處理器執行的不同動作,且可藉由該處理處理器的各別模組執行。
本文所述之方法中之任一者的一或多個步驟可由一或多個處理器執行。處理器包含適用於處理資料的電子電路。
如上文所論述,系統使用處理器以執行資料處理。處理器可使用軟體及/或硬體以許多方式實施,以執行所需的各種功能。處理器一般採用可使用軟體(例如,微碼)程式化以執行所需功能的一或多個微處理器。處理器可實施為用以實行一些功能的專用硬體、及一或多個經程式化微處理器、及執行其他功能的關聯電路系統的組合。
可使用在本揭露的各種實施例中的電路系統的實例包括,但不限於,習知微處理器、特殊應用積體電路(ASIC)、及現場可程式化閘陣列(FPGA)。
在各種實施方案中,處理器可與一或多個儲存媒體相關聯,諸如揮發性及非揮發性電腦記憶體,諸如RAM、PROM、EPROM、及EEPROM。儲存媒體可編碼有一或多個程式,當該一或多個程式在一或多個處理器及/或控制器上執行時執行所需功能。各種儲存媒體可係固定在處理器或控制器內或可係可轉移的,使得可將儲存於其上的一或多個程式載入至處理器中。
單一處理器或其他單元可滿足申請專利範圍中所述之數個項目的功能。
在實踐所主張的發明時,所屬技術領域中具有通常知識者可藉由研究圖式、本揭露、及所附申請專利範圍而理解與實現所揭示之實施例的變化。在申請專利範圍中,詞語「包含(comprising)」不排除其他元素或步驟,且不定冠詞「一(a)」或「一(an)」不排除複數個。
由處理器實施的功能可藉由單一處理器或藉由多個分開的處理單元而實施,多個分開的處理單元可一起被視為構成「處理器」。此類處理單元可在一些情況下遠離彼此,且以有線或無線方式彼此通訊。
在相互不同的附屬項中所敘述的某些測量的這一事實並未指示此等測量之組合無法用以得利。
電腦程式可儲存/分布在合適的媒體上,諸如光學儲存媒體或固態媒體,其連同其他硬體來供應或作為其他硬體的部分,但亦可以其他形式來分布,諸如經由網際網路或其他有線或無線電信系統。
若用語「經調適以(adapted to)」使用在申請專利範圍或說明書中,應注意用語「經調適以(adapted to)」意圖等效於用語「經組態以(configured to)」。若用語「配置(arrangement)」使用在申請專利範圍或說明書中,應注意用語「配置(arrangement)」意圖等效於用語「系統(system)」,且反之亦然。
申請專利範圍中的任何元件符號不應解釋為限制範圍。
100:沉浸式視訊系統110:編碼器115:位元流120:解碼器200:方法210:步驟220:步驟230:步驟240:步驟250:步驟300:方法310:步驟320:步驟330:步驟340:步驟350:步驟360:步驟370:步驟380:步驟
為更佳地瞭解本發明,並更清楚顯示可如何使其生效,現在將僅通過實例方式來參考隨附圖式,其中:[圖1]繪示根據本發明之實施例的沉浸式視訊系統;[圖2]繪示根據本發明之實施例之用於編碼沉浸式視訊的方法;及[圖3]繪示根據本發明之實施例之用於解碼沉浸式視訊的方法。
200:方法
210:步驟
220:步驟
230:步驟
240:步驟
250:步驟
Claims (15)
- 一種位元流(115),其包含:一場景的一經編碼體積表示;及該場景的一或多個區域的一經編碼光場表示,其中該光場表示包含用以產生該體積表示之視訊資料的視圖的至少一子集的殘差信號,各殘差信號定義該各別視圖與該體積表示至該各別視圖的一重投影之間的一差異。
- 如請求項1之位元流(115),其中該經編碼光場表示具有比該經編碼體積表示更小的一尺度。
- 如請求項1或2之位元流(115),其進一步包含該光場表示在演現中的使用係必需的或可選的一指示。
- 如請求項1至3中任一項之位元流(115),其進一步包含如何在演現中組合該體積表示及該光場表示的一指示。
- 如請求項1至4中任一項之位元流(115),其進一步包含如何插補該光場表示的不同部分的一指示。
- 一種用於編碼沉浸式視訊之方法(200),該方法包含:獲得包含一場景的複數個視圖的視訊資料;處理該視訊資料以產生該場景的一體積表示;處理該視訊資料及該體積表示以識別該視訊資料與該體積表示之間的任何差異,其中藉由以下步驟針對該視訊資料的各視圖識別該視訊資料與該體積表示之間的任何差異:將該體積表示重投影至該視圖;及運算定義該視圖與該各別重投影之間的一差異的一殘差信號;處理該場景之含有一經識別差異的任何區域的該視訊資料以定義該區域或該等區域的一光場表示,其中該光場表示包含該視訊資料之視圖的至少一子集的該等殘差信號及對應深度資訊;及將該體積表示及該光場表示編碼至一位元流(115)中。
- 一種用於解碼沉浸式視訊之方法(300),該方法包含:接收包含一場景的一經編碼體積表示及該場景的一或多個區域的一經編碼光場表示的一位元流(115),其中該光場表示包含用以產生該體積表示之視訊資料的視圖的至少一子集的殘差信號,各殘差信號定義該各別視圖與該體積表示至該各別視圖的一重投影之間的一差異;解碼該體積表示及該光場表示;定義一目標視點;處理該光場表示以定義一影像框中的一或多個第一區域在該目標視點處的一位置,該一或多個第一區域對應於該場景之藉由該光場表示表示的該一或多個區域;對於該一或多個第一區域的各像素,處理該光場表示以判定該像素的一第一像素值;處理該體積表示以定義該影像框中的一或多個第二區域在該目標視點處的一位置;對於該一或多個第二區域之像素的至少一子集,處理該體積表示以判定各像素的一第二像素值;及對於具有一第一像素值及一第二像素值二者的各像素,處理該第一像素值及第二像素值以判定該像素的一最終像素值。
- 如請求項7之方法(300),其中處理該第一像素值及第二像素值以判定該像素的一最終像素值的該步驟包含該第一像素值及該第二像素值的一混合。
- 如請求項7或8之方法(300),其中該體積表示經處理以僅判定在該光場表示中不具有完全可見性之像素的一第二像素值。
- 如請求項7之方法(300),其中處理該第一像素值及第二像素值以判定該像素的一最終像素值的該步驟包含該第一像素值及第二像素值的一加法組合。
- 如請求項7至10中任一項之方法(300),其進一步包含:獲得該影像框的一或多個區域的經修補資料;及對於不具有一第一像素值亦不具有一第二像素值的任何像素,處理該經修補資料以判定該像素的一第三像素值。
- 如請求項7至11中任一項之方法(300),其中:使用一第一演現技術判定各第一像素值;及使用不同的一第二演現技術判定各第二像素值。
- 一種包含電腦程式碼構件之電腦程式產品,當該等電腦程式碼構件在具有一處理系統的一運算裝置上執行時,使該處理系統執行如請求項6至11中任一項之方法(200, 300)的所有步驟。
- 一種經組態以編碼沉浸式視訊的編碼器(110),該編碼器經組態以:獲得包含一場景的複數個視圖的視訊資料;處理該視訊資料以產生該場景的一體積表示;處理該視訊資料及該體積表示以識別該視訊資料與該體積表示之間的任何差異,其中藉由針對該視訊資料的各視圖將該體積表示重投影至該視圖而識別該視訊資料與該體積表示之間的任何差異;處理該場景之含有一經識別差異的任何區域的該視訊資料以定義該等區域的一光場表示,其中該光場表示包含該視訊資料之視圖的至少一子集的該等殘差信號及對應深度資訊;及將該體積表示及該光場表示編碼至一位元流(115)中。
- 一種經組態以解碼沉浸式視訊的解碼器(120),該解碼器經組態以:接收包含一場景的一經編碼體積表示及該場景的一或多個區域的一經編碼光場表示的一位元流(115),其中該光場表示包含用以產生該體積表示之視訊資料的視圖的至少一子集的殘差信號,各殘差信號定義該各別視圖與該體積表示至該各別視圖的一重投影之間的一差異;解碼該體積表示及該光場表示;定義一目標視點;處理該光場表示以定義一影像框中的一或多個第一區域在該目標視點處的一位置,該一或多個第一區域對應於該場景之藉由該光場表示表示的該一或多個區域;對於該一或多個第一區域的各像素,處理該光場表示以判定該像素的一第一色彩值;處理該體積表示以定義該影像框中的一或多個第二區域在該目標視點處的一位置;對於該一或多個第二區域之像素的至少一子集,處理該體積表示以判定各像素的一第二像素值;及對於具有一第一像素值及一第二像素值二者的各像素,處理該第一像素值及第二像素值以判定該像素的一最終像素值。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP24151513.9 | 2024-01-12 | ||
| EP24151513.9A EP4586612A1 (en) | 2024-01-12 | 2024-01-12 | Encoding and decoding immersive video |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW202537284A true TW202537284A (zh) | 2025-09-16 |
Family
ID=89619202
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW114101039A TW202537284A (zh) | 2024-01-12 | 2025-01-10 | 編碼及解碼沉浸式視訊 |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP4586612A1 (zh) |
| TW (1) | TW202537284A (zh) |
| WO (1) | WO2025149481A1 (zh) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3979651A1 (en) | 2020-09-30 | 2022-04-06 | Koninklijke Philips N.V. | Encoding and decoding immersive video |
-
2024
- 2024-01-12 EP EP24151513.9A patent/EP4586612A1/en active Pending
-
2025
- 2025-01-07 WO PCT/EP2025/050244 patent/WO2025149481A1/en active Pending
- 2025-01-10 TW TW114101039A patent/TW202537284A/zh unknown
Also Published As
| Publication number | Publication date |
|---|---|
| EP4586612A1 (en) | 2025-07-16 |
| WO2025149481A1 (en) | 2025-07-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102165496B (zh) | 三维图像数据处理 | |
| US11218729B2 (en) | Coding multiview video | |
| US7573475B2 (en) | 2D to 3D image conversion | |
| JP7527351B2 (ja) | シーンの画像キャプチャの品質を評価するための装置及び方法 | |
| CN111656407A (zh) | 对动态三维模型的视图进行融合、纹理化和绘制 | |
| JP2020524851A (ja) | テクスチャマップ及びメッシュに基づく3d画像情報の処理 | |
| CN100530243C (zh) | 镜头呈现方法和装置 | |
| KR102059732B1 (ko) | 디지털 비디오 렌더링 | |
| US12418636B2 (en) | Coding hybrid multi-view sensor configurations | |
| TW202537284A (zh) | 編碼及解碼沉浸式視訊 | |
| EP4586611A1 (en) | Encoding and decoding immersive video | |
| JP2024526616A (ja) | 画像生成 | |
| CN116491121A (zh) | 视觉内容的信号通知 | |
| EP4544769A1 (en) | Data signal comprising a representation of a three dimensional scene | |
| CN120416530A (zh) | 具有光线自适应背景的视频通信 | |
| TW202536803A (zh) | 處理沉浸式視訊 | |
| TW202545178A (zh) | 影像資料信號 | |
| JP2025539556A (ja) | 点群を使用した新規ビューの生成 | |
| Choi et al. | Beyond the Screen | |
| CN119948524A (zh) | 处理多视图成像中的反射 |