TW202141422A

TW202141422A - 訓練複數個影像之對準

Info

Publication number: TW202141422A
Application number: TW110109189A
Authority: TW
Inventors: 克莉斯汀維爾甘
Original assignee: 荷蘭商皇家飛利浦有限公司
Priority date: 2020-03-17
Filing date: 2021-03-15
Publication date: 2021-11-01
Also published as: EP4121941A1; US12423839B2; KR20220154782A; BR112022018270A2; EP3882852A1; US20230162379A1; JP7704148B2; WO2021185795A1; JP2023517461A; CA3175169A1; CN115315722A

Abstract

提出用於產生可用於訓練多個經合成影像之對準的一輸入影像資料集之概念。此類概念可基於從在各種方向位移的一任意參考影像之複本產生一輸入影像資料集的構想。以此方式，可使用單一任意影像來產生可用於訓練一類神經網路的一人工未對準之輸入影像輸入樣本（即，輸入影像資料集）。

Description

訓練複數個影像之對準

本發明係關於影像對準領域，且更具體而言，係關於訓練用於對準複數個影像之一類神經網路（例如，用於合成視圖）。

需要深度資訊（諸如經估計深度圖（幾何））以基於所觀察/所擷取影像來合成/演現虛擬視圖。當從多個參考影像預測一虛擬/經合成視圖時，使用經偏置及/或不準確深度資訊會在觀察者改變虛擬視圖時導致可見的經位移紋理及/或可見轉變。例如，雙重影像/經位移紋理可起因於深度圖的偏置（例如，高估或低估）。因此需要自動化及/或準確獲取深度資訊。

然而，已證實自動從多個攝影機影像提取3D幾何資訊有所困難。具體難度可能是因為缺乏可靠深度線索而無法獲得準確深度資訊。對於多視圖影像的改善深度評估僅導致中等改善3D重建的經合成視圖品質。

已知獲得深度資訊的方法包括使用紅外線光源、紅外線飛行時間、後期製作的手動精緻化、及施加應用相依之約束。然而，對於許多實況活動(live-event)，後期製作及使用紅外線光源並非可行。

因此，仍然需要獲得可實用於對準複數個影像及/或合成虛擬視圖的資料之概念。

本發明由申請專利範圍定義。

根據本發明之一態樣之實例，提供一種用於產生用於訓練用於對準複數個影像之一類神經網路的一輸入影像資料集之方法。該方法包含：獲得一參考影像之一第一複本；獲得該參考影像之一第二複本；使該參考影像之該第一複本在一第一方向位移，以產生一第一經位移影像；使該參考影像之該第二複本在一第二方向位移，以產生一第二經位移影像；及基於該第一經位移影像及該第二經位移影像產生包含複數個影像之一輸入影像資料集。

提出產生可用於訓練多個經合成影像之對準的一輸入樣本之概念。此類概念可基於從在各種方向位移的一任意參考影像之複本產生一輸入樣本的構想。以此方式，可使用單一任意影像來產生可用於訓練一類神經網路的一人工未對準之輸入樣本（即，輸入影像資料集）。

例如，所提出之實施例可採用一種概念，其採用一任意影像，並且使該原始任意影像在相反方向位移多次以產生一人工未對準之輸入影像資料集。此一方法可避免對於資料註解的需求，此係因為該輸入樣本資料係人工產生。提出的實施例亦可有助於產生大量的合成訓練樣本。此外，所施加之位移可經選擇以模型化預期的未對準位移（例如，基於攝影機擷取幾何、攝影機定向等）。

不同於習知的資料增強，其中對一第一樣本x ₁ 執行操作以產生額外樣本x ₂ 、x ₃ 等（即，增加資料集大小），建議採用一參考影像y （例如，目標輸出影像）以及使用位移及裁切操作以形成合成輸入影像x ₁ 、x ₂ ，該等合成輸入影像不形成個別樣本，而是組合（例如，堆疊或串連）以形成用於類神經網路的單一輸入樣本x =[x₁ , x₂ ]。舉實例而言，該等位移操作可經選擇以模型化x₁ 與x₂ 之間的預期未對準。例如，為了獲得x₁ ，參考影像y 之第一例項根據向量d 予以位移，並且為了獲得x₂ ，參考影像y 之第二例項根據向量–d 予以位移。再者，向量d 之方向及長度可變化以模型化在實務中會發生的x ₁ 與x ₂ 之間的可能未對準。當使用時，一類神經網路可經訓練以映射[x ₁ ,x ₂ ]至參考影像，即，經訓練以映射y [x ₁ ,x ₂ ]ày 。舉進一步實例，當用於從y 形成四個合成輸入影像x ₁ 、x ₂ 、x ₃ 、x ₄ 時，一類神經網路可經訓練以映射[x ₁ ,x ₂ ,x ₃ ,x ₄ ]至參考影像y ，即，經訓練以映射[x ₁ ,x ₂ ,x ₃ ,x ₄ ]ày 。

例如，簡單影像位移及裁切操作可用於（其可易於獲得的）一任意影像上以產生一寶貴的訓練輸入樣本。再者，所採用之影像位移可基於模型化一般觀察到之未對準的統計分布。

在一些實施例中，使該參考影像在該第一方向位移可包含使該參考影像之一第一複本在該第一方向位移達一距離。進一步地，使該參考影像在該第二方向位移可隨後包含使該參考影像之一第二複本在一第二相反方向位移達相同距離。依此方式，可使該參考影像之該兩個例項在相反方向位移達相等量，使得一類神經網路可經訓練以將兩個經位移影像位移朝向在兩者之間精確中途的中間位置。

一些實施例可進一步包含使該參考影像之一第三複本在一第三方向位移，以產生一第三經位移影像。然後，可進一步基於該第三經位移影像產生該輸入影像資料集。因此，應理解，可使用實施例來從一單一參考影像產生多於兩個經位移影像。以此方式，實施例可支援產生大量的合成訓練影像。

舉實例而言，可分別藉由第一向量、第二向量、及第三向量來表示該參考影像之該第一複本、第二複本、及第三複本之該位移以產生第一、第二、及第三經位移影像。然後，第一、第二及第三向量的總和可等於零。換言之，用於產生該複數個經位移影像的該等位移操作可經組態使得所有位移向量的總和等於零。以此方式，該參考影像可被視為在一質心位置（或重心）處，且此知識可由一類神經網路充分利用以訓練該經位移影像至該參考影像的一映射。

在一實施例中，產生該輸入影像資料集可包含串連該第一經位移影像及該第二經位移影像。以此方式，自該等參考影像產生的該等經位移影像可經組合或堆疊（例如，依通道軸），以形成用於一類神經網路之一單一輸入影像資料集（或張量）。

使該參考影像之該第一複本/例項在一第一方向位移可包含：對該參考影像之該第一複本施加一位移操作，以產生一中間影像，該中間影像包含在該第一方向位移的該參考影像之所有像素；及裁切該中間影像以產生該第一經位移影像。此類實施例可基於在一局部空間鄰域中未對準為恆定的基礎假設。然而，此情形可能不會發生在（解除）遮擋/（未）覆蓋的一區域，此係因為在此類區域未對準會快速變化。據此，在一些實施例中，可藉由在覆蓋（即，遮擋）該參考影像之一部分之後產生一經位移影像來考量遮擋。舉實例而言，在一實施例中，使該參考影像之該第一複本在一第一方向位移可包含：用一前景影像覆蓋該參考影像之該第一複本之一部分，以產生一經部分遮擋影像，該經部分遮擋影像由下列所組成：該參考影像之一未遮擋部分；及一經遮擋部分，其係由該前景影像所組成；對該參考影像之該未遮擋部分施加一第一位移操作，以產生一中間未遮擋部分，該中間未遮擋部分包含在該第一方向位移達一第一位移距離的參考影像之該未遮擋部分之所有像素；對該經遮擋部分施加一第二位移操作，以產生：一中間遮擋部分，其包含在該第一方向位移達一第二較大位移距離的該前景影像之所有像素；及一中間空白部分，其不含來自該參考影像與前景影像的像素；從下列形成一中間影像：該中間未遮擋部分；該中間遮擋部分；及該中間空白部分；及裁切該中間影像以產生該第一經位移影像。該空白部分可例如填充有單一色值或零資料值，使得例如在一訓練程序期間可輕易識別及忽略該空白部分。以此方式，實施例可經調適以藉由在該參考影像之部分上方放置一前景元素（例如，紋理或影像）且隨後將該前景元素位移達不同於該參考影像的量（例如，以模擬該參考影像之部分的未覆蓋）來處理遮擋。

在一實施例中，使該參考影像之該第一複本在一第一方向位移可包含對該參考影像之該第一複本施加一位移操作，其中該位移操作經組態以模擬該參考影像之一預測未對準。因此，此類實施例可模型化預期的未對準位移，以例如促進更準確的影像對準。

根據本發明之另一態樣，提供一種訓練用於對準複數個影像之一類神經網路之方法，該方法包含：根據一提出實施例產生一輸入影像資料集；及訓練該類神經網路以映射該輸入影像資料集至該參考影像。因此，可使用所提出之實施例以訓練一廻旋類神經網路，以對準影像。以此方式，可提供一對準網路，該對準網路經組態以將二或更多個影像貼齊在一起，使得其等對準。

舉實例而言，該類神經網路可包含最初經設想用於影像分段的一廻旋類神經網路架構。然而，預期許多其他的廻旋類神經網路架構可經訓練以對準多個影像。因此，實施例可結合許多不同形式或類型之類神經網路而使用。

根據本發明之另一態樣，提供一種電腦程式，其包含用於實施根據一實施例之當該程式在一處理系統上運行時之一方法的編碼構件。

根據本發明之另一態樣，提供一種用於產生用於訓練用於對準複數個影像之一類神經網路的一輸入影像資料集之系統。該系統包含：一位移組件，其經組態以使一參考影像之一第一複本在一第一方向位移，以產生一第一經位移影像，及使該參考影像之一第二複本在一第二方向位移，以產生一第二經位移影像；及一樣本產生器，其經組態以基於該第一經位移影像及該第二經位移影像產生一輸入影像資料集。

根據本發明之又另一態樣，提供一種用於訓練用於對準複數個影像之一類神經網路之系統，該系統包含：一系統，其用於產生根據一實施例之一輸入影像資料集；及一訓練組件，其經組態以訓練該類神經網路以映射該輸入影像資料集至該參考影像。

本發明的此等及其他態樣將參考下文描述的（多個）實施例闡明且將係顯而易見的。

將參考圖式描述本發明。

應該理解到，詳細說明與特定實例雖然指示了設備、系統、與方法的例示性實施例，但僅意圖用於說明的目的，而不意圖限制本發明的範圍。從以下描述、所附申請專利範圍、與附圖，將更佳地理解本發明的設備、系統、與方法的這些與其他特徵、態樣、與優點。在相互不同的附屬項中所敘述的某些測量的這一事實並未指示此等測量之組合無法用以得利。

在實踐所主張的發明時，所屬技術領域中具有通常知識者可藉由研究圖式、本揭露、及所附申請專利範圍而理解與實現所揭示之實施例的變化。在申請專利範圍中，詞語「包含(comprising)」不排除其他元素或步驟，且不定冠詞「一(a)」或「一(an)」不排除複數個。

應該理解到，圖式僅是示意性的，且未按比例繪製。也應該理解到，整個圖式使用相同的元件符號來表示相同或相似的部分。

提出用於產生用於訓練一類神經網路以對準影像之一輸入樣本的概念。此類概念可從各在不同方向位移的一參考影像之複本產生一輸入影像資料集。以此方式，可使用該參考影像以從該參考影像之多個經位移版本建立一人工輸入影像資料集。

具體而言，由所提出之實施例所產生之一輸入影像資料集可用以訓練用於影像對準的一類神經網路。以此方式，可提供改善的影像/視圖合成，其減少或避免一經預測/經合成視圖中的可見經位移紋理。例如，實施例可用於當觀察者改變一虛擬攝影機視圖時，從無縫融合在一起（即，減少或避免可見轉變）的多個參考影像提供視圖預測。

舉實例而言，所提出之實施例藉由使一任意參考影像之例項在不同方向位移且接著組合該參考影像之不同經位移版本來從該參考影像產生一輸入樣本。例如，實施例可採用一任意影像(y)及使該影像(y)之例項在相反方向位移，以從該等人工未對準影像產生一輸入影像資料集(x)。所產生之輸入影像資料集(x)可例如用於訓練一廻旋類神經網路以對準複數個影像。

藉由人工地建立該輸入影像資料集，所提出之實施例可避免需要資料註解。

所採用之位移操作可經選擇以模型化預期的未對準位移（例如，由於影像擷取幾何、定向、基線等）。

現請參照圖1，其繪示根據所提出之實施例之訓練用於對準複數個影像的類神經網路之方法。該方法包含兩個主要階段：從一參考影像產生100一輸入影像資料集；及訓練105該類神經網路以映射該輸入影像資料集至該參考影像。

更具體而言，第一階段包含一種根據所提出之實施例產生用於訓練一類神經網路之一輸入影像資料集之方法100。在此，首先使一任意參考影像115在第一方向位移120，以產生一第一經位移影像125。亦使參考影像115在一第二方向位移130，以產生第二經位移影像135。

舉進一步解釋，使參考影像115在第一方向位移120的程序包含使參考影像115之一第一複本115a在該第一方向位移達一第一距離D。更具體而言，使參考影像115之第一複本115a在該第一方向位移120包含對該參考影像之第一複本115a施加一位移操作以產生一中間影像，該中間影像包含在該第一方向位移達第一距離D的該參考影像之所有像素。在此，該位移操作經組態/經選擇以模擬參考影像115之一預測未對準。然後，該中間影像經裁切（例如，至與參考影像相同的邊界）以產生第一經位移影像125。

類似地，使參考影像115在一第二方向位移130的程序包含使參考影像115之一第二複本115b在一第二相反方向位移130達相同距離D。

換言之，藉由使參考影像115之第一複本115a及第二複本115b在相反方向位移達相等距離來產生第一經位移影像125及第二經位移影像135。因此，分別藉由第一向量d ₁ 及第二向量d ₂ 來表示參考影像115之第一複本115a及第二複本115b的位移以產生第一經位移複本125及第二經位移複本135，該第一向量及該第二向量之總和等於零（即，d ₁ +d ₂ =0 ）。

然後，藉由在通道軸中堆疊140第一經位移複本125及第二經位移複本135而產生一輸入影像資料集150。例如，可考慮藉由具有尺寸3,w ,h 之張量所表示的大小為w 乘h 的一彩色（三個通道）影像。類神經網路設計中的一個操作係用於串連（堆疊）多個此類張量。在兩個彩色影像的情況中，該兩個彩色影像可經串連以形成具有尺寸6,w ,h 的一單一張量。進一步（廻旋）運算子作用在此張量，且因此網路可開始模型化發生在該兩個影像中之一特定像素位置處的色值之間的關係。然而，應注意，替代地，在以廻旋層處理各影像之後，可稍後在網路中發生串連。

然後，提供所產生之輸入影像資料集150至類神經網路160以用於對準影像。在此實例中，類神經網路160包含一廻旋類神經網路，該廻旋類神經網路經組態以「貼齊」二或更多個影像組態以使得其等正確對準。類神經網路160經訓練以映射輸入影像資料集150至參考影像115。因此，類神經網路160可經組態以輸出一經預測影像165。

應理解，圖1之例示性實施例經組態以從參考影像115產生複數個合成影像（即，經位移影像）。以此方式，所提出之實施例支援可組合成用於類神經網路160之一輸入影像資料集150的大量合成影像之產生。可藉由使該參考影像在不同方向位移及裁切而以相對簡單的方式建立各合成影像。

可從一均勻分布產生該位移向量之長度。然而，設想一些實施例可產生更多合成影像，其中位移愈接近零，則位移愈大。例如，對數常態分布或負指數分布的經裁切版本可用來模型化經預測/預期的未對準。

現請參照圖2A，描繪一實施例，其中參考影像115經位移達一第一向量d ₁ 並且經裁切以產生一第一經位移影像x₁ 125。原始參考影像115亦經位移達一第二向量d ₂ 並且經裁切以產生一第二經位移影像x₂ 135。第二向量d ₂ 與第一向量d ₁ 之大小相等但方向相反。因此，第一向量d ₁ 與第二向量d ₂ 的總和等於零（即，d ₁ +d ₂ =0 ）。

然後，第一經位移影像x ₁ 及第二經位移影像x ₂ 經堆疊140以形成包含複數個影像的一輸入影像資料集x。更具體而言，在此實例中，第一經位移影像x₁ 及第二經位移影像x₂ 經串連使得x=[x₁ , x₂ ]。

輸入影像資料集x經提供作為至類神經網路160之輸入。接著，訓練類神經網路106以預測未經位移的一第三影像y（即，參考影像115）。由於所施加之位移d ₁ 及d ₂ 的方向相反，所以類神經網路160學會將第一經位移影像x₁ 及第二經位移影像x₂ 位移朝向在兩者之間精確中途的中間位置。

例如，在用於對準複數個影像的系統中可採用於圖2A之經訓練類神經網路160。舉實例而言，圖2B描繪根據所提出實施例之用於對準複數個影像之系統165的一實施例，其中該系統包含圖2A之類神經網路。在此實例中，系統165經調適以藉由對準所獲得之影像（例如，所擷取之視圖）來產生一或多個虛擬影像（例如，視圖）。

更具體而言，系統165包含一輸入介面170，該輸入介面經調適以獲得表示由複數個不同定位之影像擷取裝置175所擷取的物體172之視圖的影像。在此實例中，一第一影像擷取裝置175₁ 擷取物體172之一第一影像（即，第一視圖）V₁ ，且一第二影像擷取裝置175₂ 擷取物體172之一第二影像（即，第二視圖）V₂ 。輸入介面170接收第一影像V₁ 及第二影像V₂ ，並將該等影像輸入至類神經網路160（其已根據圖2A之實施例予以訓練）。基於第一影像V₁ 及第二影像V₂ ，類神經網路160產生表示由經定位在第一影像擷取裝置175₁ 與第二影像擷取裝置175₂ 之間的一虛擬擷取裝置175_V 所擷取的物體172之視圖的影像。換言之，根據類神經網路160之訓練，類神經網路160對準第一影像V₁ 及第二影像V₂ （表示第一視圖及第二視圖）以產生物體172之一虛擬攝影機視圖V_V 。經由系統165之一輸出介面輸出所產生的虛擬攝影機視圖V_V 。

從上述圖2B之實例中，應理解，使用根據所提出之（多個）概念所產生之輸入樣本所訓練的類神經網路可經採用以基於所觀察/所擷取影像來合成/演現一虛擬視圖。因此，可使用單一任意影像來建立用於訓練類神經網路之輸入影像資料集，且隨後可（例如，在系統內）採用經訓練類神經網路用於對準影像及/或合成虛擬視圖。

應瞭解，具體類神經網路架構與產生輸入樣本資料之方式可較不相關。然而應注意，純粹以完整度而言，已知的Unet架構運作良好（參考文獻：O. Ronneberger, P. Fischer, T. Brox, 2015. UNet: Convolutional Networks for Biomedical Image Segmentation）。此外，預期改變架構可改善結果。在圖3中展示已經由發明人測試的已知的UNet架構的變化。

更具體而言，圖3描繪可用於一所提出實施例之一類神經網路的一例示性UNet架構。在圖3之所描繪的架構中：C_k =使用k x k 核心進行廻旋P_k =因數k 按比例縮小平均U_k =因數k 雙線性增加取樣A =沿通道軸串連N _conv =N _in N _out k ² +N _out N _down = 0N _up = 0N _total = 26923

藉由圖式說明，圖4(c)展示施加所提出之類神經網路的結果。為了比較，在針對圖4(c)所示的所提出實施例之結果旁邊呈現：(a)基準真相；及(b)習知融合方法。

如圖4中之影像可見，當歸因於深度偏置而使位移大時，當使用習知的融合方法（展示於圖4(b)）時出現雙重影像，而所提出之實施例之結果（展示於圖4(c)）對準於圖中存在的最重要輪廓上。

應瞭解，所提出之概念可延伸以對準源自多於二個參考影像（例如，從最接近三個參考影像或四個參考影像）之預測。在此一實例中，使用經位移及經裁切影像之所提出之模擬方法可被採用。接著，基準真相影像可例如被定義為位於多於二個參考影像之偽隨機施加位移之重心。即，所施加的所有平移向量可經組態以加總至零。針對此類情况，然後，一類神經網路可採用來自參考影像（例如，各種攝影機視圖）之所有經位移影像之堆疊作為其輸入，然後學習預測一最終中心影像。

上文描述之實施例模型化一像素的全域平移位移。此係基於假設可藉由僅位移多個參考像素來預測輸出視圖。然而，這不是必然的情況。例如，當一（或多個）攝影機環視正在遮擋（即，阻擋）一背景（之視圖）的一前景物體時可發生解除遮擋（即，未覆蓋）。

提案可經修改或延伸以解決（即，迎合）遮擋。例如，現在參照圖5，描繪一實施例，其中為了產生各經位移影像，施加偽隨機位移與用向量k d 及–k d （其中k 係可具有負值及正值兩者的純量，且|k |≥1）位移新放置之前景紋理的組合。變化係在該二個（即，前景與背景）紋理之間位移模擬深度差異。

更具體而言，在圖5之實例實施例中，使參考影像215之一第一複本在一第一方向位移包含用一前景影像220覆蓋參考影像215之該第一複本之一部分，以產生一經部分遮擋影像，該經部分遮擋影像由下列所組成：該參考影像之一未遮擋部分225；及一經遮擋部分230，其由前景影像220所組成。（用向量d ）對該參考影像之未遮擋部分225施加一第一位移操作，以產生一中間未遮擋部分240，該中間未遮擋部分包含在該第一方向位移達一第一位移距離的參考影像之該未遮擋部分之所有像素。（用向量k d ）對經遮擋部分230施加一第二位移操作，以產生：一中間遮擋部分245，其包含在該第一方向位移達一第二較大位移距離的該前景影像之所有像素；及一中間空白部分250，其不含來自該參考影像與該前景影像之像素。接著，從下列形成一中間影像：中間未遮擋部分240；中間遮擋部分245；及中間空白部分250，且此中間影像經裁切以產生第一經位移影像260₁ 。類似的位移程序係以參考影像215之一第二複本來進行，以產生一第二經位移影像260₂ ，但在此作法中，（用向量-k d ）對該未遮擋部分施加相反的第二位移操作。

此處應注意，該前景影像的移位係在與d 相同的方向。此係因為實務的使用情況是使用立體設置中的兩個攝影機的內插而達成。

然後，第一經位移影像260₁ 及第二經位移影像260₂ 經堆疊270以形成一輸入影像資料集x’，即，x’=[260₁ , 260₂ ]。

雖然上文描述將該等未覆蓋區域處理為空白部分，但該等未覆蓋區域可經編碼有一保留的色值（例如，完全白色）或一分開之二進位2D圖，以供例如易於識別及/或處理。

輸入影像資料集x’經提供作為至類神經網路280之輸入。類神經網路280經組態以在訓練（零誤差）期間忽略該等未覆蓋區域（即，空白部分）。替代地，或額外地，類神經網路280可經組態以學習從相鄰像素解譯（該等）空白部分。

作為替代實施例，實施例可使用基於目前操作深度影像之演現器(renderer)作為模擬內部的一組件。在此種情況下，因為在物體邊緣上的三角形被拉伸，所以紋理僅在該遮擋區域中拉伸。所使用的深度圖必須匹配純量因數k 。可例如從均勻分布取樣k 。

所提出之實施例亦可經修改及/或延伸，以用於計算作為類神經網路之輸入的光流之目的。

光流係用於運動評估的以已知濾光器為基礎的方法，其中評估係基於濾光器操作之組合。一種熟知的例示性實施方案係Lucas-Kanade方法。

影像對準（如可藉由所提出之實施例予以解決）可受益於具有與兩個或更多個影像之間的相對運動（即，位移）相關的資訊。此外，這可係下列之情況：如果可取得此類相對運動資訊，則可減少總運算數目（在可訓練之網路+光流方程式中）（其對於例如即時實施方案而言可係有利的）。該Lurender Kanade方法主要包含線性濾光器，且因此可表示為可作為使用標準運算的一較大類神經網路之一部分予以執行的一運算圖表，其使用在典型神經網路推論之實施方案中亦支援之該等標準運算。圖6繪示此類方法的實例。

圖6係表示為運算圖表的Lucas-Kanade光流的圖式，其中所提供的輸入係兩個強度影像image1及image2。藉由進一步解釋及實例，圖7描繪可用於此光流之一例示性架構。在此實例中，網路採用兩個彩色影像作為輸入。這些係沿彩色通道軸加總以形成用於光流子圖表之灰階輸入影像。另一分支沿該等通道軸串連該兩個顏色影像以形成具有六個通道的一張量。串連輸出光流運動場與這六個通道，且所得八個通道進入類神經網路之其餘部分。在訓練階段期間，在圖7之整個灰色方塊中的所有層/參數（光流子圖表）設定為「不可訓練」。

圖8繪示在其內可採用實施例之一或多個部分的一電腦800之一實例。上文所討論的各種操作可利用電腦800之能力。例如，用於提供一主題特定之使用者介面的一系統之一或多個部件可併入本文所討論之任何元件、模組、施加及/或組件中。在此方面，應理解，系統功能方塊可在單一電腦上運行，或者可分布於數個電腦及位置上（例如，經由網際網路連接）。

電腦800包括但不限於PC、工作站、筆記型電腦、PDA、掌上型裝置、伺服器、儲存器及類似者。一般而言，就硬體架構而言，電腦800可包括經由一本機介面（圖中未展示）通訊耦合的一或多個處理器810、記憶體820及一或多個I/O裝置870。本端介面可係例如但不限於一或多個匯流排或其他有線或無線連接，如所屬技術領域中所習知。本端介面可具有額外元件，諸如控制器、緩衝器（快取）、驅動器、轉發器、及接收器，以實現通訊。進一步，該本機介面可包括位址、控制及/或資料連接，以實現前述組件之間的適當通訊。

處理器810係用於執行可儲存在記憶體820中之軟體的硬體裝置。處理器810可係實際上任何自訂製作或市售處理器、中央處理單元(central processing unit, CPU)、數位信號處理器(digital signal processor, DSP)或與電腦800相關聯的數個處理器之中的輔助處理器，且處理器810可係以半導體為基礎之微處理器（呈微晶片的形式）或微處理器。

記憶體820可包括揮發性記憶體元件（例如，隨機存取記憶體(random access memory, RAM)，諸如動態隨機存取記憶體(dynamic random access memory, DRAM)、靜態隨機存取記憶體(static random access memory, SRAM)等）及非揮發性記憶體元件（例如，ROM、可抹除可程式化唯讀記憶體(erasable programmable read only memory, EPROM)、電子可抹除可程式化唯讀記憶體(electronically erasable programmable read only memory, EEPROM)、可程式化唯讀記憶體(programmable read only memory, PROM)、磁帶、光碟唯讀記憶體(compact disc read only memory, CD-ROM)、磁碟、磁碟片、卡匣、磁帶盒或類似者等）之任何一或組合。此外，記憶體820可併入電子、磁性、光學及/或其他類型的儲存媒體。請注意，記憶體820可具有分散式架構，其中各種組件位於彼此遠端，但可由處理器810存取。

記憶體820中的軟體可包括一或多個分開的程式，該等分開的程式之各者包含用於實施邏輯功能之可執行指令的一有序清單。根據例示性實施例，記憶體820中的軟體包括合適的作業系統(O/S) 850、編譯器840、原始程式碼830及一或多個應用程式860。如所繪示，應用程式860包含用於實施例示性實施例之特徵及操作的眾多功能性組件。根據例示性實施例，電腦800的應用程式860可代表各種應用程式、運算單位、邏輯、功能單元、處理程序、操作、虛擬實體及/或模組，但應用程式860並非意欲為一限制。

作業系統850控制其他電腦程式的執行，並提供排程、輸入輸出控制、檔案與資料管理、記憶體管理及通訊控制與相關之服務。本發明人設想，用於實施例示性實施例的應用程式860可適用於所有市售作業系統。

應用程式860可係一原始程式、可執行程式（物件程式碼）、指令碼或包含一組指令的任何其他實體。如果係原始程式，則該程式通常經由一編譯器（諸如編譯器840）、組譯工具(assembler)、解譯器或類似者轉換（其可或可不包括在記憶體820內）以適當地結合O/S 850操作。此外，應用程式860可編寫為一物件導向式程式設計語言（其具有資料類別及方法）或程序程式設計語言（其具有例如常式、子常式及/或函式），例如但不限於C、C++、C#、Pascal、BASIC、API呼叫、HTML、XHTML、XML、ASP指令碼、JavaScript、FORTRAN、COBOL、Perl、Java、ADA、.NET及類似者。

I/O裝置870可包括輸入裝置，例如但不限於諸如滑鼠、鍵盤、掃描器、麥克風、攝影機等。此外，I/O裝置870亦可包括輸出裝置，例如但不限於印表機、顯示器等。最後，I/O裝置870可進一步包括傳達輸入及輸出兩者的裝置，例如但不限於一NIC或調變器/解調變器（用於存取遠端裝置、其他檔案、裝置、系統或網路）、射頻(radio frequency, RF)或其他收發器、電話介面、橋接器、路由器等。I/O裝置870亦包括用於透過各種網路（諸如網際網路或內部網路等）通訊之組件。

如果電腦800係PC、工作站、智慧型裝置或類似者，則記憶體820中的軟體可進一步包括基礎輸入輸出系統(basic input output system, BIOS)（為簡單起見而省略）。BIOS係一組必要的軟體常式，其在開機時初始化並測試硬體、啟動O/S 850，且支援硬體裝置之間的資料傳送。BIOS儲存在一些類型的唯讀記憶體中，諸如ROM、PROM、EPROM、EEPROM或類似者，使得當電腦800被啟動時，可執行BIOS。

當電腦800處於操作中時，處理器810經組態以執行儲存在記憶體820內的軟體以往返於記憶體820傳達資料，並大致上依據軟體來控制電腦800的操作。應用程式860及O/S 850被處理器810整個或部分地讀取（或許在處理器810內緩衝），並接著予以執行。

當應用程式860以軟體實施時，應注意，應用程式860可儲存在實際上任何電腦可讀媒體上，以供或結合與任何電腦相關系統或方法使用。在本文件的上下文中，電腦可讀媒體可係電子、磁性、光學、或其他實體裝置，或可含有或儲存電腦程式以供或結合電腦相關系統或方法使用的構件。

應用程式860可體現於任何電腦可讀媒體中，以供或結合指令執行系統、設備、或裝置使用，諸如以電腦為基礎的系統、含有處理器之系統，或可從指令執行系統、設備、或裝置提取指令並執行指令的其他系統。在本文件的上下文中，「電腦可讀媒體(computer-readable medium)」可係可儲存、通訊、傳播、或傳輸程式以供或結合指令執行系統、設備或裝置使用的任何構件。電腦可讀媒體可係例如但不限於電子、磁性、光學、電磁、紅外線、或半導體系統、設備、裝置或傳播媒體。

本發明可係一系統、一方法及/或一電腦程式產品。電腦程式產品可包括一（或多個）電腦可讀儲存媒體，其具有電腦可讀程式指令於其上以用於引起處理器實行本發明之態樣。

該電腦可讀儲存媒體可係一種可保留及儲存指令以供指令執行裝置使用的有形裝置。電腦可讀儲存媒體可係例如但不限於電子儲存裝置、磁性儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置、或前述的任何合適組合。電腦可讀儲存媒體之更具體實例的非窮盡清單包括下列：可攜式電腦碟片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體（EPROM或快閃記憶體）、靜態隨機存取記憶體(SRAM)、可攜式光碟唯讀記憶體(CD-ROM)、數位多功能光碟(digital versatile disk, DVD)、記憶卡、軟碟、機械編碼裝置（諸如打孔卡或呈具有記錄於其上之指令的溝槽的凸起結構）、及前述的任何合適組合。如本文中所使用，電腦可讀儲存媒體本身非視為暫時性信號，諸如無線電波或其他自由傳播電磁波、透過波導或其他傳輸介質傳播的電磁波（例如，行進通過光纖纜線的光脈衝）、或透過一線傳輸的電信號。

本文中所述之電腦可讀程式指令可經由網路（例如，網際網路、區域網路、廣域網路及/或無線網路）從電腦可讀儲存媒體下載至各別運算/處理裝置、或外部電腦或外部儲存裝置。該網路可包含銅傳輸纜線、光透射光纖、無線傳輸、路由器、防火牆、交換器、閘道器電腦、及/或邊緣伺服器(edge server)。在各運算/處理裝置中之一網路配接卡或網路介面接收來自網路之電腦可讀程式指令，並且轉遞該等電腦可讀程式指令以儲存在各別運算/處理裝置內的電腦可讀儲存媒體中。

用於實行本發明之操作的電腦可讀程式指令可係組譯工具指令、指令集架構(instruction-set-architecture, ISA)指令、機器指令、機器相依指令、微碼、韌體指令、狀態設定資料、或以一或多種程式設計語言之任何組合編寫的原始程式碼或物件程式碼，包括物件導向式程式設計語言（諸如Smalltalk、C++或類似者）、及習知的程序程式設計語言（諸如「C」程式化語言或類似的程式設計語言）。電腦可讀程式指令可完全在使用者的電腦上執行、部分在使用者的電腦上執行、作為獨立軟體套件執行、部分在使用者的電腦上且部分在遠端電腦上執行、或完全在遠端電腦或伺服器上執行。在後者情境中，遠端電腦可透過任何類型的網路（包括區域網路(local area network, LAN)或廣域網路(wide area network, WAN)）連接至使用者的電腦，或（例如，使用網際網路服務提供者透過網際網路）可連接至外部電腦。在一些實施例中，包括例如可程式化邏輯電路系統、可程式化閘陣列(field-programmable gate array, FPGA)或可程式化邏輯陣列(programmable logic array, PLA)的電子電路系統可藉由利用電腦可讀程式指令的狀態資訊來執行該等電腦可讀程式指令，以個人化該電子電路系統以執行本發明之態樣。

本文中參照根據本發明實施例之方法、設備（系統）及電腦程式產品的流程圖及/或方塊圖來描述本發明的態樣在。應理解，可藉由電腦可讀程式指令實施流程圖及/或方塊圖之各方塊及流程圖及/或方塊圖中之方塊的組合。

單一處理器或其他單元可滿足申請專利範圍中所述之數個項目的功能。

電腦程式可儲存/分布在合適的媒體上，諸如光學儲存媒體或固態媒體，其連同其他硬體來供應或作為其他硬體的部分，但亦可以其他形式來分布，諸如經由網際網路或其他有線或無線電信系統。

這些電腦可讀程式指令可提供至一通用電腦、特殊用途電腦、或其他可程式化資料處理設備的處理器以產生機器，使得經由該電腦或其他可程式化資料處理設備之處理器執行的指令，建立用於實施在流程圖及/或方塊圖之一或多個方塊中的功能/行為的構件。這些電腦可讀程式指令亦可儲存在電腦可讀儲存媒體中，可引導電腦、可程式化資料處理設備、及/或其他裝置以特定方式起作用，使得具有儲存於其中之指令的電腦可讀儲存媒體包含一製造物品，該製造物品包括實施流程圖及/或方塊圖之一或多個方塊中指定的功能/行為的態樣之指令。

電腦可讀程式指令亦可載入至電腦、其他可程式化資料處理設備或其他裝置上，以引起在電腦、其他可程式化資料處理設備或其他裝置上執行一系列操作步驟，以產生一電腦實施程序，使得在電腦、其他可程式化設備、或其他裝置上執行的指令實施流程圖及/或方塊圖之一或多個方塊中指定的功能/行為。

圖式中之流程圖及方塊圖繪示根據本發明之各種實施例之系統、方法、及電腦程式產品之可能實施方案的架構、功能、及操作。在此方面，流程圖或方塊圖中的各方塊可代表一模組、程式片段或指令之部分，其包含用於實施（多個）指定邏輯功能的一或多個可執行指令。在一些替代實施方案中，在該方塊中提到的功能可不以在圖式中所提到的順序發生。例如，事實上，連續展示的兩個區塊可實質上並行執行，或取決於所涉及的功能，該等區塊有時可依反向順序執行。亦應注意，方塊圖及/或流程圖的各方塊、及方塊圖及/或流程圖的方塊之組合，可藉由執行指定功能或行為的以特殊用途硬體為基礎之系統予以實施，或實行特殊用途硬體及電腦指令的組合。

100:從參考影像產生輸入影像資料集；產生用於訓練一類神經網路之一輸入影像資料集之方法 105:訓練類神經網路以映射輸入影像資料集至參考影像 115:任意參考影像 115a:參考影像之第一複本 115b:參考影像之第二複本 120:先使任意參考影像在第一方向位移，以產生第一經位移影像 125:第一經位移影像 130:使參考影像在第二方向位移，以產生第二經位移影像 135:第二經位移影像 140:在通道軸中堆疊第一經位移複本及第二經位移複本而產生輸入影像資料集 150:輸入影像資料集 160:類神經網路 165:經預測影像 170:輸入介面 172:物體 175:影像擷取裝置 175₁ :第一影像擷取裝置 175₂ :第二影像擷取裝置 175_v :虛擬擷取裝置 215:參考影像 220:前景影像 225:未遮擋部分 230:經遮擋部分 240:中間未遮擋部分 245:中間遮擋部分 250:中間空白部分 260₁ :第一經位移影像 260₂ :第二經位移影像 270:第一經位移影像及第二經位移影像經堆疊以形成一輸入影像資料集 280:類神經網路 800:電腦 810:處理器 820:記憶體 830:原始程式碼 840:編譯器 850:作業系統(O/S) 860:應用程式(App) 870:I/O裝置 V₁ :第一影像（第一視圖） V₂ :第二影像（第二視圖） V_v :虛擬攝影機視圖 d₁ :第一向量 d₂ :第二向量 image1:強度影像 image2:強度影像 k_d :向量 -k_d :向量 x:輸入影像資料集 x₁ :第一樣本；合成輸入影像；輸入樣本；第一經位移影像 x₂ :額外樣本；輸入樣本；第二經位移影像 x₃ :額外樣本 y:參考影像

為更佳地瞭解本發明，並更清楚展示可如何使其生效，現在將僅通過實例方式來參考隨附圖式，其中：〔圖1〕繪示根據所提出之實施例之訓練用於對準複數個影像的類神經網路之方法；〔圖2A〕繪示用於產生用於訓練用於對準複數個影像之一類神經網路的輸入影像資料集之方法的實施例；〔圖2B〕描繪根據所提出實施例之用於對準複數個影像之系統的一實施例，其中該系統包含圖2A之類神經網路；〔圖3〕描繪可用於一所提出實施例之一類神經網路的一例示性UNet架構；〔圖4〕繪示施加所提出之類神經網路之例示性結果(c)，在旁邊呈現：(a)基準真相(ground truth)；及(b)習知融合方法；〔圖5〕描繪一種用於產生用於訓練類神經網路之輸入影像資料集之方法的替代實施例；〔圖6〕係表示為運算圖表的Lucas-Kanade光流的圖式，其中所提供的輸入係兩個強度影像image1及image2；〔圖7〕描繪可經採用以合併光流作為其他可訓練之類神經網路架構之部分的例示性架構；及〔圖8〕繪示電腦的實例，在該電腦中可採用實施例之一或多個部分。

115:任意參考影像

125:第一經位移影像

135:第二經位移影像

140:在通道軸中堆疊第一經位移複本及第二經位移複本而產生輸入影像資料集

160:類神經網路

d₁:第一向量

d₂:第二向量

x₁:第一樣本；合成輸入影像；輸入樣本；第一經位移影像

x₂:額外樣本；輸入樣本；第二經位移影像

y:參考影像

Claims

一種用於產生用於訓練用於對準複數個影像之一類神經網路的一輸入影像資料集之方法，該方法包含：獲得一參考影像之一第一複本；獲得該參考影像之一第二複本；使該參考影像之該第一複本在一第一方向位移，以產生一第一經位移影像；使該參考影像之該第二複本在一第二方向位移，以產生一第二經位移影像；及基於該第一經位移影像及該第二經位移影像產生包含複數個影像之一輸入影像資料集。
如請求項1之方法，其中使該參考影像之該第一複本在該第一方向位移包含使該參考影像之該第一複本在該第一方向位移達一距離，且其中使該參考影像之該第二複本在該第二方向位移包含使該參考影像之該第二複本在一第二相反方向位移達相同距離。
如請求項1之方法，其進一步包含：建立該參考影像之一第三複本；使該參考影像之該第三複本在一第三方向位移，以產生一第三經位移影像，且其中產生該輸入影像資料集經進一步基於該第三經位移影像。
如請求項3之方法，其中分別藉由第一向量、第二向量、及第三向量來表示該參考影像之該第一複本、該第二複本、及該第三複本之該位移以產生該第一經位移影像、該第二經位移影像、及該第三經位移影像，且其中該第一向量、該第二向量、及該第三向量之總和等於零。
如前述請求項中任一項之方法，其中產生該輸入影像資料集包含串連該第一經位移影像及該第二經位移影像。
如前述請求項中任一項之方法，其中使該參考影像之該第一複本在一第一方向位移包含：對該參考影像之該第一複本施加一位移操作，以產生一中間影像，該中間影像包含在該第一方向位移的該參考影像之所有像素；及裁切該中間影像以產生該第一經位移影像。
如請求項1至6中任一項之方法，其中使該參考影像之該第一複本在一第一方向位移包含：用一前景影像覆蓋該參考影像之該第一複本之一部分，以產生一經部分遮擋影像，該經部分遮擋影像由下列所組成：該參考影像之一未遮擋部分；及一經遮擋部分，其係由該前景影像所組成；對該參考影像之該未遮擋部分施加一第一位移操作，以產生一中間未遮擋部分，該中間未遮擋部分包含在該第一方向位移達一第一位移距離的參考影像之該未遮擋部分之所有像素；對該經遮擋部分施加一第二位移操作，以產生：一中間遮擋部分，其包含在該第一方向位移達一第二較大位移距離的該前景影像之所有像素；及一中間空白部分，其不含來自該參考影像與前景影像的像素；從下列形成一中間影像：該中間未遮擋部分；該中間遮擋部分；及該中間空白部分；及裁切該中間影像以產生該第一經位移影像。
如前述請求項中任一項之方法，其中使該參考影像之該第一複本在一第一方向位移包含：對該參考影像之該第一複本施加一位移操作，其中該位移操作經組態以模擬該參考影像之一預測未對準。
一種訓練用於對準複數個影像之一類神經網路之方法，該方法包含：根據前述請求項中任一項產生一輸入影像資料集；及訓練該類神經網路以映射該輸入影像資料集至該參考影像。
如請求項9之方法，其中訓練該類神經網路包含：提供該輸入影像資料集至一Lucas-Kanade光流，其中該光流經配置為該類神經網路之一子圖表。
一種用於產生一經合成影像之方法，其包含：獲得複數個輸入影像；提供該複數個輸入影像至如請求項9之方法所訓練的一類神經網路；使用該類神經網路以基於該複數個輸入影像產生一或多個預測；及基於所產生的該一或多個預測而產生一經合成影像。
一種電腦程式，其包含電腦程式碼構件，當該電腦程式運行於一電腦上時，該電腦程式碼構件經調適以實施如請求項1至10中任一項之方法。
一種用於產生用於訓練用於對準複數個影像之一類神經網路的一輸入影像資料集之系統，該系統包含：一位移組件，其經組態以使一參考影像之一第一複本在一第一方向位移，以產生一第一經位移影像，及使該參考影像之一第二複本在一第二方向位移，以產生一第二經位移影像；及一樣本產生器，其經組態以基於該第一經位移影像及該第二經位移影像產生包含複數個影像之一輸入影像資料集。
一種用於訓練用於對準複數個影像之一類神經網路之系統，該系統包含：一系統，其用於產生如請求項13之一輸入影像資料集；及一訓練組件，其經組態以訓練該類神經網路以映射該輸入影像資料集至該參考影像。
一種用於產生一經合成影像之系統，其包含：一輸入介面，其經調適以獲得複數個輸入影像；如請求項14之一類神經網路訓練系統；一類神經網路，其經組態以藉由該類神經網路訓練系統予以訓練；及一輸出組件，其經組態以基於由該類神經網路產生之一或多個預測而產生一經合成影像，其中該類神經網路經組態以基於由該輸入介面所獲得之該複數個輸入影像產生一或多個預測。