TWI841695B

TWI841695B - 用於雷達輔助之單一影像三維深度重建之方法、車載電腦及非暫時性電腦可讀媒體

Info

Publication number: TWI841695B
Application number: TW109107323A
Authority: TW
Inventors: 烏爾斯尼森; 加雅克里許南烏尼克里許南
Original assignee: 美商高通公司
Priority date: 2019-03-06
Filing date: 2020-03-05
Publication date: 2024-05-11
Also published as: US12141991B2; US20220180537A1; CN113490863B; CN113490863A; TW202044200A; EP3935405A1; US11276189B2; WO2020181147A1; EP3935405C0; EP3935405B1; US20200286247A1

Abstract

本發明揭示用於雷達輔助之單一影像三維(3D)深度重建之技術。在一態樣中，一自我車輛之一車載電腦的至少一個處理器自該自我車輛之一雷達感測器接收該自我車輛之一環境之至少一個雷達影像，自該自我車輛之一相機感測器接收該自我車輛之該環境的至少一個相機影像，並使用一迴旋類神經網路(CNN)基於該至少一個雷達影像及該至少一個相機影像產生該自我車輛之該環境的一深度影像。

Description

用於雷達輔助之單一影像三維深度重建之方法、車載電腦及非暫時性電腦可讀媒體

本發明之態樣大體上係關於自動或半自動駕駛技術。

現代機動車輛逐漸併入尤其幫助駕駛員避免漂移至鄰近車道或作出不安全車道變換(例如，車道偏離預警(LDW))或在其倒車時警告其後方之其他車輛的駕駛員，或在其前方車輛突然停止或減速的情況下自動刹車(例如，前方碰撞預警(FCW))之技術。汽車技術之持續演進旨在提供甚至更大安全性益處，且最終提供可操控完整駕駛任務而無需使用者干預之自動化駕駛系統(ADS)。

存在已定義為實現完全自動化之六個層級。在層級0處，人類駕駛員進行所有駕駛。在層級1處，車輛上之高級駕駛輔助系統(ADAS)有時可輔助人類駕駛員轉向或制動/加速，但不能同時輔助兩者。在層級2處，車輛上之ADAS自身可在一些情形下實際上同時控制轉向及制動/加速兩者。人類駕駛員必須始終持續全神貫注並執行駕駛任務之其餘部分。在層級3處，車輛上之ADS自身可在一些情形下執行駕駛任務之所有方面。在彼等情形中，人類駕駛員必須準備好在ADS請求人類駕駛員操作時的任何時間點收回控制。在所有其他情形中，人類駕駛員執行駕駛任務。在層級4處，車輛上之ADS自身可在某些情形中執行所有駕駛任務並監測駕駛環境，其基本上進行所有駕駛。在彼等情形中，人類不需要集中注意力。在層級5處，車輛上之ADS可在所有情形中進行所有駕駛。人類乘坐者僅為乘客且永不需要參與駕駛。

下文呈現與本文中所揭示之一或多個態樣有關的簡化發明內容。因此，以下發明內容不應被視為與所有預期態樣有關之廣泛綜述，以下發明內容亦不應被視為識別與所有預期態樣有關之關鍵或重要元素或劃定與任何特定態樣相關聯之範疇。因此，以下發明內容之唯一目的在於在下文呈現之詳細描述之前，以簡化形式呈現同與本文中所揭示之機制有關的一或多個態樣有關的某些概念。

在一態樣中，一種由一自我車輛之一車載電腦的至少一個處理器執行之雷達輔助之單一影像3D深度重建的方法包括：自該自我車輛之一雷達感測器接收該自我車輛之一環境的至少一個雷達影像；自該自我車輛之一相機感測器接收該自我車輛之該環境的至少一個相機影像；及使用一迴旋類神經網路(CNN)，基於該至少一個雷達影像及該至少一個相機影像產生該自我車輛之該環境的一深度影像。

在一態樣中，一種一自我車輛之車載電腦包括一記憶體及以通信方式耦合至該記憶體之至少一個處理器；該至少一個處理器經組態以：自該自我車輛之一雷達感測器接收該自我車輛之一環境的至少一個雷達影像；自該自我車輛之一相機感測器接收該自我車輛之該環境的至少一個相機影像；及使用由該至少一個處理器執行之一CNN，基於該至少一個雷達影像及該至少一個相機影像產生該自我車輛之該環境的一深度影像。

在一態樣中，一種一自我車輛之車載電腦包括：用於接收一自我車輛之一環境的至少一個雷達影像之構件；用於接收該自我車輛之該環境的至少一個相機影像之構件；及用於使用由該至少一個處理器執行之一CNN基於該至少一個雷達影像及該至少一個相機影像產生該自我車輛之該環境的一深度影像之構件。

在一態樣中，一種儲存用於雷達輔助之單一影像3D深度重建之電腦可執行指令之非暫時性電腦可讀媒體包括電腦可執行指令，該等電腦可執行指令包含：指示一自我車輛之一車載電腦的至少一個處理器自該自我車輛之一雷達感測器接收該自我車輛之一環境的至少一個雷達影像的至少一個指令；指示該至少一個處理器自該自我車輛之一相機感測器接收該自我車輛之該環境的至少一個相機影像的至少一個指令；及指示該至少一個處理器使用由該至少一個處理器執行之一CNN基於該至少一個雷達影像及該至少一個相機影像產生該自我車輛之該環境的一深度影像的至少一個指令。

對於熟習此項技術者而言，基於隨附圖式及詳細描述，與本文中所揭示之態樣相關聯的其他物件及優勢將顯而易見。

100:車輛

112:擋風玻璃

120:雷達-相機感測器模組

130:車輛

140:車輛

150:水平涵蓋區域

160:水平涵蓋區域

200:車載電腦

202:映像

204:記憶體

206:處理器

208:資料匯流排

212:相機

214:雷達

216:光達感測器

220:系統介面

230:無線廣域網路收發器

240:無線區域網路收發器

250:全球定位系統接收器

300:觀測雷達柵格

340:觀測柵格

342:觀測小區

344:特徵

400:點

410:相機影像平面

412:點

420:雷達影像平面

422:點

510:相機影像平面

512:投影

520:雷達影像平面

600:物件

602:物件

610:相機影像平面

612:相機投影

614:相機投影

620:雷達影像平面

622:雷達投影

624:雷達投影

630:物件

632:物件

710:相機影像

720:雷達影像

730:相機影像

740:雷達影像

750:相機影像

760:雷達影像

812:仰角視場

814:仰角視場

816:仰角視場

900:神經網路架構

910:相機影像

912:相機分支

920:雷達影像

922:雷達分支

930:串接

940:融合分支

950:深度影像

1010:相機影像

1020:雷達影像

1030:LiDAR影像

1040:深度影像

1100:方法

1110:階段

1120:階段

1130:階段

1140:階段

1150:階段

1160:階段

呈現隨附圖式以輔助描述本發明之各個態樣，且提供該等隨附圖式僅僅為了說明該等態樣而非對其進行限制。

圖1為根據本發明之各個態樣之在擋風玻璃後方採用整合式雷達-相機感測器的車輛之俯視圖。

圖2說明根據本發明之各個態樣之車載電腦架構。

圖3為根據本發明之各個態樣之所感測的佔用雷達柵格之示意圖。

圖4為說明根據本發明之態樣之相機影像平面及雷達影像平面的圖式。

圖5說明相同場景之相機影像及雷達影像之尺度模糊性問題。

圖6說明產生相同相機及雷達影像之兩個不同的3D場景。

圖7說明對應相機及雷達影像之若干實例。

圖8說明相機、雷達感測器及光達(LiDAR)感測器於車輛上之實例安裝位置。

圖9說明根據本發明之態樣之例示性網路架構。

圖10說明根據本發明之態樣之網路架構的樣本結果。

圖11說明根據本發明之態樣之用於雷達輔助之單一影像3D深度重建之例示性方法。

相關申請案之交叉參考

本專利申請案主張2019年3月6日申請的標題為「RADAR-AIDED SINGLE IMAGE THREE-DIMENSIONAL DEPTH RECONSTRUCTION」之美國臨時申請案第62/814,658號之益處，其指派至其受讓人並以全文引用之方式明確地併入本文中。

本發明提供用於將3D深度重建應用於自動駕駛之技術。在此上下文中，可預期存取前置相機及雷達感測器兩者。此等兩個感測器在若干方面互補：相機為量測方位角及仰角之被動感測器，而雷達為量測方位角及距離之主動感測器。在本發明中，藉由融合相機及雷達之量測來使用其互補特徵。

本發明之態樣在以下描述內容及針對出於說明目的而提供之各種實例的相關圖式中提供。可在不背離本發明之範疇的情況下設計替代態樣。另外，可不詳細地描述或可省略本發明之熟知態樣以免混淆更多相關細節。

熟習此項技術者將瞭解，可使用多種不同技藝及技術中之任一者來表示資訊及信號。舉例而言，部分取決於特定應用程式、部分取決於所要設計、部分取決於對應技藝等等，貫穿以下描述參考之資料、指令、命令、資訊、信號、位元、符號及晶片可由電壓、電流、電磁波、磁場或磁粒子、光場或光粒子或其任何組合表示。

此外，就待由例如計算裝置之元件執行之動作的順序而言描述許多態樣。應認識到，本文中所描述之各種動作可由特定電路(例如，特殊應用積體電路(ASIC))、由藉由一或多個處理器執行之程式指令或由兩者之組合執行。另外，對於本文所描述之態樣中之每一者，任何此態樣之對應形式可實施為例如「經組態以執行所描述動作之邏輯」。

自動及半自動駕駛安全性技藝使用硬體(感測器、相機及雷達)及軟體之組合來幫助車輛識別某些安全性風險，以使得其可警示駕駛員操作(在ADAS之情況下)或自身操作(在ADS之情況下)以避免碰撞。配備有ADAS或ADS之車輛包括安裝在車輛上之一或多個相機感測器，該等相機感測器捕捉車輛前方以及可能地車輛後方及側方之場景的影像。雷達系統亦可用以偵測沿行進道路以及可能地車輛後方及側方的物件。雷達系統利用射頻(RF)波測定沿道路的物件之距離、方向、速度及/或高度。更具體言之，傳輸器傳輸在物件之路徑中自任何物件彈出的RF波之脈衝。自物件反射之脈衝將較小部分的RF波之能量返回至接收器，該接收器通常位於與傳輸器相同的位置處。相機及雷達通常經定向以捕捉相同場景之其各別版本。

車輛內之處理器(諸如數位信號處理器(DSP))分析所捕捉相機影像及雷達訊框並嘗試識別捕捉場景內之物件。此類物件可為其他車輛、行人、道路標識、行進道路內之物件等等。雷達系統在各種天氣條件下提供對物距及速度之合理準確的量測。然而，雷達系統通常具有不足以識別偵測到之物件的特徵的解析度。然而，相機感測器通常確實提供足以識別物件特徵之解析度。自捕捉到的影像提取之物件形狀及外觀的提示可提供足以對不同物件進行分類之特徵。考慮到兩個感測器之互補特性，來自兩個感測器之資料可經合併(稱為「融合」)於單個系統中以用於改良效能。

為進一步增強ADAS及ADS系統(尤其在層級3處及超出層級3)，自動及半自動車輛可利用高清晰度(HD)映像(map)資料集，其含有比當前習知資源中發現的彼等資訊及準確度明顯更詳細的資訊及真實地面絕對準確度。此類HD映像可提供7-10cm的絕對距離內之準確度、與道路有關的所有靜止實體物品之高度詳細的清單(諸如道路車道、道路邊緣、路肩、分隔物、交通信號、標牌、噴塗標記、桿)及可用於藉由自動/半自動車輛進行道路及十字路口的安全導航之其他資料。HD映像亦可提供使得自動/半自動車輛能夠知道什麼處於前方之電子地平線預測感知。

現在參考圖1，說明車輛100(稱為「自我車輛」或「主車輛」)，其包括位於車輛100之擋風玻璃112後方的內部隔室中之雷達-相機感測器模組120。雷達-相機感測器模組120包括雷達組件，該雷達組件經組態以在水平涵蓋區域150(藉由虛線展示)中經由擋風玻璃112傳輸雷達信號，且接收自涵蓋區域150內之任何物件反射之經反射雷達信號。雷達-相機感測器模組120進一步包括用於基於在水平涵蓋區域160(藉由虛線展示)中經由擋風玻璃112看見及捕捉的光波來捕捉影像之相機組件。

儘管圖1說明其中雷達組件及相機組件為共用殼體中之共置組件的實例，但如應瞭解，可將雷達組件及相機組件分別容納於車輛100內之不同位置中。舉例而言，相機可如圖1中所展示一樣定位，且雷達組件可位於車輛100之護柵或前保險桿中。另外，儘管圖1說明位於擋風玻璃112後方之雷達-相機感測器模組120，但該雷達-相機感測器模組120可替代地位於車頂感測器陣列中或其他地方。此外，儘管圖1僅說明單個雷達-相機感測器模組120，但如應瞭解，車輛100可具有指向不同方向(指向側面、前部、後部等等)之多個雷達-相機感測器模組120。各種雷達-相機感測器模組120可位於車輛之「外皮」下方(例如在擋風玻璃112、車門、保險桿、護柵等等後方)或位於車頂感測器陣列內。

雷達-相機感測器模組120可相對於車輛100偵測一或多個(或無)物件。在圖1之實例中，在雷達-相機感測器模組120可偵測之水平涵蓋區域150及160內存在兩個物件：車輛130及140。雷達-相機感測器模組120可估計偵測到的物件之參數(屬性)，諸如位置、距離、方向、速度、大小、分類(例如，車輛、行人、道路標誌等等)及類似者。可採用用於汽車安全性應用(諸如自適應巡航控制(ACC)、前向碰撞警示(FCW)、經由自動制動的碰撞減輕或避免、車道偏離警示(LDW)及類似者)之車載於車輛100上之雷達-相機感測器模組120。

共置相機及雷達允許此等組件共用電子元件及信號處理，且特定言之使得能夠實現早期雷達-相機資料融合。舉例來說，可將雷達感測器及相機整合至單板上。接合之雷達-相機對準技術可用於對準雷達感測器及相機兩者。然而，雷達感測器與相機之共置並非實踐本文中所描述的技術所需的。

圖2說明根據本發明之各個態樣之車輛100的車載電腦(OBC)200。在一態樣中，OBC 200可為ADAS或ADS之部分。OBC 200包括非暫時性電腦可讀儲存媒體，亦即記憶體204及經由資料匯流排208與記憶體204通信之一或多個處理器206。記憶體204包括一或多個儲存模組，儲存模組儲存可由處理器206執行的電腦可讀指令以執行本文中所描述之OBC 200的功能。舉例而言，處理器206結合記憶體204可實施本文中所描述的多種神經網路架構。

一或多個雷達-相機感測器模組120耦合至OBC 200(為簡單起見，圖2中僅展示一個)。在一些態樣中，雷達-相機感測器模組120包括至少一個相機212、至少一個雷達214及視情況選用之光達(LiDAR)感測器216。OBC 200亦包括一或多個系統介面220，系統介面220藉助於資料匯流排208將處理器206連接至雷達-相機感測器模組120及視情況選用之其他車輛子系統(未展示)。

至少在一些情況下，OBC 200亦包括無線廣域網路(WWAN)收發器230，該無線廣域網路收發器230經組態以經由一或多個無線通信網路(未展示)，諸如新型射頻(NR)網路、長期演進(LTE)網路、全球行動通信系統(GSM)網路及/或類似者進行通信。WWAN收發器230可連接至一或多個天線(未展示)以經由至少一個指定的無線電存取技術 (RAT)(例如NR、LTE、GSM等等)經由所關注無線通信媒體(例如特定頻譜中之一些時間/頻率資源集合)與其他網路節點(諸如其他車輛UE、行人UE、基礎設施存取點、路邊單元(RSU)、基地台(例如eNB、gNB)等等)通信。WWAN收發器230可經不同地組態以根據指定的RAT傳輸並編碼信號(例如訊息、指示、資訊等等)且相反地經組態以接收並解碼信號(例如訊息、指示、資訊、導頻等等)。

至少在一些情況下，OBC 200亦包括無線區域網路(WLAN)收發器240。WLAN收發器240可連接至一或多個天線(未展示)以經由至少一個指定的RAT(例如蜂窩式車輛對外界(cellular vehicle-to-everything，C-V2X)、IEEE 802.11p(亦稱為車載環境之無線存取(WAVE))、專用短程通信(DSRC)等等)經由所關注的無線通信媒體與其他網路節點(諸如其他車輛UE、行人UE、基礎設施存取點、RSU等等)通信。WLAN收發器240可經不同地組態以根據指定的RAT傳輸並編碼信號(例如訊息、指示、資訊等等)且相反地經組態以接收並解碼信號(例如訊息、指示、資訊、導頻等等)。

如本文所使用，「收發器」可包括傳輸器電路、接收器電路或其一組合，但不需要在所有設計中提供傳輸功能性及接收功能性兩者。舉例而言，低功能性接收器電路在一些設計中可用以在提供充分通信並非必要時降低成本(例如僅提供低層級監聽之接收器晶片或類似電路系統)。

至少在一些情況下，OBC 200亦包括全球定位系統(GPS)接收器250。GPS接收器250可連接至一或多個天線(未展示)以用於接收衛星信號。GPS接收器250可包含用於接收及處理GPS信號之任何適合之硬體及/或軟體。GPS接收器250視需要向其他系統請求資訊及操作，且使用由任何合適的GPS演算法獲得的量測執行判定車輛100之位置所需的計算。

在一態樣中，OBC 200可利用WWAN收發器230及/或WLAN收發器240下載接著可儲存於記憶體204中並用於車輛導航之一或多個映像202。映像202可為一或多個高清晰度(HD)映像，其可提供在7-10cm的絕對距離內之準確度、與道路有關的所有靜止實體物品之高度詳細的清單(諸如道路車道、道路邊緣、路肩、分隔物、交通信號、標牌、噴塗標記、桿)及適用於藉由車輛100進行道路及十字路口的安全導航之其他資料。映像202亦可提供使得車輛100能夠知道什麼處於前方之電子地平線預測感知。

在一態樣中，相機212可以某一週期性速率捕捉相機212之可視區(如圖1中說明為水平涵蓋區域160)內的場景之影像訊框(在本文中亦稱為相機訊框)。同樣地，雷達214可以某一週期性速率捕捉雷達214之可視區(如圖1中說明為水平涵蓋區域150)內的場景之雷達訊框。相機212及雷達214捕捉其各別訊框之週期性速率可相同或不同。每一相機及雷達訊框可為帶時間戳的。因此，在週期性速率不同之情況下，時間戳可用於同時或幾乎同時選擇捕捉到的相機及雷達訊框以供進一步處理(例如融合)。

圖3說明所感測的觀測雷達柵格300。雷達214之傳輸器(例如，傳輸天線陣列)傳輸自傳輸路徑中之物件(諸如圖1中之車輛130及140)反射之電磁RF波之脈衝。自物件反射之電磁RF波之一部分返回至雷達214之接收器(例如，接收天線陣列)，該接收器通常位於與雷達214之傳輸器相同的位點處。

在一態樣中，雷達214可為使用波束成形進行水平地及豎直地掃描之成像雷達。波束成形為用於藉由改變不同傳輸天線之間的延遲來瞄準雷達波束之有效方向以使得信號在所指定方向上建設性地增加的技術。因此，雷達214可藉由使用包含以電子方式操縱之天線的陣列之傳輸器來水平地及豎直地掃描感測區(例如水平涵蓋區域150)。

藉由雷達214量測之返回回應(其亦可被稱作「pings」)表徵為具有複數個觀測小區342之觀測(或佔用)柵格340。每一小區342表示呈特定距離(r)及角度/方位角(θ)所量測的返回回應值。每一小區342交替地稱為距離-角度格(range-angle bin)。自小區342提取特徵344以判定特徵344是否為物件(例如車輛130/140)。可將各別小區342內之每一特徵344識別為具有至多四個參數：距離、都蔔勒(Doppler)、方位角及仰角。此小區被稱作雷達訊框。作為一實例，小區342內之特徵344可為藉由恆假警率(CFAR)演算法計算的信雜比(SNR)。然而，應理解，其他方法可用於瞄準及識別小區342內之特徵344。

處理器206可能產生由雷達214偵測之觀測柵格340的小區342內之特徵344的二維(2D)、三維(3D)或四維(4D)張量。具體言之，2D張量表示每一所偵測到之特徵344之距離(車輛100至所偵測到的特徵344之距離)及方位角(特徵344與由雷達214發射之參考RF射線(諸如雷達掃掠之初始RF射線)之間的水平距離)。3D張量表示每一偵測到的特徵344之距離、方位角及都蔔勒(指示偵測到的特徵344之速度)或仰角(自雷達214至偵測到的特徵之豎直方向)。4D張量表示全部四個量。接著，處理器206基於自相機212接收到的張量及不失真相機訊框執行物件偵測、物件分類、定位及特性/屬性估計。

應注意，習知汽車雷達大體僅提供距離及方位角量測(2D張量)：其並不提供仰角資訊(3D張量)。另外，通常整合出都蔔勒資訊，意謂其可經量測但接著經移除。然而，其亦可能完全未經量測。因而，本文中揭示的技術之描述假定自雷達感測器(例如，雷達214)僅獲得距離及方位角資訊。

相比於影像(例如來自相機212)，雷達信號(例如來自雷達214)具有若干唯一特徵。一個實例為鏡面反射，其中具有有利定向之目標上的僅某些表面反射通常導致少數反射之雷達信號。

圖4為說明根據本發明之態樣之相機影像平面410及雷達影像平面420的圖式。相機影像形成將具有笛卡爾(Cartesian)座標(x,y,z)之點400映射至相機影像平面410上之點412(x/z,y/z)中。此所謂的透視圖投影移除所有深度資訊。雷達影像形成將具有球形座標(亦即距離、方位角及仰角)(ρ,θ,Φ)之點400映射至雷達影像平面420上之具有極座標(ρ,θ)之點422中。此球形至極性投影移除所有仰角資訊。因此，在高層級處，相機212及雷達感測器214量測3D場景至不同2D平面上之投影(對於相機為豎直的且對於雷達為水平的)。

單一影像深度重建為電腦視覺中之至關重要的問題。其應用於場景理解、機器人及3D重建中。在自動駕駛中，深度重建可用於輔助感測器融合、可駕駛空間偵測及導航。

如上文參考圖3所論述，雷達感測器(例如，雷達感測器214)為量測距離及方位角之主動感測器(就其傳輸並接收RF信號而言)。然而，雷達感測器不會輸出仰角資訊。相反，如上文所論述，所得雷達影像表示極座標(ρ,θ)中之一目標點(例如，點400)。此特徵使得雷達感測器與相機(例如，相機212)互補，該相機為量測方位角及仰角(例如，如點412(x/z,y/z))，但不量測距離之被動感測器(就其僅捕捉光線並將該光線轉換成影像而言)。根據相機與雷達感測器之互補本質，存在融合其對於深度重建之量測之明顯益處。

然而，雷達輔助之單一影像3D深度重建仍然不適定，此係因為兩個感測器僅提供3D場景之2D投影，如上文參考圖4所論述。對於面向前部之感測器，相機影像產生豎直投影，而雷達影像產生水平投影，如圖4中所說明。

為理解相機與雷達感測器之互補本質，考慮其各別影像形成方法係有益的。為易於呈現，以下描述受限於簡化並略微風格化的描述。具體言之，假定理想相機模型具有單元焦距，且類似地假定理想無雜訊雷達感測器。此等假定稍後在本發明中放寬，其中考慮真實相機及雷達影像。

如上文參考圖4所論述，相機影像形成將具有笛卡爾座標(x,y,z)之點映射至相機影像平面上之點(x/z,y/z)中。此透視投影移除所有深度資訊。雷達影像形成將具有球形座標(ρ,θ,Φ)之點映射至雷達影像平面上之具有極座標(ρ,θ)之點中。此球形至極性投影移除所有仰角資訊。因此，在高層級處，相機及雷達感測器量測3D場景至不同2D平面上之投影。

相機與雷達感測器之互補本質意謂將其融合可移除單目深度重建問題中之部分固有模糊性。此等問題中之至關重要的一者為圖5中所描繪之熟知尺度模糊性問題，其中不同大小的(按比例調整)物件A及B產生至相機影像平面510上之相同投影512。雷達感測器不會受此尺度模糊性影響。此問題再次描繪於圖5中，其展示兩個物件A及B具有至雷達影像平面520上之易於區分之投影。因此，將相機及雷達感測器融合完全地消除尺度模糊性問題。

不幸地，即使在使用相機及雷達感測器兩者時，3D深度重建問題大體上仍然為模糊且不適定的。舉例而言，圖6說明兩個獨立3D場景(a)及(b)，各自在場景中具有兩個物件(場景(a)中之600及602，及場景(b)中之630及632)。此等兩個獨立場景分別在相機影像平面610及雷達影像平面620上產生相同相機投影612及614以及雷達投影622及624。因此，僅根據相機投影及雷達投影，無法唯一地判定對應3D場景。此指示雷達輔助之單一影像3D深度重建問題仍然具挑戰性，且需要複雜全域預先資訊來解決該問題。

應注意，雷達感測器之前述描述已忽略雷達天線波束圖案之非理想效果，該等效果限制特定言之方位角方向上之感測器解析度。此受限解析度在雷達影像中導致明顯方位「塗抹」，使得將影像平面上之點及雷達平面上之點與單一3D物件正確關聯更加困難。

圖7中所展示之對應相機及雷達影像之若干實例說明此難度。在圖7中，相機影像在左側且對應雷達影像在右側。在每一對影像中，x軸表示具有90度視場之方位角。對於雷達影像，y軸表示在底部0公尺(m)處起始且在頂部40m處結束之距離。雷達影像以分貝(dB)為單位描繪雷達返回強度。

圖7(a)展示右邊側接混凝土護軌之清空道路之相機影像710。護軌之雷達標記隱約可見為雷達影像720之右下層象限中之彎曲模糊線。圖7(b)展示分別以大致10m及30m距離之兩個汽車之相機影像 730。較遠汽車之雷達標記可見為雷達影像740之上部部分中之亮的水平線。更近汽車之雷達標記可見為雷達影像740之下部部分中之白色斑點及模糊水平線。此清晰地說明因雷達感測器之受限方位解析度致之前述「塗抹」效果。圖7(c)展示近距離處之大卡車的相機影像750。對應雷達標記佔據雷達影像760之大部分下部部分。

本發明之技術使用深CNN來執行將相機影像及雷達影像融合成3D深度重建(表示為深度影像)之任務。CNN為深度神經網路類別，最常用於分析可視的成像。CNN使用經設計以需要最小預處理(例如，清潔、情況選擇、標準化、轉化、特徵提取及選擇等等)原始輸入資料以產生最終訓練集之多層感知器(前饋人造神經網路類別，由至少輸入層、隱藏層及輸出層組成)之變體。此意謂CNN學習以傳統演算法經人工工程改造之濾波器。此不依賴於特徵設計之先前知識及人類努力為CNN之主要優點。

所提議CNN使用由兩個單獨相機分支及雷達分支組成之經修改的編碼器-解碼器網路架構，將其輸出併入至融合編碼器分支中，接著併入至產生最終深度影像之解碼器分支。可藉由高速公路環境中收集之多對相機影像及雷達影像來訓練CNN。CNN經訓練以融合相機影像及雷達影像，以及併入關於高速公路環境之先前知識，諸如根據自我車輛之透視圖瞭解高速公路場景看起來為何樣，諸如標識、導軌、其他車輛等之可能位置。在訓練期間，可自LiDAR感測器(例如，LiDAR感測器216)獲得地面實況資訊。

雷達輔助之單一影像深度重建提供多個優勢。舉例而言，雷達輔助改良深度重建品質。作為另一實例，雷達輔助改良重建之穩定性，此係因為相機及雷達感測器具有不同故障模式。更具體言之，如上文所提及，相機受照明條件(例如，陰影、雨、眩光、黑暗等等)影響，而作為主動感測器之雷達感測器不受照明條件影響。

本發明之技術利用至多三個感測器：相機感測器(例如，相機212)及雷達感測器(例如，雷達214)作為輸入感測器，且視情況LiDAR感測器(例如，LiDAR感測器216)作為地面實況深度感測器。圖8說明相機212、雷達214及LiDAR感測器216在自我車輛100上之例示性安裝位置。相機212可為例如具有800×1280像素解析度之汽車級相機。如上文參考圖1所揭示及圖8中所說明，可將相機212安裝在車輛100之前擋風玻璃後方。雷達214可為例如以77吉赫(GHz)頻帶操作之汽車雷達，諸如來自INRAS®之RadarLog®。如上文參考圖1所揭示及圖8中所說明，可將雷達214安裝在車輛100之前部上(例如，護柵或前保險桿中)。可將LiDAR感測器216安裝在車輛100之車頂上，且可為例如為Velodyne® 32雷射LiDAR。

圖8亦展示預處理(下文進一步描述)後之每一感測器之仰角視場。具體言之，相機212及雷達感測器214(輸入感測器)之仰角視場分別以附圖標號812及814指示，且LiDAR感測器216(地面實況感測器)之仰角視場以附圖標號816指示。三個感測器之訊框速率可為例如相機212之30赫茲(Hz)、雷達214之125Hz及LiDAR感測器216之10Hz。在訓練期間，每一LiDAR訊框經匹配至最接近的相機及雷達訊框，且在操作期間，每一相機影像經匹配至最接近的雷達訊框。

在初始階段，對感測器之量測中之每一者執行一些基礎預處理以大致對準其視場(圖8中所說明)，且將資料轉換為用於神經網路處理之適當形式。應注意，如圖8中所展示，感測器不需要共置，且如上文所描述不需要彼此間同步或校準。相反，在CNN之訓練期間，每一LiDAR訊框經匹配至最接近的相機及雷達訊框，且在訓練後，每一相機影像經匹配至最接近的雷達訊框。

相機影像並未失真(亦即，移除任何失真)且接著裁減至橫跨例如仰角90度及方位角20度之區域。接著居中(例如，手動地)與待重建之對應LiDAR影像對準。經裁減影像接著經調整大小至例如64×256像素。

標準雷達信號處理技術(參見例如M.A.Richards,「Fundamentals of Radar Signal Processing,」McGraw-Hill，第二版，2014)可用以產生雷達返回強度之512×64影像，其中橫軸表示方位角且豎軸表示距離。強度以dB尺度表示，且削減以將動態範圍限制為例如40dB。

在LiDAR雷射之總數目(例如，32)中，僅保存來自中心雷射之資料(例如，中心16個雷射)。其他雷射通常指向水平線上方或指向車輛之引擎蓋且因此並未提供關於自我車輛(例如，車輛100)周圍之交通的顯著資訊。LiDAR量測可進一步受限於環繞正向方向之±45度內以丟棄來自雷達214之視場外部的資料。

接著，將方位角軸量化成均勻間隔開之格(例如，寬度1.4度之64個格)。格之深度值經計算為屬於彼格之所有LiDAR返回之平均距離量測。此方法產生深度影像(例如，16×64之尺寸)。一些格可不包含LiDAR返回(因彼方向上缺乏反射目標所致)。嘗試藉由在相同仰角處之相鄰格內插來估算此類格之深度。若彼方法失敗，則將格之深度值設定為最大值40m，假定彼方向上不存在反射器。

由於較低雷射射線行進較短距離至緊接著車輛前方之地面而較高雷射可指向遠方目標，因此LiDAR深度影像具有高動態範圍。可藉由減去已知LiDAR感測器至假定平坦地平面之距離來減小此動態範圍。所得減去地面-深度之深度影像可用作訓練網路及觀察結果之地面實況。此有助於在深度影像中突出深度的局部變化。

圖9說明根據本發明之態樣之例示性神經網路架構900。神經網路架構900為例示性CNN之架構。在圖9之實例中，至神經網路架構900之輸入影像為用於相機影像910之64×256像素及用於雷達影像920之512×64像素。深度影像950輸出為16×64像素，以匹配上文所描述的LiDAR深度影像之大小。

首先分別經由單獨網路分支、相機分支912及雷達分支922來處理相機影像910及雷達影像920，其中該相機影像910及該雷達影像920經漸進地降取樣(亦即，經重新取樣以產生已藉由以較低速率最初取樣獲得之影像之近似值)直至其特徵映像具有與輸出深度影像950相同的尺寸(亦即，圖9的實例中之16×64)。相機分支912應用兩個降取樣步驟，其中之每一者由具有步幅(1,1)之3×3迴旋層，繼之以具有步幅(2,2)之3×3迴旋層組成。迴旋層將迴旋運算(關於兩個函數以產生表現一者之形狀如何由另一者修改之第三函數的數學運算)應用於輸入，將結果傳遞至下一層，且其模仿獨立神經元對於可視刺激之回應。類似地，雷達分支922應用五個降取樣步驟，其中之每一者由具有步幅(1,1)之3×1迴旋層，繼之以具有步幅(2,1)之3×3迴旋層組成。使雷達分支922及相機分支912上之每一層的輸出處之特徵映像的數目保持固定(例如，32)。

在930處，將來自兩個感測器分支912及922中之每一者的輸出特徵映像(例如，32個16×64像素)串接且接著經由後續3×3迴旋層自例如64個特徵映像減小回至例如32個特徵映像。接著使其穿過呈編碼器-解碼器網路形式之融合分支940。編碼器-解碼器網路可類似於U-Net(參見O.Ronneberger,P.Fischer及T.Brox之「U-Net：Convolutional networks for biomedical image segmentation」，在Proc.MICCAI中，第234-241頁，2015年10月)。在融合分支940之編碼器部分中，再次降取樣特徵映像兩次，每一降取樣步驟由具有步幅(1,1)之3×3迴旋層繼之以具有步幅(2,2)之3×3迴旋層組成。在每一層降取樣影像後，特徵映像之數目倍增。在編碼器-解碼器網路之腰部處，存在例如128個特徵映像，每一尺寸為例如4×16。在圖9之實例中，此等8192個變量(128×4×16=8192)用作至具有例如256個輸出之完全連接層之輸入，且接著穿過50%壓差層，繼之以具有8192個輸出變量之另一完全連接層。此等變量接著用於填充例如尺寸為例如4×16像素之128個特徵映像，其形成至融合分支940之解碼器部分之輸入。完全連接及壓差層之使用分別有助於神經網路架構900學習全域特徵及改良一般化。

融合分支940之解碼器部分使用與編碼器部分中之步驟成鏡像之解迴旋及升取樣層(重新取樣以產生已藉由以較高速率最初取樣之影像的近似值)。類似於U-Net，自編碼器層至解碼器層使用跳躍連接件(經由張量添加實施)以傳輸較高頻率特徵。

一旦在一定數目的相機及雷達影像上進行訓練，則神經網路架構900可用以即時地處理相機影像及雷達影像而無需依賴於對應LiDAR影像。經處理影像可用於自動車輛之電腦視覺系統中以執行自動駕駛操作，諸如車道變換、制動、加速等等。

圖10說明根據本發明之態樣之神經網路架構900的樣本結果。所說明場景含有混凝土護軌、汽車及卡車(自左至右)。陽光被卡車阻擋，導致卡車之不良照明及中心車道上之明顯陰影。此等效果均為不利的，且如相機影像1010中所展示，在此情形中僅根據相機之深度重建極為不良。如雷達影像1020中所展示，雷達感測器不受此等效果中之任一者影響，且如深度影像1040中所展示，藉由雷達輔助，3D深度重建為成功的。LiDAR影像1030提供該場景之地面實況深度。

圖11說明根據本發明之態樣之用於雷達輔助之單一影像3D深度重建之例示性方法1100。在一態樣中，方法1100可由OBC 200之處理器206結合雷達-相機感測器模組120執行。在一態樣中，可將相機感測器及雷達感測器共置於自我車輛(例如，車輛100)上。然而，在替代態樣中，可不將相機感測器及雷達感測器共置於自我車輛上(例如，如在圖8之實例中)。

在1110處，處理器206視情況自自我車輛之LiDAR感測器(例如，LiDAR感測器216)接收自我車輛之環境的至少一個LiDAR影像(例如，LiDAR影像1030)。在一態樣中，LiDAR影像表示由LiDAR感測器發射之雷射信號的距離量測。在一態樣中，可將至少一個LiDAR影像之方位角軸量化成均勻間隔開之方位角格且可計算均勻間隔開之方位角格中之每一者的至少一個深度值。在一態樣中，可將至少一個LiDAR影像之仰角軸量化成均勻間隔開之仰角步階，且可計算一對方位角格及仰角步階之深度值。在一態樣中，均勻間隔開之方位角格中之每一者的深度值可計算為屬於彼方位角格之所有距離量測之平均距離量測。

在1120處，處理器206視情況使用LiDAR影像來訓練由處理器206執行之CNN。階段1110及1120為視情況選用的，此係因為在CNN經訓練後，不需要執行該等階段。

在1130處，處理器206自自我車輛之雷達感測器(例如，雷達214)接收自我車輛之環境的至少一個雷達影像(例如，雷達影像1020)。在一態樣中，雷達感測器可為可商購電子式掃描雷達(ESR)、短程雷達(SRR)、長程雷達或中程雷達。

在1140處，處理器206自自我車輛之相機感測器(例如，相機212)接收自我車輛之環境的至少一個相機影像(例如，相機影像1010)。在一態樣中，相機感測器及雷達感測器可在不同頻率下捕捉影像，且至少一個相機影像可為時間上最接近至少一個雷達影像的相機影像。

在1150處，處理器206使用CNN基於如上文所描述之至少一個雷達影像及至少一個相機影像來產生自我車輛之環境的深度影像(例如，深度影像1040)。在一態樣中，CNN可使用編碼器-解碼器網路架構，該編碼器-解碼器網路架構可包括相機分支、雷達分支、融合編碼器分支及解碼器分支，如上文參考圖9所描述。在一態樣中，如上文所描述，相機分支可藉由降取樣至少一個相機影像直至至少一個特徵映像之尺寸匹配深度影像之尺寸來產生表示至少一個相機影像之至少一個特徵映像。雷達分支可藉由降取樣至少一個雷達影像直至至少一個特徵映像之尺寸匹配深度影像之尺寸來產生表示至少一個雷達影像之至少一個特徵映像。融合編碼器分支可將表示至少一個相機影像之至少一個特徵映像及表示至少一個雷達影像之至少一個特徵映像合併成至少一個融合特徵映像。解碼器分支可接著基於升取樣該至少一個融合特徵映像自至少一個融合特徵映像產生深度影像。

在1160處，處理器視情況使得自我車輛基於自我車輛之環境的深度影像來執行自動駕駛操作。階段1160為視情況選用的，此係因為自我車輛可能不需要基於所產生深度影像來執行駕駛操作。在一態樣中，自動駕駛操作可為顯示深度影像、偵測可駕駛空間、路徑規劃、制動、加速、轉向、調節巡航控制設定或打信號中之一或多者。

應理解，本文中使用諸如「第一」、「第二」等指定之元件的任何參考通常不限制彼等元件之數量或次序。實情為，本文中可使用此等指定作為區別兩個或更多個元件或元件之例項的便利方法。因此，對第一及第二元件之參考不意謂此處僅可採用兩個元件或第一元件必須以某一方式先於第二元件。此外，除非另外陳述，否則一組元件可包含一或多個元件。另外，描述或申請專利範圍中所使用之形式術語「A、B或C中之至少一者」或「A、B或C中之一或多者」或「由A、B及C組成的群組中之至少一者」意謂「A或B或C或此等元件之任何組合」。舉例而言，此術語可包括A、或B、或C、或A及B、或A及C、或A及B及C、或2A、或2B、或2C等。

鑒於以上描述及解釋，熟習此項技術者應瞭解，結合本文中所揭示之態樣描述之各種說明性邏輯區塊、模組、電路及演算法步驟可實施為電子硬體、電腦軟體或兩者之組合。為了清楚地說明硬體與軟體之此可互換性，各種說明性組件、區塊、模組、電路及步驟已在上文大體按其功能性加以描述。將此功能性實施為硬體抑或軟體取決於特定應用及強加於整個系統上之設計約束。熟習此項技術者可針對每一特定應用而以變化方式實施所描述功能性，但此類實施決策不應被解釋為導致脫離本發明之範疇。

因此，應瞭解，(例如)如本文中所教示，設備或設備之任何組件可經組態以(或可操作以或經調適以)提供功能性。此可達成，(例如)：藉由加工(例如製造)設備或組件以使其將提供功能；藉由程式化設備或組件以使其將提供功能；或通過使用一些其他適合之實施技術。作為一個實例，積體電路可經製造以提供必需的功能性。作為另一實例，積體電路可經製造以支援必需的功能性且接著經組態(例如經由程式化)以提供必需的功能性。作為又一實例，處理器電路可執行編碼以提供必需的功能性。

此外，結合本文中所揭示之態樣描述的方法、序列及/或演算法可以硬體、以由處理器執行之軟體模組、或以兩者之組合直接體現。軟體模組可駐留於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可抹除可程式化ROM(EPROM)、電可抹除可程式化ROM(EEPROM)、暫存器、硬碟、可移式磁碟、CD-ROM或此項技術中已知的任何其他形式之儲存媒體。將例示性儲存媒體耦合至處理器，使得處理器可自儲存媒體讀取資訊及將資訊寫入至儲存媒體。在替代例中，儲存媒體可與處理器(例如，快取記憶體)成一體式。

因此，亦將瞭解，例如，本發明之某些態樣可包括實施如本文中所描述之方法的電腦可讀媒體。

儘管前述揭示展示各種說明性態樣，但應注意，在不偏離由所附申請專利範圍所定義之範疇的情況下，可對所說明之實例作出各種改變及修改。本發明不意欲獨自限制於特定說明之實例。舉例而言，除非另外說明，否則根據本文中所描述之本發明態樣之方法請求項的功能、步驟及/或動作不必以任何特定次序執行。此外，儘管某些態樣可單個描述或主張，除非明確陳述限制單個，否則涵蓋複數個。