[go: up one dir, main page]

TWI863852B - 場景編碼產生裝置及方法 - Google Patents

場景編碼產生裝置及方法 Download PDF

Info

Publication number
TWI863852B
TWI863852B TW113113822A TW113113822A TWI863852B TW I863852 B TWI863852 B TW I863852B TW 113113822 A TW113113822 A TW 113113822A TW 113113822 A TW113113822 A TW 113113822A TW I863852 B TWI863852 B TW I863852B
Authority
TW
Taiwan
Prior art keywords
scene
tensor
obstacle
obstacles
generate
Prior art date
Application number
TW113113822A
Other languages
English (en)
Other versions
TW202443496A (zh
Inventor
周梓康
建平 汪
栗永徽
Original Assignee
鴻海精密工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司 filed Critical 鴻海精密工業股份有限公司
Publication of TW202443496A publication Critical patent/TW202443496A/zh
Application granted granted Critical
Publication of TWI863852B publication Critical patent/TWI863852B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Processing Or Creating Images (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一種場景編碼產生裝置用以執行以下運作。該場景編碼產生裝置基於對應複數個障礙物各者在一時間點的一位置以及一運動狀態,產生一局部座標系。該場景編碼產生裝置轉換對應該些障礙物各者的該位置以及該運動狀態至對應的該局部座標系以產生一局部位置以及一局部運動狀態。該場景編碼產生裝置基於該些障礙物對應的該些局部位置以及該些局部運動狀態產生對應該些障礙物的一障礙物張量,其中該障礙物張量對應該時間點。該場景編碼產生裝置將該障礙物張量輸入一場景編碼器以產生一場景編碼,其中該場景編碼用以輸入至一解碼器以產生一軌跡預測。

Description

場景編碼產生裝置及方法
本揭露有關於一種場景編碼產生裝置及方法,特別是有關於一種交通場景編碼產生裝置及方法。
軌跡預測是實現自駕車的關鍵技術之一,為了取得路況資訊並進一步控制車輛以確保車輛及乘客的安全,需要即時地擷取車輛所在的場景資訊並輸入預測模型進行運算和預測。
然而,隨著場景中的物件(例如:自駕車附近的其他車輛、行人等)數量增加,場景資訊所須包含的資訊也隨之增加。如此一來將使得擷取場景資訊時的運算時間增加,進而降低預測效率。
有鑑於此,如何更有效率地擷取場景資訊,乃業界亟需努力之目標。
為了解決上述問題,本揭露提出一種場景編碼產生裝置,包含一收發介面以及一處理器。該處理器耦接該收發介面,並且該處理器用以執行以下運作:透過該收發介面接收複數個障礙物各者在一第一時間點的一位置以及一運動狀態;基於對應該些障礙物各者的該位置以及該運動狀態,產生對應該些障礙物各者的一局部座標系;轉換對應該些障礙物各者的該位置以及該運動狀態至對應該些障礙物各者的該局部座標系以產生該些障礙物各者的一局部位置以及一局部運動狀態;基於該些障礙物對應的該些局部位置以及該些局部運動狀態產生對應該些障礙物的一第一障礙物張量,其中該第一障礙物張量對應該第一時間點;以及將該第一障礙物張量輸入一場景編碼器以產生一第一場景編碼,其中該第一場景編碼對應該第一障礙物張量對應之該第一時間點,並且該第一場景編碼用以輸入至一解碼器以產生對應該些障礙物的一軌跡預測。
本揭露還提供一種場景編碼產生方法,適用於一場景編碼產生裝置,該場景編碼產生方法包含以下步驟:該場景編碼產生裝置接收複數個障礙物各者在一第一時間點的一位置以及一運動狀態;該場景編碼產生裝置基於對應該些障礙物各者的該位置以及該運動狀態,產生對應該些障礙物各者的一局部座標系;該場景編碼產生裝置轉換對應該些障礙物各者的該位置以及該運動狀態至對應該些障礙物各者的該局部座標系以產生該些障礙物各者的一局部位置以及一局部運動狀態;該場景編碼產生裝置基於嵌入該些障礙物對應的該些局部位置以及該些局部運動狀態以產生對應該些障礙物的一第一障礙物張量,其中該第一障礙物張量對應該第一時間點;以及該場景編碼產生裝置基於將該第一障礙物張量輸入以一場景編碼器以產生一第一場景編碼,其中該第一場景編碼對應該第一障礙物張量對應之該第一時間點,並且該第一場景編碼用以輸入至一解碼器以產生對應該些障礙物的一軌跡預測。
應該理解的是,前述的一般性描述和下列具體說明僅僅是示例性和解釋性的,並旨在提供所要求的本揭露的進一步說明。
為了使本揭露之敘述更加詳盡與完備,可參照所附之圖式及以下所述各種實施例,圖式中相同之號碼代表相同或相似之元件。
請參照第1圖,其為本揭露部分實施例中軌跡預測模型M的示意圖。為了進行軌跡預測,首先須取得場景中的障礙物資訊以及地圖資訊。障礙物資訊用以表示場景中各個障礙物(agent)的狀態,舉例來說,障礙物資訊可以包含場景中障礙物在各個時間點的位置、速度、定向等狀態資訊。地圖資訊則用以表示場景中的地圖資訊。在一些實施例中,障礙物資訊及地圖資訊以張量(tensor)的形式表示。
取得障礙物資訊以及地圖資訊後,場景編碼器EC可以基於障礙物資訊以及地圖資訊產生場景編碼(scene encoding),由於原始的障礙物資訊以及地圖資訊不包含場景中各個障礙物以及地圖在各個時間點的相對關係,因此場景編碼器EC以障礙物資訊以及地圖資訊作為輸入進行編碼(encoding),輸出的場景編碼則可以紀錄場景中各個障礙物以及地圖在各個時間點的相對關係。在一些實施例中,場景編碼器EC為基於注意力機制(attention)的編碼器(encoder)。
在產生場景編碼後,軌跡預測解碼器DC則可以根據場景編碼所記錄之障礙物以及地圖在各個時間點的相對關係進行解碼(decoding)並產生軌跡預測結果,其中軌跡預測結果可以包含場景中各個障礙物未來可能的運動路徑、速度、定向等資訊。在一些實施例中,軌跡預測解碼器DC為對應場景編碼器EC的解碼器(decoder)。
產生軌跡預測結果後,則可以根據軌跡預測結果執行後續的應用。舉例來說,自駕車可以根據軌跡預測結果中各個障礙物的運動狀態,執行判斷自駕車本身是否具有發生事故的風險、計算風險的高低、規劃最佳路徑等應用,並進一步控制自駕車。
至於有關場景編碼器的細節,請參考第2圖,其為現有技術中場景編碼器EC0的示意圖。如第2圖所示,場景編碼器EC0包含時間注意力機制、地圖注意力機制、障礙物-地圖注意力機制以及障礙物注意力機制。
時間注意力機制用以根據障礙物資訊進行自注意力機制(self-attention)運算以產生輸出張量。
在一些例子中,假設障礙物資訊為[A, T, D]大小的張量,其中A為障礙物資訊所參考的障礙物的數量,T為障礙物資訊所參考的時間點的數量,D則為預設的編碼(embedding)維度(例如:128)。時間注意力機制可以障礙物資訊轉換為自注意力機制中的查詢(query)向量、關鍵(key)向量及值(value)向量。如此一來,由於以[A, T, D]大小的張量(即,障礙物資訊)轉換為查詢向量、關鍵向量及值向量進行運算,因此時間注意力機制運算的時間複雜度為O(AT 2),並且時間注意力機制的輸出張量為[A, T, D]大小的張量。
地圖注意力機制用以根據地圖資訊進行自注意力機制運算以產生輸出張量。
在一些例子中,假設障礙物資訊為[M, D]大小的張量,其中M為地圖資訊所參考的物件的數量, D則為預設的編碼維度(例如:128)。地圖注意力機制可以地圖資訊轉換為自注意力機制中的查詢向量、關鍵向量及值向量。如此一來,由於以[M, D]大小的張量(即,地圖資訊)轉換為查詢向量、關鍵向量及值向量進行運算,因此地圖注意力機制運算的時間複雜度為O(M 2),並且地圖注意力機制的輸出張量為[M, D]大小的張量。
障礙物-地圖注意力機制用以根據時間注意力機制的輸出張量及地圖注意力機制的輸出張量進行注意力機制運算以產生輸出張量。
在一些例子中,當時間注意力機制的輸出張量為[A, T, D]大小的張量且地圖注意力機制的輸出張量為[M, D]大小的張量,障礙物-地圖注意力機制可以時間注意力機制的輸出張量轉換為注意力機制中的查詢向量,並且以地圖注意力機制的輸出張量轉換為注意力機制中的關鍵向量及值向量。如此一來,由於以[A, T, D]大小的張量(即,時間注意力機制的輸出張量)轉換為查詢向量,並以[M, D]大小的張量(即,地圖注意力機制的輸出張量)轉換為關鍵向量及值向量進行運算,因此障礙物-地圖注意力機制運算的時間複雜度為O(ATM),並且障礙物-地圖注意力機制的輸出張量為[A, T, D]大小的張量。
障礙物注意力機制用以根據障礙物-地圖注意力機制的輸出張量進行自注意力機制運算以產生輸出張量。
在一些例子中,當障礙物-地圖注意力機制的輸出張量為[A, T, D]大小的張量,障礙物注意力機制可以障礙物-地圖注意力機制的輸出張量轉換為自注意力機制中的查詢向量、關鍵向量及值向量。如此一來,由於以[A, T, D]大小的張量(即,障礙物-地圖注意力機制的輸出張量)轉換為查詢向量、關鍵向量及值向量進行運算,因此障礙物注意力機制運算的時間複雜度為O(A 2T),並且障礙物注意力機制的輸出張量為[A, T, D]大小的張量。
最後,如第2圖所示,障礙物注意力機制的輸出可以做為場景編碼。場景編碼用以輸入對應的軌跡預測解碼器(例如:第1圖所繪示的軌跡預測解碼器DC)以根據場景中的資訊產生對應場景中障礙物的軌跡預測結果。而計算場景編碼運算的時間複雜度為O(AT 2+M 2+ATM+A 2T)。
需要注意的是,障礙物資訊中在同一個時間點各個障礙物的位置或運動狀態係基於同一個座標系。舉例來說,在自駕車於時間點t=0所擷取的障礙物資訊中,場景中所有的障礙物可以在自駕車於時間點t=0的位置為原點,並且自駕車於時間點t=0的定向為x軸所形成的座標系進行定位,換言之,障礙物資訊以自駕車在時間點t=0的位置和運動狀態所定義的座標系來表示所有障礙物在時間點t=0的位置和運動狀態。相似地,在自駕車於下一個時間點t=1所擷取的障礙物資訊中,場景中所有的障礙物可以自駕車於時間點t=1的位置為原點,並且自駕車於時間點t=1的定向為x軸所形成的座標系進行定位,換言之,障礙物資訊以自駕車在時間點t=1的位置和運動狀態所定義的座標系來表示所有障礙物在時間點t=1的位置和運動狀態。
然而,在不同時間點中座標系的參考基準可能會改變(例如:自駕車移動而導致在不同時間點的位置和定向改變)。為了將對應不同時間點的障礙物資訊之間能夠彼此產生關聯性,在輸入場景編碼器進行運算前,需要針對障礙物資訊中對應不同時間點的資訊正規化座標系。具體而言,可以將障礙物資訊中對應所有時間點障礙物的位置、定向、速度等運動狀態資訊皆改由對應最新的時間點(即,相對最晚的時間點)的座標系表示。
如此一來,雖然可以統一座標系使得對應不同時間點的資訊可以透過注意力機制運算產生關聯性,然而當有新的障礙物資訊輸入時,須重新進行一次座標系正規化。進一步地,在軌跡預測的技術領域中,障礙物資訊的取得以及軌跡預測的產生具有串流性(streaming),具體而言,自駕車運作時,需要不斷地擷取場景中的障礙物資訊並且不斷地進行軌跡預測。
舉例來說,自駕車每次進行軌跡預測時參考過去5000毫秒的障礙物資訊及地圖資訊,且每100毫秒採樣一次(即,每100毫秒產生對應當下時間點的障礙物資訊及地圖資訊),換言之,每次進行軌跡預測皆須考量對應50個時間點的障礙物資訊及地圖資訊。然而如前所述,當輸入最新的障礙物資訊及地圖資訊進行軌跡預測時,對應過去時間點的障礙物資訊及地圖資訊(即,對應較舊的49個時間點之障礙物資訊及地圖資訊),雖然曾經在前次軌跡預測中已經過編碼器產生場景編碼,但前次軌跡預測中產生的場景編碼係基於不同的座標系,因此前次軌跡預測中產生的場景編碼無法在本次軌跡預測中被利用。
綜上所述,現有的軌跡預測技術中,每次進行軌跡預測運算須重新正規化不同時間點的資訊之座標系,且還須重新針對每個時間點計算對應的場景編碼,使得運算效率難以突破。
因此,本揭露提出一種場景編碼產生裝置,請參考第3圖,其為本揭露第一實施方式中場景編碼產生裝置1的示意圖。場景編碼產生裝置1用以基於場景中的障礙物資訊以及地圖資訊利用場景編碼器產生場景編碼。
如第3圖所示,場景編碼產生裝置1包含處理器12以及收發介面14,其中處理器12耦接收發介面14。處理器12用以執行場景編碼器的運算。收發介面14則用以接收障礙物資訊以及地圖資訊。
在一些實施例中,處理器 12可包含中央處理單元(central processing unit,CPU)、多重處理器、分散式處理系統、特殊應用積體電路(application specific integrated circuit,ASIC)和/或合適的運算單元。
在一些實施例中,收發介面14通訊連接外部裝置以接收障礙物資訊以及地圖資訊,外部裝置可以是車輛的相機、雷達收發器、光達(LiDAR)收發器等可擷取場景中障礙物及物件之位置及運動狀態的裝置。
首先,場景編碼產生裝置1的處理器 12透過收發介面14接收複數個障礙物各者在一第一時間點的一位置以及一運動狀態。
與現有技術相似地,處理器 12透過收發介面14接收場景中每個障礙物的位置座標、定向以及速度,其中障礙物可以包含自駕車本身、場景中的其他車輛、行人等物件。在一些實施例中,處理器 12接收每個障礙物對應當下時間點的位置以及運動狀態,並且位置以及運動狀態為[A, 1, 5]大小的張量,其中A為障礙物的數量,並且位置座標(維度為2)、定向(維度為1)以及速度(維度為2)(例如:位置座標為(2,2)、定向為 、速度為(-1,3))構成5個維度的資料。
接下來,處理器 12基於對應該些障礙物各者的該位置以及該運動狀態,產生對應該些障礙物各者的一局部座標系(local coordinate system),並且轉換對應該些障礙物各者的該位置以及該運動狀態至對應該些障礙物各者的該局部座標系以產生該些障礙物各者的一局部位置以及一局部運動狀態。
為了解決現有技術中座標系須正規化且場景編碼需重複計算的問題。場景編碼產生裝置1利用障礙物基於本身的位置及運動狀態建立的局部座標系表示其位置及運動狀態。
具體而言,處理器 12針對每個障礙物各自的位置及運動狀態,產生局部座標系並轉換障礙物的座標及運動狀態至局部座標系。換言之,處理器 12針對每個障礙物產生各自的局部座標系,並且將障礙物的位置及運動狀態轉換至對應的局部座標系。
至於有關產生以及轉換至局部座標系的細節,請參考第4及5圖,其中第4圖為本揭露部分實施例中障礙物的位置及運動狀態位於原始座標系的示意圖,第5圖為本揭露部分實施例中障礙物的位置及運動狀態轉換至局部座標系的示意圖。
如第4圖所示,障礙物在原始座標系(例如:以自駕車的位置為原點並且以自駕車的定向為 軸)中的位置座標P為(2,2) 、定向O為 以及速度V為(-1,3)。
進一步地,如第5圖所示,處理器 12可以障礙物的位置座標P為局部座標系的原點,障礙物的定向O為局部座標系的 軸。如此一來,轉換後的障礙物位置座標P1為(0,0)、定向O1為0以及速度V1為(3,1)。
需要注意的是,第4及5圖為轉換為局部座標系的示例,處理器 12可以利用相同的運作針對每個障礙物轉換各自的座標及運動狀態。
接著,處理器 12基於該些障礙物對應的該些局部位置以及該些局部運動狀態產生對應該些障礙物的一第一障礙物張量,其中該第一障礙物張量對應該第一時間點。
在一些實施例中,處理器 12利用三層式多層感知器(3-layer Multilayer Perceptron,3-layer MLP)將[A, 1, 5]大小的局部位置以及局部運動狀態轉換為[A, 1, D]大小的第一障礙物張量,其中D為預設的編碼(embedding)維度(例如:128)。第一障礙物張量用以表示場景中障礙物基於局部座標系的位置及運動狀態的特徵。
最後,將該第一障礙物張量輸入一場景編碼器以產生一第一場景編碼,其中該第一場景編碼對應該第一障礙物張量對應之該第一時間點,其中該第一場景編碼用以輸入至一解碼器以產生對應該些障礙物的一軌跡預測。
場景編碼器的具體細節請參考第6圖,其為本揭露部分實施例中場景編碼器EC1的示意圖,場景編碼器EC1可以由場景編碼產生裝置1執行。如第6圖所示,場景編碼器EC1包含時間注意力層、障礙物-地圖注意力層以及障礙物注意力層。
時間注意力層用以根據即時障礙物張量及歷史障礙物張量進行注意力機制運算以產生輸出張量,其中即時障礙物張量可以為前述的第一障礙物張量,即對應當下時間點障礙物的位置及運動狀態所計算而得的障礙物張量,歷史障礙物張量則可以為先前(例如:過去5秒內)取得障礙物的位置及運動狀態並計算而得的障礙物張量(即,相對即時障礙物張量較早時間點的障礙物張量)。
在一些實施例中,就時間注意力層的角度而言,即時障礙物張量為對應第一時間點的第一輸入張量,歷史障礙物張量為對應第二時間點的第二輸入張量,其中第二時間點早於第一時間點。
舉例來說,若場景編碼產生裝置1每100毫秒接收一組對應最新時間點障礙物的位置及運動狀態,並且依據過去5000毫秒所接收的位置及運動狀態執行軌跡預測,則場景編碼產生裝置1每次執行軌跡預測以最新時間點的1組位置及運動狀態作為即時障礙物張量,對應時間點較早的49組位置及運動狀態作為歷史障礙物張量。
時間注意力層的輸出張量可用以表示障礙物在多個時間點之間運動狀態的關聯性。假設即時障礙物張量為[A, 1, D]大小的張量,歷史障礙物張量為[A, T-1, D]大小的張量,其中A為障礙物資訊所參考的障礙物的數量,T為本次軌跡預測參考的時間點的數量(即,包含即時障礙物張量的1個時間點及歷史障礙物張量的T-1個時間點),D則為預設的編碼維度(例如:128)。
需要注意的是,在一些實施例中,處理器 12可將即時障礙物張量轉換為時間注意力層的注意力機制中的查詢向量,將歷史障礙物張量轉換為時間注意力層的注意力機制中的關鍵向量和值向量,並且處理器 12基於查詢向量、關鍵向量及值向量進行時間注意力層的注意力機制運算。如此一來,由於僅以[A, 1, D]大小的張量(即,即時障礙物張量)轉換為查詢向量以及以[A, T-1, D]大小的張量(即,歷史障礙物張量)作為關鍵向量和值向量進行注意力機制運算,因此時間注意力層運算的時間複雜度為O(AT),並且時間注意力層的輸出張量為[A, 1, D]大小的張量。
在一些實施例中,當時間注意力層針對即時障礙物張量中第i個障礙物的資訊轉換為查詢向量(即,將[A, 1, D]大小的即時障礙物張量中對應第i個障礙物的[1, 1, D]向量)進行注意力機制運算時,處理器12由下列式一計算對應的關鍵向量和值向量。 [式一]
其中 為歷史障礙物張量中第i個障礙物對應第s個時間點的向量, 則是第i個障礙物對應第s個時間點與第i個障礙物對應第t個時間點的相對時空相對關係,相對時空相對關係包含相對距離、相對方向、相對定向以及時間差(即,s-t)。
障礙物-地圖注意力層(亦可以稱為障礙物地圖注意力層)用以根據時間注意力層的輸出張量及地圖張量進行注意力機制運算以產生輸出張量,障礙物-地圖注意力層的輸出張量可用以表示障礙物和場景中物件之間的關聯性。
在一些實施例中,處理器12可將時間注意力層的輸出張量轉換為障礙物-地圖注意力層的注意力機制中的查詢向量,將地圖張量轉換為障礙物-地圖注意力層的注意力機制中的關鍵向量和值向量,並且基於查詢向量、關鍵向量及值向量進行障礙物-地圖注意力層的注意力機制運算。如此一來,由於僅以[A, 1, D]大小的張量(即,時間注意力層的輸出張量)轉換為查詢向量進行運算以及以[M, D]大小的張量(即,地圖張量)轉換為關鍵向量和值向量進行注意力機制運算,因此障礙物-地圖注意力層運算的時間複雜度為O(AM),並且時間注意力層的輸出張量為[A, 1, D]大小的張量。
在一些實施例中,場景編碼產生裝置1可以依據電子地圖預先計算地圖張量。舉例來說,電子地圖中包含以多邊形表示的道路標線、道路邊界、速限等地圖中的物件,其中場景編碼產生裝置1的處理器12以每個物件的位置以及參考線(例如:中線)分別建立局部座標系,並將物件的多邊形轉換至對應的局部座標系。
接下來,處理器12再利用三層式多層感知器將物件多邊形的每個端點轉換為預設維度(例如:128)的端點向量。
接著,處理器12再分別針對每個多邊形的端點向量以最大池化層(max-pooling layer)採樣後取得[M, D]大小的張量,其中該張量係由對應M個多邊形(即,物件)的多邊形向量組成,並且D為預設維度(例如:128)。
最後,處理器12 將前述取得之[M, D]大小的張量進行自注意力機制運算以產生地圖張量,地圖張量可用以表示場景中物件之間的關聯性。在一些實施例中,當處理器12針對張量中第i個多邊形的資訊轉換為查詢向量(即,將[M, D]大小的地圖張量中對應第i個多邊形的[1, D]向量)進行自注意力機制運算時,處理器12將第i個多邊形周遭的至少一周圍多邊形對應的多邊形向量以及第i個多邊形和周圍多邊形之間的相對關係轉換為關鍵向量及值向量,其中相對關係可包含周圍多邊形在第i個多邊形的局部座標系中的相對距離、方向以及定向。
需要注意的是,計算地圖張量的運作亦可由其他裝置預先計算後產生。
進一步地,當時間注意力層針對時間注意力層的輸出張量中第i個障礙物的資訊轉換為查詢向量(即,將[A, 1, D]大小的張量中對應第i個障礙物的[1, 1, D]向量)進行注意力機制運算時,處理器12將地圖張量中第i個障礙物周圍的多邊形向量(即,[1, D]的向量)以及周圍多邊形在第i個障礙物的局部座標系中的相對距離、方向以及定向轉換為關鍵向量及值向量進行運算,其中周圍多邊形可以是距離第i個障礙物50公尺內的物件。
障礙物注意力層用以根據障礙物-地圖注意力層的輸出張量進行自注意力機制運算以產生輸出張量,障礙物注意力層的輸出張量可用以表示障礙物之間的關聯性。
在一些實施例中,處理器12可將障礙物-地圖注意力層的輸出張量轉換為障礙物注意力層的自注意力機制中的查詢向量、關鍵向量及值向量,並且基於查詢向量、關鍵向量及值向量進行障礙物-地圖注意力層的自注意力機制運算。如此一來,由於僅以[A, 1, D]大小的張量(即,障礙物-地圖注意力層的輸出張量)轉換為查詢向量、關鍵向量及值向量進行自注意力機制運算,因此障礙物注意力層運算的時間複雜度為O(A 2),並且障礙物注意力層的輸出張量為[A, 1, D]大小的張量。
在一些實施例中,當障礙物注意力層針對障礙物-地圖注意力層的輸出張量中第i個障礙物的資訊轉換為查詢向量(即,將[A, 1, D]大小的張量中對應第i個障礙物的[1, 1, D]向量)進行自注意力機制運算時,處理器12將輸出張量中第i個障礙物的周圍障礙物對應的向量(即,[1, D]的向量)以及周圍障礙物在第i個障礙物的局部座標系中的相對距離、方向以及定向轉換為關鍵向量及值向量進行運算,其中周圍障礙物可以是距離第i個障礙物50公尺內的障礙物。
最後,如第4圖所示,障礙物注意力層的輸出可以做為場景編碼。如此一來,場景編碼可以包含在當下的時間點場景中各個障礙物在不同時間點之間、障礙物和物件之間以及障礙物彼此之間的關聯性。進一步地,場景編碼可以用以輸入對應的軌跡預測解碼器(例如:第1圖所繪示的軌跡預測解碼器DC)以根據場景中的資訊產生對應場景中障礙物的軌跡預測結果。而本揭露提出之場景編碼技術計算場景編碼的時間複雜度為O(AT+AM+A 2),和現有技術相比降低了T維度(即,時間點數量)倍數的時間複雜度。
在一些實施例中,前述的場景編碼係對應當下的時間點(亦可以理解為即時障礙物張量所對應的時間點),因此場景編碼產生裝置1還可以將對應當下時間點的場景編碼與對應過去時間點的場景編碼串接(concatenation)後輸入軌跡預測解碼器以產生軌跡預測結果。
舉例來說,場景編碼產生裝置1可以基於過去5秒內場景中的資訊進行軌跡預測,則場景編碼產生裝置1每次進行上述運作產生場景編碼後,除了將場景編碼輸入軌跡預測解碼器以產生軌跡預測結果之外,還可以進一步儲存場景編碼。如此一來,每次場景編碼產生裝置1根據當下的時間點產生前述的場景編碼後,將場景編碼和對應過去5秒內時間點的場景編碼(例如:過去5秒內每100毫秒產生的49組場景編碼)串接並輸入軌跡預測解碼器以產生基於過去5秒的場景狀態產生的軌跡預測結果。
綜上所述,場景編碼產生裝置1可以利用基於場景中的障礙物以及地圖物件位於本身的局部座標系的位置以及運動狀態,產生用以表示場景中的障礙物以及地圖物件之間關聯的場景編碼,其中場景編碼產生裝置1不須針對對應每個時間點不同的座標系進行正規化,並且在進行注意力機制運算時進一步納入障礙物和/或地圖物件之間的相對關係。如此一來,場景編碼產生裝置1可以大大地降低計算場景編碼的時間複雜度。
請參考第7圖,其為本揭露第二實施方式中場景編碼產生方法20的流程圖。場景編碼產生方法20包含步驟S21至S25。場景編碼產生方法20適用於一場景編碼產生裝置(例如:場景編碼產生裝置1)。該場景編碼產生裝置用以基於場景中障礙物及物件的位置及運動狀態等資訊產生可用於軌跡預測的場景編碼。
在步驟S21中,該場景編碼產生裝置接收複數個障礙物各者在一第一時間點的一位置以及一運動狀態。
在步驟S22中,該場景編碼產生裝置基於對應該些障礙物各者的該位置以及該運動狀態,產生對應該些障礙物各者的一局部座標系。
在步驟S23中,該場景編碼產生裝置轉換對應該些障礙物各者的該位置以及該運動狀態至對應該些障礙物各者的該局部座標系以產生該些障礙物各者的一局部位置以及一局部運動狀態。
在步驟S24中,該場景編碼產生裝置基於嵌入該些障礙物對應的該些局部位置以及該些局部運動狀態以產生對應該些障礙物的一第一障礙物張量,其中該第一障礙物張量對應該第一時間點。
在步驟S25中,該場景編碼產生裝置基於將該第一障礙物張量輸入以一場景編碼器以產生一第一場景編碼,其中該第一場景編碼對應該第一障礙物張量對應之該第一時間點,其中並且該第一場景編碼用以輸入至一解碼器以產生對應該些障礙物的一軌跡預測。
在一些實施例中,該場景編碼器包含一時間注意力層,該時間注意力層用以基於對應該第一時間點的一第一輸入張量以及對應至少一第二時間點的至少一第二輸入張量進行一注意力機制運算以產生一第一輸出張量。
在一些實施例中,場景編碼產生方法20還包含該場景編碼產生裝置基於該第一輸入張量產生該時間注意力層的至少一查詢向量;該場景編碼產生裝置基於該第二輸入張量產生該時間注意力層的至少一關鍵向量及至少一值向量;以及該場景編碼產生裝置基於該至少一查詢向量、該至少一關鍵向量及該至少一值向量進行該注意力機制運算;其中該至少一第二時間點早於該第一時間點。
在一些實施例中,該場景編碼器包含一障礙物地圖注意力層,該障礙物地圖注意力層用以基於對應該些障礙物的一第三輸入張量以及對應至少一地圖物件的一第四輸入張量進行一注意力機制運算以產生一第二輸出張量。
在一些實施例中,該第四輸入張量係基於對應該至少一地圖物件的至少一多邊形以及至少一位置進行一自注意力機制運算後產生。
在一些實施例中,場景編碼產生方法20還包含該場景編碼產生裝置基於該第三輸入張量產生該障礙物地圖注意力層的至少一查詢向量;該場景編碼產生裝置基於該第四輸入張量產生該障礙物地圖注意力層的至少一關鍵向量及至少一值向量;以及該場景編碼產生裝置基於該至少一查詢向量、該至少一關鍵向量及該至少一值向量進行該注意力機制運算。
在一些實施例中,該場景編碼器包含一障礙物注意力層,該障礙物注意力層用以基於對應該些障礙物的一第五輸入張量進行一自注意力機制運算以產生一第三輸出張量。
在一些實施例中,場景編碼產生方法20還包含基於該第五輸入張量產生該障礙物注意力層的至少一查詢向量、至少一關鍵向量及至少一值向量;以及基於該至少一查詢向量、該至少一關鍵向量及該至少一值向量進行該自注意力機制運算。
在一些實施例中,場景編碼產生方法20還包含串接對應該第一時間點的該第一場景編碼以及對應至少一第二時間點的至少一第二場景編碼以產生一輸出場景編碼,其中該輸出場景編碼用以輸入至該解碼器以產生對應該些障礙物的該軌跡預測。
在一些實施例中,該至少一第二場景編碼為將對應該至少一第二時間點的至少一第二障礙物張量輸入該場景編碼器後產生。
綜上所述,場景編碼產生方法20可以利用基於場景中的障礙物以及地圖物件位於本身的局部座標系的位置以及運動狀態,產生用以表示場景中的障礙物以及地圖物件之間關聯的場景編碼,其中場景編碼產生方法20不須針對對應每個時間點不同的座標系進行正規化,並且在進行注意力機制運算時進一步納入障礙物和/或地圖物件之間的相對關係。如此一來,場景編碼產生方法20可以大大地降低計算場景編碼的時間複雜度。
雖以數個實施例詳述如上作為示例,然本揭露所提出之場景編碼產生裝置及方法亦得以其他系統、硬體、軟體、儲存媒體或其組合實現。因此,本揭露之保護範圍不應受限於本揭露實施例所描述之特定實現方式,當視後附之申請專利範圍所界定者為準。
對於本揭露所屬技術領域中具有通常知識者顯而易見的是,在不脫離本揭露的範圍或精神的情況下,可以對本揭露的結構進行各種修改和變化。鑑於前述,本揭露之保護範圍亦涵蓋在後附之申請專利範圍內進行之修改和變化。
M:軌跡預測模型 EC:場景編碼器 DC:軌跡預測解碼器 EC0:場景編碼器 1:場景編碼產生裝置 12:處理器 14:收發介面 P:位置座標 O:定向 V:速度 P1:位置座標 O1:定向 V1:速度 EC1:場景編碼器 20:場景編碼產生方法 S21~S25:步驟
為讓本揭露之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下: 第1圖為本揭露部分實施例中軌跡預測模型的示意圖; 第2圖為現有技術中場景編碼器的示意圖; 第3圖為本揭露第一實施方式中場景編碼產生裝置的示意圖; 第4圖為本揭露部分實施例中障礙物的位置及運動狀態位於原始座標系的示意圖; 第5圖為本揭露部分實施例中障礙物的位置及運動狀態轉換至局部座標系的示意圖; 第6圖為本揭露部分實施例中場景編碼器的示意圖;以及 第7圖為本揭露第二實施方式中場景編碼產生方法的示意圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記) 無 國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記) 無
1:場景編碼產生裝置 12:處理器 14:收發介面

Claims (10)

  1. 一種場景編碼產生裝置,包含: 一收發介面;以及 一處理器,耦接該收發介面,並且該處理器用以執行以下運作: 透過該收發介面接收複數個障礙物各者在一第一時間點的一位置以及一運動狀態; 基於對應該些障礙物各者的該位置以及該運動狀態,產生對應該些障礙物各者的一局部座標系; 轉換對應該些障礙物各者的該位置以及該運動狀態至對應該些障礙物各者的該局部座標系以產生該些障礙物各者的一局部位置以及一局部運動狀態; 基於該些障礙物對應的該些局部位置以及該些局部運動狀態產生對應該些障礙物的一第一障礙物張量,其中該第一障礙物張量對應該第一時間點;以及 將該第一障礙物張量輸入一場景編碼器以產生一第一場景編碼,其中該第一場景編碼對應該第一障礙物張量對應之該第一時間點,並且該第一場景編碼用以輸入至一解碼器以產生對應該些障礙物的一軌跡預測。
  2. 如請求項1所述之場景編碼產生裝置,其中該場景編碼器包含一時間注意力層,該時間注意力層用以基於對應該第一時間點的一第一輸入張量以及對應至少一第二時間點的至少一第二輸入張量進行一注意力機制運算以產生一第一輸出張量。
  3. 如請求項2所述之場景編碼產生裝置,其中該處理器更執行以下運作: 基於該第一輸入張量產生該時間注意力層的至少一查詢向量; 基於該第二輸入張量產生該時間注意力層的至少一關鍵向量及至少一值向量;以及 基於該至少一查詢向量、該至少一關鍵向量及該至少一值向量進行該注意力機制運算; 其中該至少一第二時間點早於該第一時間點。
  4. 如請求項1所述之場景編碼產生裝置,其中該場景編碼器包含一障礙物地圖注意力層,該障礙物地圖注意力層用以基於對應該些障礙物的一第三輸入張量以及對應至少一地圖物件的一第四輸入張量進行一注意力機制運算以產生一第二輸出張量。
  5. 如請求項4所述之場景編碼產生裝置,其中該第四輸入張量係基於對應該至少一地圖物件的至少一多邊形以及至少一位置進行一自注意力機制運算後產生。
  6. 如請求項4所述之場景編碼產生裝置,其中該處理器更執行以下運作: 基於該第三輸入張量產生該障礙物地圖注意力層的至少一查詢向量; 基於該第四輸入張量產生該障礙物地圖注意力層的至少一關鍵向量及至少一值向量;以及 基於該至少一查詢向量、該至少一關鍵向量及該至少一值向量進行該注意力機制運算。
  7. 如請求項1所述之場景編碼產生裝置,其中該場景編碼器包含一障礙物注意力層,該障礙物注意力層用以基於對應該些障礙物的一第五輸入張量進行一自注意力機制運算以產生一第三輸出張量。
  8. 如請求項7所述之場景編碼產生裝置,其中該處理器更執行以下運作: 基於該第五輸入張量產生該障礙物注意力層的至少一查詢向量、至少一關鍵向量及至少一值向量;以及 基於該至少一查詢向量、該至少一關鍵向量及該至少一值向量進行該自注意力機制運算。
  9. 如請求項1所述之場景編碼產生裝置,其中該處理器更執行以下運作: 串接對應該第一時間點的該第一場景編碼以及對應至少一第二時間點的至少一第二場景編碼以產生一輸出場景編碼,其中該輸出場景編碼用以輸入至該解碼器以產生對應該些障礙物的該軌跡預測。
  10. 一種場景編碼產生方法,適用於一場景編碼產生裝置,該場景編碼產生方法包含以下步驟: 該場景編碼產生裝置接收複數個障礙物各者在一第一時間點的一位置以及一運動狀態; 該場景編碼產生裝置基於對應該些障礙物各者的該位置以及該運動狀態,產生對應該些障礙物各者的一局部座標系; 該場景編碼產生裝置轉換對應該些障礙物各者的該位置以及該運動狀態至對應該些障礙物各者的該局部座標系以產生該些障礙物各者的一局部位置以及一局部運動狀態; 該場景編碼產生裝置基於嵌入該些障礙物對應的該些局部位置以及該些局部運動狀態以產生對應該些障礙物的一第一障礙物張量,其中該第一障礙物張量對應該第一時間點;以及 該場景編碼產生裝置將該第一障礙物張量輸入一場景編碼器以產生一第一場景編碼,其中該第一場景編碼對應該第一障礙物張量對應之該第一時間點,並且該第一場景編碼用以輸入至一解碼器以產生對應該些障礙物的一軌跡預測。
TW113113822A 2023-04-19 2024-04-12 場景編碼產生裝置及方法 TWI863852B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202363496960P 2023-04-19 2023-04-19
US63/496,960 2023-04-19

Publications (2)

Publication Number Publication Date
TW202443496A TW202443496A (zh) 2024-11-01
TWI863852B true TWI863852B (zh) 2024-11-21

Family

ID=93064019

Family Applications (1)

Application Number Title Priority Date Filing Date
TW113113822A TWI863852B (zh) 2023-04-19 2024-04-12 場景編碼產生裝置及方法

Country Status (3)

Country Link
US (1) US20240354999A1 (zh)
CN (1) CN118823727A (zh)
TW (1) TWI863852B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119516292B (zh) * 2024-11-05 2025-09-26 北京理工大学 一种基于多注意力机制的多目标轨迹预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428763A (zh) * 2020-03-17 2020-07-17 陕西师范大学 一种基于场景约束gan的行人轨迹预测方法
EP3958181A1 (en) * 2020-08-21 2022-02-23 Five AI Limited Performance testing for robotic systems
CN114375462A (zh) * 2019-09-13 2022-04-19 交互数字Vc控股法国有限公司 用于视图合成的多视图多尺度方法和装置
CN115861383A (zh) * 2023-02-17 2023-03-28 山西清众科技股份有限公司 一种拥挤空间下多信息融合的行人轨迹预测装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114375462A (zh) * 2019-09-13 2022-04-19 交互数字Vc控股法国有限公司 用于视图合成的多视图多尺度方法和装置
CN111428763A (zh) * 2020-03-17 2020-07-17 陕西师范大学 一种基于场景约束gan的行人轨迹预测方法
EP3958181A1 (en) * 2020-08-21 2022-02-23 Five AI Limited Performance testing for robotic systems
CN115861383A (zh) * 2023-02-17 2023-03-28 山西清众科技股份有限公司 一种拥挤空间下多信息融合的行人轨迹预测装置及方法

Also Published As

Publication number Publication date
CN118823727A (zh) 2024-10-22
TW202443496A (zh) 2024-11-01
US20240354999A1 (en) 2024-10-24

Similar Documents

Publication Publication Date Title
TWI863852B (zh) 場景編碼產生裝置及方法
CN113222108B (zh) 目标检测的处理方法、装置及设备
CN111027473B (zh) 一种基于人体关节运动实时预测的目标识别方法及系统
CN110837806B (zh) 一种基于深度卷积记忆网络的室内定位方法
CN114333416A (zh) 基于神经网络的车辆风险预警方法、设备及自动驾驶车辆
KR20230026962A (ko) 장애물 검출 방법, 장치, 전자 기기 및 자율주행 차량
CN110688918B (zh) 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN116749996A (zh) 轨迹预测方法、装置、电子设备及存储介质
Shi et al. Lane detection by variational auto-encoder with normalizing flow for autonomous driving
CN119918587B (zh) 轨迹预测模型的训练方法以及轨迹预测方法
CN115050184A (zh) 一种路口车辆轨迹预测方法及装置
CN119785355B (zh) 基于高效序列生成的视觉目标跟踪方法、装置和电子设备
JP2025090781A (ja) 情報予測方法、自動運転モデルのトレーニング方法及び装置
CN117788277B (zh) 一种点云生成方法、装置、电子设备和存储介质
CN120124127A (zh) 基于手绘草图的cad草图生成方法及系统
CN114333057A (zh) 基于多级别特征交互融合的组合动作识别方法及系统
CN118071934B (zh) 一种基于单视角rgbd融合网络的手物交互重建方法
CN110244746B (zh) 一种基于视觉注意的机器人动态障碍物避开方法及系统
Liu et al. Egocentric vulnerable road users trajectory prediction with incomplete observation
CN117935208A (zh) 轨迹预测模型训练方法、轨迹预测方法、装置及车辆
CN114596708B (zh) 智能调度系统、方法、装置及计算机程序产品
CN118885967A (zh) 一种基于深度学习和运动学模型的车辆轨迹融合预测方法
CN119559536A (zh) 生成驾驶场景视频的处理方法、模型的训练方法和装置
CN119415828B (zh) 一种基于去噪的轨迹预测方法及相关设备
Zhou et al. CTLane: An end-to-end lane detector by a CNN transformer and fusion decoder for edge computing