[go: up one dir, main page]

TW201818277A - 自然語言物件追蹤 - Google Patents

自然語言物件追蹤 Download PDF

Info

Publication number
TW201818277A
TW201818277A TW106134873A TW106134873A TW201818277A TW 201818277 A TW201818277 A TW 201818277A TW 106134873 A TW106134873 A TW 106134873A TW 106134873 A TW106134873 A TW 106134873A TW 201818277 A TW201818277 A TW 201818277A
Authority
TW
Taiwan
Prior art keywords
target
frame
natural language
driven
text
Prior art date
Application number
TW106134873A
Other languages
English (en)
Inventor
李振揚
陶然
伊菲斯瑞帝奧斯 格夫斯
柯奈利斯格拉爾杜斯瑪瑞亞 史諾艾克
阿諾威赫莫斯瑪瑞亞 史密悠德斯
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW201818277A publication Critical patent/TW201818277A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一種使用自然語言查詢來跨視訊訊框序列追蹤物件的方法包括接收自然語言查詢,以及基於該自然語言查詢來標識該視訊訊框序列中的初始訊框中的初始目標。該方法亦包括基於後續訊框的內容及/或初始目標的語義屬性出現在該後續訊框中的可能性來針對該後續訊框調整自然語言查詢。該方法進一步包括標識該後續訊框中的文字驅動目標和視覺驅動目標。該方法又進一步包括將該視覺驅動目標與該文字驅動目標進行組合以獲得該後續訊框中的最終目標。

Description

自然語言物件追蹤
本專利申請案主張於2016年11月10日提出申請且題為「NATURAL LANGUAGE OBJECT TRACKING(自然語言物件追蹤)」的美國臨時專利申請案第62/420,510號的權益,其揭示內容以引用方式全部明確併入本文。
本案的某些態樣大體而言係關於物件追蹤,更特定言之係關於使用自然語言查詢來追蹤物件。
物件追蹤可被用於各種設備中的各種應用,該等設備諸如網際網路協定(IP)相機、物聯網路(IoT)設備、自主車輛,及/或服務機器人。物件追蹤應用可包括改良的物件感知及/或對用於運動規劃的物件路徑的理解。
物件追蹤在連貫訊框中使目標物件局部化。物件追蹤器可被訓練成使用各種技術將來自一訊框的物件追蹤到後續訊框的搜尋區域。亦即,人工神經網路可以將來自第一訊框的圖像(諸如邊界框中的圖像)匹配到第二訊框(例如,後續訊框)的搜尋區域。
一般物件追蹤器在使用者將邊界框放置在視訊訊框中的目標(例如,物件)周圍時被初始化。邊界框可被手動地放置在初始訊框中的目標周圍。可基於邊界框來在後續訊框中追蹤目標。
一般回流神經網路可被用於各種任務,諸如圖像加字幕和視覺問答。回流神經網路(例如,人工神經網路(ANN))(其可包括一群互連的人工神經元(例如,神經元模型))是一種計算設備或者表示將由計算設備執行的方法。
在本案的一個態樣,提出了一種使用自然語言查詢來跨視訊訊框序列追蹤物件的方法。在接收到自然語言查詢之後,該方法基於該自然語言查詢來標識該視訊訊框序列中的初始訊框中的初始目標。該方法進一步包括基於後續訊框的內容及/或初始目標的語義屬性出現在該後續訊框中的可能性來針對該後續訊框調整自然語言查詢。該方法又進一步包括基於經調整的自然語言查詢來標識該後續訊框中的文字驅動目標。該方法基於初始訊框中的初始目標來標識該後續訊框中的視覺驅動目標。該方法進一步將該視覺驅動目標與該文字驅動目標進行組合以獲得該後續訊框中的最終目標。
本案的另一態樣涉及一種裝置,其包括用於接收自然語言查詢的構件。該裝置亦包括用於基於該自然語言查詢來標識視訊訊框序列中的初始訊框中的初始目標的構件。該裝置進一步包括用於基於後續訊框的內容及/或初始目標的語義屬性出現在該後續訊框中的可能性來針對該後續訊框調整自然語言查詢的構件。該裝置又進一步包括用於基於經調整的自然語言查詢來標識後續訊框中的文字驅動目標的構件。該裝置亦包括用於基於初始訊框中的初始目標來標識後續訊框中的視覺驅動目標的構件。該裝置進一步包括用於將視覺驅動目標與文字驅動目標進行組合以獲得後續訊框中的最終目標的構件。
在本案的另一態樣,揭示一種其上記錄有非瞬態程式碼的非瞬態電腦可讀取媒體。用於使用自然語言查詢來跨視訊訊框序列追蹤物件的程式碼由至少一個處理器執行並且包括用於接收自然語言查詢的程式碼。該程式碼亦包括用於基於自然語言查詢來標識視訊訊框序列中的初始訊框中的初始目標的程式碼。該程式碼進一步包括用於基於後續訊框的內容及/或初始目標的語義屬性出現在該後續訊框中的可能性來針對該後續訊框調整自然語言查詢的程式碼。該程式碼又進一步包括用於基於經調整的自然語言查詢來標識後續訊框中的文字驅動目標的程式碼。該程式碼亦包括用於基於初始訊框中的初始目標來標識後續訊框中的視覺驅動目標的程式碼。該程式碼進一步包括用於將視覺驅動目標與文字驅動目標進行組合以獲得後續訊框中的最終目標的程式碼。
本案的另一態樣涉及一種用於使用自然語言查詢來跨視訊訊框序列追蹤物件的裝置,該裝置具有記憶體單元以及耦合至該記憶體單元的一或多個處理器。該(諸)處理器被配置成接收自然語言查詢並基於該自然語言查詢來標識視訊訊框序列中的初始訊框中的初始目標。該(諸)處理器被進一步配置成基於後續訊框的內容及/或初始目標的語義屬性出現在該後續訊框中的可能性來針對該後續訊框調整自然語言查詢。該(諸)處理器被再進一步配置成基於經調整的自然語言查詢來標識後續訊框中的文字驅動目標。該(諸)處理器亦被配置成基於初始訊框中的初始目標來標識後續訊框中的視覺驅動目標。該(諸)處理器被進一步配置成將視覺驅動目標與文字驅動目標進行組合以獲得後續訊框中的最終目標。
本案的額外特徵和優點將在下文描述。本領域技藝人士應該領會,本案可容易地被用作修改或設計用於實施與本案相同的目的的其他結構的基礎。本領域技藝人士亦應認識到,此種等效構造並不脫離所附申請專利範圍中所闡述的本案的教示。被認為是本案的特性的新穎特徵在其組織和操作方法兩方面連同進一步的目的和優點在結合附圖來考慮以下描述時將被更好地理解。然而,要清楚理解的是,提供每一幅附圖均僅用於圖示和描述目的,且無意作為對本案的限定的定義。
以下結合附圖闡述的詳細描述意欲作為各種配置的描述,而無意表示可實踐本文中所描述的概念的僅有的配置。本詳細描述包括特定細節以便提供對各種概念的透徹理解。然而,對於本領域技藝人士將顯而易見的是,沒有該等特定細節亦可實踐該等概念。在一些實例中,以方塊圖形式圖示眾所周知的結構和部件以避免湮沒此類概念。
基於本教示,本領域技藝人士應領會,本案的範疇意欲覆蓋本案的任何態樣,不論其是與本案的任何其他態樣相獨立地還是組合地實施的。例如,可以使用所闡述的任何數目的態樣來實施裝置或實踐方法。另外,本案的範疇意欲覆蓋使用作為所闡述的本案的各個態樣的補充或者與之不同的其他結構、功能性,或者結構及功能性來實踐的此類裝置或方法。應當理解,所披露的本案的任何態樣可由請求項的一或多個元素來體現。
措辭「示例性」在本文中用於表示「用作示例、實例或說明」。本文中描述為「示例性」的任何態樣不必被解釋為優於或勝過其他態樣。
儘管本文描述了特定態樣,但該等態樣的眾多變體和置換落在本案的範疇之內。儘管提到了優選態樣的一些益處和優點,但本案的範疇並非意欲被限定於特定益處、用途或目標。相反,本案的各態樣意欲能寬泛地應用於不同的技術、系統組態、網路和協定,其中一些作為實例在附圖以及以下對優選態樣的描述中說明。詳細描述和附圖僅僅說明本案而非限定本案,本案的範疇由所附申請專利範圍及其等效技術方案來定義。
自然語言物件取得學習自然語言查詢和物件片段外觀之間的匹配函數。一般系統根據圖像位置相對於語句描述的擬合分數來對圖像位置進行排序。如此,一個語句適用於一個圖像。本案的諸態樣使語句描述與特定訊框脫離,此改良了語言追蹤的穩健性。
一般神經網路架構在訓練期間使用最大概度原理針對訓練資料改良其參數。在訓練期間獲得的固定參數可被應用於新穎資料。一些系統用依賴於當前輸入的動態參數來代替靜態神經網路參數。本案的諸態樣使用文字輸入來產生濾波器。
亦即,本案的諸態樣藉由使用自然語言查詢在多個訊框上追蹤物件來改良物件追蹤。在一個配置中,物件追蹤系統整合語言和視覺以改良對目標的說明,並在目標追蹤期間使用目標的語言說明來輔助系統。
本案的諸態樣涉及將自然語言查詢與物件追蹤進行整合。例如,查詢「跟著穿紅色衣服的女士」提供了對圖像中的物件的自然語言描述。給定圖像和查詢,本案的諸態樣用邊界框來使物件局部化並在訊框序列中的後續訊框(例如,圖像)中追蹤物件。
圖1圖示了根據本案的某些態樣使用片上系統(SOC)100進行前述的自然語言物件追蹤的示例實施方式,SOC 100可包括通用處理器(CPU)或多核通用處理器(CPU)102。變數(例如,神經信號和突觸權重)、與計算設備相關聯的系統參數(例如,帶有權重的神經網路)、延遲、頻率槽資訊、以及任務資訊可被儲存在與神經處理單元(NPU)108相關聯的記憶體區塊、與CPU 102相關聯的記憶體區塊、與圖形處理單元(GPU)104相關聯的記憶體區塊、與數位訊號處理器(DSP)106相關聯的記憶體區塊、專用記憶體區塊118中,或可跨多個區塊分佈。在通用處理器102處執行的指令可從與CPU 102相關聯的程式記憶體載入或可從專用記憶體區塊118載入。
SOC 100亦可包括為特定功能定製的額外處理區塊(諸如GPU 104、DSP 106、連通性區塊110(其可包括第四代長期進化(4G LTE)連通性、無執照Wi-Fi連通性、USB連通性、藍芽連通性等))以及例如可偵測和辨識姿勢的多媒體處理器112。在一種實施方式中,NPU實施在CPU、DSP,及/或GPU中。SOC 100亦可包括感測器處理器114、圖像信號處理器(ISP)116,及/或導航120(其可包括全球定位系統)。
SOC可基於ARM指令集。在本案的一態樣,載入到通用處理器102中的指令可包括用於使用自然語言查詢來跨視訊訊框序列追蹤物件的代碼。載入到通用處理器102中的指令亦可包括用於接收自然語言查詢的代碼。載入到通用處理器102中的指令可進一步包括用於基於自然語言查詢來標識視訊訊框序列中的初始訊框中的初始目標的代碼。載入到通用處理器102中的指令可再進一步包括用於基於後續訊框的內容及/或初始目標的語義屬性(例如,視覺特徵)出現在後續訊框中的可能性來針對後續訊框調整自然語言查詢的代碼。載入到通用處理器102中的指令亦可包括用於基於經調整的自然語言查詢來標識後續訊框中的文字驅動目標的代碼。載入到通用處理器102中的指令可進一步包括用於基於初始訊框中的初始目標來標識後續訊框中的視覺驅動目標的代碼。載入到通用處理器102中的指令可再進一步包括用於將視覺驅動目標與文字驅動目標進行組合以獲得後續訊框中的最終目標的代碼。
圖2圖示了根據本案的某些態樣的系統200的示例實施方式。如圖2中所圖示的,系統200可具有可執行本文所描述的方法的各種操作的多個局部處理單元202。每個局部處理單元202可包括局部狀態記憶體204和可儲存神經網路的參數的局部參數記憶體206。另外,局部處理單元202可具有用於儲存局部模型程式的局部(神經元)模型程式(LMP)記憶體208、用於儲存局部學習程式的局部學習程式(LLP)記憶體210、以及局部連接記憶體212。此外,如圖2中所圖示的,每個局部處理單元202可與用於為該局部處理單元的各局部記憶體提供配置的配置處理器單元214介面連接,並且與提供各局部處理單元202之間的路由的路由連接處理單元216介面連接。
在一個配置中,處理模型被配置成接收自然語言查詢並基於該自然語言查詢來標識視訊訊框序列中的初始訊框中的初始目標。該模型亦被配置成基於後續訊框的內容及/或初始目標的語義屬性出現在後續訊框中的可能性來針對後續訊框調整自然語言查詢。該模型被進一步配置成基於初始訊框中的初始目標來標識後續訊框中的視覺驅動目標並將該視覺驅動目標與文字驅動目標進行組合以獲得後續訊框中的最終目標。該模型包括接收構件、標識構件、調整構件,及/或組合構件。在一個配置中,接收構件、標識構件、調整構件及/或組合構件可以是配置成執行所敘述功能的通用處理器102、與通用處理器102相關聯的程式記憶體、記憶體區塊118、局部處理單元202,及/或路由連接處理單元216。在另一種配置中,前述構件可以是被配置成執行由前述構件所敘述的功能的任何模組或任何裝置。
神經網路可被設計成具有各種連通性模式。在前饋網路中,資訊從較低層被傳遞到較高層,其中給定層之每一者神經元向更高層中的神經元進行傳達。如前述,可在前饋網路的相繼層中構建階層式表示。神經網路亦可具有回流或回饋(亦被稱為自頂向下(top-down))連接。在回流連接中,來自給定層中的神經元的輸出可被傳達給相同層中的另一神經元。回流架構可有助於辨識跨越大於一個按順序遞送給該神經網路的輸入資料組區塊的模式。從給定層中的神經元到較低層中的神經元的連接被稱為回饋(或自頂向下)連接。當高層級概念的辨識可輔助辨別輸入的特定低層級特徵時,具有許多回饋連接的網路可能是有助益的。
參照圖3A,神經網路的各層之間的連接可以是全連接的(302)或局部連接的(304)。在全連接網路302中,第一層中的神經元可將其的輸出傳達給第二層之每一者神經元,從而第二層之每一者神經元將從第一層之每一者神經元接收輸入。替代地,在局部連接網路304中,第一層中的神經元可連接至第二層中有限數目的神經元。迴旋網路306可以是局部連接的,並且被進一步配置成使得與針對第二層中每個神經元的輸入相關聯的連接強度被共享(例如,308)。更一般化地,網路的局部連接層可被配置成使得一層之每一者神經元將具有相同或相似的連通性模式,但其連接強度可具有不同的值(例如,310、312、314和316)。局部連接的連通性模式可能在更高層中產生空間上相異的感受野,此是由於給定區域中的更高層神經元可接收到經由訓練被調諧為到網路的總輸入的受限部分的性質的輸入。
局部連接的神經網路可能非常適合於其中輸入的空間位置有意義的問題。例如,被設計成辨識來自車載相機的視覺特徵的網路300可發展具有不同性質的高層神經元,此取決於其與圖像下部關聯還是與圖像上部關聯。例如,與圖像下部相關聯的神經元可學習以辨識車道標記,而與圖像上部相關聯的神經元可學習以辨識交通訊號燈、交通標誌等。
DCN可以用受監督式學習來訓練。在訓練期間,可向DCN呈遞圖像(諸如限速標誌的經裁剪圖像326),並且可隨後計算「前向傳遞(forward pass)」以產生輸出322。輸出322可以是對應於特徵(諸如「標誌」、「60」和「100」)的值向量。網路設計者可能希望DCN在輸出特徵向量中針對其中一些神經元輸出高得分,例如與經訓練的網路300的輸出322中所示的「標誌」和「60」對應的彼等神經元。在訓練之前,DCN產生的輸出很可能是不正確的,並且由此可計算實際輸出與目標輸出之間的誤差。DCN的權重可隨後被調整以使得DCN的輸出得分與目標更緊密地對準。
為了調整權重,學習演算法可為權重計算梯度向量。該梯度可指示在權重被略微調整情況下誤差將增加或減少的量。在頂層,該梯度可直接對應於連接倒數第二層中的活化神經元與輸出層中的神經元的權重的值。在較低層中,該梯度可取決於權重的值以及所計算出的較高層的誤差梯度。權重可隨後被調整以減小誤差。此種調整權重的方式可被稱為「反向傳播」,因為其涉及在神經網路中的「反向傳遞(backward pass)」。
在實踐中,權重的誤差梯度可能是在少量實例上計算的,從而計算出的梯度近似於真實誤差梯度。此種近似方法可被稱為隨機梯度下降法。隨機梯度下降法可被重複,直到整個系統可達成的誤差率已停止下降或直到誤差率已達到目標水平。
在學習之後,DCN可被呈遞新圖像326並且在網路中的前向傳遞可產生輸出322,其可被認為是該DCN的推斷或預測。
深度迴旋網路(DCN)是迴旋網路的網路,其配置有額外的池化和正規化層。DCN已在許多任務上達成現有最先進的效能。DCN可使用受監督式學習來訓練,其中輸入和輸出目標兩者對於許多典範是已知的並被用於藉由使用梯度下降法來修改網路的權重。
DCN可以是前饋網路。另外,如前述,從DCN的第一層中的神經元到下一更高層中的神經元群組的連接跨第一層中的神經元被共享。DCN的前饋和共享連接可被利用於進行快速處理。DCN的計算負擔可比例如類似大小的包括回流或回饋連接的神經網路小得多。
迴旋網路的每一層的處理可被認為是空間不變模版或基礎投影。若輸入首先被分解成多個通道,諸如彩色圖像的紅色、綠色和藍色通道,則在該輸入上訓練的迴旋網路可被認為是三維的,其具有沿著該圖像的軸的兩個空間維度以及擷取顏色資訊的第三維度。迴旋連接的輸出可被認為在後續層318和320中形成特徵圖,該特徵圖(例如,320)之每一者元素從先前層(例如,318)中一定範圍的神經元以及從該多個通道中的每一個通道接收輸入。特徵圖中的值可以用非線性(諸如矯正)max(0,x)進一步處理。來自毗鄰神經元的值可被進一步池化(此對應於降取樣)並可提供額外的局部不變性以及維度縮減。亦可經由特徵圖中神經元之間的側向抑制來應用正規化,其對應於白化。
圖3B是圖示示例性深度迴旋網路350的方塊圖。深度迴旋網路350可包括多個基於連通性和權重共享的不同類型的層。如圖3B所示,該示例性深度迴旋網路350包括多個迴旋區塊(例如,C1和C2)。每個迴旋區塊可配置有迴旋層、正規化層(LNorm)和池化層。迴旋層可包括一或多個迴旋濾波器,其可被應用於輸入資料以產生特徵圖。儘管僅圖示兩個迴旋區塊,但本案不限於此,而是,根據設計偏好,任何數目的迴旋區塊可被包括在深度迴旋網路350中。正規化層可被用於對迴旋濾波器的輸出進行正規化。例如,正規化層可提供白化或側向抑制。池化層可提供在空間上的降取樣聚集以實現局部不變性和維度縮減。
例如,深度迴旋網路的平行濾波器組可任選地基於ARM指令集被載入到SOC 100的CPU 102或GPU 104上以達成高效能和低功耗。在替代實施例中,平行濾波器組可被載入到SOC 100的DSP 106或ISP 116上。另外,DCN可存取其他可存在於SOC上的處理區塊,諸如專用於感測器114和導航120的處理區塊。
深度迴旋網路350亦可包括一或多個全連接層(例如,FC1和FC2)。深度迴旋網路350可進一步包括邏輯回歸(LR)層。深度迴旋網路350的每一層之間是要被更新的權重(未圖示)。每一層的輸出可以用作深度迴旋網路350中後續層的輸入以從第一迴旋區塊C1處提供的輸入資料(例如,圖像、音訊、視訊、感測器資料及/或其他輸入資料)學習階層式特徵表示。
圖4圖示了一般對象追蹤的實例。如圖4所示,在第一訊框400(例如,查詢訊框)處,邊界框402被放置在要追蹤的對象404周圍。邊界框402可經由使用者輸入來提供,或者可經由用於指定邊界框的其他方法來提供。將邊界框402用作指引,物件追蹤系統在後續訊框(例如,訊框1-3)中追蹤對象404。 自然語言物件追蹤
一般系統基於使用者輸入的邊界框來指定目標。亦即,使用者手動地輸入圍繞物件的邊界框,並在物件(例如,目標)貫穿視訊(例如,訊框序列)移動時對其進行追蹤。本案的諸態樣涉及基於自然語言查詢在視訊中進行物件追蹤。本案的諸態樣並不使用使用者輸入的邊界框來進行物件追蹤。確切而言,在一個配置中,給定來自視訊的訊框以及作為查詢的自然語言表達,該查詢所描述的視覺目標在該訊框中被標識出。
圖5圖示了根據本案的一態樣的自然語言物件取得的實例。在第一圖像500中,第一自然語言查詢可以是「定位圖像右上角的窗戶」。如圖5所示,回應於第一自然語言查詢,自然語言物件取得系統產生該窗戶位置的預測502。亦指示地面真實邊界框504。地面真實邊界框504可被用來經由反向傳播進行訓練。另外或替代地,地面真實邊界框504可被用於指示在該訊框中的何處搜尋基於該查詢的目標。
作為另一實例,在第二圖像520中,第二自然語言查詢可以是「定位圖像左下角的窗戶」。回應於第二自然語言查詢,自然語言物件取得系統產生該窗戶位置的預測506。亦指示地面真實邊界框508。地面真實邊界框508可被用來經由反向傳播進行訓練。在本案中,自然語言查詢可被稱為查詢。在對自然語言物件取得系統進行訓練之後,該自然語言物件取得系統可被用來進行物件追蹤。自然語言物件取得系統可以是物件追蹤系統的部件。
圖6圖示了根據本案的諸態樣的自然語言物件追蹤的實例。自然語言物件追蹤可被稱為自然語言追蹤。如圖6所示,使用者可在查詢訊框600處提供自然語言查詢。在此實例中,查詢是「追蹤車輛旁邊穿粉紅色上衣的女士」。基於該查詢,自然語言追蹤系統產生查詢訊框600的顯著性圖610(例如,回應圖)以推斷目標(例如,物件)604的位置。
目標604的位置是基於顯著性圖610的啟動值來推斷的。如圖6所示,目標604的推斷位置606是顯著性圖610的最高啟動值的位置。在推斷出目標604的位置606之後,自然語言物件追蹤系統在查詢訊框600中產生圍繞目標604的邊界框608。邊界框608可被用來在後續訊框(例如,訊框1-3)中追蹤目標604。
在一個配置中,查詢被擴展到查詢訊框以外的將來訊框(例如,該查詢訊框之後的訊框)。亦即,在追蹤目標604時,自然語言物件追蹤系統在稍後訊框中鑒於圖像雜訊及/或物件變化而使用該查詢來維持邊界框608圍繞目標604。在另一配置中,自然語言物件追蹤系統可以追蹤與查詢相匹配的多個物件。在又一配置中,若大於一個物件回應於查詢而被追蹤,則可提供額外查詢以將追蹤改良到一個物件。可回應於來自網路的提示而提供額外查詢。
在一個配置中,使用多通路人工神經網路來進行物件追蹤。該網路可包括查詢通路(例如,文字驅動分支),其用於處理使用者所提供的目標描述。查詢通路可使用注意力長短期記憶(LSTM)網路。該網路亦可包括目標通路(例如,視覺驅動分支),其在視覺上處理查詢目標。亦可以指定上下文通路以將當前訊框的視覺特徵與從查詢通路和目標通路產生的濾波器進行迴旋。上下文通路可使用迴旋神經網路(CNN),諸如深度迴旋神經網路。
圖7圖示了根據本案的諸態樣的多通路網路700的一部分的實例。圖7的架構可被用於標識初始訊框(例如,查詢訊框)處的視覺目標。如圖7所示,使用者在方塊702提供自然語言查詢。在此實例中,自然語言查詢是「追蹤車輛旁邊穿粉紅色上衣的女士」。自然語言查詢可以用言語表達給物件追蹤器,或者藉由設備(諸如鍵盤)手動輸入。
在一個配置中,在接收到自然語言查詢之後,該查詢的每個詞被嵌入到向量中,並且每個向量被輸入到回流神經網路,諸如長短期記憶(LSTM)網路(方塊704)。長短期記憶網路藉由對接收到的每個向量進行編碼來產生濾波器,諸如視覺濾波器(例如,文字驅動視覺濾波器)(方塊706)。
另外,如圖7所示,查詢訊框(方塊708)被輸入到神經網路(方塊710)(諸如深度迴旋神經網路(CNN))以產生該查詢訊框(例如,初始訊框)的特徵圖(方塊712)。亦即,迴旋神經網路提取輸入訊框(例如,圖7的查詢訊框)的視覺特徵圖。為了使得該模型能夠考慮空間關係(諸如「中間的車輛」),可以添加每個位置的空間坐標(x, y)作為特徵圖的額外通道。可藉由將相對坐標正規化成(−1, +1)來使用相對坐標。擴增特徵圖可包括局部視覺和空間描述符。
在方塊714,藉由將特徵圖(I )(方塊712)與視覺濾波器(方塊706)進行迴旋來產生顯著性圖(例如,回應圖)。在一個配置中,使用動態迴旋層來將特徵圖(I )(方塊712)與視覺濾波器(方塊706)進行迴旋。可基於不同輸入資訊來動態地決定迴旋濾波器。可藉由從長短期記憶網路產生的查詢表示(s=hT )來對目標資訊進行編碼。此外,可從查詢(例如,語言表達)產生視覺濾波器。可使用單層感知來將來自所產生的(諸)表示的語義資訊變換成相應的視覺資訊作為迴旋濾波器(例如,動態濾波器)(v): v=σ(Wv s+bv ) (1), 其中σ是sigmoid(S型)函數,且v具有與圖像特徵圖I 相同數目的通道。參數Wv 是權重矩陣且bv 是網路的偏置。動態濾波器可以是由來自該查詢的語義資訊所決定的特定濾波器。亦即,動態濾波器可以不同於一般迴旋神經網路中所使用的通用濾波器。例如,用語「追蹤紅色的狗」將產生專注於「紅色」和「狗」的視覺濾波器。亦即,在一個配置中,與一般系統形成對比,迴旋神經網路不是學習通用迴旋濾波器。對於查詢訊框,本案的諸態樣從查詢產生視覺濾波器。
在一個配置中,將擴增圖像特徵圖I 與所產生的動態濾波器(v)進行迴旋:A =v*I (2), 其中A 是回應圖,其包括特徵圖之每一者位置的分類評分。隨後基於語言表達輸入所描述地在查詢訊框中產生目標的邊界框位置。亦即,在方塊716,基於顯著性圖的啟動值來估計目標的可能位置。在一個配置中,具有最高啟動值的區域被估計為目標的位置。
如先前所論述的,為了利用目標的視覺特徵以及查詢的語言特徵兩者,從查詢訊框之後的訊框開始,可以使用三分支網路。如圖8所示,一個分支(例如,文字驅動分支)接收查詢作為輸入並產生目標的回應圖。另一分支(例如,視覺驅動分支)接收先前在查詢訊框中標識出的邊界框位置並使用來自查詢訊框的目標的視覺特徵來在輸入訊框(例如,當前訊框)中使目標局部化。第三分支(例如,上下文分支)將當前訊框的視覺特徵與從文字驅動分支和視覺驅動分支產生的濾波器進行迴旋。
圖8圖示了根據本案的諸態樣的多通路網路800的實例。如圖8所示,在方塊802,接收查詢。該查詢與曾接收的用於決定初始訊框中的目標位置的查詢(圖7)相同。該查詢的每個詞被嵌入到向量中,並且每個向量被輸入到長短期記憶(LSTM)網路(方塊804)。長短期記憶網路藉由對該等向量進行編碼來產生文字驅動濾波器(方塊806)。
該查詢可以是根據查詢訊框來指定的。然而,訊框中的(諸)物件可在查詢訊框之後改變。因此,該等文字驅動濾波器可以是動態濾波器。例如,若在查詢訊框中女士鄰近車輛,則查詢訊框中所使用的查詢「車輛旁邊穿粉紅色上衣的女士」可為真。然而,若該女士在行走,則她最終可能離開車輛。因此,注意力模型可以選擇性地專注於該查詢的更可能在整個視訊中保持一致的諸部分。
在一個配置中,基於注意力模型來調整文字驅動濾波器(方塊808)。注意力模型可將更大權重給予該查詢中更可能在視訊的後續訊框中保持一致(例如,存在)的詞(諸如「女士」和「粉紅色上衣」,而非「車輛旁邊」)。亦即,與物件的位置(車輛旁邊)相比,目標的服裝(粉紅色上衣)和性別(女性)在整個視訊中保持不變的概率更高。在此實例中,詞「女士」和「粉紅色上衣」被給予比「車輛旁邊」更高的權重。
注意力模型亦可基於後續訊框的內容來調整權重。亦即,若網路800偵測到目標及/或後續訊框的內容已改變,則該網路可相應地調整權重。例如,穿粉紅色上衣的女士可能穿上黑色夾克,該黑色夾克覆蓋該粉紅色上衣。在此實例中,給定當前訊框的內容,注意力模型可調整給予「粉紅色上衣」的權重。例如,可降低該權重或將其設置為零。
另外,如圖8所示,輸入訊框(例如,當前訊框)(方塊810)被輸入到人工神經網路(方塊812)(諸如深度迴旋神經網路)的迴旋層以產生該輸入訊框的特徵圖(方塊814)。該輸入訊框是在初始訊框之後的訊框。在方塊816,藉由將文字驅動濾波器(方塊806)與特徵圖(方塊814)進行迴旋來產生第一顯著性圖(例如,查詢回應圖)。該迴旋可基於式2來執行。
在方塊818,多通路網路800亦接收查詢訊框中所標識出的目標。來自查詢訊框的目標被輸入到人工神經網路(諸如深度迴旋神經網路(方塊820))以提取該查詢訊框中的目標的語義(諸如視覺特徵)。該等特徵被用於產生視覺驅動濾波器(方塊822)。與文字驅動分支(其將語言特徵變換成動態濾波器)相比,視覺驅動分支將查詢訊框中的目標的視覺特徵用作動態濾波器。將特徵圖與視覺驅動分支的動態濾波器進行迴旋。該迴旋可基於式2來執行。
本案的諸態樣藉由使用視覺驅動濾波器(方塊822)以及文字驅動濾波器(方塊806)來改良目標追蹤。對於查詢訊框之後的輸入訊框,從查詢訊框中標識出的目標被用於產生視覺驅動濾波器以緩解追蹤誤報。例如,在稍後的時間,另一穿粉紅色上衣的女士可能會出現。在此實例中,該穿粉紅色上衣的女士可能與原始目標有一些視覺相似性。在僅依賴於從自然語言查詢產生的濾波器的系統中,該系統可能追蹤該新女士以及原來的女士。亦即,該系統將追蹤所有穿粉紅色上衣的女士。根據本案的諸態樣,從目標訊框產生的視覺驅動濾波器緩解了可能因一或多個相似目標進入訊框而產生的問題。
將視覺驅動濾波器(方塊822)與特徵圖(方塊814)進行迴旋以產生第二顯著性圖(方塊824)(例如,目標回應圖)。第一顯著性圖(方塊816)和第二顯著性圖(方塊824)可被組合以產生當前訊框中的目標位置的邊界框預測(方塊826)。針對被指定用於追蹤目標的訊框序列之每一者訊框重複該過程。
如以上所論述的,查詢的每個詞被嵌入到向量中,該向量被輸入到長短期記憶網路。長短期記憶網路的輸出是作為(諸)語句表示的隱藏狀態(ht )。圖9圖示了一般長短期記憶網路900的實例。如圖9所示,查詢的每個詞對應的向量902被輸入到長短期記憶網路900。針對每個詞和每個時間步階(t)產生隱藏狀態(ht )。組合的隱藏狀態(ht )為(諸)語句表示。亦即,最終時間步階T處的隱藏狀態hT 被選擇作為整個表達(例如,查詢)的表示。
如關於圖8論述的,在一個配置中,使用注意力模型來調整給予查詢之每一者詞的權重。經調整的權重可以修改由長短期記憶網路產生的濾波器。圖10圖示了根據本案的諸態樣的注意力模型1000的實例。如注意力模型1000所示,查詢的每個詞對應的向量1002被輸入到長短期記憶網路1004,並且長短期記憶網路1004掃描所嵌入的序列以從詞序列產生隱藏狀態(ht )(t = 1, …, T)。
如圖10所示,每個詞被給予權重(at )。在每個時間步階(t)處,將權重(at )與隱藏狀態(ht )進行組合。組合的權重和隱藏狀態(at ht )之和被用於計算(諸)語句表示。亦即,作為使用最終時間步階處的隱藏狀態的替代,(諸)語句表示(例如,表達表示)被產生為隱藏狀態的加權和:(3)。
(諸)語句表示專注於具有較大權重的詞。亦即,權重() (t = 1, ..., T)指示詞重要性。可基於初始目標的語義屬性存在於將來訊框中的可能性及/或當前訊框的內容來調整權重。在一個配置中,權重是藉由以每個詞位置處的隱藏狀態以及目標的視覺特徵(z)(例如,在查詢訊框中所標識出的目標的視覺特徵)為條件的多層感知來計算的:(4)(5)。 其中φ是修正線性單元(ReLU)並且使用正規化指數函數(例如,softmax)對注意力權重進行正規化。參數是權重矩陣,並且是該多層感知的偏置。注意力權重可藉由將視覺目標與每個詞位置處的詞序列相匹配來產生。結果,與表達中的上下文資訊相比,與目標物件屬性相對應的詞更有可能被選擇。在獲得查詢的注意力加權表示之後,可以產生回應圖。
在一般系統中,在單個視訊中追蹤由邊界框定義的目標。根據本案的諸態樣,同時對多個視訊執行查詢。例如,可對在體育場的所有視訊饋送使用查詢以追蹤期望個體。圖11圖示了使用單個查詢1100來追蹤多個視訊的實例。在此實例中,查詢「追蹤紮馬尾辮跑步的女士」被同時應用於第一視訊1102、第二視訊1104、以及第三視訊1106。
在一般系統中,邊界框定義被應用於特定訊框中的特定物件,諸如訊框序列中的第一訊框。根據本案的諸態樣,查詢被應用於訊框序列(例如,視訊)中的任何訊框。此外,在該配置中,該查詢對於若干訊框可以無效,並且可以在相關物件再次出現時自主地發起追蹤。例如,該追蹤可被用來在即時串流傳送中追蹤物件,其中使用者可以不用持續地監視串流以定義目標。
圖12圖示了在相關物件出現時自主地發起查詢1200的實例。如圖12所示,使用者可輸入針對視訊的查詢「追蹤紮馬尾辮跑步的女士」。該視訊的第一訊框1202和第二訊框1204不包括對象(「紮馬尾辮跑步的女士」)。因此,查詢1200對於第一訊框1202和第二訊框1204無效。當物件出現在第三訊框1206中時,在該訊框1206處發起查詢1200。如圖12所示,儘管查詢1200是對視訊執行的,但在物件(例如,目標)出現在該視訊的訊框中之前查詢1200無效。在本實例中,使用者可在視訊開始之前,或在視訊開始後的任何時間執行查詢。此外,使用者可執行查詢並停止監視串流。當目標被標識出時,網路可向使用者通知與查詢的匹配。
在一般系統中,隨著時間推移,追蹤器可能會漂移。例如,當物件被追蹤時,目標從第一訊框到後續訊框的相似度可能有差異。目標相似度可能由於照明變化、目標取向變化,及/或圖像雜訊而有所不同。不同相似度可導致預測漂移。在一個配置中,查詢被應用於每個訊框以作為語義正則化來操作以用於緩解漂移。此外,由於初始目標的語義屬性比其視覺外觀更有可能貫穿視訊保持一致,因此當物件不存在於圖像中時,語言描述可指引標準追蹤器避免線上更新。
圖13圖示了使用查詢1300作為正則化項來操作以緩解漂移的實例。如圖13所示,一般邊界框1302可能在第一訊框1304與第四訊框1306之間漂移離開目標。如以上所論述的,該漂移可能因一訊框和後續訊框中目標之間的外觀變化所致。另外,如先前所論述的,在一個配置中,當預測目標在當前訊框中的位置時,使用視覺驅動濾波器和文字驅動濾波器來產生不同的顯著性圖。可基於顯著性圖的組合來預測目標的位置。如圖13所示,藉由將文字驅動濾波器(例如,查詢)和視覺驅動濾波器(未圖示)應用於每個訊框,邊界框1310在第一訊框1304和第四訊框1306之間不會漂移。
圖14圖示了用於使用自然語言查詢來跨視訊訊框序列追蹤物件的方法1400。如圖14所示,在方塊1402,人工神經網路(ANN)接收自然語言查詢。自然語言查詢可以是自然語言的形式,諸如「追蹤車輛旁邊穿粉紅色上衣的女士」。在方塊1404,人工神經網路基於該自然語言查詢來標識視訊訊框序列中的初始訊框中的初始目標。可藉由將每個詞嵌入到向量中並將每個向量輸入到回流神經網路(諸如長短期記憶(LSTM)網路)中來標識初始目標。長短期記憶網路可藉由用長短期記憶網路對該等向量進行編碼來產生文字驅動濾波器(例如,文字驅動視覺濾波器)。長短期記憶網路的輸出是指示語句表示的隱藏狀態。
初始訊框(例如,查詢訊框)可被輸入到神經網路,諸如深度迴旋神經網路(CNN)。深度迴旋神經網路產生初始訊框的特徵圖。可將該特徵圖與文字驅動濾波器進行迴旋以產生回應圖(例如,顯著性圖)。基於回應圖來預測目標的位置。亦即,回應圖中具有最高啟動值的區域可被預測為目標的位置。在一個配置中,隨後用邊界框來使目標局部化。
在方塊1406,人工神經網路基於後續訊框的內容及/或初始目標的語義屬性出現在後續訊框中的可能性來針對後續訊框調整該自然語言查詢。作為語義屬性的補充或替代,本案的諸態樣可考慮初始目標的視覺特徵。在一可任選配置中,在方塊1408,人工神經網路藉由對自然語言查詢的每個詞應用權重來調整自然語言查詢。可基於後續訊框的內容及/或初始目標的語義屬性出現在後續訊框中的可能性來產生權重。例如,對於查詢「白色車輛旁邊穿粉紅色上衣和黑色褲子的女士」,性別(女士)和服裝(粉紅色上衣)相比於該女士的位置(白色車輛旁邊)而言發生變化的概率更低。發生變化的概率較低的詞被給予較高權重。另外,目標從初始訊框到後續訊框可能會發生變化,並且應用於每個詞的權重被調整以計及外觀變化。例如,在初始訊框中,該女士穿著粉紅色上衣。在後續訊框中,該女士可能穿上黑色夾克,該黑色夾克覆蓋該粉紅色上衣。由於該女士不再穿著粉紅色上衣,因此給予短語粉紅色上衣的權重被調整。例如,可以降低該權重或將其設置為零,以使得詞「女士」和「黑色褲子」被認為最相關。亦可基於後續訊框的內容藉由權重來調整自然語言查詢。此外,可基於初始目標的語義屬性存在於後續訊框中的可能性藉由權重來調整自然語言查詢。
在方塊1410,人工神經網路基於經調整的自然語言查詢來標識後續訊框中的文字驅動目標。在一可任選配置中,在方塊1412,人工神經網路從經調整的自然語言查詢產生多個文字驅動濾波器,並將後續訊框的特徵圖與該多個文字驅動濾波器進行迴旋以產生文字查詢顯著性圖。在一個配置中,基於文字查詢顯著性圖來標識文字驅動目標。
在方塊1414,人工神經網路基於初始訊框中的初始目標來標識後續訊框中的視覺驅動目標。在一可任選配置中,在方塊1416,人工神經網路從初始目標產生多個視覺驅動濾波器,並將後續訊框的特徵圖與該多個視覺驅動濾波器進行迴旋以產生視覺顯著性圖。在一個配置中,基於視覺顯著性圖來標識視覺驅動目標。
最後,在方塊1418,人工神經網路將視覺驅動目標與文字驅動目標進行組合以獲得後續訊框中的最終目標。最終目標可以在後續訊框中用邊界框來局部化。
方法1400可由SOC 100(圖1)或系統200(圖2)來執行。亦即,舉例而言但不作為限定,方法1400的每個元素可由SOC 100或系統200,或者一或多個處理器(例如,CPU 102和局部處理單元202)及/或其中所包括的其他部件來執行。
以上所描述的方法的各種操作可由能夠執行相應功能的任何合適的構件來執行。該等構件可包括各種硬體及/或(諸)軟體部件及/或(諸)模組,包括但不限於電路、特殊應用積體電路(ASIC),或處理器。一般而言,在附圖中有圖示的操作的場合,彼等操作可具有帶相似編號的相應配對手段功能部件。
如本文所使用的,術語「決定」涵蓋各種各樣的動作。例如,「決定」可包括演算、計算、處理、推導、研究、檢視(例如,在表、資料庫或其他資料結構中檢視)、探知及諸如此類。另外,「決定」可包括接收(例如接收資訊)、存取(例如存取記憶體中的資料),及類似動作。此外,「決定」可包括解析、選擇、選取、確立及類似動作。
如本文中所使用的,引述一列項目「中的至少一者」的用語是指該等項目的任何組合,包括單個成員。作為實例,「a、b或c中的至少一個」意欲涵蓋:a、b、c、a-b、a-c、b-c、以及a-b-c。
結合本案所描述的各種說明性邏輯區塊、模組、以及電路可用設計成執行本文所描述功能的通用處理器、數位訊號處理器(DSP)、特殊應用積體電路(ASIC)、現場可程式設計閘陣列信號(FPGA)或其他可程式設計邏輯設備(PLD)、個別閘門或電晶體邏輯、個別的硬體部件或其任何組合來實施或執行。通用處理器可以是微處理器,但在替代方案中,處理器可以是任何市售的處理器、控制器、微控制器,或狀態機。處理器亦可以被實施為計算設備的組合,例如DSP與微處理器的組合、複數個微處理器、與DSP核心協同的一或多個微處理器,或任何其他此類配置。
結合本案描述的方法或演算法的步驟可直接在硬體中、在由處理器執行的軟體模組中,或在該兩者的組合中實施。軟體模組可常駐在本領域所知的任何形式的儲存媒體中。可使用的儲存媒體的一些實例包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、快閃記憶體、可抹除可程式設計唯讀記憶體(EPROM)、電子可抹除可程式設計唯讀記憶體(EEPROM)、暫存器、硬碟、可移除磁碟、CD-ROM,等等。軟體模組可包括單一指令,或許多指令,且可分佈在若干不同的程式碼片段上,分佈在不同的程式間以及跨多個儲存媒體分佈。儲存媒體可被耦合到處理器以使得該處理器能從/向該儲存媒體讀寫資訊。在替代方案中,儲存媒體可以被整合到處理器。
本文所揭示的方法包括用於達成所描述的方法的一或多個步驟或動作。該等方法步驟及/或動作可以彼此互換而不會脫離申請專利範圍的範疇。換言之,除非指定了步驟或動作的特定次序,否則特定步驟及/或動作的次序及/或使用可以改動而不會脫離申請專利範圍的範疇。
本文中所描述的功能可以在硬體、軟體、韌體,或其任何組合中實施。若以硬體實施,則示例硬體配置可包括設備中的處理系統。處理系統可以用匯流排架構來實施。取決於處理系統的特定應用和整體設計約束,匯流排可包括任何數目的互連匯流排和橋接器。匯流排可將包括處理器、機器可讀取媒體、以及匯流排介面的各種電路連結在一起。匯流排介面可用於尤其將網路介面卡等經由匯流排連接至處理系統。網路介面卡可用於實施信號處理功能。對於某些態樣,使用者介面(例如,按鍵板、顯示器、滑鼠、操縱桿,等等)亦可以被連接到匯流排。匯流排亦可以連結各種其他電路,諸如時序源、周邊設備、穩壓器、功率管理電路以及類似電路,其在本領域中是眾所周知的,因此將不再進一步描述。
處理器可負責管理匯流排和一般處理,包括執行儲存在機器可讀取媒體上的軟體。處理器可用一或多個通用及/或專用處理器來實施。實例包括微處理器、微控制器、DSP處理器、以及其他能執行軟體的電路系統。軟體應當被寬泛地解釋成意指指令、資料,或其任何組合,無論是被稱作軟體、韌體、中介軟體、微代碼、硬體描述語言,或其他。作為實例,機器可讀取媒體可包括隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式設計唯讀記憶體(PROM)、可抹除可程式設計唯讀記憶體(EPROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、暫存器、磁碟、光碟、硬驅動器,或者任何其他合適的儲存媒體,或其任何組合。機器可讀取媒體可被實施在電腦程式產品中。該電腦程式產品可以包括包裝材料。
在硬體實施中,機器可讀取媒體可以是處理系統中與處理器分開的一部分。然而,如本領域技藝人士將容易領會的,機器可讀取媒體或其任何部分可在處理系統外部。作為實例,機器可讀取媒體可包括傳輸線、由資料調制的載波,及/或與設備分開的電腦產品,所有該等皆可由處理器經由匯流排介面來存取。替代地或補充地,機器可讀取媒體或其任何部分可被整合到處理器中,諸如快取記憶體及/或通用暫存器檔案可能就是此種情形。儘管所論述的各種部件可被描述為具有特定位置,諸如局部部件,但其亦可按各種方式來配置,諸如某些部件被配置成分散式運算系統的一部分。
處理系統可以被配置為通用處理系統,該通用處理系統具有一或多個提供處理器功能性的微處理器、以及提供機器可讀取媒體中的至少一部分的外部記憶體,其皆經由外部匯流排架構與其他支援電路系統連結在一起。替代地,該處理系統可以包括一或多個神經元形態處理器以用於實施本文所述的神經元模型和神經系統模型。作為另一替代方案,處理系統可以用帶有整合在單塊晶片中的處理器、匯流排介面、使用者介面、支援電路系統和至少一部分機器可讀取媒體的特殊應用積體電路(ASIC)來實施,或者用一或多個現場可程式設計閘陣列(FPGA)、可程式設計邏輯設備(PLD)、控制器、狀態機、閘控邏輯、個別硬體部件,或者任何其他合適的電路系統,或者能執行本案通篇所描述的各種功能性的電路的任何組合來實施。取決於特定應用和加諸於整體系統上的總設計約束,本領域技藝人士將認識到如何最佳地實施關於處理系統所描述的功能性。
機器可讀取媒體可包括數個軟體模組。該等軟體模組包括當由處理器執行時使處理系統執行各種功能的指令。該等軟體模組可包括傳送模組和接收模組。每個軟體模組可以常駐在單個儲存設備中或者跨多個儲存設備分佈。作為實例,當觸發事件發生時,可以從硬驅動器中將軟體模組載入到RAM中。在軟體模組執行期間,處理器可以將一些指令載入到快取記憶體中以提高存取速度。隨後可將一或多個快取記憶體行載入到通用暫存器檔案中以供處理器執行。在以下述及軟體模組的功能性時,將理解此類功能性是在處理器執行來自該軟體模組的指令時由該處理器來實施的。此外,應領會,本案的各態樣產生對處理器、電腦、機器或實施此類態樣的其他系統的機能的改良。
若以軟體實施,則各功能可作為一或多數指令或代碼儲存在電腦可讀取媒體上或藉其進行傳送。電腦可讀取媒體包括電腦儲存媒體和通訊媒體兩者,該等媒體包括促成電腦程式從一地向另一地轉移的任何媒體。儲存媒體可以是能被電腦存取的任何可用媒體。舉例而言而非限定,此類電腦可讀取媒體可包括RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存設備,或能用於攜帶或儲存指令或資料結構形式的期望程式碼且能被電腦存取的任何其他媒體。另外,任何連接亦被正當地稱為電腦可讀取媒體。例如,若軟體是使用同軸電纜、光纖電纜、雙絞線、數位用戶線(DSL),或無線技術(諸如紅外(IR)、無線電、以及微波)從web網站、伺服器,或其他遠端源傳送而來,則該同軸電纜、光纖電纜、雙絞線、DSL或無線技術(諸如紅外、無線電、以及微波)就被包括在媒體的定義之中。如本文中所使用的磁碟(disk)和光碟(disc)包括壓縮光碟(CD)、鐳射光碟、光碟、數位多功能光碟(DVD)、軟碟和藍光®光碟,其中磁碟(disk)常常磁性地再現資料,而光碟(disc)用鐳射來光學地再現資料。因此,在一些態樣,電腦可讀取媒體可包括非瞬態電腦可讀取媒體(例如,有形媒體)。另外,對於其他態樣,電腦可讀取媒體可包括瞬態電腦可讀取媒體(例如,信號)。上述的組合應當亦被包括在電腦可讀取媒體的範圍內。
因此,某些態樣可包括用於執行本文中提供的操作的電腦程式產品。例如,此類電腦程式產品可包括其上儲存(及/或編碼)有指令的電腦可讀取媒體,該等指令能由一或多個處理器執行以執行本文中所描述的操作。對於某些態樣,電腦程式產品可包括包裝材料。
此外,應當領會,用於執行本文中所描述的方法和技術的模組及/或其他合適構件能由使用者終端及/或基地台在適用的場合下載及/或以其他方式獲得。例如,此類設備能被耦合至伺服器以促成用於執行本文中所描述的方法的構件的轉移。替代地,本文所述的各種方法能經由儲存構件(例如,RAM、ROM、諸如壓縮光碟(CD)或軟碟等實體儲存媒體等)來提供,以使得一旦將該儲存構件耦合至或提供給使用者終端及/或基地台,該設備就能獲得各種方法。此外,可利用適於向設備提供本文所描述的方法和技術的任何其他合適的技術。
將理解,申請專利範圍並不被限定於以上所說明的精確配置和部件。可在以上所描述的方法和裝置的佈局、操作和細節上作出各種改動、更換和變形而不會脫離申請專利範圍的範疇。
100‧‧‧片上系統(SOC)
102‧‧‧通用處理器(CPU)/多核通用處理器(CPU)
104‧‧‧圖形處理單元(GPU)
106‧‧‧數位訊號處理器(DSP)
108‧‧‧神經處理單元(NPU)
110‧‧‧連通性區塊
112‧‧‧多媒體處理器
114‧‧‧感測器處理器
116‧‧‧圖像信號處理器(ISP)
118‧‧‧專用記憶體區塊
120‧‧‧導航
200‧‧‧系統
202‧‧‧局部處理單元
204‧‧‧局部狀態記憶體
206‧‧‧局部參數記憶體
208‧‧‧局部(神經元)模型程式(LMP)記憶體
210‧‧‧局部學習程式(LLP)記憶體
212‧‧‧局部連接記憶體
214‧‧‧配置處理器單元
216‧‧‧路由連接處理單元
300‧‧‧網路
302‧‧‧全連接的
304‧‧‧局部連接的
306‧‧‧迴旋網路
310‧‧‧值
312‧‧‧值
314‧‧‧值
316‧‧‧值
318‧‧‧後續層
320‧‧‧後續層
322‧‧‧輸出
326‧‧‧經裁剪圖像
350‧‧‧深度迴旋網路
400‧‧‧第一訊框
402‧‧‧邊界框
404‧‧‧對象
500‧‧‧第一圖像
502‧‧‧窗戶位置的預測
504‧‧‧地面真實邊界框
506‧‧‧窗戶位置的預測
508‧‧‧地面真實邊界框
520‧‧‧第二圖像
600‧‧‧查詢訊框
604‧‧‧目標
606‧‧‧推斷位置
608‧‧‧邊界框
610‧‧‧顯著性圖
700‧‧‧多通路網路
702‧‧‧方塊
704‧‧‧方塊
706‧‧‧方塊
708‧‧‧方塊
710‧‧‧方塊
712‧‧‧方塊
714‧‧‧方塊
716‧‧‧方塊
800‧‧‧多通路網路
802‧‧‧方塊
804‧‧‧方塊
806‧‧‧方塊
808‧‧‧方塊
810‧‧‧方塊
812‧‧‧方塊
814‧‧‧方塊
816‧‧‧方塊
818‧‧‧方塊
820‧‧‧方塊
822‧‧‧方塊
824‧‧‧方塊
826‧‧‧方塊
900‧‧‧一般長短期記憶網路
902‧‧‧向量
1000‧‧‧注意力模型
1002‧‧‧向量
1004‧‧‧長短期記憶網路
1100‧‧‧單個查詢
1102‧‧‧第一視訊
1104‧‧‧第二視訊
1106‧‧‧第三視訊
1200‧‧‧查詢
1202‧‧‧第一訊框
1204‧‧‧第二訊框
1206‧‧‧第三訊框
1300‧‧‧查詢
1302‧‧‧一般邊界框
1304‧‧‧第一訊框
1306‧‧‧第四訊框
1310‧‧‧邊界框
1400‧‧‧方法
1402‧‧‧方塊
1404‧‧‧方塊
1406‧‧‧方塊
1408‧‧‧方塊
1410‧‧‧方塊
1412‧‧‧方塊
1414‧‧‧方塊
1416‧‧‧方塊
1418‧‧‧方塊
C1‧‧‧迴旋區塊
C2‧‧‧迴旋區塊
在結合附圖理解下文闡述的詳細描述時,本案的特徵、本質和優點將變得更加明顯,在附圖中,相同元件符號始終作相應標識。
圖1圖示了根據本案的某些態樣的使用片上系統(SOC)(包括通用處理器)來設計神經網路的示例實施方式。
圖2圖示了根據本案的各態樣的系統的示例實施方式。
圖3A是圖示根據本案的各態樣的神經網路的圖式。
圖3B是圖示根據本案的各態樣的示例性深度迴旋網路(DCN)的方塊圖。
圖4圖示了根據本案的諸態樣的物件追蹤的實例。
圖5圖示了根據本案的諸態樣的自然語言物件取得的實例。
圖6圖示了根據本案的諸態樣的自然語言物件追蹤的實例。
圖7和圖8圖示了根據本案的諸態樣的多通路網路的實例。
圖9圖示了根據本案的諸態樣的長短期記憶(LSTM)網路的實例。
圖10圖示了根據本案的諸態樣的注意力模型的實例。
圖11、圖12和圖13圖示了根據本案的諸態樣的自然語言物件追蹤的實例。
圖14圖示了根據本案的諸態樣的用於使用自然語言查詢來跨視訊訊框序列追蹤物件的流程圖。
國內寄存資訊 (請依寄存機構、日期、號碼順序註記) 無
國外寄存資訊 (請依寄存國家、機構、日期、號碼順序註記) 無

Claims (20)

  1. 一種使用一自然語言查詢來跨一視訊訊框序列追蹤一物件的方法,包括以下步驟: 接收該自然語言查詢; 基於該自然語言查詢來標識該視訊訊框序列中的一初始訊框中的一初始目標; 基於以下至少一者來針對一後續訊框調整該自然語言查詢:該後續訊框的一內容、該初始目標的一語義屬性出現在該後續訊框中的一可能性,或其組合; 基於該經調整的自然語言查詢來標識該後續訊框中的一文字驅動目標; 基於該初始訊框中的該初始目標來標識該後續訊框中的一視覺驅動目標;及 將該視覺驅動目標與該文字驅動目標進行組合以獲得該後續訊框中的一最終目標。
  2. 如請求項1所述之方法,進一步包括以下步驟:藉由對該自然語言查詢的每個詞應用一權重來調整該自然語言查詢,該權重是基於以下至少一者來產生的:該後續訊框的該內容、該初始目標的該語義屬性出現在該後續訊框中的該可能性,或其組合。
  3. 如請求項1所述之方法,進一步包括以下步驟: 從該經調整的自然語言查詢產生複數個文字驅動濾波器;及 將該後續訊框的一特徵圖與該複數個文字驅動濾波器進行迴旋以產生一文字查詢顯著性圖,該文字驅動目標是基於該文字查詢顯著性圖來標識的。
  4. 如請求項1所述之方法,進一步包括以下步驟: 從該初始目標產生複數個視覺驅動濾波器;及 將該後續訊框的一特徵圖與該複數個視覺驅動濾波器進行迴旋以產生一視覺顯著性圖,該視覺驅動目標是基於該視覺顯著性圖來標識的。
  5. 如請求項1所述之方法,進一步包括以下步驟:用一邊界框來框定該初始訊框中的該初始目標和該後續訊框中的該最終目標。
  6. 一種用於使用一自然語言查詢來跨一視訊訊框序列追蹤一物件的裝置,該裝置包括: 一記憶體;及 耦合至該記憶體的至少一個處理器,該至少一個處理器被配置成: 接收該自然語言查詢; 基於該自然語言查詢來標識該視訊訊框序列中的一初始訊框中的一初始目標; 基於以下至少一者來針對一後續訊框調整該自然語言查詢:該後續訊框的一內容、該初始目標的一語義屬性出現在該後續訊框中的一可能性,或其組合; 基於該經調整的自然語言查詢來標識該後續訊框中的一文字驅動目標; 基於該初始訊框中的該初始目標來標識該後續訊框中的一視覺驅動目標;及 將該視覺驅動目標與該文字驅動目標進行組合以獲得該後續訊框中的一最終目標。
  7. 如請求項6所述之裝置,其中該至少一個處理器被進一步配置成藉由對該自然語言查詢的每個詞應用一權重來調整該自然語言查詢,該權重是基於以下至少一者來產生的:該後續訊框的該內容、該初始目標的該語義屬性出現在該後續訊框中的該可能性,或其組合。
  8. 如請求項6所述之裝置,其中該至少一個處理器被進一步配置成: 從該經調整的自然語言查詢產生複數個文字驅動濾波器;及 將該後續訊框的一特徵圖與該複數個文字驅動濾波器進行迴旋以產生一文字查詢顯著性圖,該文字驅動目標是基於該文字查詢顯著性圖來標識的。
  9. 如請求項6所述之裝置,其中該至少一個處理器被進一步配置成: 從該初始目標產生複數個視覺驅動濾波器;及 將該後續訊框的一特徵圖與該複數個視覺驅動濾波器進行迴旋以產生一視覺顯著性圖,該視覺驅動目標是基於該視覺顯著性圖來標識的。
  10. 如請求項6所述之裝置,其中該至少一個處理器被進一步配置成用一邊界框來框定該初始訊框中的該初始目標和該後續訊框中的該最終目標。
  11. 一種用於使用一自然語言查詢來跨一視訊訊框序列追蹤一物件的裝置,包括: 用於接收該自然語言查詢的構件; 用於基於該自然語言查詢來標識該視訊訊框序列中的一初始訊框中的一初始目標的構件; 用於基於以下至少一者來針對一後續訊框調整該自然語言查詢的構件:該後續訊框的一內容、該初始目標的一語義屬性出現在該後續訊框中的一可能性,或其組合; 用於基於該經調整的自然語言查詢來標識該後續訊框中的一文字驅動目標的構件; 用於基於該初始訊框中的該初始目標來標識該後續訊框中的一視覺驅動目標的構件;及 用於將該視覺驅動目標與該文字驅動目標進行組合以獲得該後續訊框中的一最終目標的構件。
  12. 如請求項11所述之裝置,進一步包括用於藉由對該自然語言查詢的每個詞應用一權重來調整該自然語言查詢的構件,該權重是基於以下至少一者來產生的:該後續訊框的該內容、該初始目標的該語義屬性出現在該後續訊框中的該可能性,或其組合。
  13. 如請求項11所述之裝置,進一步包括: 用於從該經調整的自然語言查詢產生複數個文字驅動濾波器的構件;及 用於將該後續訊框的一特徵圖與該複數個文字驅動濾波器進行迴旋以產生一文字查詢顯著性圖的構件,該文字驅動目標是基於該文字查詢顯著性圖來標識的。
  14. 如請求項11所述之裝置,進一步包括: 用於從該初始目標產生複數個視覺驅動濾波器的構件;及 用於將該後續訊框的一特徵圖與該複數個視覺驅動濾波器進行迴旋以產生一視覺顯著性圖的構件,該視覺驅動目標是基於該視覺顯著性圖來標識的。
  15. 如請求項11所述之裝置,進一步包括用於用一邊界框來框定該初始訊框中的該初始目標和該後續訊框中的該最終目標的構件。
  16. 一種其上記錄有用於使用一自然語言查詢來跨一視訊訊框序列追蹤一物件的程式碼的非瞬態電腦可讀取媒體,該程式碼由至少一個處理器執行並且包括: 用於接收該自然語言查詢的程式碼; 用於基於該自然語言查詢來標識該視訊訊框序列中的一初始訊框中的一初始目標的程式碼; 用於基於以下至少一者來針對一後續訊框調整該自然語言查詢的程式碼:該後續訊框的一內容、該初始目標的一語義屬性出現在該後續訊框中的一可能性,或其組合; 用於基於該經調整的自然語言查詢來標識該後續訊框中的一文字驅動目標的程式碼; 用於基於該初始訊框中的該初始目標來標識該後續訊框中的一視覺驅動目標的程式碼;及 用於將該視覺驅動目標與該文字驅動目標進行組合以獲得該後續訊框中的一最終目標的程式碼。
  17. 如請求項16所述之非瞬態電腦可讀取媒體,其中該程式碼進一步包括用於藉由對該自然語言查詢的每個詞應用一權重來調整該自然語言查詢的程式碼,該權重是基於以下至少一者來產生的:該後續訊框的該內容、該初始目標的該語義屬性出現在該後續訊框中的該可能性,或其組合。
  18. 如請求項16所述之非瞬態電腦可讀取媒體,其中該程式碼進一步包括: 用於從該經調整的自然語言查詢產生複數個文字驅動濾波器的程式碼;及 用於將該後續訊框的一特徵圖與該複數個文字驅動濾波器進行迴旋以產生一文字查詢顯著性圖的程式碼,該文字驅動目標是基於該文字查詢顯著性圖來標識的。
  19. 如請求項16所述之非瞬態電腦可讀取媒體,其中該程式碼進一步包括: 用於從該初始目標產生複數個視覺驅動濾波器的程式碼;及 用於將該後續訊框的一特徵圖與該複數個視覺驅動濾波器進行迴旋以產生一視覺顯著性圖的程式碼,該視覺驅動目標是基於該視覺顯著性圖來標識的。
  20. 如請求項16所述之非瞬態電腦可讀取媒體,其中該程式碼進一步包括用於用一邊界框來框定該初始訊框中的該初始目標和該後續訊框中的該最終目標的程式碼。
TW106134873A 2016-11-10 2017-10-12 自然語言物件追蹤 TW201818277A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662420510P 2016-11-10 2016-11-10
US62/420,510 2016-11-10
US15/587,196 US20180129742A1 (en) 2016-11-10 2017-05-04 Natural language object tracking
US15/587,196 2017-05-04

Publications (1)

Publication Number Publication Date
TW201818277A true TW201818277A (zh) 2018-05-16

Family

ID=62066000

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106134873A TW201818277A (zh) 2016-11-10 2017-10-12 自然語言物件追蹤

Country Status (3)

Country Link
US (1) US20180129742A1 (zh)
TW (1) TW201818277A (zh)
WO (1) WO2018089158A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509009A (zh) * 2020-12-16 2021-03-16 深圳龙岗智能视听研究院 一种基于自然语言信息辅助的目标追踪方法
TWI879521B (zh) * 2023-12-11 2025-04-01 宏達國際電子股份有限公司 物件追蹤方法、物件追蹤系統及非暫態電腦可讀取儲存媒體

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3602409T3 (da) * 2017-06-05 2024-01-29 Deepmind Tech Ltd Udvælgelse af handlinger ved hjælp af multimodale inputs
EP3619620A4 (en) * 2017-06-26 2020-11-18 Microsoft Technology Licensing, LLC GENERATION OF RESPONSES IN AN AUTOMATED ONLINE CONVERSATION
CN109426782B (zh) * 2017-08-29 2023-09-19 北京三星通信技术研究有限公司 对象检测方法和用于对象检测的神经网络系统
US10896342B2 (en) * 2017-11-14 2021-01-19 Qualcomm Incorporated Spatio-temporal action and actor localization
US10489918B1 (en) * 2018-05-09 2019-11-26 Figure Eight Technologies, Inc. Video object tracking
US11005678B2 (en) 2018-05-18 2021-05-11 Alarm.Com Incorporated Machine learning for home understanding and notification
US10992492B2 (en) 2018-05-18 2021-04-27 Objectvideo Labs, Llc Machine learning for home understanding and notification
CA3100879A1 (en) * 2018-05-18 2019-11-21 Alarm.Com Incorporated Machine learning for home understanding and notification
US11755924B2 (en) 2018-05-18 2023-09-12 Objectvideo Labs, Llc Machine learning for home understanding and notification
US11748414B2 (en) * 2018-06-19 2023-09-05 Priyadarshini Mohanty Methods and systems of operating computerized neural networks for modelling CSR-customer relationships
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
CN109559332B (zh) * 2018-10-31 2021-06-18 浙江工业大学 一种结合双向LSTM和Itracker的视线跟踪方法
WO2020152627A1 (en) * 2019-01-23 2020-07-30 Aptiv Technologies Limited Automatically choosing data samples for annotation
US12131365B2 (en) * 2019-03-25 2024-10-29 The Board Of Trustees Of The University Of Illinois Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings
CN110162783B (zh) * 2019-04-17 2024-10-18 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置
US11663463B2 (en) * 2019-07-10 2023-05-30 Adobe Inc. Center-biased machine learning techniques to determine saliency in digital images
US11100145B2 (en) 2019-09-11 2021-08-24 International Business Machines Corporation Dialog-based image retrieval with contextual information
CN112712796A (zh) * 2019-10-25 2021-04-27 北大方正集团有限公司 语音识别方法及装置
DE102020208080A1 (de) * 2020-06-30 2021-12-30 Robert Bosch Gesellschaft mit beschränkter Haftung Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
CN112101169B (zh) * 2020-09-08 2024-04-05 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
US12211276B2 (en) * 2020-11-16 2025-01-28 Qualcomm Technologies, Inc. Lingually constrained tracking of visual objects
US11775617B1 (en) * 2021-03-15 2023-10-03 Amazon Technologies, Inc. Class-agnostic object detection
CN113157974B (zh) * 2021-03-24 2023-05-26 西安维塑智能科技有限公司 一种基于文字表述的行人检索方法
CN114372173A (zh) * 2022-01-11 2022-04-19 中国人民公安大学 一种基于Transformer架构的自然语言目标跟踪方法
US20230368288A1 (en) * 2022-05-16 2023-11-16 Wells Fargo Bank, N.A. Individualized contextual experiences
CN115424185B (zh) * 2022-10-21 2025-07-25 山东中维世纪科技股份有限公司 一种基于多维度序列特征的目标识别方法
US12174842B2 (en) * 2022-10-31 2024-12-24 Genetec Inc. System and method for record identification
CN118229734A (zh) * 2024-04-03 2024-06-21 鹏城实验室 目标跟踪方法、装置、设备及存储介质
CN118675091B (zh) * 2024-07-23 2024-11-05 腾讯科技(深圳)有限公司 一种对象检测方法以及相关设备
CN119935096B (zh) * 2025-01-03 2025-10-03 哈尔滨工业大学 基于自适应动态模板的mav机载目标跟踪方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509009A (zh) * 2020-12-16 2021-03-16 深圳龙岗智能视听研究院 一种基于自然语言信息辅助的目标追踪方法
CN112509009B (zh) * 2020-12-16 2024-04-12 深圳龙岗智能视听研究院 一种基于自然语言信息辅助的目标追踪方法
TWI879521B (zh) * 2023-12-11 2025-04-01 宏達國際電子股份有限公司 物件追蹤方法、物件追蹤系統及非暫態電腦可讀取儲存媒體
US12484976B2 (en) 2023-12-11 2025-12-02 Htc Corporation Object tracking method, object tracking system and non-transitory computer readable storage medium

Also Published As

Publication number Publication date
WO2018089158A1 (en) 2018-05-17
US20180129742A1 (en) 2018-05-10

Similar Documents

Publication Publication Date Title
TW201818277A (zh) 自然語言物件追蹤
CN107851191B (zh) 用于图像中的对象检测的基于上下文的先验
Fenil et al. Real time violence detection framework for football stadium comprising of big data analysis and deep learning through bidirectional LSTM
US11308350B2 (en) Deep cross-correlation learning for object tracking
Xiao et al. Robust facial landmark detection via recurrent attentive-refinement networks
Núñez-Marcos et al. Vision‐based fall detection with convolutional neural networks
US10019631B2 (en) Adapting to appearance variations when tracking a target object in video sequence
TWI795447B (zh) 基於關注提議進行視訊動作定位
Xu et al. An improved lightweight yolov5 model based on attention mechanism for face mask detection
Mocanu et al. Deep-see face: A mobile face recognition system dedicated to visually impaired people
US20170262996A1 (en) Action localization in sequential data with attention proposals from a recurrent network
Hu et al. Decision-level fusion detection method of visible and infrared images under low light conditions
Lee et al. Recognizing pedestrian’s unsafe behaviors in far-infrared imagery at night
CN108780522A (zh) 用于视频理解的使用基于运动的注意力的递归网络
CN107533665A (zh) 经由偏置项在深度神经网络中纳入自顶向下信息
Sosa-García et al. “Hands on” visual recognition for visually impaired users
Wu et al. Self-learning and explainable deep learning network toward the security of artificial intelligence of things
WO2022179599A1 (zh) 一种感知网络及数据处理方法
Chen et al. AFOD: Adaptive focused discriminative segmentation tracker
Yu et al. Hand gesture recognition based on attentive feature fusion
Mohi Ud Din et al. Optimizing deep reinforcement learning in data-scarce domains: A cross-domain evaluation of double DQN and dueling DQN
Tennekoon et al. Advancing Object Detection: A Narrative Review of Evolving Techniques and Their Navigation Applications
Yang et al. Learning human-object interaction via interactive semantic reasoning
Yang et al. Deep triply attention network for RGBT tracking
Jia et al. Bi-Connect Net for salient object detection