TWI852323B

TWI852323B - 物件辨識方法及物件辨識裝置

Info

Publication number: TWI852323B
Application number: TW112104535A
Authority: TW
Inventors: 李威諭
Original assignee: 四零四科技股份有限公司
Priority date: 2022-12-23
Filing date: 2023-02-09
Publication date: 2024-08-11
Also published as: EP4390865A1; TW202427373A

Abstract

本發明提供一種物件辨識方法及物件辨識裝置。所述方法包括：獲得多個參考影像，其中參考影像由攝影機擷取，各參考影像包括目標物件，且攝影機及目標物件中的一者具有高於第一閾值的移動速度；將參考影像融合成第一融合影像；以及經由對第一融合影像執行第一物件偵測來辨識對應於各參考影像的目標物件。

Description

物件辨識方法及物件辨識裝置

本發明是關於一種影像處理技術，且特別是關於一種物件辨識方法及物件辨識裝置。

在先前技術中，攝影機可設置於快速移動載具(例如，火車)上以用於擷取周圍環境的影像。舉例而言，一些攝影機可設置於移動中火車的底部以用於擷取火車在其上移動的軌道的影像。藉由此等影像，可藉由使用例如深度學習模型來分析/辨識軌道的狀態。

然而，由於火車的移動速度通常較高(例如，高於80公里/小時)，因此影像擷取速率亦需要較高(例如，60fps(幀/秒))。在需要即時地分析/辨識所擷取影像的情況下，各影像的處理時間例如需小於16.67毫秒，而此難以用有限計算資源達到。

因此，本發明涉及可用於解決上述技術問題的一種物件辨識方法及物件辨識裝置。

本發明的實施例提供一種物件辨識方法，適用於物件辨識裝置，包括：獲得多個參考影像，其中參考影像由攝影機擷取，各參考影像包括目標物件；將參考影像融合成第一融合影像，且攝影機及目標物件中的一者具有高於第一速度閾值的移動速度；以及經由對第一融合影像執行第一物件偵測來辨識對應於各參考影像的目標物件。

本發明的實施例提供一種包括儲存電路及處理器的物件辨識方法。儲存電路儲存程式碼。處理器耦接至儲存電路且存取程式碼以執行：獲得多個參考影像，其中參考影像由攝影機擷取，各參考影像包括目標物件，且攝影機及目標物件中的一者具有高於第一速度閾值的移動速度；將參考影像融合成第一融合影像；以及經由對第一融合影像執行第一物件偵測來辨識對應於各參考影像的目標物件。

31:軌道

32:枕木

33:扣件

100:物件辨識裝置

102:儲存電路

104:處理器

311,312,31N,510,520,610,620,630,P1,P2:參考影像

320,640,P3,TS:第一融合影像

530:NIN

611,621,631:特定影像區域

CV1,CV2:神經網路層

D1:第一方向

RD:參考方向

S210,S220,S230,S710,S720:步驟

V1,V2:特徵向量

V3:參考向量

圖1繪示根據本發明的實施例的物件辨識裝置的示意圖。

圖2繪示根據本發明的實施例的物件辨識方法的流程圖。

圖3繪示根據本發明的實施例的參考影像的示意圖。

圖4繪示根據本發明的第一實施例的融合參考影像的示意圖。

圖5繪示根據本發明的第二實施例的融合參考影像的示意圖。

圖6繪示根據本發明的第三實施例的融合參考影像的示意圖。

圖7繪示根據圖2的物件辨識方法的另一流程圖。

現將詳細參考本發明的較佳實施例，其實例示出於隨附圖式中。只要可能，在圖式及描述中使用相同附圖標號來指代相同或類似部分。

參見圖1，其繪示根據本發明的實施例的物件辨識裝置的示意圖。在圖1中，物件辨識裝置100可實施於任何智慧型裝置及/或電腦裝置中。在一個實施例中，物件辨識裝置100可經整合至移動載具(例如，火車)的電腦系統中，但本發明不限於此。

在圖1中，物件辨識裝置100包括儲存電路102及處理器104。儲存電路102為靜止或行動隨機存取記憶體(random access memory；RAM)、唯讀記憶體(read-only memory；ROM)、快閃記憶體、硬碟或任一其他類似裝置中的一者或組合，且其記錄可由處理器104執行的多個模組及/或程式碼。

處理器104可與儲存電路102耦接，且處理器104可為例如通用處理器、專用處理器、習知處理器、數位信號處理器(digital signal processor；DSP)、多個微處理器、與DSP核心相關聯的一或多個微處理器、控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuits；ASIC)、場可程式化閘陣列(Field Programmable Gate Array；FPGA)電路、任何其他類型的積體電路(integrated circuit；IC)、狀態機及其類似者。

在本發明的實施例中，處理器104可存取儲存於儲存電路102中的模組及/或程式碼以實施本發明中提供的物件辨識方法，此將在下文中進一步論述。

參見圖2，其繪示根據本發明的實施例的物件辨識方法的流程圖。此實施例的方法可由圖1中的物件辨識裝置100執行，且圖2中的各步驟的細節將在下文中輔以圖1所繪示的組件描述。

在步驟S210中，處理器104獲得多個參考影像，其中參考影像由攝影機擷取，各參考影像包括一或多個目標物件，且攝影機及目標物件中的一者具有高於第一速度閾值的移動速度。

參見圖3，其繪示根據本發明的實施例的參考影像的示意圖。在圖3中，所考慮的攝影機可設置於移動中火車的底部，所述移動中火車的移動速度高於第一速度閾值(例如，80公里/小時)，此使得攝影機亦以高於第一速度閾值的移動速度移動。

在實施例中，攝影機可用於擷取火車於其上移動的軌道的影像作為參考影像311至參考影像31N，其中參考影像311至參考影像31N中的各者可包括至少一個目標物件(諸如，於軌道31、枕本32及/或扣件33處)。為了較佳地理解本發明的概念，參考影像311至參考影像31N中的各者中的目標物件將假定為其中的扣件33，但本發明不限於此。

在一個實施例中，由於參考影像311至參考影像31N由攝影機擷取，因此可理解參考影像311至參考影像31N對應於不同道路區段，且參考影像311至參考影像31N中的各者中的軌道31、枕木32及/或扣件33位於對應的道路區段處。

在一個實施例中，攝影機是透過可配置的影像擷取速率來擷取參考影像311至參考影像31N。在圖3的情境中，影像擷取速率可為60fps，但本發明不限於此。

在一個實施例中，攝影機可連接至物件辨識裝置100或整合至物件辨識裝置100中，以用於將所擷取的影像提供至處理器104。在一個實施例中，由攝影機擷取的影像可儲存於資料庫中，且物件辨識裝置100可存取資料庫以擷取所擷取影像以供分析，但本發明不限於此。

在步驟S220中，處理器104將參考影像311至參考影像31N融合成第一融合影像320。

在本發明的實施例中，所繪示參考影像311至參考影像31N可僅為由攝影機(連續地)擷取的影像的一部分，且處理器104可在每N個影像由攝影機(連續地)擷取時執行步驟S210及S220，其中N可為設計者偏好的任何整數(例如，2或3)，但本發明不限於此。

在各種實施例中，處理器104可以不同方式將參考影像311至參考影像31N融合成第一融合影像320，此將稍後說明。

藉由第一融合影像320，處理器104執行步驟S230以經由對第一融合影像320執行第一物件偵測來辨識各參考影像中的目標物件。

在本發明的實施例中，處理器104可將第一融合影像320饋入至任何物件辨識模型中以用於辨識對應於第一融合影像320中的參考影像311至參考影像31N中的各者的目標物件。

在一個實施例中，物件辨識模型可為設計者偏好的任何深度學習模型，諸如單次偵測器(You only look once；YOLO)模型、較快區域卷積類神經網路(Convolution Neural Network；FasterR-CNN)及/或單步多框偵測器(Single Shot MultiBox Detector；SSD)，但本發明不限於此。

在圖3的情境中，由於第一融合影像320中存在若干目標物件(例如，四個扣件33)，因此處理器104可以更高效方式自第一融合影像320辨識目標物件。因此，可減小計算工作量且可增加解析度。

如上述所提及，參考影像可以不同方式融合成第一融合影像，此將在下文中說明。

參見圖4，其繪示根據本發明的第一實施例的融合參考影像的示意圖。在圖4中，假定參考影像P1及參考影像P2待融合，則處理器104可以逐像素的方式將參考影像P1及參考影像P2線性地組合成組合影像P3作為第一融合影像。

在此情況下，線性組合可表徵為「P3=P1xλ+P2x(1-λ)」，其中λ可為對應於參考影像P1的權重且介於0與1之間的值，但本發明不限於此。

在其他實施例中，若存在更多待線性組合成對應組合影像的參考影像，則可基於設計者的需求來判定此等參考影像的權重。在此情況下，對應於各參考影像的權重的總和可為1，但本發明不限於此。

藉由組合影像P3(亦即，第一融合影像)，處理器104可相應地執行步驟S230以辨識如上述教示的組合影像P3中的目標物件(例如，扣件33)。

在一個實施例中，將參考影像線性地組合成對應組合影像的過程可由以下式子來表徵：

，其中P _i為待組合參考影像的第i個參考影像，a _i為對應於第i個參考影像的權重，N為待組合參考影像的數目，P表示第一融合影像，且

a _i=1。在一個實施例中，先前提及的式子「P3=P1xλ+P2x(1-λ)」可理解為式子(1)在N為2時的特定。具體來說，P3可理解為P，P1可理解為P ₁，P2可理解為P ₂，λ可理解為a ₁，且(1-λ)可理解為a ₂，但本發明不限於此。

參見圖5，其繪示根據本發明的第二實施例的融合參考影像的示意圖。在圖5中，假定參考影像510及520待融合，則處理器104可將參考影像510饋入至神經網路層CV1及神經網路層CV2中以獲得參考影像510的特徵向量V1。

類似地，處理器104可將參考影像520饋入至相同神經網路層CV1及神經網路層CV2中以獲得參考影像520的特徵向量V2。

在圖5中，假設參考影像510的尺寸均為1280x720x3，且特徵向量V1及特徵向量V2的尺寸兩者均為1280x760x64，但本發明不限於此。

在一個實施例中，處理器104可將特徵向量V1及特徵向量V2融合成融合張量TS作為第二實施例的第一融合影像。

在圖5中，處理器104將特徵向量V1及特徵向量V2串連(concatenate)成參考向量V3。在特徵向量V1及特徵向量V2的尺寸經假設為1280x760x64的情況下，參考向量V3的尺寸可為1280x720x128，但本發明不限於此。

隨後，處理器104將參考向量V3饋入至NIN(網路中的網路)中530，其中NIN 530反應於參考向量V3而輸出融合張量TS。NIN 530的細節可參考「Lin,Min,Qiang Chen,and Shuicheng Yan."Network in network." arXiv preprint arXiv：1312.4400(2013)」。

在一個實施例中，可在步驟S230中基於所使用深度學習模型來判定融合張量TS的尺寸。在一個實施例中，假定深度學習模型的輸入向量的所需尺寸為1280x720x3，則NIN 530可經設計以反應於參考向量V3輸出具有1280x720x3的尺寸的向量作為融合張量TS，但本發明不限於此。

藉由融合張量TS(亦即，第一融合影像)，處理器104可相應地執行步驟S230以基於如上述教示的融合張量TS而辨識目標物件。

在其他實施例中，三個或大於三個參考影像可基於圖5中說明的機制而融合。在此情況下，可將各參考影像饋入至神經網路層CV1及神經網路層CV2中以獲得相應的特徵向量，且可基於上述描述而將對應於各參考影像的特徵向量融合成對應融合張量，此將不在本文中重複。

參見圖6，其繪示根據本發明的第三實施例的融合參考影像的示意圖。在圖6中，假定參考影像610、參考影像620以及參考影像630待融合。

在圖6的情境中，由於參考影像610、參考影像620以及參考影像630中的各者中的目標物件(例如，軌道、枕本及/或扣件)與對應參考影像具有特定相對位置，因此處理器104可自各參考影像裁剪更有可能覆蓋目標物件的影像區域，並將所述影像區域融合成第一融合影像640。

舉例而言，由於已知諸如軌道及扣件的目標物件係位於參考影像610、參考影像620以及630中各者的中心附近，因此處理器104可自各參考影像相應地裁剪特定影像區域，其中特定影像區域可基於目標物件與對應參考影像之間的相對位置而判定。

在圖6中，處理器104剪裁參考影像610、參考影像620以及參考影像630對應的中央區域(例如，以虛線標記的區域)作為特定影像區域611、特定影像區域621以及特定影像區域631。

接著，處理器104可將特定影像區域611、特定影像區域621以及特定影像區域631拼接成第一融合影像640。

在一個實施例中，各參考影像中的目標物件具有參考方向，且處理器104可沿著第一方向將對應於各參考影像的特定影像區域拼接成第一融合影像，其中第一方向垂直於參考方向。

在一個實施例中，假定目標物件為參考影像610、參考影像620以及參考影像630中的各者中的軌道，軌道的軸向方向可視為參考方向RD。在此情況下，處理器104可將垂直於參考方向RD的方向判定為第一方向D1，且沿著第一方向D1拼接特定影像區域611、特定影像區域621以及特定影像區域631。

在另一實施例中，若所考慮目標物件無法經定義有參考方向，則參考方向RD可為基於目標物件設置於其上或附近的參考物件而判定。舉例而言，假定目標物件為參考影像610、參考影像620以及參考影像630中的各者中的扣件，則扣件附近的軌道可視為參考物件，且軌道的軸向方向可視為參考方向RD。在此情況下，處理器104可將垂直於參考方向RD的方向判定為第一方向，且沿著第一方向D1拼接特定影像區域611、特定影像區域621以及特定影像區域631。

藉由第一融合影像640，處理器104可相應地執行步驟 S230以辨識如上述教示的第一融合影像640中的目標物件(例如，扣件)。

在本發明的實施例中，為利於自第一融合影像辨識目標物件的過程，來自各參考影像的目標物件可不與第一融合影像中的其他目標物件重疊，而此可藉由適當地判定攝影機的影像擷取速率來達成。

然而，當由攝影機擷取的目標物件與攝影機具有相對移動時，某些情況下的第一融合影像的品質可能差強人意。

舉例而言，當目標物件與攝影機之間的相對速度過於低時，來自各參考影像的目標物件可能會在第一融合影像中彼此重疊，此增加自第一融合影像辨識目標物件的困難度。

為解決此問題，處理器104可監視目標物件與攝影機之間的相對速度，且判定相對速度是否低於第二閾值(其低於第一閾值)。

在一個實施例中，反應於判定相對速度低於第二速度閾值，處理器104停止將參考影像融合成第一融合影像，且經由對各參考影像執行第一物件偵測來辨識各參考影像中的目標物件。

舉例而言，若在目標物件與攝影機之間的相對速度低於第二閾值的情況中擷取參考影像311至參考影像31N，則處理器104可直接對參考影像311至參考影像31N中的各者執行第一物件偵測，但本發明不限於此。

在另一實施例中，反應於判定相對速度低於第二速度閾值，處理器104降低攝影機的影像擷取速率。在一實施例中，影像擷取速率可降低至使來自各參考影像的目標物件在第一融合影像中不彼此重疊的值，但本發明不限於此。

在一個實施例中，若相對速度經判定為高於第二閾值，則處理器104可恢復融合及/或影像擷取速率，但本發明不限於此。

在一個實施例中，圖2中的步驟可視為一個物件辨識階段，且本發明提出的方法可更包括其他物件辨識階段。

參見圖7，其繪示根據圖2的物件辨識方法的另一流程圖。在圖7中，在完成對應於步驟S210至步驟S230的物件辨識階段之後，處理器104藉由執行步驟S710及步驟S720進一步執行另一物件辨識階段。

在一個實施例中，步驟S230中使用的第一物件偵測可用於判定任何目標物件是否存在於第一融合影像中。第一實施例的細節可參考圖4的描述，其將不在本文中重複。

在此情況下，處理器104可在執行步驟S220時使用第一實施例、第二實施例及/或第三實施例中描述的融合方式以用於改善融合效率，但本發明不限於此。

在一個實施例中，反應於判定無目標物件存在於第一融合影像中，處理器104可忽略第一融合影像，此避免將計算資源浪費在不具有目標物件的融合影像上。

另一方面，反應於判定任何目標物件存在於第一融合影像中，處理器104可繼續進行至步驟S710。

在步驟S710中，反應於判定任何目標物件經判定存在於第一融合影像中，處理器104將參考影像融合成第二融合影像。

接著，在步驟S720中，處理器104經由對第二融合影像執行第二物件偵測來判定各參考影像中的目標物件的分類。

亦即，第二物件偵測用於具體地判定第二融合影像中的目標物件的分類。在此情況下，處理器104可在步驟S710中產生第二融合影像時使用第一實施例、第二實施例及/或第三實施例中描述的融合方式以用於改善步驟S720中的下述第二物件偵測的效能(例如，準確度)，但本發明不限於此。第二實施例及第三實施例的細節可參考圖4至圖6的描述，以下不另贅述。

在一個實施例中，假定目標物件為扣件，則第二物件偵測可用於判定扣件是否正常(例如，恰當地旋緊)或異常(例如，鬆開或斷裂)，但本發明不限於此。

簡言之，在本發明中所提出的方法的不同物件偵測階段可使用不同融合方法。

綜上所述，本發明的實施例將由攝影機(例如，移動攝影機)擷取的參考影像融合成融合影像，且自融合影像辨識目標物件(例如，移動目標物件)。由於可在融合影像中繪示來自不同參考影像的目標物件，因此可以更高效方式辨識目標物件。因此，可減小計算工作量。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210, S220, S230:步驟

Claims

一種物件辨識方法，適用於物件辨識裝置，包括：獲得多個參考影像，其中所述多個參考影像由攝影機擷取，各所述參考影像包括目標物件，且所述攝影機具有高於第一速度閾值的移動速度；將所述多個參考影像融合成第一融合影像；以及經由將第一融合影像饋入一物件辨識模型以對所述第一融合影像執行第一物件偵測而辨識對應於各所述參考影像的所述目標物件。
如請求項1所述的物件辨識方法，其中將所述多個參考影像融合成所述第一融合影像的步驟包括：以逐像素方式將所述參考影像線性地組合成組合影像作為所述第一融合影像。
如請求項1所述的物件辨識方法，其中將所述多個參考影像融合成所述第一融合影像的步驟包括：將各所述參考影像饋入至至少一個神經網路層中，且據以獲得各所述參考影像的特徵向量；將各所述參考影像的所述特徵向量融合成融合張量作為所述第一融合影像。
如請求項3所述的物件辨識方法，其中將各所述參考影像的所述特徵向量融合成所述融合張量作為所述第一融合影像的步驟包括：將各所述參考影像的所述特徵向量串連成參考向量；將所述參考向量饋入至網路中的網路(NIN)中，其中所述 NIN反應於所述參考向量輸出所述融合張量。
如請求項1所述的物件辨識方法，其中將所述多個參考影像融合成所述第一融合影像的步驟包括：自各所述參考影像裁剪特定影像區域；以及將對應於各所述參考影像的所述特定影像區域拼接成所述第一融合影像。
如請求項5所述的物件辨識方法，其中各所述參考影像中的所述目標物件具有參考方向，且將對應於各所述參考影像的所述特定影像區域拼接成所述融合影像的步驟包括：沿著第一方向將對應於各所述參考影像的所述特定影像區域拼接成所述第一融合影像，其中所述第一方向垂直於所述參考方向。
如請求項6所述的物件辨識方法，其中所述目標物件設置於具有軸向方向的參考物件上或附近，且所述方法更包括：判定所述軸向方向為所述參考方向。
如請求項2、3以及5中任一項所述的物件辨識方法，更包括：反應於判定任何目標物件經判定存在於所述第一融合影像中，將所述參考影像融合成第二融合影像；經由對所述第二融合影像執行第二物件偵測來判定各所述參考影像中之所述目標物件的分類。
如請求項8所述的物件辨識方法，其中將所述多個參考影像融合成所述第二融合影像的步驟包括：以逐像素方式將所述參考影像線性地組合成組合影像作為所述第二融合影像；或將各所述參考影像饋入至至少一個神經網路層中且據以獲得各所述參考影像的特徵向量，且將各所述參考影像的所述特徵向量融合成融合張量作為所述第二融合影像；或自各所述參考影像裁剪特定影像區域且將對應於各所述參考影像的所述特定影像區域拼接成所述第二融合影像。
如請求項1所述的物件辨識方法，其中各所述參考影像中的所述目標物件設置於與所述攝影機具有相對速度的參考物件上或附近，且所述方法更包括：反應於判定所述相對速度低於第二速度閾值，停止將所述參考影像融合成所述第一融合影像，且經由對各所述參考影像執行所述第一物件偵測來辨識各所述參考影像中的所述目標物件。
如請求項1所述的物件辨識方法，其中各所述參考影像中的所述目標物件設置於與所述攝影機具有相對速度的參考物件上或附近，且所述方法更包括：反應於判定所述相對速度低於第二速度閾值，降低所述攝影機的影像擷取速率。
如請求項1所述的物件辨識方法，其中來自各所述參考影像的所述目標物件不與所述第一融合影像中的其他目標物件重疊。
一種物件辨識裝置，包括：儲存電路，儲存程式碼；以及處理器，耦接至所述儲存電路且存取所述程式碼以執行：獲得多個參考影像，其中所述參考影像由攝影機擷取，各所述參考影像包括目標物件，且所述攝影機具有高於第一速度閾值的移動速度；將所述參考影像融合成第一融合影像；以及經由將第一融合影像饋入一物件辨識模型以對所述第一融合影像執行第一物件偵測來辨識對應於各所述參考影像的所述目標物件。