TWI728655B

TWI728655B - 應用於動物的卷積神經網路偵測方法及系統

Info

Publication number: TWI728655B
Application number: TW109101571A
Authority: TW
Inventors: 林春宏; 詹永寬; 鄭琮翰; 陳佳鴻
Original assignee: 國立臺中科技大學
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-05-21
Also published as: TW202129593A

Abstract

本發明係揭露一種應用於動物的卷積神經網路偵測系統及方法，其包含以下步驟：藉由影像擷取裝置產生影像，接著藉由處理器，對影像依序進行第一物件偵測及定位程序，萃取出第一物件資訊及第一子影像；第一物件種類辨識程序，萃取出複數個第一物件種類機率值；若複數個第一物件種類機率值的最大值小於第一預設值，則對第一子影像進行第二物件偵測及定位程序，萃取出第二物件資訊及第二子影像；第二物件種類辨識程序，萃取出複數個第二物件種類機率值；對第一物件種類機率值及第二物件種類機率值進行加權計算，產生最終物件種類機率值。

Description

應用於動物的卷積神經網路偵測方法及系統

本發明是有關於一種卷積神經網路偵測方法及系統，特別是有關於一種應用於動物的卷積神經網路偵測方法及系統。

傳統監控系統將欲監視的視野區域直接從監控螢幕播出，或是以圖片或影片的方式記錄於硬碟，此種監控方式不能在事件狀況發生前提出警告，只有在特定事件發生時，監控者才開始調閱大量資料做逐一比對，搜索感興趣或特定目標，例如寵物狗或流浪狗。這種監控方式不僅浪費大量儲存空間，也對監控者造成大量負擔。

有鑑於上述習知問題，本發明提供一種應用於動物的卷積神經網路(convolutional neural network)偵測方法及系統，應用於寵物狗或流浪狗的定位以及種類辨識，以達到自動化的監控系統。

本發明提出一種應用於動物的卷積神經網路偵測方法，其方法利用影像擷取裝置及處理器進行。首先藉由影像擷取裝置產生影像。接著藉由處理器對影像進行第一物件偵測及定位程序，從影像萃取出第一物件資訊及對應第一物件資訊的第一子影像。藉由處理器對第一子影像進行第一物件種類辨識程序，萃取出複數個第一物件種類機率值，若複數個第一物件種類機率值的最大值大於等於一個第一預設值，則將第一物件資訊及第一物件種類機率值的最大值合併，產生第一最終物件資訊。若複數個第一物件種類機率值的最大值小於第一預設值，則藉由處理器對第一子影像進行第二物件偵測及定位程序，萃取出第二物件資訊及第二子影像。藉由處理器對第二子影像進行第二物件種類辨識程序，萃取出複數個第二物件種類機率值。藉由處理器對複數個第一物件種類機率值及對應的複數個第一權重值，以及複數個第二物件種類機率值及對應的複數個第二權重值進行加權計算，產生對應的複數個最終物件種類機率值，並且將第一物件資訊、第二物件資訊及複數個最終物件種類機率值的最大值合併，產生第二最終物件資訊。

較佳地，第一物件偵測及定位程序與第二物件偵測及定位程序應用於狗的偵測及定位，且第一物件種類辨識程序及第二物件種類辨識程序應用於狗的種類辨識。

較佳地，應用於動物的卷積神經網路偵測方法進一步包含以下步驟：藉由處理器將第一最終物件資訊或第二最終物件資訊合併至影像中，產生偵測影像。藉由儲存裝置儲存上述影像及偵測影像。藉由影像輸出裝置輸出偵測影像。

較佳地，第一物件偵測及定位程序與第二物件偵測及定位程序包括五層最大值池化層(max pooling layer)運算、二十二層卷積層(convolution layer)運算五層最大值池化層運算、二十二層卷積層運算及各自對應之一帶洩漏線性整流激活函數運算(leaky rectified linear activation function)。

較佳地，第一物件種類辨識程序及第二物件種類辨識程序包括三層卷積核(Inception)運算、六層卷積層運算及兩層最大值池化層運算。

較佳地，第一物件種類辨識程序及第二物件種類辨識程序包括種類辨識方法，其包括召回率(recall)函數、精確率(precision)函數及平均交並比(mean intersection over union)函數。

較佳地，第一物件偵測及定位程序與第二物件偵測及定位程序包括損失函數。

較佳地，本發明也提供一種應用於動物的卷積神經網路偵測系統。其系統可以包含影像擷取裝置、處理器、儲存裝置及影像輸出裝置。影像擷取裝置產生影像，處理器連接影像擷取裝置，處理器包括物件偵測及定位器與物件種類辨識器，物件偵測及定位器接收影像擷取裝置產生的影像，輸出第一物件資訊及第一子影像，並且物件偵測及定位器輸入第一子影像，輸出第二物件資訊。物件種類辨識器接收第一物件資訊及第二物件資訊，輸出第一最終物件資訊及第二最終物件資訊。處理器將第一最終物件資訊或第二最終物件資訊合併至影像中，產生偵測影像。儲存裝置連接處理器，儲存裝置儲存影像及偵測影像。影像輸出裝置連接儲存裝置，影像輸出裝置輸出偵測影像。

承上所述，本發明之卷積神經網路偵測方法及系統，其可具有一或多個下述優點：

(1)建立應用於動物的自動化辨識系統，可以即時的提供欲辨識的動物的位置及種類的資訊。

(2)利用單一的神經網路進行物件偵測，可以使用較少的運算資源達成一定程度的效果。

(3)利用對欲辨識的動物的全身及頭部分別進行物件偵測，搭配動物的種類辨識的神經網路，可提高辨識成功率。

1a:狗

1b:行人

5:卷積神經網路偵測系統

10:影像

21:第一物件資訊

22:第一最終物件資訊

30:第一子影像

31:第二物件資訊

40:第二子影像

41:第二最終物件資訊

50:偵測影像

S1~S6:步驟

100:影像擷取裝置

200:處理器

201:物件偵測及定位器

202:物件種類辨識器

300:儲存裝置

400:顯示裝置

第1圖係根據本發明實施例之應用於動物的卷積神經網路偵測方法之步驟流程圖。

第2圖係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之欲偵測影像示意圖。

第3圖係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之進行第一物件偵測及定位程序及第一物件種類辨識程序之後的示圖。

第4圖係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之進行第二物件偵測及定位程序之後的示意圖。

第5圖係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之進行加權運算後的示意圖。

第6圖係根據本發明的實施例的應用於動物的卷積神經網路偵測系統之示意圖。

為利貴審查委員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

請參閱第1圖，其係本發明的實施例的應用於動物的卷積神經網路偵測方法的步驟流程度。如圖所示，應用於動物的卷積神經網路偵測方法包含以下步驟(S1~S6)：

步驟S1：藉由影像擷取裝置100產生欲進行物件偵測及定位之影像10。影像擷取裝置100可以是網路攝影機、數位攝影機、智慧型手機、行車紀錄器等電子設備，其影像解析度為416x416。

請參閱第2圖，其係根據本發明的實施例的應用於動物的卷積神經網路偵測方法的欲偵測影像示意圖。如圖所示，由網路攝影機所擷取的影像10中即包含欲進行偵測及定位的物件，例如狗1a及行人1b等等。

步驟S2：藉由處理器200進行第一物件偵測及定位程序。上述影像擷取裝置100產生的影像10，可輸入至處理器200，其處理器200可以包含第一物件偵測及定位程序，當第一物件偵測及定位程序執行完成之後，可以萃取出第一物件資訊21及對應第一物件資訊21的第一子影像30。此處的第一物件偵測及定位程序的詳細內容，將在下文中進一步描述。

步驟S3：藉由處理器200進行第一物件種類辨識程序。上述第一物件偵測及定位程序萃取出的第一子影像30可以輸入處理器200，以進行第一物件種類辨識程序，當第一物件種類辨識程序執行完成之後，可以萃取出複數個第一物件種類機率值。若複數個第一物件種類機率值之中的最大值大於等於一個第一預設值，則將第一物件資訊21及複數個第一物件種類機率值之中的最大值合併，產生第一最終物件資訊22。請參閱第3圖，其係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之進行第一物件偵測及定位程序及第一物件種類辨識程序之後的示圖。如圖所示，代表第一最終物件資訊22的邊框 (bounding box)即為第一物件資訊21及複數個第一物件種類機率值之中的最大值合併之後的結果。若複數個第一物件種類機率值之中的最大值小於一個第一預設值，則進行步驟S4。此處的第一物件種類辨識程序的詳細內容，將在下文中進一步描述。

步驟S4：藉由處理器200進行第二物件偵測及定位程序。上述第一物件偵測及定位程序萃取出的第一子影像30可以輸入處理器200，以進行第二物件偵測及定位程序，當第二物件偵測及定位程序執行完成之後，可以萃取出第二物件資訊31及對應第二物件資訊31的第二子影像40。請參閱第4圖，其係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之進行第二物件偵測及定位程序之後的示意圖。如圖所示，代表第二物件資訊31的邊框即為執行完第二物件偵測及定位程序對應第二物件資訊31及第二子影像40的區域。此處的第二物件偵測及定位程序與上述的第一物件偵測及定位程序相似，其詳細內容將在下文中進一步描述。

步驟S5：藉由處理器200進行第二物件種類辨識程序。上述第二物件偵測及定位程序萃取出的第二子影像40可以輸入處理器200，以進行第二物件種類辨識程序，當第二物件種類辨識程序執行完成之後，可以萃取出複數個第二物件種類機率值。

步驟S6：藉由處理器200進行加權計算。上述的複數個第一物件種類機率值之中的每一個機率值均對應有一個第一權重值，以及複數個第二物件種類機率值之中的每一個機率值也對應有一個第二權重值，藉由處理器200對上述物件種類機率值及對應的權重值進行加權運算，產生對應的複數個最終物件種類機率值，並且將上述的第一物件資訊21、第二物件資訊31及複數個最終物件種類機率值之中的最大值合併，產生第二最終物件資訊41。請參閱第5圖，其係根據本發明的實施例的應用於動物的卷積神經網路偵測方法之進行加權運算後的示意圖。如圖所示，代表第二最終物件資訊41的兩個邊框，即為加權運算之後，第一物件資訊21、第二物件資訊31及複數個最終物件種類機率值之中的最大值合併之後的結果。此處的加權計算的詳細內容將在下文中進一步描述。

上述步驟S2中的第一物件偵測及定位程序，即為採用YOLO(you only look once)的卷積神經網路架構進行的物件偵測及定位程序，YOLO與其他物件偵測的卷積類神經網路架構不同，其他的類神經網路架構大都採多類神經網路架構組合而成，而YOLO採用單一神經網路架構，影像從一開始輸入到產生出物件的位置皆在同一個網路架構裡。YOLO的概念是把影像分成S×S個區塊，每個區塊可以產生B個預測物件框，其中物件框的資訊為(x,y,h,w,confidence)五個值的集合，(x,y)代表該物件框的中心位置；(h,w)代表該物件框的長寬，此長寬是相對於整張影像的長寬比例。confidence則是當有物件的中心點落在區塊內時，此物件的預測的信任分數，其計算方式如下：

當區塊沒有物件中心時，則令Pr(Object)=0，反之則Pr(Object)=1之外，還要預測C個類別的機率，而類別的機率要分為訓練與測試階段來表示。訓練階段時，類別機率表示如下：Pr(Class _i|Object) (2)

而測試階段時將信任分數與類別機率相乘，其表示如下：

此處的

定義如下：

將從影像擷取裝置100輸入的影像10，藉由處理器200執行第一物件偵測及定位程序之後，萃取出包括物件的邊框，例如，對應至動物的外觀形狀，以及物件的所屬類別(class)的信任機率值，物件框的資訊可以對應上述步驟S2的第一物件資訊21，且對應第一物件資訊21之中的物間邊框(X,Y,H,W)的位置及長寬即為第一子影像30。

上述的第一物件資訊21，在第一物件偵測及定位程序中可以產生一個或一個以上，即辨識一個以上的目標物件。物件的所屬類別的信任機率值，可以用三個參數的乘積得到，第一個參數為在所判別的區域內出現物件的機率，第二個參數為在所判別的區域內出現物件，且判別為某個類別的機率，第三個參數為進行物件判別的區域大小與區域內判別出的物件之大小，其交集面積與聯集面積的比值大小。第一物件資訊21所包含的物件資訊即為這五個元素所決定。

上述步驟S3中的第一物件種類辨識程序，即為採用Google開源的Inception V3架構生成的物件種類辨識程序。在處理器200對影像10執行第一物件偵測及定位程序之後產生的第一子影像30，進行第一物件種類辨識程序，萃取出的複數個第一物件種類機率值(例如，對應第一物件資訊的位置，判別有某種品種的動物的機率值)，若其複數個第一物件種類機率值之中的最大值大於等於一個第一預設值(例如，50%)，即結合第一物件資訊21，可產生步驟S3中的第一最終物件資訊22，亦即，在影像10中的某區域，判別出其中存在一個或一個以上的物件，且此物件為某種動物，並且進一步判別出此某種動物為某一個特定品種的機率在50%以上。

上述步驟S4中的第二物件偵測及定位程序，其概念及方法與第一物件偵測及定位程序類似。其差異在於第一物件偵測及定位程序執行的對象為上述的影像10，而第二物件偵測及定位程序執行的對象為上述的第一子影像30。第一物件偵測及定位程序萃取出的第一物件資訊21，可以對應至欲辨識的物件的整體外觀形狀(例如，對應至狗的整體外觀形狀)，而第二物件偵測及定位程序萃取出的第二物件資訊31，可以對應至欲辨識的物件的頭部形狀(例如，對應至狗的頭部外觀形狀)。

上述步驟S5中的第二物件種類辨識程序，其概念及方法與第一物件種類辨識程序類似。其差異在於第一物件種類辨識程序執行的對象為上述的第一子影像30，而第二物件種類辨識程序執行的對象為上述的第二子影像40。第一物件種類辨識程序萃取出的複數個第一物件種類機率值，可以對應至利用欲辨識的物件的整體外觀進行物件的種類辨識(例如，利用狗的整體外觀進行狗的種類辨識)，而第二物件種類辨識程序萃取出的複數個第二物件種類機率值，可以對應至利用欲辨識的物件的頭部外觀進行物件的種類辨識(例如，利用狗的頭部外觀進行狗的種類辨識)。

關於上述步驟S6中提及的加權運算的較詳細的描述，舉例來說，其方法為利用複數個第一物件種類機率值之中，前五個數值最大的機率值及其對應的五個第一權重值，與複數個第二物件種類機率值之中，前五個數值最大的機率值及其對應的五個第二權重值作加權運算，若某一個物件種類出現在這兩組機率值中，即可得出加權運算結果，最後再從加權運算結果中，選出機率值最大的一個及其對應的物件種類，並且與第一物件資訊21、第二物件資訊31合併，產生第二最終物件資訊41。

上述提及的第一物件偵測及定位程序與第二物件偵測及定位程序，更具體地說，係利用YOLO架構生成的卷積神經網路，對欲進行物件偵測及定位的影像10或第一子影像30，萃取出狗的外觀及其位置或狗的頭部的外觀及其位置。

上述提及的第一物件種類辨識程序與第二物件種類辨識程序，更具體地說，係利用Google開源的Inception V3架構生成的卷積神經網路，對欲進行物件種類辨識的第一子影像30或第二子影像40，辨識出各種狗的對應品種為何。

上述的應用於動物的卷積神經網路偵測方法，還可以依序進一步包括以下步驟：藉由處理器200，合併第一最終物件資訊22或第二最終物件資訊41至影像10，產生偵測影像50。藉由儲存裝置300儲存上述影像10及偵測影像50。以及藉由影像輸出裝置400，輸出偵測影像50。

上述提及的利用YOLO架構，雖然運算效能比較好，但是精確度的部分尚待提升，因此採用了新的架構Darknet-19進行特徵的萃取，其中包含19個卷積層，5個最大池化層，如表1所示，並使用IamgeNet的1000個類別資料集，以進行分類器的預訓練。

在本實施例實際進行物件偵測時，首先將Darknet-19中的24至26層移除，這三層分別為分類用的卷積層、平均值池化層及分類器Softmax層，如表1所示，改為3個卷積層，並將輸入的影像解析度改為416×416，如表2所示。整體架構中的2個路由(Route)層與重組(Reorg)層，其作法是將第16層輸出的26×26×256尺寸的特徵圖，在第一個路由層時分成4個13×13×512尺寸的特徵圖，在重組層時組合成13×13×2048尺寸的特徵圖，最後於第二個路由層與第24層的輸出結合成13×13×3072尺寸的特徵圖，這是為了讓整體進行更細致的分類。上述第一物件偵測及定位程序與第二物件偵測及定位程序所使用的YOLO架構，如表2所示。

經過最後一層的卷積後，YOLO輸出了13×13×30尺寸的張量(tensor)，此張量所代表的是YOLO的預測資訊，張量內含了13×13的向量(vector)，每個向量有5個描點框(Anchor Box)，而每個描點框有6個值分別為物件預測框的值(t _x,t _y,t _h,t _w)、信任分數(confidence)與類別的預測值。其中(t _x,t _y)為中心座標的偏移量，(t _h,t _w)為預測框的x,y方向邊界偏移量。YOLO將t _x與t _y經過Sigmoid函數後得到σ(t _x)與σ(t _y)，其值代表在網格(grid cell)內x,y方向的偏移量，因為Sigmoid的關係，所以預測框的中心位置會約束於網格內部，以防止偏移過多。

上述提及之卷積層運算指的是，由卷積層內設置之濾波器在影像10上滑動，藉此提取影像10之特徵(例如，圓形、直線及三角形等等)之過程。表1中的濾波器大小(例如，1x1、2x2及3x3)指的是對應輸入之影像解析度(416x416)之解析度大小，步長指的是以對應輸入之影像解析度，每次滑動多少個單位(例如，1或2)以提取影像之特徵，而卷積層運算可藉由訓練達到最佳化。卷積層所需之數量及卷積層內設置之濾波器數量，則需視上述影像10中，欲進行偵測之物件種類及物件對應之特徵之複雜度或數量而決定，雖然直觀上濾波器數量越多可越精準擷取物件之特徵，但程式複雜度及運算量也大幅提高，因此亦需要選擇適當之組成。

接著，上述提及之最大值池化層運算指的是，將上一層運算(在表1中為卷積層運算)執行完成後之影像，藉由輸出濾波器內具有最大值之數值，再設定所需之步長後，可得到壓縮之縮小影像。

每個卷基層及最大值池化層在輸出資訊時，均會利用一個帶洩漏線性整流激活函數，將一些數值很小的資料乘上一個對應的很小的權重值。

由於有些犬隻的特徵在全身區域，有些犬隻的特徵在頭部區域，若從某些部分進行辨識，難免會無法精確辨識。因此，本揭露將利用YOLO物件偵測方法，偵測出全身區域影像與犬隻頭部區域影像後，再利用卷積類神經網路來分別進行特徵萃取，最後將兩者特徵向量進行融合再分類。為了能精確地將影像中的特徵萃取出來，本研究採用InceptionV3網路架構做為特徵萃取的架構。Inception架構為Google開源的卷積網路模型，Inception架構主要是將卷積層以並聯方式組合而成，而大部分的卷積網路模型都是採用串聯的方式組合，這種串聯的方式通常會有三個問題：1.參數太多，容易過擬合(over fitting)；2.計算複雜大，難以應用；3.容易發生梯度(gradient)消失。所以Google於提出使用多種尺寸的卷積核的GoogLeNet架構(InceptionV1)，用來增加網路深度和寬度，提升深度神經網路的性能，其中包含1×1卷積核、3×3卷積核、5×5卷積核與1×1池化層的兩種Inception模組組合而成。其中架構中加入兩個輔助分類器，此分類器只在訓練階段時使用，主要是避免網路架構太深時之梯度消失的問題。

為了改善內部協變量移位(Internal covariate shift)的問題，通常改善的方式是將學習率(learning rate)調整小一點，但是學習率(learning rate)太小時，會導致收斂速度過慢，訓練時間拉長。因此，提出的將批次正規化(Batch Normalization,BN)的方法加入至GoogLeNet中，此方法是一個正規化的方法，可以加快訓練的速度，並且提高分類的準確率。批次正規化運用在每個網路層，並且對每個輸出資料進行標準化(normalization)處理。為了進一步提高計算的效率，在InceptionV3架構中運用了卷積分解(Factorizing Convolutions)。卷積分解是為了解決尺寸過大的卷積核，所造成計算量過大的問題，以5×5卷積來說，其參數量為3×3卷積的

倍，而利用卷積分解可以在不影響辨識率下，達到減少參數量的結果，其操作方式有：1.將Inception模組中的5×5卷積核替換成連續2個3×3卷積核；2.將n×n尺寸的卷積分解成n×1尺寸與1×n尺寸卷積核；3.3×3尺寸的卷積分解成3×1尺寸與1×3尺寸卷積核。除了運用卷積分解之外，在利用池化層降低維度時，由於特徵圖的大小急劇縮減，在模型訓練時造成特徵表達的瓶頸，如果將池化層與Inception模組的順序顛倒，雖然可以解決此問題，但還是就無法減少參數量。所以，InceptionV3中將池化層融合至Inception的模組。

除了前述的改善之外，還在架構中新增了8×8、17×17、35×35三個卷積模組，利用卷積分解，將n×n的卷積核分解成兩個n×1與1×n卷積核的模組，以便增加網路深度及減少運算，並將輸入的影像解析度從224×224改成299×299，以下表3為InceptionV3的完整架構。

上述的第一物件種類辨識程序與第二物件種類辨識程序，其辨識的方法包括召回率函數、精確率函數及平均交並比函數。其中召回率函數可表示成：

其中Gt_i表示第i張欲辨識種類的影像的真實區域，Pi為第i張測試影像預測的物件區域的結果，N為測試總張數，Gt_i與P_i的交集比例除以P_i即為對應的召回率。精確率函數可表示成：

與召回率函數不同的是，精確率函數是利用欲辨識影像的像素Gt_i中有多少像素被正確偵測的像素P_i，其交集比例除以P_i即為對應的精確率。平均交並比函數可以表示成：

平均交並比函數是利用欲辨識種類的影像的真實區域Gt_i與預測的物件區域P_i的交集區域，除以欲辨識種類的影像的真實區域Gt_i與預測的物件區域P_i的聯集區域即為對應的平均交並比。判定為辨識成功的方式為若在這三種計算方式中的其中一種得到機率值大於0.5以上，即為辨識成功。以這三種方式來計算辨識的正確率會有較高的可信度。

上述提及的第一物件偵測及定位程序與第二物件偵測及定位程序，為了正確萃取出所需的資訊，需包括對應的損失函數來訓練，在此列出對應的損失函數：

上述損失函數中提及之λcoord及λnoobj代表的是對應邊框中心點座標(X,Y)之加權因子(weighting factor)、邊框之寬度與高度(W,H)之加權因子及邊框類別之加權因子，利用邊框中心點座標、邊框寬度及邊框類別等參數，即可得出邊框之信賴分數(Confidence score)。詳細的各項對應定義為(x _i-

)²可預測邊框之X座標、(y _i-

)²可預測邊框之Y座標、(

-

)²可預測邊框之寬度、(

-

)²可預測邊框之高度、

可判斷第(i,j)個區域(例如，將影像10或第一子影像30分割成多個區域)中是否有物件(若有物件，則

之值為1，若無則為0)、

可判斷第i個物件框中是否有物件(若有物件，則

之值為1，若無則為0)。其中，j之數值與參數B相關，參數B則為第一物件偵測及定位程序或第二物件偵測及定位程序中，每個區域之中可偵測之邊框數量，i之數值與參數s相關，參數s對應影像10及第一子影像30之解析度(例如，416x416或299x299)。

XGBoost(eXtreme Gradient Boosting)是基於Gradient Boosted Decision Tree(GBDT)演算法的改良延伸而成的分類器，過去被大量應用於解決監督式學習的問題。Gradient Boosted Decision Tree是一種利用決策樹預測模型集合形成的模型，簡單來說就是利用多個分類模型結果來結合成最後的分類結果，此種模型可以來解決迴歸與分類的問題。XGBoost的目標函數表示如下：

Σ_kΩ(f _k)在XGBoost中代表的是懲罰項，由於XGBoost的目標在不犧牲精確度的情況下提升效能，而設置懲罰項的目的是為了降低模型複雜度。

由於卷積類神經網路訓練時要給予大量與各種影像資料，才能精確地將類神經網路模型進行訓練，而XGBoost在訓練時雖然不需要大量的資料，但必須先以需要人工定義特徵才能訓練。為了考量到在實際應用時，搜集大量犬隻種類影像相當困難，且硬體資源有限的狀況。因此，利用已經使用資料集訓練完成的InceptionV3模型，並分為兩個處理流程：特徵萃取與分類處理流程，特徵萃取處理係在輸入層與分類層之間；分類處理係在分類層。InceptionV3的特徵萃取處理係將影像萃取出2048維度的特徵向量，最後結合至XGBoost進行分類。

由於有部分種類的犬隻，特徵集中於頭部，有些犬隻則分佈於身體部分。因此，為了能精確地辨識種類，將頭部與身體部分的特徵資訊進行融合後，再進行種類的辨識。首先將全身區域影像利用YOLO進行頭部偵測，在獲得頭部區域影像後，再利用InceptionV3進行特徵萃取，以獲得2048維度的頭部特徵向量。再將2048維度的全身特徵向量與2048維度的頭部特徵向量進行融合成4096維度的特徵向量後，最後使用XGBoost進行分類，以獲得種類辨識的結果。

上述影像辨識可用在犬隻登記與管理，其目的係為了得知犬隻的相關資訊，例如：是否有飼主、施打疫苗的時間地點、是否結紮等資訊，除了透過晶片、鼻紋進行辨識外，影像取得是較為容易達到的，且解析度不需要太高，僅需臉部其特徵明顯，例如其臉部至少必須出兩隻眼睛。

由於拍攝犬隻時不像人類可以固定不動，所以犬隻的照片常常會有歪斜的狀況，在這種情況下，若進行辨識會導致精確度不高。因此，在進行臉部辨識時，先利用YOLO偵測出眼睛的位置，令兩眼中心連成一直線，並計算此直線之斜率m，已知m=tan(θ)，即可以利用反正切函數arctan求得與x軸(水平軸)之角度θ，得知角度θ後再將雙眼旋轉成與水平軸平行。此外，身份辨識是為了獲得犬隻的身份資訊，若是出現資料庫中未登記的影像資料，將無法直接使用分類器，原因是由於分類器遇到沒看過的影像時，仍然會將此影像分類至最為相似的類別。因此，使用InceptionV3進行特徵萃取，獲得特徵向量後，再使用相似度計算，通過與閾值(threshold)相比，判斷是否相似。其相似度表示如下：

參閱第6圖，其係根據本發明的實施例的應用於動物的卷積神經網路偵測系統5之示意圖。如圖所示，其包含影像擷取裝置100、處理器200、儲存裝置300及影像輸出裝置400。此應用於動物的卷積神經網路偵測系統5可執行上述的應用於動物的卷積神經網路偵測方法(步驟S1~S6)。換句話說，應用於動物的卷積神經網路偵測系統5，具有對應執行步驟S1至S6之各元件。

應用於動物的卷積神經網路偵測系統5之影像擷取裝置100係產生影像10，此即對應至第1圖之步驟S1。

第6圖中之處理器200，可包含物件偵測及定位器201及物件種類辨識器202等子元件。處理器200即可對應進行第1圖之步驟S2至S6。

更具體地說，物件偵測及定位器201係接收影像10，進行第一物件偵測及定位程序之後，萃取出第一物件資訊21及對應的第一子影像30。物件偵測及定位器201係接收第一子影像30，進行第二物件偵測及定位程序之後，萃取出第二物件資訊31及對應的第二子影像40。

更具體地說，物件種類辨識器202係接收第一子影像30，萃取出第一最終物件資訊22。物件種類辨識器202係接收第二子影像40，萃取出複數個第二最終物件資訊41。

更具體地說，處理器200可以合併第一最終物件資訊22或第二最終物件資訊41至影像10中，輸出偵測影像50。

更具體地說，儲存裝置300係連接處理器200，儲存裝置300可以儲存上述影像10及偵測影像50。影像輸出裝置400係連接儲存裝置300，影像輸出裝置400可以輸出偵測影像50。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

S1~S6:步驟

Claims

一種應用於動物的卷積神經網路偵測方法，其包含下列步驟：藉由一影像擷取裝置產生一影像；藉由一處理器對該影像進行一第一物件偵測及定位程序，從該影像萃取出一第一物件資訊及對應該第一物件資訊之一第一子影像；藉由該處理器對該第一子影像進行一第一物件種類辨識程序，萃取出複數個第一物件種類機率值，若該複數個第一物件種類機率值之最大值大於等於一第一預設值，則合併該第一物件資訊及該第一物件種類機率值之最大值，產生一第一最終物件資訊；若該複數個第一物件種類機率值之最大值小於該第一預設值，則藉由該處理器對該第一子影像進行一第二物件偵測及定位程序，從該第一子影像萃取出一第二物件資訊及一第二子影像；藉由該處理器對該第二子影像進行一第二物件種類辨識程序，萃取出複數個第二物件種類機率值；以及藉由該處理器對該複數個第一物件種類機率值及對應的複數個第一權重值，以及該複數個第二物件種類機率值及對應的複數個第二權重值進行一加權計算，產生對應的複數個最終物件種類機率值，且合併該第一物件資訊、該第二物件資訊及該複數個最終物件種類機率值之最大值，產生一第二最終物件資訊；其中該第一物件偵測及定位程序及該第二物件偵測及定位程序應用於狗的偵測及定位，且該第一物件種類辨識程序及該第二物件種類辨識程序應用於狗的種類辨識。
如申請專利範圍第1項所述之應用於動物的卷積神經網路偵測方法，其進一步包含以下步驟：藉由該處理器，合併該第一最終物件資訊或該第二最終物件資訊至該影像，產生一偵測影像；藉由一儲存裝置儲存上述該影像及該偵測影像；以及藉由一影像輸出裝置，輸出該偵測影像。
如申請專利範圍第1項所述之應用於動物的卷積神經網路偵測方法，其中該第一物件偵測及定位程序及該第二物件偵測及定位程序包含五層最大值池化層運算、二十二層卷積層運算及各自對應之一帶洩漏線性整流激活函數運算。
如申請專利範圍第1項所述之應用於動物的卷積神經網路偵測方法，其中該第一物件種類辨識程序及該第二物件種類辨識程序包含三層卷積核運算、六層卷積層運算及兩層最大值池化層運算。
如申請專利範圍第2項所述之應用於動物的卷積神經網路偵測方法，其中該第一物件種類辨識程序及該第二物件種類辨識程序包含一種類辨識方法，該種類辨識方法包括一召回率函數、一精確率函數及一平均交並比函數。
如申請專利範圍第1項所述之應用於動物的卷積神經網路偵測方法，其中該第一物件偵測及定位程序及該第二物件偵測及定位程序包含一損失函數。
一種應用於動物的卷積神經網路偵測系統，其包含：一影像擷取裝置，係產生一影像；一處理器，係連接於該影像擷取裝置，其包含：一物件偵測及定位器，係接收該影像擷取裝置產生之該影像，輸出一第一物件資訊及一第一子影像，且輸入該第一子影像，輸出一第二物件資訊；一物件種類辨識器，係接收該第一物件資訊及該第二物件資訊，且輸出一第一最終物件資訊及一第二最終物件資訊；其中，藉由該處理器合併該第一最終物件資訊或該第二最終物件資訊至該影像中，輸出一偵測影像；一儲存裝置，係連接該處理器，儲存該影像及該偵測影像；以及一影像輸出裝置，係連接該儲存裝置，輸出該偵測影像；其中該物件偵測及定位器應用於狗的偵測及定位，且該物件種類辨識器應用於狗的種類辨識。