TW202215307A

TW202215307A - 優化聯合物件偵測模型的方法及伺服器

Info

Publication number: TW202215307A
Application number: TW109135316A
Authority: TW
Inventors: 黃文宏
Original assignee: 中華電信股份有限公司
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-04-16
Also published as: TWI748685B

Abstract

本發明係揭露一種優化聯合物件偵測模型的方法及伺服器，主要應用於加速與有效產出人工智慧（AI）訓練的影像標註資料與AI影像偵測模型及AI影像分類模型。本發明經實測可有效降低消耗在圖資清理、篩選、標註與審查階段的人力與時程等成本。

Description

優化聯合物件偵測模型的方法及伺服器

本發明是有關於一種訓練物件偵測模型的技術，且特別是有關於一種種優化聯合物件偵測模型的方法及伺服器。

在影像監控應用上，結合電腦視覺之深度學習(deep learning)技術已是發展趨勢，且其中應用最為廣泛的是監督學習，即模型訓練過程的所有數據都需要事先正確標註。然而要產生預測準確率高的深度學習模型，需要收集大量的影像標註訓練樣本。目前影像標註的方法大多採取人工標註，標註者需針對影像資料中的目標物件逐一框選物件範圍與標示關聯的物件類別名稱，並於標註後進行審查，以確保標註內容的準確性，如此標註圖資流程相當費時費力。

在影像監控應用領域日漸增加的各種人工智慧影像辨識場景與應用需求，若只依據固定的標註圖資集所訓練的深度學習模型，缺乏數據多樣化，且往往不易適用現實場景與應用的需求。若需要根據現實場景的需求構建專屬的圖資集，實現對特定類別的分類，需耗費相當的標註與校驗人力來維護。若建置後必須依需求新增一至多項新的物件特徵類別到既有的應用模型中，對原訓練圖資集的新增標註成本亦相當可觀。

此外，習知之自動標註方法多半是為了保證標註結果的客觀性和準確性，但該自動標註的模型在其訓練過程中，需要對標註結果進行篩檢，仍存在大量人工對標註資料審查的成本。另外，對於找出最佳模型的訓練過程，大多依靠既有的訓練資料集進行，但在實務應用中，往往需要針對不同的環境和需求，對不同的類別做偵測或分類，而且類別多樣且繁複，故需構建或擴充包含現場實際資料的訓練資料集，以實現適用之模型對特定類別的分類。

另外，習知技術對於已達預測精準度目標之模型，遇到變更偵測物件的要求，在時程與成本有限的條件下，不易再將龐大訓練圖資全部檢視，逐一標註出新物件類別後重新精練模型，來為新變更的應用需求提供新物件特徵組合的偵測模型。因此，實務上變通方式會從既有的物件偵測模型中以串連或並接的方式組合出所需要偵測的物件類別，然而，此舉在初期雖然可以省略重新標註圖資與訓練模型的成本，並快速上線應用，但缺點是系統資源需求高且運作效率差，因上線系統的資源有限，加上圖像處理單元（GPU）推論設備的擴充成本高，後續擴增的維運成本與頻繁客訴的壓力，非長久上線應用之良策。

有鑑於此，本發明提供一種優化聯合物件偵測模型的方法及伺服器，其可用於解決上述技術問題。

本發明提供一種優化聯合物件偵測模型的方法，包括：取得一圖資庫，其中圖資庫包括一第一未標註圖資及多個標註圖資集，各標註圖資集對應於單一類物件；以所述多個標註圖資集訓練多個單物件偵測模型及多個單物件分類模型，其中所述多個標註圖資集一對一地對應於所述多個單物件偵測模型，且所述多個標註圖資集一對一地對應於所述多個單物件分類模型；取得多個指定偵測物件類別，並據以取得多個外部物件偵測模型，其中各外部物件偵測模型用於偵測屬於所述多個指定偵測物件類別的至少其中之一的物件；反應於判定各偵測物件類別對應於所述多個標註圖資集的其中之一，從所述多個單物件偵測模型找出對應於所述多個指定偵測物件類別的多個特定單物件偵測模型；在所述多個標註圖資集中找出對應於所述多個指定偵測物件類別的多個特定標註圖資集，並據以訓練一聯合物件偵測模型；使用所述多個特定單物件偵測模型、所述多個外部物件偵測模型及聯合物件偵測模型對第一未標註圖資進行偵測，以產生多個第一物件偵測結果，其中所述多個第一物件偵測結果對應於所述多個指定偵測物件類別中的一第一指定偵測物件類別；使用所述多個單物件分類模型中對應於第一指定偵測物件類別的一第一單物件分類模型對各第一物件偵測結果進行預測分類以得到各第一物件偵測結果的一第一物件分類結果；基於各第一物件偵測結果及對應的第一物件分類結果適應性地修正所述多個第一物件偵測結果，並將修正後的所述多個第一物件偵測結果加入所述多個標註圖資集中對應於第一指定偵測物件類別的一第一標註圖資集；基於第一標註圖資集重新訓練所述多個單物件偵測模型中對應於第一指定偵測物件類別的一第一單物件偵測模型、第一單物件分類模型及聯合物件偵測模型。

本發明提供一種優化聯合物件偵測模型的伺服器，包括儲存電路及處理器。儲存電路儲存多個模組。處理器耦接儲存電路，存取所述多個模組以執行下列步驟：取得一圖資庫，其中圖資庫包括一第一未標註圖資及多個標註圖資集，各標註圖資集對應於單一類物件；以所述多個標註圖資集訓練多個單物件偵測模型及多個單物件分類模型，其中所述多個標註圖資集一對一地對應於所述多個單物件偵測模型，且所述多個標註圖資集一對一地對應於所述多個單物件分類模型；取得多個指定偵測物件類別，並據以取得多個外部物件偵測模型，其中各外部物件偵測模型用於偵測屬於所述多個指定偵測物件類別的至少其中之一的物件；反應於判定各偵測物件類別對應於所述多個標註圖資集的其中之一，從所述多個單物件偵測模型找出對應於所述多個指定偵測物件類別的多個特定單物件偵測模型；在所述多個標註圖資集中找出對應於所述多個指定偵測物件類別的多個特定標註圖資集，並據以訓練一聯合物件偵測模型；使用所述多個特定單物件偵測模型、所述多個外部物件偵測模型及聯合物件偵測模型對第一未標註圖資進行偵測，以產生多個第一物件偵測結果，其中所述多個第一物件偵測結果對應於所述多個指定偵測物件類別中的一第一指定偵測物件類別；使用所述多個單物件分類模型中對應於第一指定偵測物件類別的一第一單物件分類模型對各第一物件偵測結果進行預測分類以得到各第一物件偵測結果的一第一物件分類結果；基於各第一物件偵測結果及對應的第一物件分類結果適應性地修正所述多個第一物件偵測結果，並將修正後的所述多個第一物件偵測結果加入所述多個標註圖資集中對應於第一指定偵測物件類別的一第一標註圖資集；基於第一標註圖資集重新訓練所述多個單物件偵測模型中對應於第一指定偵測物件類別的一第一單物件偵測模型、第一單物件分類模型及聯合物件偵測模型。

概略而言，為解決上述人工智慧影像辨識應用需求所面臨的問題，本發明包含了建立單物件標註圖資集與單物件偵測模型與單物件分類模型機制、影像預測標註機制、多模型預測結果比對機制等方法組合來達成較佳之應用目標。

在擴充標註圖資集特徵上，本發明可統一儲存拆解與融合後之外部匯入之標註圖資集與收集外部物件偵測模型之可偵測物件特徵類別之特徵標註內容。

在多模型比對與訓練效率特徵上，建立單物件特徵的物件偵測模型進行預測標註與修正再訓練的效果，相較於一次標註多種物件特徵圖資的標註和訓練效果，前者效率更好，且人工複審與修正的預測標註資料的品質更佳。

在臨場應用與組合目標偵測模型特徵上，因單物件偵測模型可較快建立並產生新案場圖資的預測標註資料，可彈性搭配適合案場所需的多物件特徵組合，並可進一步建立與合併新案場之訓練圖資與物件偵測模型。

在模型預測物件類別名稱之自動審查特徵上，可利用標註物件邊界框內之區域影像為訓練圖資，透過不同之演算法與參數，訓練該單物件特徵分類模型以用來即時對預測標註資料之物件類別進行審查，具有減少人力複審成本的效果。

在精進人工智慧物件偵測模型迭代週期的工作方法與工作流程特徵上，以上述特徵與利用多模型預測結果比對機制，有著訓練模型更快收斂、標註圖資快速且易多樣化、準確度較高、預測速度較快、節省標註與審查人力的優勢，讓模型精練更有效率，亦可從案場影像中快速挑出特定的物件影像，可有效改善資料偏頗問題。以下將針對本發明提供詳細說明。

請參照圖1，其是依據本發明之一實施例繪示的優化聯合物件偵測模型的伺服器示意圖。在不同的實施例中，優化聯合物件偵測模型的伺服器100例如是各式電腦裝置及智慧型裝置，但可不限於此。如圖1所示，伺服器100包括儲存電路102及處理器104。

儲存電路102例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合，而可用以記錄多個程式碼或模組。

處理器104耦接於儲存電路102，並可為一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器（microprocessor）、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路（Application Specific Integrated Circuit，ASIC）、現場可程式閘陣列電路（Field Programmable Gate Array，FPGA）、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器（Advanced RISC Machine，ARM）的處理器以及類似品。

在本發明的實施例中，處理器104可存取儲存電路102中記錄的模組、程式碼來實現本發明提出的優化聯合物件偵測模型的方法，其細節詳述如下。

請參照圖2，其是依據本發明之一實施例繪示的優化聯合物件偵測模型的方法流程圖。本實施例的方法可由圖1的伺服器100執行，以下即搭配圖1所示的元件說明圖2各步驟的細節。此外，為便於理解本發明的概念，以下將另以圖3為例進行說明，其中圖3是依據本發明之一實施例繪示的應用情境圖。

首先，在步驟S210中，處理器104可取得圖資庫310，其中此圖資庫例如可包括多個未標註圖資及多個標註圖資集GA~GH及GN，且標註圖資集GA~GH及GN個別可對應於單一類物件。舉例而言，標註圖資集GA例如可僅包括以邊界框（bounding box）或其他標註方式標註有「物件A」（例如人）的各式圖片，標註圖資集GB例如可僅包括標註有「物件B」（例如機車）的各式圖片，標註圖資集GC例如可僅包括標註有「物件C」（例如自行車）的各式圖片，而其餘標註圖資集的內容應可依此類推，於此不另贅述。

之後，在步驟S220中，處理器104可以所述多個標註圖資集訓練多個單物件偵測模型及多個單物件分類模型，其中所述多個標註圖資集GA~GH及GN一對一地對應於所述多個單物件偵測模型，且所述多個標註圖資集一對一地對應於所述多個單物件分類模型。

舉例而言，處理器104可以標註圖資集GA來訓練用於對「物件A」進行偵測的單物件偵測模型

，以及訓練用於對「物件A」進行分類的單物件分類模型A’。舉另一例而言，處理器104可以標註圖資集B來訓練用於對「物件B」進行偵測的單物件偵測模型

，以及訓練用於對「物件B」進行分類的單物件分類模型B’。舉又一例而言，處理器104可以標註圖資集C來訓練用於對「物件C」進行偵測的單物件偵測模型

，以及訓練用於對「物件C」進行分類的單物件分類模型C’。換言之，對於圖資庫310中的各個標註圖資集而言，處理器104皆可用以訓練對應的單物件偵測模型及單物件分類模型。

應了解的是，本發明所提及的各式模型皆為人工智慧模型，且可採用各式設計者偏好的模型（例如各式神經網路等）實現，但可不限於此。

在步驟S230中，處理器104可取得多個指定偵測物件類別，並據以取得多個外部物件偵測模型ext1~ext3，其中外部物件偵測模型ext1~ext3個別可用於偵測屬於所述多個指定偵測物件類別的至少其中之一的物件。

在一實施例中，假設使用者欲使用經本發明的方法訓練而得的聯合物件偵測模型來對某個特定場域（例如某道路、路口等）進行一或多種物件的辨識的話，使用者可依據所欲偵測的物件類別來設定上述指定偵測物件類別。例如，若使用者欲讓聯合物件偵測模型具有偵測屬於「物件A」、「物件B」、「物件C」、「物件D」（例如狗）、「物件E」（例如小客車）及「物件N」（例如騎士）等物件類別之物件的能力，則使用者可將「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」設定為上述指定偵測物件類別，但可不限於此。

另外，在一實施例中，上述外部物件偵測模型個別可具有一次偵測多種物件類別的能力。舉例而言，外部物件偵測模型ext1例如可具有偵測「物件A」、「物件B」、「物件K」及「物件S」的能力。舉另一例而言，外部物件偵測模型ext2例如可具有偵測「物件C」、「物件G」及「物件M」的能力。此外，外部物件偵測模型ext2例如可具有偵測「物件A」、「物件D」、「物件E」及「物件X」的能力。由上可知，外部物件偵測模型ext1~ext3個別皆具有偵測屬於所述多個指定偵測物件類別的至少其中之一的物件的能力。

另外，在一些實施例中，處理器104於步驟S230中挑選的外部物件偵測模型也可被要求符合一或多個條件，例如「物件預測區域邊框與原標註區域邊框交疊率 (Intersection over Union)＞交疊率目標閾值」、「單一物件特徵類別平均精度(Average Precision) ＞單物件平均精度目標閾值」、「模型準確度（accuracy）＞模型準確度目標閾值」、「模型損失函數收斂結果值＜模型損失函數目標閾值」等，但可不限於此。

之後，在一實施例中，處理器104可判斷各指定偵測物件類別是否對應於所述多個標註圖資集的其中之一。

在圖3情境中，由於「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」分別對應於標註圖資集GA~GH及GN，故處理器104可判定各指定偵測物件類別皆對應於所述多個標註圖資集的其中之一，並可接續在步驟S240中從所述多個單物件偵測模型找出對應於所述多個指定偵測物件類別的多個特定單物件偵測模型。

在圖3中，處理器104可將對應於「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」的單物件偵測模型

及

作為上述特定單物件偵測模型，但可不限於此。

然而，在其他實施例中，由於使用者可能會設定未對應於任何標註圖資集的指定偵測物件類別（下稱參考指定偵測物件類別），因此本發明可透過所提出的圖資新增機制來新增對應於參考指定偵測物件類別的標註圖資集（下稱參考標註圖資集），並據以訓練對應的單物件偵測模型（下稱參考單物件偵測模型）及單物件分類模型（下稱參考單物件偵測模型）。

在一實施例中，在處理器104判定所述多個指定偵測物件類別中的參考指定偵測物件類別（例如「大客車」）未對應於標註圖資集GA~GH及GN的任一時，處理器104可在圖資庫310中新增對應於參考指定偵測物件類別的參考標註圖資集。之後，處理器104可從圖資庫310取得多筆第一圖資，並在各第一圖資中針對對應於參考指定偵測物件類別的特定類物件（例如大客車）進行標註，以產生多筆第一參考標註圖資。在一些實施例中，上述標註行為可由人工對所述第一圖資執行，但可不限於此。之後，處理器104可基於上述第一參考標註圖資訓練參考單物件偵測模型及參考單物件分類模型。

在一實施例中，反應於判定所述參考單物件偵測模型及所述參考單物件分類模型個別滿足上述目標條件，處理器104可將所述參考單物件分類模型新增至單物件偵測模型中，並將參考單物件分類模型新增至上述單物件分類模型及上述特定單物件偵測模型中。

在另一實施例中，反應於判定參考單物件偵測模型及參考單物件分類模型皆未滿足上述目標條件，且圖資庫310仍有未針對上述特定類物件（例如大客車）進行標註的多筆第二圖資，處理器104可經配置以：以參考單物件偵測模型對各第二圖資進行標註，以得到多個第二參考標註圖資；修正上述第二參考標註圖資，並將修正後的第二參考標註圖資新增至參考標註圖資集；基於參考標註圖資集再次訓練參考單物件偵測模型及參考單物件分類模型。處理器104可持續重複上述步驟，直至所述參考單物件偵測模型及所述參考單物件分類模型個別滿足上述目標條件，但可不限於此。在一些實施例中，修正各第二參考標註圖資的方式可包括但不限於：調整各第二參考標註圖資中用於標註特定類物件的邊界框位置/大小、刪除非必要之重複邊界框、調整特定類物件所在區域邊框或調整物件邊緣輪廓。

舉例而言，在一實施例中，假設圖資庫310中原本不存在標註圖資集GN，則處理器104可執行上述圖資集新增機制以在圖資庫310中新增對應於「物件N」的標註圖資集GN。之後，處理器104可基於標註圖資集GN訓練單物件偵測模型

及單物件分類模型N’。並且，在單物件偵測模型

及單物件分類模型N’個別滿足上述目標條件之後，處理器104可將單物件偵測模型

亦視為特定單物件偵測模型，但可不限於此。

在步驟S250中，處理器104可在所述多個標註圖資集GA~GH、GN中找出對應於所述多個指定偵測物件類別的多個特定標註圖資集，並據以訓練聯合物件偵測模型324。

在圖3情境中，對應於所述多個指定偵測物件類別的所述多個特定標註圖資集例如包括標註圖資集GA~GE、GN，而其可形成整合標註圖資集311。之後，處理器104可基於整合標註圖資集311來訓練訓練聯合物件偵測模型324。在此情況下，聯合物件偵測模型324應可具有偵測「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」的能力。

在本發明的實施例中，處理器104可對圖資庫310中的一或多個未標註圖資執行以下步驟。為便於說明，以下將針對未標註圖資中的一第一未標註圖資進行說明，但本發明可不限於此。

之後，在步驟S260中，處理器104可使用所述多個特定單物件偵測模型（即，單物件偵測模型

及

）、所述多個外部物件偵測模型ext1~ext3及聯合物件偵測模型324對第一未標註圖資進行偵測，以產生多個第一物件偵測結果，其中所述多個第一物件偵測結果對應於所述多個指定偵測物件類別中的第一指定偵測物件類別。

在圖3中，偵測結果341例如可包括由所述多個特定單物件偵測模型（即，單物件偵測模型

及

）對第一未標註圖資進行偵測的結果。如圖3所示，偵測結果341可包括以方框框起的代號

及

，此即代表單物件偵測模型

及

分別在第一未標註圖資中偵測到屬於「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」的物件，而每個被偵測到的物件例如可由對應的單物件偵測模型以邊界框或其他類似方式予以標註，且可具有對應的偵測信心值。

此外，偵測結果342例如可包括由所述多個外部物件偵測模型ext1~ext3對第一未標註圖資進行偵測的結果。如圖3所示，偵測結果342可包括以方框框起的代號

、

、

、

、

及

，其中

、

代表外部物件偵測模型ext1在第一未標註圖資中偵測到屬於「物件A」、「物件B」的物件；

代表外部物件偵測模型ext2在第一未標註圖資中偵測到屬於「物件C」的物件；

、

及

代表外部物件偵測模型ext3在第一未標註圖資中偵測到屬於「物件A」、「物件D」、「物件E」的物件。相似地，在第一未標註圖資中，每個被外部物件偵測模型ext1~ext3偵測到的物件可由對應的外部物件偵測模型以邊界框或其他類似方式予以標註，且可具有對應的偵測信心值。

另外，偵測結果343例如可包括由聯合物件偵測模型324對第一未標註圖資進行偵測的結果。如圖3所示，偵測結果343可包括以方框框起的代號

及

，此即代表聯合物件偵測模型324在第一未標註圖資中偵測到屬於「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」的物件。相似地，在第一未標註圖資中，每個被聯合物件偵測模型324偵測到的物件可由聯合物件偵測模型324以邊界框或其他類似方式予以標註，且可具有對應的偵測信心值。

為便於說明，以下假設第一指定偵測物件類別為「物件A」。在此情況下，處理器104於步驟S260中所取得所述多個第一物件偵測結果例如包括偵測結果341中的代號

、偵測結果342中的代號

、

及偵測結果343中的代號

，且其可個別具有對應的第一偵測信心值。

之後，在步驟S270中，處理器104可使用所述多個單物件分類模型中對應於第一指定偵測物件類別的第一單物件分類模型對各第一物件偵測結果進行預測分類以得到各第一物件偵測結果的第一物件分類結果。

承上例，在第一指定偵測物件類別經假設為「物件A」的情況下，處理器104可將單物件分類模型A’作為對應於第一指定偵測物件類別的第一單物件分類模型。之後，處理器104可使用單物件分類模型A’對上述第一物件偵測結果進行預測分類以得到各第一物件偵測結果的第一物件分類結果。

在一實施例中，處理器104可使用單物件分類模型A’對偵測結果341中的代號

進行預測分類。例如，處理器104可使用單物件分類模型A’對由單物件偵測模型

於第一未標註圖資中框選的影像區域進行預測分類，以得到相應的一第一分類信心值作為對於此影像區域的第一物件分類結果，其中所述第一分類信心值可表徵單物件偵測模型

偵測的正確性。

在另一實施例中，處理器104可使用單物件分類模型A’對偵測結果343中的代號

進行預測分類。例如，處理器104可使用單物件分類模型A’對由聯合物件偵測模型324於第一未標註圖資中框選的影像區域進行預測分類，以得到相應的一第一分類信心值作為對於此影像區域的第一物件分類結果，其中所述第一分類信心值可表徵聯合物件偵測模型324偵測的正確性。

針對偵測結果342中的代號

、

，處理器104可使用單物件分類模型A’執行與上述類似的機制，以得到其個別對應的第一物件分類結果，其細節於此不另贅述。

之後，在步驟S280中，處理器104可基於各第一物件偵測結果及對應的第一物件分類結果適應性地修正所述多個第一物件偵測結果，並將修正後的所述多個第一物件偵測結果加入所述多個標註圖資集中對應於第一指定偵測物件類別（例如「物件A」）的第一標註圖資集（例如，標註圖資集GA）。

在第一實施例中，反應於判定各第一物件偵測結果的第一偵測信心值皆高於第一偵測信心閾值，所述多個第一物件偵測結果彼此的相似度皆滿足相似度條件，且各第一物件偵測結果對應的第一分類信心值皆高於第一分類信心閾值，處理器104可相應地判定所述多個第一物件偵測結果不需修正，並將所述多個第一物件偵測結果加入第一標註圖資集（例如，標註圖資集GA）。

在一些實施例中，上述相似度條件可包括「邊框交疊率 (Intersection over Union)大於交疊率差異基準閾值」，但可不限於此。

在第二實施例中，反應於判定任一第一物件偵測結果的第一偵測信心值不高於第一偵測信心閾值，所述多個第一物件偵測結果的其中之二的相似度未滿足上述相似度條件，或任一第一物件偵測結果對應的第一分類信心值未高於第一分類信心閾值，處理器104可相應地判定所述多個第一物件偵測結果需修正，並將修正後的所述多個第一物件偵測結果加入第一標註圖資集（例如，標註圖資集GA）。

之後，在步驟S290中，處理器104可基於第一標註圖資集重新訓練所述多個單物件偵測模型中對應於第一指定偵測物件類別的第一單物件偵測模型（例如單物件偵測模型

）、第一單物件分類模型（例如單物件分類模型A’）及聯合物件偵測模型324。

在一些實施例中，處理器104可針對圖資庫310中的其他未標註圖資重複地執行步驟S260~S290，直至聯合物件偵測模型324滿足設計者所設定的一或多個目標條件。

例如，對於圖資庫310中的一第二未標註圖資而言，處理器104可經配置以：使用所述多個特定單物件偵測模型、所述多個外部物件偵測模型及聯合物件偵測模型對第二未標註圖資進行偵測，以產生多個第二物件偵測結果（例如偵測結果341中的代號

、偵測結果342中的代號

及偵測結果343中的代號

），其中所述多個第二物件偵測結果對應於所述多個指定偵測物件類別中的一第二指定偵測物件類別（例如「物件B」）；使用所述多個單物件分類模型中對應於第二指定偵測物件類別的第二單物件分類模型（例如單物件分類模型B’）對各第二物件偵測結果進行預測分類以得到各第二物件偵測結果的第二物件分類結果；基於各第二物件偵測結果及對應的第二物件分類結果適應性地修正所述多個第二物件偵測結果，並將修正後的所述多個第二物件偵測結果加入所述多個標註圖資集中對應於第二指定偵測物件類別的第二標註圖資集（例如標註圖資集GB）；基於第二標註圖資集重新訓練所述多個單物件偵測模型中對應於第二指定偵測物件類別的第二單物件偵測模型（例如單物件偵測模型

）、第二單物件分類模型及聯合物件偵測模型324。

在不同的實施例中，聯合物件偵測模型324需滿足的目標條件可包括「訓練圖資中的新增案場圖資大於規劃新增圖資數量」、「平均物件預測區域邊框與原標註區域邊框交疊率 (Intersection over Union)大於交疊率目標閾值」、「各個單一物件特徵類別平均精度(Average Precision)皆大於單物件平均精度目標閾值」、「聯合物件偵測模型324之所有可偵測之物件特徵類別之平均精度均值 (Mean Average Precision) 大於模型平均精度目標閾值」、「模型準確度（accuracy）大於模型準確度目標閾值」、「模型損失函數小於模型損失函數目標閾值」的至少其中之一，但可不限於此。

在一些實施例中，在聯合物件模型324訓練的初期時，處理器104在執行步驟S280時可採用第一實施例中記載的機制來將未修正的所述多個第一物件偵測結果加入第一標註圖資集（例如，標註圖資集GA），以較為快速地提升聯合物件偵測模型324的偵測能力。

另外，在聯合物件模型324訓練的中期時，處理器104在執行步驟S280時可採用第二實施例中記載的機制來將修正後的所述多個第一物件偵測結果加入第一標註圖資集（例如，標註圖資集GA），以藉由較為多樣的訓練資料進一步提升聯合物件偵測模型324的偵測能力。

此外，在聯合物件偵測模型324訓練的後期時，由於可能有某些標註圖資集（例如標註圖資集GA）的內容較為缺少，使得聯合物件偵測模型324對於屬於對應指定偵測物件類別（例如「物件A」）的物件的偵測能力較為不佳。因此，在一些實施例中，處理器104在執行步驟S260時可僅要求所述多個特定單物件偵測模型、所述多個外部物件偵測模型及聯合物件偵測模型僅偵測屬於上述指定偵測物件類別的物件，以增加其對應的訓練資料量。

例如，假設標註圖資集GA的內容較為缺少，則處理器104在執行步驟S260時可要求對應的第一單物件偵測模型（即，單物件偵測模型

）、外部物件偵測模型ext1~ext3及聯合物件偵測模型324對其他的未標註圖資進行偵測，並依據先前的教示將相關的偵測結果修正後加入標註圖資集GA。之後，處理器104可再依據標註圖資集GA訓練聯合物件偵測模型324（及單物件偵測模型

），以強化聯合物件偵測模型324偵測「物件A」的能力，但可不限於此。

在一些實施例中，若處理器104判定聯合物件偵測模型324已滿足上述目標條件，則處理器104可判定已完成聯合物件偵測模型324的訓練。在此情況下，訓練後的聯合物件偵測模型324即可用於對上述特定場域進行「物件A」、「物件B」、「物件C」、「物件D」、「物件E」及「物件N」的偵測，但可不限於此。

綜上所述，本發明至少具備以下特點。

（1）累積標註成果，彈性組合應用：可將既有的多個訓練標註圖資集，以各個物件特徵類別進行抽離、分類、再彙集建立各個單物件特徵類別的標註資料集，並訓練產生對應的各個單物件特徵類別的單物件偵測模型。以此方式可累積影像標註成果、可簡化後續更新維護成本、增加建立新應用的模型效率與組合彈性。

（2）可融合既有模型成果：對於未提供訓練資料集的模型，透過預測標註模組，對既有圖資庫進行預測標註，除可得到該模型之各個物件特徵類別之預測準確率，亦可進行反向驗證該既有對應之標註資料集的資料是否準確，並修正標註資料。當該模型具有標註圖資集中未標註的一物件特徵類別，根據本發明的特點，可將該一物件特徵類別之修正後標註資料儲存於該一物件特徵類別標註圖資集，實現融合既有模型成果。

（3）利用既有模型比對篩選資料：可利用組織內或外部的既有機器學習物件偵測模型幫助篩選未標註圖資，亦可作為目標模型預測標註結果的比對資訊、幫助檢測與建立各個單物件特徵類別的標註圖資集。

（4）以單物件偵測模型為預測比對標的：利用單物件特徵類別之AI偵測模型對比多種物件特徵類別之AI偵測模型的優勢，有訓練更快收斂、圖資標註快且易多樣化、準確度較高、預測速度較快的優勢，可為主要AI偵測模型預測的比對標的，取代初期圖資之篩選、標註、審查人力。

（5）可快速且彈性擴充訓練標註圖資：當有擴增新物件特徵類別的需求，可從既有圖資庫中標註部分少量的圖資，經由建立單物件特徵類別的物件偵測模型，再透過預測標註模組篩選與擴充標註訓練圖資的迭代方式完成所有新進標註圖資與精煉模型。

（6）可提供物件特徵類別的菜單自動產生訓練圖資與應用模型：依應用需求挑選欲偵測的物件特徵類別，初期可從標註圖資集快速組合出符合新應用所需的多項物件特徵類別的訓練標註圖資，訓練後得到所需求的聯合物件偵測模型。後續以需求組合內的各個單物件特徵類別的物件偵測模型，對新投入未標註之圖資進行預測，再以多模型預測結果比對機制進行標註圖資擴充與目標聯合模型的精練。

（7）多模型預測結果比對機制：本發明的多模型預測結果比對機制可更精準挑選出所需要的圖資進行標註；經由對比挑出AI模型預測不準確的新圖資再投入訓練，讓訓練模型更有效率；可快速篩選所需特定物件影像資料，解決訓練圖資偏頗問題；幫助降低AI物件偵測模型的精練成本，減少目標模型的迭代訓練週期，加快AI模型商用時程。

（8）提供對預測結果之物件類別的審查機制：透過建立單物件特徵類別的物件分類模型，可複檢該相同物件特徵類別的物件偵測模型之偵測結果之物件邊界框內之區域影像，是否為該物件特徵類別之正確性。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:伺服器 102:儲存電路 104:處理器 310:圖資集 311:整合標註圖資集 GA~GH,GN:標註圖資集

,

:單物件偵測模型 A’~E’,N’:單物件分類模型 324:聯合偵測模型 341~343:偵測結果 S210~S290:步驟

圖1是依據本發明之一實施例繪示的優化聯合物件偵測模型的伺服器示意圖。圖2是依據本發明之一實施例繪示的優化聯合物件偵測模型的方法流程圖。圖3是依據本發明之一實施例繪示的應用情境圖。

S210~S290:步驟

Claims

一種優化聯合物件偵測模型的方法，包括：取得一圖資庫，其中該圖資庫包括一第一未標註圖資及多個標註圖資集，各該標註圖資集對應於單一類物件；以該些標註圖資集訓練多個單物件偵測模型及多個單物件分類模型，其中該些標註圖資集一對一地對應於該些單物件偵測模型，且該些標註圖資集一對一地對應於該些單物件分類模型；取得多個指定偵測物件類別，並據以取得多個外部物件偵測模型，其中各該外部物件偵測模型用於偵測屬於該些指定偵測物件類別的至少其中之一的物件；反應於判定各該偵測物件類別對應於該些標註圖資集的其中之一，從該些單物件偵測模型找出對應於該些指定偵測物件類別的多個特定單物件偵測模型；在該些標註圖資集中找出對應於該些指定偵測物件類別的多個特定標註圖資集，並據以訓練一聯合物件偵測模型；使用該些特定單物件偵測模型、該些外部物件偵測模型及該聯合物件偵測模型對該第一未標註圖資進行偵測，以產生多個第一物件偵測結果，其中該些第一物件偵測結果對應於該些指定偵測物件類別中的一第一指定偵測物件類別；使用該些單物件分類模型中對應於該第一指定偵測物件類別的一第一單物件分類模型對各該第一物件偵測結果進行預測分類以得到各該第一物件偵測結果的一第一物件分類結果；基於各該第一物件偵測結果及對應的該第一物件分類結果適應性地修正該些第一物件偵測結果，並將修正後的該些第一物件偵測結果加入該些標註圖資集中對應於該第一指定偵測物件類別的一第一標註圖資集；基於該第一標註圖資集重新訓練該些單物件偵測模型中對應於該第一指定偵測物件類別的一第一單物件偵測模型、該第一單物件分類模型及該聯合物件偵測模型。
如請求項1所述的方法，其中反應於判定該些偵測物件類別中的一參考指定偵測物件類別未對應於該些標註圖資集的任一，所述方法更包括：在該圖資庫的該些標註圖資集中新增對應於該參考指定偵測物件類別的一參考標註圖資集；從該圖資庫取得多筆第一圖資，並在各該第一圖資中針對對應於該參考指定偵測物件類別的一特定類物件進行標註，以產生多筆第一參考標註圖資；基於該些第一參考標註圖資訓練一參考單物件偵測模型及一參考單物件分類模型；反應於判定該參考單物件偵測模型及該參考單物件分類模型個別滿足至少一目標條件，將該參考單物件分類模型新增至該些單物件偵測模型中，並將該參考單物件分類模型新增至該些單物件分類模型及該些特定單物件偵測模型中。
如請求項2所述的方法，其中反應於判定該參考單物件偵測模型及該參考單物件分類模型皆未滿足該至少一目標條件，且該圖資庫仍有未針對該特定類物件進行標註的多筆第二圖資，所述方法更包括：以該參考單物件偵測模型對各該第二圖資進行標註，以得到多個第二參考標註圖資；修正該些第二參考標註圖資，並將修正後的該些第二參考標註圖資新增至該參考標註圖資集；基於該參考標註圖資集再次訓練該參考單物件偵測模型及該參考單物件分類模型。
如請求項1所述的方法，其中該圖資庫更包括一第二未標註圖資，且所述方法更包括：使用該些特定單物件偵測模型、該些外部物件偵測模型及該聯合物件偵測模型對該第二未標註圖資進行偵測，以產生多個第二物件偵測結果，其中該些第二物件偵測結果對應於該些指定偵測物件類別中的一第二指定偵測物件類別；使用該些單物件分類模型中對應於該第二指定偵測物件類別的一第二單物件分類模型對各該第二物件偵測結果進行預測分類以得到各該第二物件偵測結果的一第二物件分類結果；基於各該第二物件偵測結果及對應的該第二物件分類結果適應性地修正該些第二物件偵測結果，並將修正後的該些第二物件偵測結果加入該些標註圖資集中對應於該第二指定偵測物件類別的一第二標註圖資集；基於該第二標註圖資集重新訓練該些單物件偵測模型中對應於該第二指定偵測物件類別的一第二單物件偵測模型、該第二單物件分類模型及該聯合物件偵測模型。
如請求項1所述的方法，其中反應於判定該聯合物件偵測模型已滿足至少一目標條件，所述方法更包括：判定已完成該聯合物件偵測模型的訓練。
如請求項1所述的方法，其中各該第一物件偵測結果具有對應的一第一偵測信心值，各該第一物件偵測結果的該第一物件分類結果具有一第一分類信心值，且基於各該第一物件偵測結果及對應的該第一物件分類結果適應性地修正該些第一物件偵測結果的步驟包括：反應於判定各該第一物件偵測結果的該第一偵測信心值皆高於一第一偵測信心閾值，該些第一物件偵測結果彼此的相似度皆滿足相似度條件，且各該第一物件偵測結果對應的該第一分類信心值皆高於一第一分類信心閾值，判定該些第一物件偵測結果不需修正，並將該些第一物件偵測結果加入該第一標註圖資集。
如請求項1所述的方法，其中各該第一物件偵測結果具有對應的一第一偵測信心值，各該第一物件偵測結果的該第一物件分類結果具有一第一分類信心值，且基於各該第一物件偵測結果及對應的該第一物件分類結果適應性地修正該些第一物件偵測結果的步驟包括：反應於判定任一該第一物件偵測結果的該第一偵測信心值不高於一第一偵測信心閾值，該些第一物件偵測結果的其中之二的相似度未滿足相似度條件，或任一該第一物件偵測結果對應的該第一分類信心值未高於一第一分類信心閾值，判定該些第一物件偵測結果需修正，並將修正後的該些第一物件偵測結果加入該第一標註圖資集。
一種優化聯合物件偵測模型的伺服器，包括：一儲存電路，儲存多個模組；以及一處理器，耦接該儲存電路，存取該些模組以執行下列步驟：取得一圖資庫，其中該圖資庫包括一第一未標註圖資及多個標註圖資集，各該標註圖資集對應於單一類物件；以該些標註圖資集訓練多個單物件偵測模型及多個單物件分類模型，其中該些標註圖資集一對一地對應於該些單物件偵測模型，且該些標註圖資集一對一地對應於該些單物件分類模型；取得多個指定偵測物件類別，並據以取得多個外部物件偵測模型，其中各該外部物件偵測模型用於偵測屬於該些指定偵測物件類別的至少其中之一的物件；反應於判定各該偵測物件類別對應於該些標註圖資集的其中之一，從該些單物件偵測模型找出對應於該些指定偵測物件類別的多個特定單物件偵測模型；在該些標註圖資集中找出對應於該些指定偵測物件類別的多個特定標註圖資集，並據以訓練一聯合物件偵測模型；使用該些特定單物件偵測模型、該些外部物件偵測模型及該聯合物件偵測模型對該第一未標註圖資進行偵測，以產生多個第一物件偵測結果，其中該些第一物件偵測結果對應於該些指定偵測物件類別中的一第一指定偵測物件類別；使用該些單物件分類模型中對應於該第一指定偵測物件類別的一第一單物件分類模型對各該第一物件偵測結果進行預測分類以得到各該第一物件偵測結果的一第一物件分類結果；基於各該第一物件偵測結果及對應的該第一物件分類結果適應性地修正該些第一物件偵測結果，並將修正後的該些第一物件偵測結果加入該些標註圖資集中對應於該第一指定偵測物件類別的一第一標註圖資集；基於該第一標註圖資集重新訓練該些單物件偵測模型中對應於該第一指定偵測物件類別的一第一單物件偵測模型、該第一單物件分類模型及該聯合物件偵測模型。
如請求項8所述的伺服器，其中反應於判定該些偵測物件類別中的一參考指定偵測物件類別未對應於該些標註圖資集的任一，該處理器更經配置以：在該圖資庫的該些標註圖資集中新增對應於該參考指定偵測物件類別的一參考標註圖資集；從該圖資庫取得多筆第一圖資，並在各該第一圖資中針對對應於該參考指定偵測物件類別的一特定類物件進行標註，以產生多筆第一參考標註圖資；基於該些第一參考標註圖資訓練一參考單物件偵測模型及一參考單物件分類模型；反應於判定該參考單物件偵測模型及該參考單物件分類模型個別滿足至少一目標條件，將該參考單物件分類模型新增至該單些單物件模型中，並將該參考單物件分類模型新增至該些單物件分類模型及該些特定單物件偵測模型中。
如請求項9所述的伺服器，其中反應於判定該參考單物件偵測模型及該參考單物件分類模型皆未滿足該至少一目標條件，且該圖資庫仍有未針對該特定類物件進行標註的多筆第二圖資，該處理器更經配置以：以該參考單物件偵測模型對各該第二圖資進行標註，以得到多個第二參考標註圖資；修正該些第二參考標註圖資，並將修正後的該些第二參考標註圖資新增至該參考標註圖資集；基於該參考標註圖資集再次訓練該參考單物件偵測模型及該參考單物件分類模型。
如請求項8所述的伺服器，其中該圖資庫更包括一第二未標註圖資，且該處理器更經配置以：使用該些特定單物件偵測模型、該些外部物件偵測模型及該聯合物件偵測模型對該第二未標註圖資進行偵測，以產生多個第二物件偵測結果，其中該些第二物件偵測結果對應於該些指定偵測物件類別中的一第二指定偵測物件類別；使用該些單物件分類模型中對應於該第二指定偵測物件類別的一第二單物件分類模型對各該第二物件偵測結果進行預測分類以得到各該第二物件偵測結果的一第二物件分類結果；基於各該第二物件偵測結果及對應的該第二物件分類結果適應性地修正該些第二物件偵測結果，並將修正後的該些第二物件偵測結果加入該些標註圖資集中對應於該第二指定偵測物件類別的一第二標註圖資集；基於該第二標註圖資集重新訓練該些單物件偵測模型中對應於該第二指定偵測物件類別的一第二單物件偵測模型、該第二單物件分類模型及該聯合物件偵測模型。
如請求項8所述的伺服器，其中反應於判定該聯合物件偵測模型已滿足至少一目標條件，該處理器更經配置以：判定已完成該聯合物件偵測模型的訓練。
如請求項6所述的伺服器，其中各該第一物件偵測結果具有對應的一第一偵測信心值，各該第一物件偵測結果的該第一物件分類結果具有一第一分類信心值，且該處理器經配置以：反應於判定各該第一物件偵測結果的該第一偵測信心值皆高於一第一偵測信心閾值，該些第一物件偵測結果彼此的相似度皆滿足相似度條件，且各該第一物件偵測結果對應的該第一分類信心值皆高於一第一分類信心閾值，判定該些第一物件偵測結果不需修正，並將該些第一物件偵測結果加入該第一標註圖資集。
如請求項6所述的伺服器，其中各該第一物件偵測結果具有對應的一第一偵測信心值，各該第一物件偵測結果的該第一物件分類結果具有一第一分類信心值，且該處理器經配置以：反應於判定任一該第一物件偵測結果的該第一偵測信心值不高於一第一偵測信心閾值，該些第一物件偵測結果的其中之二的相似度未滿足相似度條件，或任一該第一物件偵測結果對應的該第一分類信心值未高於一第一分類信心閾值，判定該些第一物件偵測結果需修正，並將修正後的該些第一物件偵測結果加入該第一標註圖資集。