TWI758762B

TWI758762B - 兼顧不平衡資料集與高召回率要求的對抗樣本生成方法、系統及電腦可讀取記錄媒體

Info

Publication number: TWI758762B
Application number: TW109121653A
Authority: TW
Inventors: 郭立言; 劉謹瑋; 朱俊翰; 王彥翔
Original assignee: 萬里雲互聯網路有限公司
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2022-03-21
Also published as: TW202201261A

Abstract

一種兼顧不平衡資料集與高召回率要求的對抗樣本生成方法及其電腦可讀取記錄媒體，包括：基於第一類別設定一對抗擾動範圍；一分類器於向量空間建構一超平面以作為一決策邊界，使得多個樣本，可基於決策邊界被區分為第一類別樣本及第二類別樣本，且第一類別樣本的數量，於空間中少於第二類別樣本的數量；載入一對抗訓練模型，以使多個第一類別樣本，沿著垂直於決策邊界的向量，建置一長度為第一對抗擾動範圍的向量，以於空間中生成第一對抗樣本；賦予各對抗樣本的類別標籤為第一類別，以供分類器進行訓練後，調校出更新後決策邊界；本發明藉由生成對抗樣本，可挑戰決策邊界，亦能解決樣本數量懸殊問題及達成高召回率，本發明亦提出一種對抗樣本生成系統。

Description

兼顧不平衡資料集與高召回率要求的對抗樣本生成方法、系統及電腦可讀取記錄媒體

發明涉及機器學習技術，尤指一種可於機器學習模型的訓練過程中，藉由生成對抗樣本，挑戰決策邊界，同時能解決訓練樣本數量懸殊之問題、及達成高召回率要求的「兼顧不平衡資料集與高召回率要求的對抗樣本生成方法、系統及電腦可讀取記錄媒體」。

隨著應用機器學習技術之分類模型的快速發展，越來越多應用層面依賴於影像分類或事件分類的結果，但無論是在學界或是業界，使用真實資料來訓練模型的成本都非常昂貴，除了樣本需經過人工標示和挑選，有些應用場景也較缺乏訓練樣本或是不容易取得，使得訓練模型的過程較為困難，而對抗生成網路(Generative Adversarial Networks，GANs)則巧妙地運用生成器與判別器互相學習的機制，解決了這些問題，在對抗生成網路中進行對抗學習模型的訓練時，主要建立一生成器(Generator)和一判別器(Discriminator)的神經網路，這兩個神經網路相互競爭，生成器隨機地從訓練集中挑選真實數據和雜訊(Random Noise)，來產生能以高置信度分別越過決策邊界而產生錯誤分類(misclassification)的對抗樣本(Adversarial Examples)，以作為新的訓練樣本，判別器再採用與真實數據比對的方式，判斷出數據的真實性，如此一來，生成器與判別器可以透過相互博弈的方式進行學習、優化預測能力進而創造較佳的預測模型；然而，雖藉由GANs產生對抗樣本，有助於調校分類器的決策邊界，可搭配參照文獻《Partial Adversarial Training for Prediction Interval》的「Figure 1: Adversarial training with classification example」(獲取自https://www.researchgate.net/publication/323869671_Partial_Adversarial_Training_for_Prediction_Interval)，但若使用者較在意分類(例如positive instance)與較不在意分類(例如negative instance)的樣本數量懸殊，則調校後的決策邊界仍有不夠分類準確率不足的問題，並且，對抗生成網路的目的也並非在於挑戰決策邊界，是以，如何提出一種可挑戰分類器之決策邊界，以訓練出效能更佳之分類模型、同時可解決因訓練樣本懸殊(imbalanced data)而無法調校更佳決策邊界的問題、及兼顧高召回率之應用需求的技術手段，仍為有待解決之問題。

為達上述目的，本發明人基於多年從事於機器學習技術之研究、開發及實務經驗，提出一種兼顧不平衡資料集與高召回率要求的對抗樣本生成系統，包括一處理器及通訊/電性耦接於處理器的一記憶體，其中，處理器用以存取並執行記憶體所儲存的至少一指令，以基於一第一類別設定一第一對抗擾動範圍；令一分類器於一向量空間建構一超平面，令超平面作為一決策邊界，使得多個樣本，可基於決策邊界被區分為屬於第一類別的多個第一類別樣本、及屬於一第二類別的多個第二類別樣本，且多個第一類別樣本的數量，於向量空間中少於多個第二類別樣本的數量；載入一對抗訓練模型，以使多個第一類別樣本（亦可使鄰近於決策邊界的多個第一類別樣本），分別沿著垂直於決策邊界的向量，建置一長度為第一對抗擾動範圍的向量，以生成一第一對抗樣本；賦予各第一對抗樣本的類別標籤為第一類別，且各第一對抗樣本係供分類器進行訓練，使得決策邊界於向量空間中，被推向至第二類別的所在區域，進而於向量空間構建一更新後決策邊界；另，本發明的處理器亦可基於第二類別設定一第二對抗擾動範圍，且第一對抗擾動範圍大於第二對抗擾動範圍，其後，對多個第二類別樣本，建置一長度為第二對抗擾動範圍的向量，以生成一第二對抗樣本；本發明亦提出一種可執行前述指令之兼顧不平衡資料集與高召回率要求的對抗樣本生成方法、及其電腦可讀取記錄媒體。

為使貴審查委員得以清楚瞭解本發明之目的、技術特徵及其實施後之功效，茲以下列說明搭配圖示進行說明，敬請參閱。

請參閱「第1圖」，其為本發明之系統方塊圖，本實施例的對抗樣本生成系統10包含一處理器101，另有一記憶體102可通訊或電性耦接於處理器101，記憶體102儲存有至少一分類器C(classifier)、一訓練集D(dataset)與至少一對抗訓練模型A，其中，處理器101用以存取並執行記憶體102儲存的至少一指令I，以基於一第一類別設定一第一對抗擾動(perturbation)範圍；於一向量空間(eigenspace/vector space)分類器C所輸出的多個樣本(可隨機輸入(Fetch instance randomly))；令分類器C於向量空間建構一超平面(hyperplane)，令超平面作為一決策邊界(decision surface/boundary)，使得多個樣本，可基於決策邊界被區分為屬於第一類別的多個第一類別樣本、及屬於一第二類別的多個第二類別樣本，且多個第一類別樣本的數量，於向量空間中，少於多個第二類別樣本的數量；載入對抗訓練模型A，以使多個第一類別樣本，或者較佳地，亦可使鄰近於決策邊界的多個第一類別樣本，分別沿著垂直於決策邊界的向量，建置一長度為第一對抗擾動範圍的向量，以生成一第一對抗樣本(adversarial example)；賦予各第一對抗樣本的類別標籤為第一類別，且各第一對抗樣本供分類器C進行訓練，使得決策邊界於向量空間中，被推向至第二類別的所在區域，進而於向量空間構建一更新後決策邊界(adversarial/updated decision boundary)，此外，本發明所稱的樣本並不以兩個類別為限，若有三個以上的決策邊界，則可使樣本被區分為至少三個類別，而在這三個類別中，只要有其中一個類別(例如第一類別)相較於其它兩個類別(例如第二、第三類別)，更讓使用者在意，則產生對抗樣本的方式，均以前述可將決策邊界更推向至使用者較不在意分類的所在區域為目標，特先陳明。

請參閱「第2圖」，其為本發明之一實施例的方法流程圖，並請搭配參閱「第3圖」之示意圖，本發明提出一種對抗樣本生成方法S，包括：(1) (步驟S10)基於第一類別設定第一對抗擾動範圍；(2) (步驟S20)於向量空間中輸入分類器C所輸出的多個樣本；此外，應理解，在步驟S20執行前，可先初始化分類器C(classifier)及對抗訓練模型A，並進行一次新的迭代(new iteration)，以開始輸入分類器C所生成的分類決定；(3) (步驟S30)分類器C於向量空間建構一超平面，令超平面作為決策邊界B，使得多個樣本，可基於決策邊界B被區分為屬於第一類別C1的多個第一類別樣本C1_E、及屬於第二類別C2的多個第二類別樣本C2_E，且多個第一類別樣本C1_E的數量，於向量空間中，少於多個第二類別樣本C2_E的數量；(4) (步驟S40)載入對抗訓練模型A，以使多個第一類別樣本C1_E，分別沿著垂直於決策邊界B的向量，建置一長度為第一對抗擾動範圍的向量C1_P，以生成第一對抗樣本C1_AP；(5) 承上，更具體而言，步驟S40所稱的對抗訓練模型A，可例如為一種虛擬對抗訓練(VAT)模型的變體，但不以此為限，首先說明原始VAT模型的目標函數(objective function)係被定義如下：

(6) 承上，進一步說明上述的原始VAT模型之目標函數的各參數定義，

為有標籤資料集的一負對數似然函數，

為有標籤資料集，

為無標籤資料集，

為加入擾動的預測分布，

為預測分布(其在半監督學習條件下，其分布接近於真實分布

)，

用於表示

或

的輸入向量，

為用於度量分布之間距離的非負度量函數，

為供以控制擾動之選取界限的超參數，

為對抗擾動範圍；(7) 但本發明所採用的對抗訓練模型A，主要基於VAT模型所強調「對於給定條件標籤分布 p(y|x) 的數據，度量其分布局部光滑性(smooth)」的概念所延伸，更具體而言，本發明之對抗訓練模型A的目標函數可被定義如下：

(8) 承上，進一步說明上述對抗訓練模型A之目標函數的各參數定義，

為加入擾動的預測分布，

為預測分布，

用於表示

或

的輸入向量，

為用於度量分布之間距離的非負度量函數，

為供以第l標籤之最大擾動之界限的超參數，

為對抗擾動範圍，其中，

， L是標籤空間。(9) 承上，應注意，在本發明所示例之對抗訓練模型A中，相較於習知的VAT模型，主要的顯著差異在於本發明可對不同類別設定不同的超參數

，例如對

設定較大的

、對

設定較小的

，且被設定於使用者較在意分類的超參數

越大越好，如此

更能朝向決策邊界B移動，而

影響了基於不同類別所設定的對抗擾動範圍

，導致

將大於

；(10) (步驟S50)賦予各第一對抗樣本C1_AP的類別標籤為第一類別C1，各第一對抗樣本C1_AP供分類器C進行訓練，使得決策邊界B於向量空間中，被推向至第二類別C2的所在區域，進而於向量空間構建一更新後決策邊界B’，步驟S50執行完畢後，即如「第3圖」所示，由圖可知，更新後決策邊界B’被構建後，雖原先被歸類於第二類別C2的部分樣本，將可能被錯誤的被歸類於第一類別C1，但更能確保第一類別C1的樣本能被正確分類，而能達成高召回率之需求；(11) 承上，本發明於一實施例中，步驟S50執行完畢後，對抗樣本生成方法S更可包含：依據ROC曲線、AUC、召回率指標、及/或準確率指標)，判別訓練中之分類器C的成效，更具體而言，此步驟指可依據ROC曲線(Receiver operating characteristic curve)、及/或AUC (Area Under Curve，曲線下面積)、及/或依據召回率指標(Recall，意即在所有正樣本當中，能夠預測多少正樣本的比例)、及/或依據準確率指標(Precision，意即在所有預測為正樣本中，真實情況中有多少為正樣本)，判別訓練中之分類器B及對抗訓練模型A的成效(即評估模型的好壞)，以作為是否要對訓練樣本數量較少的類別、或對各類別，再更新其對應的超參數

，以產生不同對抗擾動範圍

的判斷依據，依此步驟完成更新後，可再接續執行步驟S10；(12) 承上，本發明於一實施例中，對抗樣本生成方法S更可包含：透過損失函數計算對抗訓練模型A的損失(compound loss，即目標函數objective function)、及各參數梯度(gradient of each variable)，以更新分類器C與對抗訓練模型A的參數，並重新進行一次新的迭代；(13) 此外，由於前述對抗訓練模型A的目標函數已提及可對各類別皆設定超參數

，故本發明於一實施例中，對抗樣本生成方法S的步驟S10更可包含：基於第二類別C2設定一第二對抗擾動範圍，且第一對抗擾動範圍大於第二對抗擾動範圍，其後，對多個第二類別樣本C2_E，建置一長度為第二對抗擾動範圍的向量，以生成一第二對抗樣本(圖中未繪示)，依此，假設相較於第一類別C1，第二類別C2為使用者較不在意的分類，則可透過對第二類別C2賦予較小的超參數，使得第二類別C2被設定的第二對抗擾動範圍，可明顯小於第一對抗擾動範圍，以盡可能不影響本發明欲使決策邊界B於向量空間中，被推向至第二類別C2的所在區域之目的(push the boundary away from the data belonging to classes with high recall requirements)。

請參閱「第1圖」，應理解，爲了讓處理器101載入分類器C以進行分類任務，分類器C可被定義爲與儲存於記憶體102中的一分類訓練資料庫(圖中未繪示)形成資訊連接，以基於分類訓練資料庫中對應於不同物件特徵的多個分類訓練資料集(Classifier Training Data)、多個已標記樣本(指已預先標記部分的物件特徵)、多個不完全標記樣本、及多個測試資料集，而産生出分類器C。

請參閱「第1圖」至「第3圖」，於本發明之一實施例中，本發明更提供一種非暫態(non-transitory)電腦可讀取記錄媒體，關聯於至少一指令I以界定前述的對抗樣本生成方法S，各步驟之相關說明已詳述於「第1圖」至「第3圖」所示的實施例，於此不再贅述。

請繼續參閱「第1圖」至「第3圖」，於本發明之一實施例中，本發明更提供一種電腦程式産品，當電腦系統載入該電腦程式產品的多個指令I後，係至少可完成如前述的對抗樣本生成方法S，步驟之相關說明已詳述於「第1圖」至「第3圖」所示的實施例，於此不再贅述。

請參閱「第1圖」至「第3圖」，作為示例，本發明所述的處理器101具備邏輯運算、暫存運算結果、保存資料運算指令位置等功能，其可包含但不限於單一處理器以及多個微處理器之集成，例如一中央處理器(CPU)、一微處理器(MPU)、一微控制器(MCU)、一應用處理器(AP)、一嵌入式處理器、一圖形處理單元(GPU)、或一特殊應用積體電路(ASIC)之集成，但均不以此為限，藉此，處理器101可用以自記憶體102存取至少一指令I，以依據所述的至少一指令I執行前述的對抗樣本生成方法S。

請參閱「第1圖」至「第3圖」，作為示例，本發明所述的記憶體102可為快閃(flash)記憶體、硬碟(HDD)、固態硬碟(SSD)、動態隨機存取記憶體(DRAM)或靜態隨機存取記憶體(SRAM)，若作為一種非暫態電腦可讀取媒體，則記憶體102可儲存關聯於前述對抗樣本生成方法S的至少一指令I，該至少一指令I可供處理器101存取並執行。

請參閱「第1圖」至「第3圖」，作為示例，本發明所述的分類器C可例如為一支援向量機(Support Vector Machine, SVM)，但並不以此為限，此外，本發明所稱的決策邊界，並不以一線性決策邊界(linear decision boundaries)為限，亦可為一非線性決策邊界(non-linear decision boundaries)。

請參閱「第1圖」至「第3圖」，作為示例，本發明所述的分類器C，可適用於訓練一圖像分類任務、一音頻分類任務、一異常交易分類任務、一詐騙偵測任務之其中一種或其組合的分類模型，舉例而言，若分類模型的分類任務為圖像分類任務(Image Recognition)，則其可例如為：LeNet、AlexNet、VGGnet、NIN、GoogLeNet、MobileNet、SqueezeNet、ResNet、SiameseNet、NASNet、RNN、RetinaNet或其它基於神經網路的訓練模型；若分類模型M的分類任務為音頻分類任務，則其可例如為基於YouTube-8M Dataset(其可獲取於https://research.google.com/youtube8m/)的YouTube-8M模型(其可獲取於https://github.com/google/youtube-8m#overview-of-)；若分類模型M的分類任務為異常交易分類任務，則其可適用於反洗錢應用(Anti-Money Laundering, AML)，並可例如從IBM Watson提供的(https://www.ibm.com/us-en/marketplace/financial-crimes-insight-alert-triage)上獲取；若分類模型M的分類任務為詐騙偵測任務(Fraud Detection)，則其可例如為習知的Amazon 詐騙偵測器，其可於(https://aws.amazon.com/tw/fraud-detector/)上獲取，亦可例如為IBM的Watson Studio，其可於(https://www.ibm.com/tw-zh/analytics/fraud-prediction)上獲取，但以上僅為舉例，皆不以此為限。

綜上可知，本發明據以實施後，透過對資料集(樣本)較少的類別，賦予較更大的對抗擾動範圍，可使得在訓練分類器時，達成讓當前分類器具有較高召回率、較佳的決策邊界挑戰效果、及利用優化後的對抗樣本生成方法，訓練出效能更佳之當前分類模型的有利功效。

唯，以上所述者，僅為本發明之較佳之實施例而已，並非用以限定本發明實施之範圍；任何熟習此技藝者，在不脫離本發明之精神與範圍下所作之均等變化與修飾，皆應涵蓋於本發明之專利範圍內。

綜上所述，本發明之功效，係具有發明之「產業可利用性」、「新穎性」與「進步性」等專利要件；申請人爰依專利法之規定，向　鈞局提起發明專利之申請。

10:對抗樣本生成系統 101:處理器 102:記憶體 I:指令 C:分類器 D:訓練集 A:對抗訓練模型 C1:第一類別 C1_E:第一類別樣本 C1_P:向量 C1_AP:第一對抗樣本 C2:第二類別 C2_E:第二類別樣本 B:決策邊界 B’:更新後決策邊界 S:對抗樣本生成方法 S10:基於第一類別設定第一對抗擾動範圍 S20:於向量空間中輸入分類器所輸出的多個樣本 S30:分類器於向量空間建構超平面，令超平面作為決策邊界，使得多個樣本，可基於決策邊界被區分為屬於第一類別的多個第一類別樣本、及屬於第二類別的多個第二類別樣本，且多個第一類別樣本的數量，於向量空間中，少於多個第二類別樣本的數量 S40:載入對抗訓練模型，以使多個第一類別樣本，分別沿著垂直於決策邊界的向量，建置長度為第一對抗擾動範圍的向量，以生成第一對抗樣本 S50:賦予各第一對抗樣本的類別標籤為第一類別，各第一對抗樣本供分類器進行訓練，使得決策邊界於向量空間中，被推向至第二類別的所在區域，進而於向量空間構建一更新後決策邊界

第1圖，為本發明之系統方塊圖。第2圖，為本發明之一實施例的方法流程圖。第3圖，為本發明之對抗樣本生成及對抗訓練示意圖。

S:對抗樣本生成方法

S10:基於第一類別設定第一對抗擾動範圍

S20:於向量空間中輸入分類器所輸出的多個樣本

S30:分類器於向量空間建構超平面，令超平面作為決策邊界，使得多個樣本，可基於決策邊界被區分為屬於第一類別的多個第一類別樣本、及屬於第二類別的多個第二類別樣本，且多個第一類別樣本的數量，於向量空間中，少於多個第二類別樣本的數量

S40:載入對抗訓練模型，以使多個第一類別樣本，分別沿著垂直於決策邊界的向量，建置長度為第一對抗擾動範圍的向量，以生成第一對抗樣本

S50:賦予各第一對抗樣本的類別標籤為第一類別，各第一對抗樣本供分類器進行訓練，使得決策邊界於向量空間中，被推向至第二類別的所在區域，進而於向量空間構建一更新後決策邊界

Claims

一種兼顧不平衡資料集與高召回率要求的對抗樣本生成方法，由一處理器所執行，供以挑戰一決策邊界，包含：基於一第一類別設定一第一對抗擾動範圍；一分類器於一向量空間建構一超平面，令該超平面作為該決策邊界，使得多個樣本，可基於該決策邊界被區分為屬於該第一類別的多個第一類別樣本、及屬於一第二類別的多個第二類別樣本，且該多個第一類別樣本的數量，於該向量空間中，少於該多個第二類別樣本的數量；載入一可變動超參數一對抗訓練模型，以使該多個第一類別樣本，分別沿著垂直於該決策邊界的向量，建置一長度為該第一對抗擾動範圍的向量，以生成一第一對抗樣本；以及賦予各該第一對抗樣本的類別標籤為該第一類別，且各該第一對抗樣本供該分類器進行訓練，使得該決策邊界於該向量空間中，被推向至該第二類別的所在區域，進而於該向量空間構建一更新後決策邊界。
如請求項1的兼顧不平衡資料集與高召回率要求的對抗樣本生成方法，其中，載入該對抗訓練模型後，係對鄰近於該決策邊界的該多個第一類別樣本，建置長度為該第一對抗擾動範圍的該向量。
如請求項1或請求項2的兼顧不平衡資料集與高召回率要求的對抗樣本生成方法，更包含：基於該第二類別設定一第二對抗擾動範圍，且該第一對抗擾動範圍大於該第二對抗擾動範圍，其後，對該多個第二類別樣本，建置一長度為該第二對抗擾動範圍的向量，以生成一第二對抗樣本。
一種兼顧不平衡資料集與高召回率要求的對抗樣本生成系統，包含：一記憶體，儲存至少一指令、一分類器、一可變動超參數的一對抗訓練模型；以及一處理器，與該記憶體通訊連接，其中，該處理器用以存取並執行該至少一指令，以基於一第一類別設定一第一對抗擾動範圍；令該分類器於一向量空間建構一超平面，令該超平面作為一決策邊界，使得該多個樣本，可基於該決策邊界被區分為屬於該第一類別的多個第一類別樣本、及屬於一第二類別的多個第二類別樣本，且該多個第一類別樣本的數量，於該向量空間中，少於該多個第二類別樣本的數量；載入該對抗訓練模型，以使該多個第一類別樣本，分別沿著垂直於該決策邊界的向量，建置長度為該第一對抗擾動範圍的一向量，以生成一第一對抗樣本；賦予各該第一對抗樣本的類別標籤為該第一類別，且各該第一對抗樣本供該分類器進行訓練，使得該決策邊界於該向量空間中，被推向至該第二類別的所在區域，進而於該向量空間構建一更新後決策邊界。
如請求項4的兼顧不平衡資料集與高召回率要求的對抗樣本生成系統，其中，載入該對抗訓練模型後，係對鄰近於該決策邊界的該多個第一類別樣本，建置長度為該第一對抗擾動範圍的該向量。
如請求項4或請求項5的兼顧不平衡資料集與高召回率要求的對抗樣本生成系統，其中，該處理器亦用以存取並執行該至少一指令，以基於該第二類別設定一第二對抗擾動範圍，且該第一對抗擾動範圍大於該第二對抗擾動範圍，其後，對該多個第二類別樣本，建置一長度為該第二對抗擾動範圍的向量，以生成一第二對抗樣本。
一種電腦可讀取記錄媒體，關聯於至少一指令以界定一對抗樣本生成方法，其中該對抗樣本生成方法包含：基於一第一類別設定一第一對抗擾動範圍；一分類器於一向量空間建構一超平面，令該超平面作為一決策邊界，使得多個樣本，可基於該決策邊界被區分為屬於該第一類別的多個第一類別樣本、及屬於一第二類別的多個第二類別樣本，且該多個第一類別樣本的數量，於該向量空間中，係少於該多個第二類別樣本的數量；載入一可變動超參數的一對抗訓練模型，以使該多個第一類別樣本，分別沿著垂直於該決策邊界的向量，建置一長度為該第一對抗擾動範圍的向量，以生成一第一對抗樣本；以及賦予各該第一對抗樣本的類別標籤為該第一類別，且各該第一對抗樣本供該分類器進行訓練，使得該決策邊界於該向量空間中，被推向至該第二類別的所在區域，進而於該向量空間構建一更新後決策邊界。
如請求項7的電腦可讀取記錄媒體，其所界定的該對抗樣本生成方法於載入該對抗訓練模型後，係對鄰近於該決策邊界的該多個第一類別樣本，建置長度為該第一對抗擾動範圍的該向量。
如請求項7或請求項8的電腦可讀取記錄媒體，其所界定的該對抗樣本生成方法更包含：基於該第二類別設定一第二對抗擾動範圍，且該第一對抗擾動範圍大於該第二對抗擾動範圍，其後，對該多個第二類別樣本，建置長度為該第二對抗擾動範圍的一向量，以生成一第二對抗樣本。