TWI881895B

TWI881895B - 機器學習方法

Info

Publication number: TWI881895B
Application number: TW113128159A
Authority: TW
Inventors: 栗永徽; 文研陳; 黃啟恩; 劉慎軒; 克蘭薩; 楊凱霖
Original assignee: 鴻海精密工業股份有限公司
Priority date: 2023-07-30
Filing date: 2024-07-29
Publication date: 2025-04-21
Also published as: US20250037324A1; CN119443195A; TW202505473A

Abstract

機器學習方法包括：藉由第一擴充管道對第一全域影像及第一局部影像進行處理以產生第一擴充全域影像及第一擴充局部影像；藉由第二擴充管道對第一全域影像進行處理以產生第二擴充全域影像；藉由第一編碼器對第一擴充全域影像進行處理以產生第一全域表徵向量；藉由第二編碼器對第二擴充全域影像及第一擴充局部影像進行處理以產生第二全域表徵向量及第一局部表徵向量；比較第一及第二全域表徵向量以產生全域損失函數；比較第一全域表徵向量及第一局部表徵向量以產生混和損失函數；以及依據全域損失函數及混和損失函數調整第二編碼器。

Description

機器學習方法

本揭示內容是有關於一種機器學習技術，特別是關於一種機器學習方法。

自監督學習包含預訓練階段及精細調整階段。在預訓練階段，使用者利用無標籤資料集對編碼器進行預訓練。然而，由於預訓練的影像之間的差異較小，使得預訓練的結果較差。因此，要如何克服上述缺點為本領域重要之課題。

本揭示內容實施例包含一種機器學習方法。機器學習方法包括：對原始影像進行裁切以產生第一全域影像；對原始影像進行裁切以產生第一局部影像；藉由第一擴充管道對第一全域影像進行處理以產生第一擴充全域影像；藉由第二擴充管道對第一全域影像進行處理以產生第二擴充全域影像；藉由第一擴充管道對第一局部影像進行處理以產生第一擴充局部影像；藉由第一編碼器對第一擴充全域影像進行處理以產生第一全域表徵向量；藉由第二編碼器對第二擴充全域影像及第一擴充局部影像進行處理以產生第二全域表徵向量及第一局部表徵向量；至少比較第一全域表徵向量及第二全域表徵向量以產生全域損失函數；至少比較第一全域表徵向量及第一局部表徵向量以產生混和損失函數；以及依據全域損失函數及混和損失函數調整第二編碼器，其中第一擴充管道不同於第二擴充管道。

本揭示內容實施例包含一種機器學習方法。機器學習方法包括：對一原始影像進行裁切以產生第一全域影像及第二全域影像；對原始影像進行裁切以產生第一局部影像及第二局部影像；藉由一擴充管道對第一全域影像及第二全域影像進行處理以產生第一擴充全域影像及第二擴充全域影像；藉由第一編碼器對第一擴充全域影像及第二擴充全域影像進行處理以產生第一全域表徵向量及第二全域表徵向量；藉由第二編碼器對第一擴充局部影像及第二擴充局部影像進行處理以產生第一局部表徵向量及第二局部表徵向量；至少比較第一全域表徵向量、第二全域表徵向量及第一局部表徵向量、第二局部表徵向量以產生一混和損失函數；以及至少依據混和損失函數調整第二編碼器。

本揭示內容實施例包含一種機器學習方法。機器學習方法包括：對一原始影像進行裁切以產生第一全域影像；對原始影像進行裁切以產生第一局部影像；藉由第一擴充管道及第二擴充管道對第一全域影像進行處理以產生第一擴充全域影像及第二擴充全域影像；藉由第一擴充管道及第二擴充管道對第一局部影像進行處理以產生第一擴充局部影像及第二擴充局部影像；藉由第三擴充管道及第四擴充管道對第一全域影像進行處理以產生第三擴充全域影像及第四擴充全域影像；藉由第三擴充管道及第四擴充管道對第一局部影像進行處理以產生第三擴充局部影像及第四擴充局部影像；藉由第一編碼器對第一擴充全域影像、第二擴充全域影像、第一擴充局部影像及第二擴充局部影像進行處理以產生第一全域表徵向量、第二全域表徵向量、第一局部表徵向量及第二局部表徵向量；藉由第二編碼器對第三擴充全域影像、第四擴充全域影像、第三擴充局部影像及第四擴充局部影像進行處理以產生第三全域表徵向量、第四全域表徵向量、第三局部表徵向量及第四局部表徵向量；比較第一全域表徵向量、第二全域表徵向量及第三全域表徵向量、第四全域表徵向量以產生一全域損失函數；比較第一局部表徵向量、第二局部表徵向量及第三局部表徵向量、第四局部表徵向量以產生一局部損失函數；將全域損失函數與局部損失函數相加以產生一多視點損失函數；以及依據多視點損失函數調整第二編碼器。

100、200、300:方法

OP11~OP15、OP21~OP26、OP31~OP36、OP351、

OP352、OP41~OP45、OP51~OP58、OP61~OP64:操作

OM1、OM2:原始影像

GM1~GM4:全域影像

LM1~LM6:局部影像

LC11~LC15:位置

PM21、PM22:部分影像

MM2:遮罩影像

WP21:白色部分

BP21:黑色部分

PMM21、PMM22:部分遮罩影像

CM31~CM33:裁切影像

AM31~AM310:擴充影像

400A、400B、500、600:機器學習方法

AGM41~AGM44:擴充全域影像

ALM41~ALM44:擴充局部影像

EC41、EC42:編碼器

FM41、FM42、FM51、FM52、FM61、FM62:特徵圖

MLP41~MLP43:神經網路

GV41~GV44、GV61~GV64:全域表徵向量

LV41~LV44、LV61~LV64:局部表徵向量

ML4、ML5:混和損失函數

GL4、GL5、GL6:全域損失函數

AGG1~AGG4:擴充全域影像組

ALG1~ALG6:擴充局部影像組

GVG1、GVG2:全域表徵向量組

LVG1:局部表徵向量組

LL6:局部損失函數

第1圖為根據本案之一些實施例所繪示之處理影像的方法的示意圖。

第2圖為根據本案之一些實施例所繪示之處理影像的方法的示意圖。

第3A圖為根據本案之一些實施例所繪示之產生擴充影像的方法的示意圖。

第3B圖為根據本案之一些實施例所繪示之第3A圖所示的操作的進一步細節的示意圖。

第4A圖為根據本案之一些實施例所繪示之機器學習方法的示意圖。

第4B圖為根據本案之一些實施例所繪示之機器學習方法的示意圖。

第5圖為根據本案之一些實施例所繪示之機器學習方法的示意圖。

第6圖為根據本案之一些實施例所繪示之機器學習方法的示意圖。

於本文中，雖然本文中使用「第一」、「第二」、…等用語描述不同元件，該用語僅是用以區別以相同技術用語描述的元件或操作。除非上下文清楚指明，否則該用語並非特別指稱或暗示次序或順位，亦非用以限定本案。

除非另有定義，本文使用的所有術語(包括技術和科學術語)具有與本案所屬領域的普通技術人員通常理解的相同的含義。將進一步理解的是，諸如在通常使用的字典中定義的那些術語應當被解釋為具有與它們在相關技術和本案的上下文中的含義一致的含義，並且將不被解釋為理想化的或過度正式的意義，除非本文中明確地這樣定義。

這裡使用的術語僅僅是為了描述特定實施例的目的，而不是限制性的。如本文所使用的，除非內容清楚地指示，否則單數形式「一」、「一個」和「該」旨在包括複數形式，包括「至少一個」。「或」表示「及/或」。如本文所使用的，術語「及/或」包括一個或多個相關所列項目的任何和所有組合。還應當理解，當在本說明書中使用時，術語「包括」及/或「包含」指定所述特徵、區域、整體、步驟、操作、元件的存在及/或部件，但不排除一個或多個其它特徵、區域整體、步驟、操作、元件、部件及/或其組合的存在或添加。

以下將以圖式揭露本案之複數個實施方式，為明確說明起見，許多實務上的細節將在以下敘述中一併說明。然而，應瞭解到，這些實務上的細節不應用以限制本案。也就是說，在本揭示內容部分實施方式中，這些實務上的細節是非必要的。此外，為簡化圖式起見，一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之。

第1圖為根據本案之一些實施例所繪示之處理影像的方法100的示意圖。在一些實施例中，方法100可以藉由記憶體、處理器及/或各種處理電路(圖中未示出)執行。如第1圖所示，方法100可以包含操作OP11~OP15。

在操作OP11，處理器用以裁切原始影像OM1以產生全域影像GM1。在一些實施例中，處理器在裁切臨界比例CTHR1及CTHR2(圖中未示出)之間隨機選擇兩個比例值GR11及GR12(圖中未示出)。其中裁切臨界比例CTHR1小於裁切臨界比例CTHR2。

接著，處理器用以在原始影像OM1中隨機選擇一位置LC11，並依據比例值GR11及GR12裁切原始影像OM1以產生全域影像GM1。全域影像GM1的長度係原始影像OM1的長度乘以比例值GR11，且全域影像GM1的寬度係原始影像OM1的寬度乘以比例值GR12。在第1圖所示之實施例中，長度對應垂直方向，且寬度對應水平方向。

舉例來說，裁切臨界比例CTHR1及CTHR2可以分別是0.3及1.0。處理器在裁切臨界比例CTHR1及CTHR2之間選擇兩個值，例如0.4及0.9分別作為比例值GR11及GR12。對應地，全域影像GM1的長度係原始影像OM1的長度的0.4倍，且全域影像GM1的寬度係原始影像OM1的寬度的0.9倍。

在操作OP12，處理器用以裁切原始影像OM1以產生局部影像LM1。在一些實施例中，處理器在裁切臨界比例CTHR3及CTHR4(圖中未示出)之間隨機選擇兩個比例值LR11及LR12(圖中未示出)。其中裁切臨界比例CTHR3小於裁切臨界比例CTHR4。在一些實施例中，裁切臨界比例CTHR4等於裁切臨界比例CTHR1。

接著，處理器用以在原始影像OM1中隨機選擇一位置LC12，並依據比例值LR11及LR12裁切原始影像OM1以產生局部影像LM1。局部影像LM1的長度係原始影像OM1的長度乘以比例值LR11，且局部影像LM1的寬度係原始影像OM1的寬度乘以比例值LR12。

舉例來說，裁切臨界比例CTHR3及CTHR4可以分別是0.1及0.3。處理器在裁切臨界比例CTHR3及CTHR4之間選擇兩個值，例如0.15及0.2分別作為比例值LR11及LR12。對應地，局部影像LM1的長度係原始影像OM1的長度的0.15倍，且局部影像LM1的寬度係原始影像OM1的寬度的0.2倍。

類似地，在操作OP13，處理器用以裁切原始影像OM1以產生局部影像LM2。在一些實施例中，處理器在裁切臨界比例CTHR3及CTHR4之間隨機選擇兩個比例值LR13及LR14。

接著，處理器用以在原始影像OM1中隨機選擇一位置LC13，並依據比例值LR13及LR14裁切原始影像OM1以產生局部影像LM2。局部影像LM2的長度係原始影像OM1的長度乘以比例值LR13，且局部影像LM2的寬度係原始影像OM1的寬度乘以比例值LR14。

類似地，在操作OP14，處理器用以裁切原始影像OM1以產生局部影像LM3。在一些實施例中，處理器在裁切臨界比例CTHR3及CTHR4之間隨機選擇兩個比例值LR15及LR16。

接著，處理器用以在原始影像OM1中隨機選擇一位置LC14，並依據比例值LR15及LR16裁切原始影像OM1以產生局部影像LM3。局部影像LM3的長度係原始影像OM1的長度乘以比例值LR15，且局部影像LM3的寬度係原始影像OM1的寬度乘以比例值LR16。

類似地，在操作OP15，處理器用以裁切原始影像OM1以產生局部影像LM4。在一些實施例中，處理器在裁切臨界比例CTHR3及CTHR4之間隨機選擇兩個比例值LR17及LR18。

接著，處理器用以在原始影像OM1中隨機選擇一位置LC15，並依據比例值LR17及LR18裁切原始影像OM1以產生局部影像LM4。局部影像LM4的長度係原始影像OM1的長度乘以比例值LR17，且局部影像LM3的寬度係原始影像OM1的寬度乘以比例值LR18。在一些實施例中，局部影像LM1~LM4彼此不同。

在各種實施例中，裁切臨界比例CTHR1~CTHR4可以具有各種數值。舉例來說，裁切臨界比例CTHR1可以是0.4、0.3或0.5。裁切臨界比例CTHR3可以是0.1或0.2。裁切臨界比例CTHR4可以是0.4、0.3或0.5。其中表現較佳的設置是裁切臨界比例CTHR1及CTHR4的每一者是0.3、裁切臨界比例CTHR2是1.0且裁切臨界比例CTHR3是0.1。

在一些實施例中，方法100可以用以產生全域視點及局部視點的多個裁切擴充影像，例如全域影像GM1及局部影像LM1~LM4。對應地，方法100可以被稱為多視點裁切擴充的方法。

第2圖為根據本案之一些實施例所繪示之處理影像的方法200的示意圖。在一些實施例中，方法200可以藉由記憶體、處理器及/或各種處理電路(圖中未示出)執行。如第2圖所示，方法200可以包含操作OP21~OP26。

在操作OP21，處理器用以裁切原始影像OM2以產生部分影像PM21。請參照第1圖及第2圖，原始影像OM2是原始影像OM1的一種實施例，部分影像PM21是全域影像GM1及局部影像LM1~LM4的一者的實施例，且操作OP21是操作OP11~OP15的一者的實施例。因此，部分敘述不再重複說明。

在操作OP22，處理器用以藉由啟發式遮罩產生器對原始影像OM2進行處理以產生遮罩影像MM2。遮罩影像MM2包含對應前景的白色部分WP21及對應背景的黑色部分BP21。在一些實施例中，白色部分WP21具有邏輯值1且黑色部分BP21具有邏輯值0。

在操作OP23，處理器用以依據部分影像PM21及原始影像OM2的關係裁切遮罩影像MM2以產生部分遮罩影像PMM21。部分影像PM21在原始影像OM2上的位置及面積等於部分遮罩影像PMM21在遮罩影像MM2上的位置及面積。部分遮罩影像PMM21包含對應前景的白色部分WP22及對應背景的黑色部分BP22。

在操作OP24，處理器用以依據白色部分WP22及黑色部分BP22判斷部分影像PM21的前景率，並比較部分影像PM21的前景率與預設前景率。當部分影像PM21的前景率大於預設前景率時，處理器在操作OP24 之後進行操作OP25。當部分影像PM21的前景率小於或等於預設前景率時，處理器在操作OP24之後進行操作OP26。

在一些實施例中，前景率是白色部分WP22的面積除以部分遮罩影像PMM21的面積。其中部分遮罩影像PMM21的面積是白色部分WP22的面積加上黑色部分BP22的面積。在一些實施例中，預設前景率是0.3。

在操作OP25，處理器將部分影像PM21判斷為有效裁切影像，並對部分影像PM21進行後續的操作，例如第5圖所示的操作OP54~OP58。

在操作OP26，處理器將部分影像PM21丟棄，例如將部分影像PM21從記憶體中刪除。在操作OP26之後，處理器重新進行操作OP21，以重新裁切新的部分影像以再次進行操作OP22~OP24。

舉例來說，在處理器將部分影像PM21丟棄之後，處理器再次裁切原始影像OM2以產生部分影像PM22，並再次進行操作OP23以產生對應部分影像PM22的部分遮罩影像PMM22。接著，處理器對部分遮罩影像PMM22進行操作OP24。

第3A圖為根據本案之一些實施例所繪示之產生擴充影像的方法300的示意圖。如第3A圖所示，方法300可以包含操作OP31~OP36。

在操作OP31，處理器用以產生裁切影像CM31及CM32。請參照第1圖至第3A圖，操作OP31可以藉由方法100及200的一部分或全部執行。裁切影像CM31及CM32可以是部分影像PM21、PM22、全域影像GM1及局部影像LM1~LM4的實施例。

在操作OP32，處理器用以從多種彼此不同的擴充管道中選擇一種擴充管道。在第3A圖所示的實施例中，處理器儲存了四種擴充管道，亦即自動擴充(Auto-Augment)管道、快速自動擴充(Fast Auto-Augment)管道、SimCLR擴充管道及隨機擴充(Random Augment)管道。然而，本揭示內容不限於此。在各種實施例中，也可以在各種數量的擴充管道中進行選擇。

接著，在操作OP33，回應於處理器選擇SimCLR擴充管道，處理器以SimCLR擴充管道對裁切影像CM31及CM32進行擴充處理以分別產生擴充影像AM31及AM32。

類似地，在操作OP34，回應於處理器選擇隨機擴充管道，處理器以隨機擴充管道對裁切影像CM31及CM32進行擴充處理以分別產生擴充影像AM33及AM34。

類似地，在操作OP35，回應於處理器選擇自動擴充管道，處理器以自動擴充管道對裁切影像CM31及CM32進行擴充處理以分別產生擴充影像AM35及AM36。

類似地，在操作OP36，回應於處理器選擇快速自動擴充管道，處理器以快速自動擴充管道對裁切影像CM31及CM32進行擴充處理以分別產生擴充影像AM37及AM38。

在一些做法中，擴充影像是藉由手動產生，因此擴充影像之間的差異較小。

相較於上述做法，在本揭示內容實施例中，處理器藉由四種不同擴充管道產生擴充影像AM31~AM38。如此一來，擴充影像AM31~AM38之間的差異較大。

第3B圖為根據本案之一些實施例所繪示之第3A圖所示的操作OP35的進一步細節的示意圖。在一些實施例中，操作OP35用以對裁切影像CM33進行擴充處理以產生擴充影像AM39。請參照第3A圖及第3B圖，裁切影像CM33是裁切影像CM31或CM32的一種實施例，且擴充影像AM39是擴充影像AM35或AM36的一種實施例。

如第3B圖所示，操作OP35可以包含操作OP351~OP352。在操作OP35，回應於處理器選擇自動擴充管道，處理器從自動擴充管道所包含的多個子策略中隨機選擇一個子策略。在第3B圖所示的實施例中，處理器選擇了包含操作OP351~OP352的子策略。

在操作OP351，處理器以強度7對裁切影像CM33進行等化處理以產生擴充影像AM310。

在操作OP352，處理器以強度4對擴充影像AM310進行曝光處理以產生擴充影像AM39。

在其他實施例中，處理器也可以從自動擴充管道所包含的多個子策略中選擇其他的子策略。舉例來說，回應於選擇另一個子策略，處理器可以對裁切影像CM33以強度8進行色調分離處理並以強度9進行旋轉處理以產生擴充影像AM39。

類似的，快速自動擴充管道及隨機擴充管道也可以包含多個子策略。對應地，在操作OP34及OP36，也可以進行類似於OP35的操作。

第4A圖為根據本案之一些實施例所繪示之機器學習方法400A的示意圖。請參照第4A圖及第1圖，機器學習方法400A包含裁切原始影像OM1以產生全域影像GM1及局部影像LM1的操作OP11及OP12。此外，機器學習方法400A更包含操作OP41~OP45。

在操作OP41，處理器藉由自動擴充管道對全域影像GM1進行處理以產生擴充全域影像AGM41，藉由隨機擴充管道對全域影像GM1進行處理以產生擴充全域影像AGM42，藉由快速自動擴充管道對全域影像GM1進行處理以產生擴充全域影像AGM43，並藉由SimCLR擴充管道對全域影像GM1進行處理以產生擴充全域影像AGM44。

此外，在操作OP41，處理器藉由自動擴充管道對局部影像LM1進行處理以產生擴充局部影像ALM41，藉由隨機擴充管道對局部影像LM1進行處理以產生擴充局部影像ALM42，藉由快速自動擴充管道對局部影像LM1 進行處理以產生擴充局部影像ALM43，並藉由SimCLR擴充管道對局部影像LM1進行處理以產生擴充局部影像ALM44。

在一些實施例中，自動擴充管道所包含的子策略的參數是在執行方法400A之前由處理器依據包含原始影像OM1的資料集進行訓練而產生。另一方面，隨機擴充管道所包含的子策略的參數是在進行操作OP41時隨機產生的。換言之，自動擴充管道的參數與原始影像OM1有關，且隨機擴充管道的參數與原始影像OM1無關且是在自動擴充管道的參數產生之後才產生。

在一些實施例中，快速自動擴充管道所包含的子策略的參數及SimCLR擴充管道所包含的子策略的參數也是在執行方法400A之前由處理器依據包含原始影像OM1的資料集進行訓練而產生。

在操作OP42，編碼器EC42用以對擴充全域影像AGM43、AGM44及擴充局部影像ALM41~ALM44進行處理以產生多個對應的特徵圖FM42。

在操作OP43，編碼器EC41用以對擴充全域影像AGM41及AGM42進行處理以產生多個對應的特徵圖FM41。

在一些實施例中，編碼器EC41及EC42藉由以下算式(1)互相關聯：ξ←τξ+(1-τ)θ (1)其中ξ是編碼器EC41的參數，θ是編碼器EC42的參數，且τ是編碼器EC41及EC42之間關連性的參數。

在操作OP44，處理器藉由神經網路MLP41及MLP42依序對特徵圖FM42進行處理以產生對應的全域表徵向量GV43、GV44及局部表徵向量LV41~LV44。其中全域表徵向量GV43、GV44及局部表徵向量LV41~LV44分別對應擴充全域影像AGM43、AGM44及擴充局部影像ALM41~ALM44。

在操作OP45，處理器藉由神經網路MLP43對特徵圖FM41進行處理以產生對應的全域表徵向量GV41及GV42。其中全域表徵向量GV41及GV42分別對應擴充全域影像AGM41及AGM42。

接著，處理器可以比較全域表徵向量GV41、GV42與全域表徵向量GV43、GV44以產生全域損失函數GL4，並比較全域表徵向量GV41、GV42與局部表徵向量LV41~LV44以產生混和損失函數ML4。

舉例來說，當全域表徵向量GV41、GV42與全域表徵向量GV43、GV44之間的相似度越大時，全域損失函數GL4的值越小。當全域表徵向量GV41、GV42與局部表徵向量LV41~LV44之間的相似度越大時，混和損失函數ML4的值越小。

在一些實施例中，處理器更用以將全域損失函數GL4及混和損失函數ML4相加以產生交叉視點損失函數CVL4(圖中未示出)。接著，處理器更用以依據交叉視點損失函數CVL4調整編碼器EC42的權重參數。

舉例來說，處理器可以在調整編碼器EC42的權重參數之後，藉由經調整的編碼器EC42再次執行操作OP42~OP45，以產生新的交叉視點損失函數CVL4。在一些實施例中，處理器可以逐漸調整編碼器EC42的權重參數直到交叉視點損失函數CVL4具有最小值。

在一些實施例中，每隔一段時間，處理器將經調整的編碼器EC42的權重參數複製給編碼器EC41，使得編碼器EC41的權重參數可以對應調整。換言之，編碼器EC41的權重參數也可以透過編碼器EC42依據交叉視點損失函數CVL4進行調整。在一些實施例中，上述調整權重參數的操作被稱為對編碼器EC41及EC42進行訓練。

在一些實施例中，神經網路MLP41~MLP43可以藉由多層感知器(Multilayer perceptron，MLP)實施。舉例來說，神經網路MLP41及MLP43可以藉由映射器(projector)實施，且神經網路MLP42可以藉由預測器(predictor)實施。

在一些實施例中，在訓練編碼器EC41或EC42之後，處理器可以將實際應用於下游任務，例如判斷影像是否屬於某個類別的任務。在執行下游任務時，編碼器EC41或EC42將特徵圖輸出至對應下游任務的神經網路中。

在第4A圖所示之實施例中，處理器以多種擴充管道對單一全域影像GM1及單一局部影像LM1進行處理。對應地，在一些實施例中，機器學習方法400A被稱為多擴充單一視點的機器學習方法。

在一些做法中，擴充影像是單一的擴充管道產生，因此擴充影像之間的差異較小。

相較於上述做法，在本揭示內容實施例中，處理器藉由四種不同擴充管道產生擴充全域影像AGM41~AGM44及擴充局部影像ALM41~ALM44。如此一來，擴充全域影像AGM41~AGM44及擴充局部影像ALM41~ALM44之間的差異較大。

第4B圖為根據本案之一些實施例所繪示之機器學習方法400B的示意圖。請參照第4A圖及第4B圖，機器學習方法400B是機器學習方法400A的一種變化例。因此，為簡潔起見，部分細節不再重複說明。

相較於機器學習方法400A，在機器學習方法400B中，處理器進行多次操作OP11以產生多個全域影像GM1~GM4，並進行操作OP12~OP14以產生多個局部影像LM1~LM4。

相較於機器學習方法400A，機器學習方法400B包含操作OB41而非操作OP41。在操作OB41，處理器藉由自動擴充管道對全域影像GM1~GM4及局部影像LM1~LM4進行處理以分別產生擴充全域影像AGM41~AGM44及擴充局部影像ALM41~ALM44。

接著，處理器對擴充全域影像AGM41~AGM44及擴充局部影像ALM41~ALM44進行操作OP42~OP45，以訓練編碼器EC41及EC42。操作 OP42~OP45的細節在以上關於第4A圖的實施例中以說明，因此不再贅述。

在第4B圖所示之實施例中，處理器以單一擴充管道對多個全域影像GM1~GM4及多個局部影像LM1~LM4進行處理。對應地，在一些實施例中，機器學習方法400B被稱為單一擴充多視點的機器學習方法。

在一些做法中，在對編碼器進行訓練時，只有透過單一視點的影像進行訓練，使得訓練結果較差。

相較於上述做法，在本揭示內容實施例中，處理器藉由多個全域影像GM1~GM4及多個局部影像LM1~LM4進行訓練。如此一來，訓練結果較佳。

第5圖為根據本案之一些實施例所繪示之機器學習方法500的示意圖。如第5圖所示，機器學習方法500包含操作OP51~OP58。

在操作OP51，處理器依據裁切臨界比例CTHR1及CTHR2裁切原始影像OM1以產生多個全域影像。

在操作OP52，處理器依據裁切臨界比例CTHR3及CTHR4裁切原始影像OM1以產生多個局部影像。

請參照第1圖及第5圖，操作OP51類似於操作OP11，且操作OP52類似於操作OP12~OP15。因此，為簡潔起見，部分敘述不再重複說明。

在操作OP53，處理器檢查操作OP51及OP52所產生的全域影像及局部影像是否為有效裁切影像。當操作OP51所產生的全域影像是有效裁切影像時，處理器用以將有效的全域影像(例如全域影像GM1及GM2)輸出以進行後續操作。當操作OP52所產生的局部影像是有效裁切影像時，處理器用以將有效的局部影像(例如局部影像LM1~LM6)輸出以進行後續操作。

請參照第2圖及第5圖，操作OP53類似於方法200所述之操作。因此，為簡潔起見，部分敘述不再重複說明。

接著，在操作OP54，處理器藉由多種擴充管道對全域影像GM1、GM2及局部影像LM1~LM6進行處理以產生擴充全域影像組AGG1~AGG4及擴充局部影像組ALG1~ALG6。

在第5圖所示之實施例中，在操作OP54，處理器分別藉由自動擴充管道及隨機擴充管道對全域影像GM1進行處理以產生擴充全域影像組AGG1中的兩個擴充全域影像，並藉由自動擴充管道及隨機擴充管道對全域影像GM2進行處理以產生擴充全域影像組AGG2中的兩個擴充全域影像。

類似地，在操作OP54，處理器分別藉由快速自動擴充管道及SimCLR擴充管道對全域影像GM1進行處理以產生擴充全域影像組AGG3中的兩個擴充全域影像，並藉由快速自動擴充管道及SimCLR擴充管道對全域影像GM2進行處理以產生擴充全域影像組AGG4中的兩個擴充全域影像。

類似地，在操作OP54，處理器分別藉由自動擴充管道、隨機擴充管道、快速自動擴充管道及SimCLR擴充管道對局部影像LM1進行處理以產生擴充局部影像組ALG1中的四個擴充局部影像。

類似地，在操作OP54，處理器分別藉由自動擴充管道、隨機擴充管道、快速自動擴充管道及SimCLR擴充管道對局部影像LM2進行處理以產生擴充局部影像組ALG2中的四個擴充局部影像。

類似地，在操作OP54，處理器分別藉由自動擴充管道、隨機擴充管道、快速自動擴充管道及SimCLR擴充管道對局部影像LM3進行處理以產生擴充局部影像組ALG3中的四個擴充局部影像。

類似地，在操作OP54，處理器分別藉由自動擴充管道、隨機擴充管道、快速自動擴充管道及SimCLR擴充管道對局部影像LM4進行處理以產生擴充局部影像組ALG4中的四個擴充局部影像。

類似地，在操作OP54，處理器分別藉由自動擴充管道、隨機擴充管道、快速自動擴充管道及SimCLR擴充管道對局部影像LM5進行處理以產生擴充局部影像組ALG5中的四個擴充局部影像。

類似地，在操作OP54，處理器分別藉由自動擴充管道、隨機擴充管道、快速自動擴充管道及SimCLR擴充管道對局部影像LM6進行處理以產生擴充局部影像組ALG6中的四個擴充局部影像。

請參照第4A圖及第5圖，擴充全域影像AGM41 及AGM42可以包含於擴充全域影像組AGG1，擴充全域影像AGM43及AGM44可以包含於擴充全域影像組AGG2，且擴充局部影像ALM41~ALM44可以包含於擴充局部影像組ALG1。

接著，在操作OP55，編碼器EC42用以對擴充全域影像組AGG3、AGG4及擴充局部影像組ALG1~ALG6進行處理以產生多個對應的特徵圖FM52。

在操作OP56，編碼器EC41用以對擴充全域影像組AGG1及AGG2進行處理以產生多個對應的特徵圖FM51。

請參照第4A圖及第5圖，特徵圖FM41可以包含於特徵圖FM51，且特徵圖FM42可以包含於特徵圖FM52。

在操作OP57，處理器藉由神經網路MLP41及MLP42依序對特徵圖FM52進行處理以產生對應的全域表徵向量組GVG2及局部表徵向量組LVG1。其中全域表徵向量組GVG2對應擴充全域影像組AGG3及AGG4，且局部表徵向量組LVG1對應擴充局部影像組ALG1~ALG6。

在操作OP58，處理器藉由神經網路MLP43對特徵圖FM51進行處理以產生對應的全域表徵向量組GVG1。其中全域表徵向量組GVG1對應擴充全域影像組AGG1及AGG2。

請參照第4A圖及第5圖，全域表徵向量GV41及GV42可以包含於全域表徵向量組GVG1，全域表徵向量GV43及GV44可以包含於全域表徵向量組GVG2，且局部表徵向量LV41~LV44可以包含於局部表徵向量組LVG1。

接著，處理器可以比較全域表徵向量組GVG1與全域表徵向量組GVG2以產生全域損失函數GL5，並比較全域表徵向量組GVG1與局部表徵向量組LVG1以產生混和損失函數ML5。

舉例來說，當全域表徵向量組GVG1與全域表徵向量組GVG2之間的相似度越大時，全域損失函數GL5的值越小。當全域表徵向量組GVG1與局部表徵向量組LVG1之間的相似度越大時，混和損失函數ML5的值越小。

在一些實施例中，處理器更用以將全域損失函數GL5及混和損失函數ML5相加以產生交叉視點損失函數CVL5(圖中未示出)。接著，處理器更用以依據交叉視點損失函數CVL5調整編碼器EC42的權重參數。

舉例來說，處理器可以在調整編碼器EC42的權重參數之後，藉由經調整的編碼器EC42再次執行操作OP55~OP58，以產生新的交叉視點損失函數CVL5。在一些實施例中，處理器可以逐漸調整編碼器EC42的權重參數直到交叉視點損失函數CVL5具有最小值。

請參照第4A圖及第5圖，方法500是方法400A 的一種變化例。因此，為簡潔起見，部分敘述不再重複說明。其中操作OP55~OP58分別對應操作OP42~OP45，特徵圖FM41及FM42分別對應特徵圖FM51及FM52，全域表徵向量組GVG1對應全域表徵向量GV41及GV42，全域表徵向量組GVG2對應全域表徵向量GV43及GV44，局部表徵向量組LVG1對應局部表徵向量LV41~LV44，全域損失函數GL5及混和損失函數ML5分別對應全域損失函數GL4及混和損失函數ML4。

在一些實施例中，交叉視點損失函數CVL5可以藉由以下算式(2)表示：

其中

代表全域表徵向量組GVG1中的全域表徵向量，

代表全域表徵向量組GVG2中的全域表徵向量，

代表局部表徵向量組LVG1中的局部表徵向量，

、

及

分別代表

、

及

的長度，

代表

及

之間的內積，

代表

及

之間的內積，R、R’及K分別代表

、

及

的數量，λ代表權重係數。在一些較佳的實施例中，λ是0.4。

在第5圖所示實施例中，回應於擴充全域影像組AGG1及AGG2總共包含4個擴充全域影像，R等於4。回應於擴充全域影像組AGG3及AGG4總共包含4個擴充全域影像，R’等於4。回應於擴充局部影像組ALG1~ALG6總共包含24個擴充局部影像，K等於24。

在一些實施例中，交叉視點損失函數CVL4也可以藉由算式(2)表示。在第4A圖所示實施例中，回應於全域表徵向量GV41及GV42的數量是2，R等於2。回應於全域表徵向量GV43及GV44的數量是2，R’等於2。回應於局部表徵向量LV41~LV44的數量是4，K等於4。

第6圖為根據本案之一些實施例所繪示之機器學習方法600的示意圖。請參照第4A圖及第6圖，機器學習方法600是機器學習方法400A的一種變化例。因此，為簡潔起見，部分細節不再重複說明。相較於機器學習方法400A，機器學習方法600包含操作OP61~OP64而非操作OP42~OP45。

在操作OP61，編碼器EC41用以對擴充全域影像AGM41、AGM42及擴充局部影像ALM41、ALM42進行處理以產生多個對應的特徵圖FM61。

在操作OP62，編碼器EC42用以對擴充全域影像AGM43、AGM44及擴充局部影像ALM43、ALM44進行處理以產生多個對應的特徵圖FM62。

在操作OP63，處理器藉由神經網路MLP43對特徵圖FM61進行處理以產生對應的全域表徵向量GV61、GV62及局部表徵向量LV61、LV62。其中全域表徵向量GV61、GV62及局部表徵向量LV61、LV62分別對應擴充全域影像AGM41、AGM42及擴充局部影像ALM41、ALM42。

在操作OP64，處理器藉由神經網路MLP41及MLP42依序對特徵圖FM62進行處理以產生對應的全域表徵向量GV63、GV64及局部表徵向量LV63、LV64。其中全域表徵向量GV63、GV64及局部表徵向量LV63、LV64分別對應擴充全域影像AGM43、AGM44及擴充局部影像ALM43、ALM44。

請參照第6圖及第4A圖，全域表徵向量GV61~GV64及局部表徵向量LV63、LV64分別是全域表徵向量GV41~GV44及局部表徵向量LV43、LV44。因此，為簡潔起見，部分敘述不再重複說明。

接著，處理器可以比較全域表徵向量GV61、GV62與全域表徵向量GV63、GV64以產生全域損失函數GL6，並比較局部表徵向量LV61、LV62與局部表徵向量LV63、LV64以產生局部損失函數LL6。

舉例來說，當全域表徵向量GV61、GV62與全域表徵向量GV63、GV64之間的相似度越大時，全域損失函數GL6的值越小。當局部表徵向量LV61、LV62與局部表徵向量LV63、LV64之間的相似度越大時，局部損失函數LL6的值越小。

在一些實施例中，處理器更用以將全域損失函數GL6及局部損失函數LL6相加以產生多視點損失函數MVL6(圖中未示出)。接著，處理器更用以依據多視點損失函數MVL6調整編碼器EC42的權重參數。

舉例來說，處理器可以在調整編碼器EC42的權重參數之後，藉由經調整的編碼器EC42再次執行操作OP61~OP64，以產生新的多視點損失函數MVL6。在一些實施例中，處理器可以逐漸調整編碼器EC42的權重參數直到多視點損失函數MVL6具有最小值。

在一些實施例中，每隔一段時間，處理器將經調整的編碼器EC42的權重參數複製給編碼器EC41，使得編碼器EC41的權重參數可以對應調整。換言之，編碼器EC41的權重參數也可以透過編碼器EC42依據多視點損失函數MVL6進行調整。

在一些實施例中，全域損失函數GL6、局部損失函數LL6及多視點損失函數MVL6可以藉由以下算式(3)~(5)表示：

MVL6=GL6+λ＊LL6 (5)；其中

代表通過編碼器EC41產生的全域表徵向量，

代表通過編碼器EC42產生的全域表徵向量，

代表通過編碼器EC41產生的局部表徵向量，

代表通過編碼器 EC42產生的局部表徵向量，

、

、

及

分別代表

、

、

及

的長度，

代表

及

之間的內積，

代表

及

之間的內積，R、R’、K及 K’分別代表

、

、

及

的數量，λ代表權重係數。在一些較佳的實施例中，λ是0.4。

在第6圖所示實施例中，回應於通過編碼器EC41產生了兩個全域表徵向量GV61、GV62及兩個局部表徵向量LV61、LV62，R等於2且K等於2。回應於通過編碼器EC42產生了兩個全域表徵向量GV63、GV64及兩個局部表徵向量LV63、LV64，R’等於2且K’等於2。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

OP51~OP58:操作

OM1:原始影像

GM1~GM2:全域影像

LM1~LM6:局部影像

500:機器學習方法

EC41、EC42:編碼器

FM51、FM52:特徵圖

MLP41~MLP43:神經網路

ML5:混和損失函數

GL5:全域損失函數

AGG1~AGG4:擴充全域影像組

ALG1~ALG6:擴充局部影像組

GVG1、GVG2:全域表徵向量組

LVG1:局部表徵向量組

Claims

一種藉由處理器執行的機器學習方法，包括：對一原始影像進行裁切以產生一第一全域影像；對該原始影像進行裁切以產生一第一局部影像；藉由一第一擴充管道對該第一全域影像進行處理以產生一第一擴充全域影像；藉由一第二擴充管道對該第一全域影像進行處理以產生一第二擴充全域影像；藉由該第一擴充管道對該第一局部影像進行處理以產生一第一擴充局部影像；藉由一第一編碼器對該第一擴充全域影像進行處理以產生一第一全域表徵向量；藉由一第二編碼器對該第二擴充全域影像及該第一擴充局部影像進行處理以產生一第二全域表徵向量及一第一局部表徵向量；至少比較該第一全域表徵向量及該第二全域表徵向量以產生一全域損失函數；至少比較該第一全域表徵向量及該第一局部表徵向量以產生一混和損失函數；以及依據該全域損失函數及該混和損失函數調整該第二編碼器，其中該第一擴充管道不同於該第二擴充管道。
如請求項1所述之機器學習方法，其中依據該全域損失函數及該混和損失函數調整該第二編碼器包括：將該全域損失函數及該混和損失函數相加以產生一交叉視點損失函數；以及依據該交叉視點損失函數調整該第二編碼器。
如請求項1所述之機器學習方法，其中產生該第一全域影像包括：在一第一裁切臨界比例及一第二裁切臨界比例之間選擇一第一比例值及一第二比例值；以及依據該第一比例值及該第二比例值裁切該原始影像，其中該第一裁切臨界比例小於該第二裁切臨界比例。
如請求項3所述之機器學習方法，其中產生該第一局部影像包括：在一第三裁切臨界比例及一第四裁切臨界比例之間選擇一第三比例值及一第四比例值；以及依據該第三比例值及該第四比例值裁切該原始影像，其中該第三裁切臨界比例小於該第四裁切臨界比例，以及該第四裁切臨界比例等於該第一裁切臨界比例。
如請求項1所述之機器學習方法，更包括：藉由一第三擴充管道對該第一全域影像進行處理以產生一第三擴充全域影像；以及藉由該第一編碼器對該第三擴充全域影像進行處理以產生一第三全域表徵向量，其中產生該全域損失函數包括至少比較該第三全域表徵向量及該第二全域表徵向量以產生該全域損失函數，產生該混和損失函數包括至少比較該第三全域表徵向量及該第一局部表徵向量以產生該混和損失函數，以及該第一擴充管道、該第二擴充管道及該第三擴充管道彼此不同。
如請求項1所述之機器學習方法，更包括：對該原始影像進行裁切以產生一第二全域影像；藉由該第一擴充管道及該第二擴充管道對該第二全域影像進行處理以產生一第一擴充全域影像組；藉由該第一編碼器至少對該第一擴充全域影像組進行處理以產生一第一全域表徵向量組；藉由一第三擴充管道及一第四擴充管道對該第二全域影像進行處理以產生一第二擴充全域影像組；藉由該第二編碼器至少對該第二擴充全域影像組進行處理以產生一第二全域表徵向量組；以及比較該第一全域表徵向量組及該第二全域表徵向量組以產生該全域損失函數，其中該第一全域表徵向量組及該第二全域表徵向量組分別包含該第一全域表徵向量及該第二全域表徵向量，以及該第一擴充管道、該第二擴充管道、該第三擴充管道及該第四擴充管道彼此不同。
如請求項6所述之機器學習方法，更包括：對該原始影像進行裁切以產生一第二局部影像；藉由該第一擴充管道、該第二擴充管道、該第三擴充管道及該第四擴充管道對該第二局部影像進行處理以產生一第一擴充局部影像組；藉由該第二編碼器至少對該第一擴充局部影像組進行處理以產生一第一局部表徵向量組；以及比較該第一全域表徵向量組及該第一局部表徵向量組以產生該混和損失函數，其中該第一局部表徵向量組包含該第一局部表徵向量。
一種藉由處理器執行的機器學習方法，包括：對一原始影像進行裁切以產生一第一全域影像及一第二全域影像；對該原始影像進行裁切以產生一第一局部影像及一第二局部影像；藉由一擴充管道對該第一全域影像及該第二全域影像進行處理以產生一第一擴充全域影像及一第二擴充全域影像；藉由該擴充管道對該第一局部影像及該第二局部影像進行處理以產生一第一擴充局部影像及一第二擴充局部影像；藉由一第一編碼器對該第一擴充全域影像及該第二擴充全域影像進行處理以產生一第一全域表徵向量及一第二全域表徵向量；藉由一第二編碼器對該第一擴充局部影像及該第二擴充局部影像進行處理以產生一第一局部表徵向量及一第二局部表徵向量；至少比較該第一全域表徵向量、該第二全域表徵向量及該第一局部表徵向量、該第二局部表徵向量以產生一混和損失函數；以及至少依據該混和損失函數調整該第二編碼器。
如請求項8所述之機器學習方法，更包括：對該原始影像進行裁切以產生一第三全域影像及一第四全域影像；藉由該擴充管道對該第三全域影像及該第四全域影像進行處理以產生一第三擴充全域影像及一第四擴充全域影像；藉由該第二編碼器對該第三擴充全域影像及該第四擴充全域影像進行處理以產生一第三全域表徵向量及一第四全域表徵向量；至少比較該第一全域表徵向量、該第二全域表徵向量及該第三全域表徵向量、該第四全域表徵向量以產生一全域損失函數；以及將該全域損失函數及該混和損失函數相加以產生一交叉視點損失函數，其中調整該第二編碼器包括依據該交叉視點損失函數調整該第二編碼器。
一種藉由處理器執行的機器學習方法，包括：對一原始影像進行裁切以產生一第一全域影像；對該原始影像進行裁切以產生一第一局部影像；藉由一第一擴充管道及一第二擴充管道對該第一全域影像進行處理以產生一第一擴充全域影像及一第二擴充全域影像；藉由該第一擴充管道及該第二擴充管道對該第一局部影像進行處理以產生一第一擴充局部影像及一第二擴充局部影像；藉由一第三擴充管道及一第四擴充管道對該第一全域影像進行處理以產生一第三擴充全域影像及一第四擴充全域影像；藉由該第三擴充管道及該第四擴充管道對該第一局部影像進行處理以產生一第三擴充局部影像及一第四擴充局部影像；藉由一第一編碼器對該第一擴充全域影像、該第二擴充全域影像、該第一擴充局部影像及該第二擴充局部影像進行處理以產生一第一全域表徵向量、一第二全域表徵向量、一第一局部表徵向量及一第二局部表徵向量；藉由一第二編碼器對該第三擴充全域影像、該第四擴充全域影像、該第三擴充局部影像及該第四擴充局部影像進行處理以產生一第三全域表徵向量、一第四全域表徵向量、一第三局部表徵向量及一第四局部表徵向量；比較該第一全域表徵向量、該第二全域表徵向量及該第三全域表徵向量、該第四全域表徵向量以產生一全域損失函數；比較該第一局部表徵向量、該第二局部表徵向量及該第三局部表徵向量、該第四局部表徵向量以產生一局部損失函數；將該全域損失函數與該局部損失函數相加以產生一多視點損失函數；以及依據該多視點損失函數調整該第二編碼器。