TWI875201B - 機器學習方法 - Google Patents
機器學習方法 Download PDFInfo
- Publication number
- TWI875201B TWI875201B TW112136131A TW112136131A TWI875201B TW I875201 B TWI875201 B TW I875201B TW 112136131 A TW112136131 A TW 112136131A TW 112136131 A TW112136131 A TW 112136131A TW I875201 B TWI875201 B TW I875201B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- mask
- mask image
- matrix
- generate
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
機器學習方法包括:區分第一影像的前景及第一影像的背景以產生第一遮罩影像;裁剪第一影像以產生第二影像及第三影像;裁剪第一遮罩影像以產生第二遮罩影像及第三遮罩影像,其中第二遮罩影像的位置及第三遮罩影像的位置分別對應第二影像的位置及第三影像的位置;藉由模型,產生第二影像的第一特徵向量組及第三影像的第二特徵向量組;依據第一特徵向量組及第二特徵向量組產生第一矩陣;依據第二遮罩影像及第三遮罩影像產生第二矩陣;依據第一矩陣及第二矩陣產生函數;以及依據函數調整模型。
Description
本揭示內容是有關於一種機器學習技術,特別是關於一種機器學習方法。
在對模型進行訓練時,輸入已知屬於同一類別的影像至模型中以產生損失函數。由於輸入影像屬於同一類別,藉由調整模型參數以降低損失函數可以改善模型的各個下游任務的結果,例如分類結果。然而,上述作法可能會無法很好的將影像的前景與背景區分開來,使得訓練結果不佳。因此,要如何克服上述缺點為本領域重要之課題。
本發明實施例包含一種機器學習方法。機器學習方法包括:區分第一影像的前景及第一影像的背景以產生第一遮罩影像;裁剪第一影像以產生第二影像及第三影像;裁剪第一遮罩影像以產生第二遮罩影像及第三遮罩影像,其中第二遮罩影像的位置及第三遮罩影像的位置分別對應第二影像的位置及第三影像的位置;藉由模型,產生第二影像的第一特徵向量組及第三影像的第二特徵向量組;依據第一特徵向量組及第二特徵向量組產生第一矩陣;依據第二遮罩影像及第三遮罩影像產生第二矩陣;依據第一矩陣及第二矩陣產生函數;以及依據函數調整模型。
本發明實施例包含一種機器學習方法。機器學習方法包括:區分第一影像的前景及第一影像的背景以產生第一遮罩影像;對第一影像及第一遮罩影像的每一者進行裁剪,以產生第二影像及第二遮罩影像,其中第二遮罩影像的位置及第二影像的位置相同;依據第二遮罩影像產生第二影像的前景率,前景率係第二影像的前景面積除以第二影像的影像尺寸;以及當前景率大於或等於預設前景率且第二影像的影像尺寸大於或等於預設尺寸時,至少依據第二遮罩影像及第二影像產生函數,以對模型進行訓練。
於本文中,雖然本文中使用「第一」、「第二」、…等用語描述不同元件,該用語僅是用以區別以相同技術用語描述的元件或操作。除非上下文清楚指明,否則該用語並非特別指稱或暗示次序或順位,亦非用以限定本案。
除非另有定義,本文使用的所有術語(包括技術和科學術語)具有與本案所屬領域的普通技術人員通常理解的相同的含義。將進一步理解的是,諸如在通常使用的字典中定義的那些術語應當被解釋為具有與它們在相關技術和本案的上下文中的含義一致的含義,並且將不被解釋為理想化的或過度正式的意義,除非本文中明確地這樣定義。
這裡使用的術語僅僅是為了描述特定實施例的目的,而不是限制性的。如本文所使用的,除非內容清楚地指示,否則單數形式「一」、「一個」和「該」旨在包括複數形式,包括「至少一個」。「或」表示「及/或」。如本文所使用的,術語「及/或」包括一個或多個相關所列項目的任何和所有組合。還應當理解,當在本說明書中使用時,術語「包括」及/或「包含」指定所述特徵、區域、整體、步驟、操作、元件的存在及/或部件,但不排除一個或多個其它特徵、區域整體、步驟、操作、元件、部件及/或其組合的存在或添加。
以下將以圖式揭露本案之複數個實施方式,為明確說明起見,許多實務上的細節將在以下敘述中一併說明。然而,應瞭解到,這些實務上的細節不應用以限制本案。也就是說,在本揭示內容部分實施方式中,這些實務上的細節是非必要的。此外,為簡化圖式起見,一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之。
第1圖為根據本案之一些實施例所繪示之機器學習方法100的流程圖。在一些實施例中,機器學習方法100至少藉由模型MD1對影像OD11進行處理以產生函數LS1,並依據函數LS1調整模型MD1(例如,更新模型MD1的參數及/或訓練模型MD1),使得模型MD1可以對其他影像進行分類或進行其他下游任務。
如第1圖所示,機器學習方法100包含操作OP11~OP19。然而,本發明實施例不限於此。在不同的實施例中,機器學習方法100也可以藉由各種順序執行操作OP11~OP19的一部分或全部的各種組合。在一些實施例中,OP11~OP19可以藉由處理器及/或記憶體執行。
在操作OP11,遮罩產生器M11依據影像OD11產生遮罩影像ODM11。遮罩影像ODM11包含黑色部分BP11及白色部分WP11。在一些實施例中,遮罩影像ODM11對應二位元(binary)遮罩,且黑色部分BP11及白色部分WP11分別具有不同的邏輯值,例如,黑色部分BP11的邏輯值為0,且白色部分WP11的邏輯值為1。
在一些實施例中,遮罩影像ODM11用於區分影像OD11的背景及前景。黑色部分BP11及白色部分WP11分別對應影像OD11的背景及前景。舉例來說,影像OD11對應在草地上的狗的影像,其中草地的影像是背景並對應黑色部分BP11,且狗的影像是前景並對應白色部分WP11。
在操作OP12,對影像OD11及遮罩影像ODM11進行擴充操作以產生影像D11、D12及遮罩影像DM11、DM12,其中影像D11及D12分別對應遮罩影像DM11及DM12。
在一些實施例中,影像D11與遮罩影像DM11的幾何擴充處理相同,且影像D12與遮罩影像DM12的幾何擴充處理相同。舉例來說,影像D11與遮罩影像DM11的位置及尺寸相同,且影像D12與遮罩影像DM12的位置及尺寸相同。關於操作OP12的細節在以下關於第2圖及第3圖的實施例中進一步說明。
在操作OP13,影像D11及D12被輸入模型MD1以進行處理。在一些實施例中,模型MD1對影像D11及D12進行操作OP141~OP146。
在操作OP141,特徵提取器F11從影像D11中提取特徵以產生特徵圖組FMG1。在操作OP142,特徵提取器F12從影像D12中提取特徵以產生特徵圖組FMG2。在一些實施例中,特徵提取器F11及F12可以視為同一個特徵提取器。
如第1圖所示,特徵圖組FMG1包含N1個特徵圖FM1(1)~FM1(N1),且特徵圖組FMG2也包含N1個特徵圖FM2(1)~FM2(N1)。N1對應特徵提取器F11及F12的每一者可以產生的特徵數量。在一些實施例中,特徵圖FM1(1)~FM1(N1)及FM2(1)~FM2(N1)的每一特徵圖具有N2×N2個畫素。N1及N2為正整數。
在操作OP143,對特徵圖組FMG1進行捲積操作。在操作OP144,對特徵圖組FMG2進行捲積操作。在一些實施例中,操作OP143及OP144可以藉由1×1捲積操作實施。
在操作OP145,對操作OP143的結果進行平坦化操作,以產生特徵向量組FVG1。在操作OP146,對操作OP144的結果進行平坦化操作,以產生特徵向量組FVG2。
如第1圖所示,特徵向量組FVG1包含(N2)
2個向量FV1(1)~FV1((N2)
2)。其中向量FV1(1)~FV1((N2)
2)分別對應特徵圖組FMG1中的特徵圖的N2×N2個畫素。向量FV1(1)~FV1((N2)
2) 的每一者包含對應N1個特徵的N3個分量。其中N3指的是向量FV1(1)~FV1((N2)
2) 的每一者的分量的數量,並未在圖中示出。N3是正整數。在各種實施例中,N3可以等於N1也可以不同於N1。
類似地,特徵向量組FVG2包含(N2)
2個向量FV2(1)~FV2((N2)
2)。其中向量FV2(1)~FV2((N2)
2)分別對應特徵圖組FMG2中的特徵圖的N2×N2個畫素。向量FV2(1)~FV2((N2)
2) 的每一者包含對應N1個特徵的N3個分量。
在操作OP15,依據特徵向量組FVG1及FVG2產生相似矩陣CM11。相似矩陣CM11對應特徵向量組FVG1及FVG2的關聯性。在一些實施例中,可以對特徵向量組FVG1及FVG2進行內積以產生相似矩陣CM11。舉例來說,對向量FV1(i)及FV2(j)進行內積以產生相似矩陣CM11的第(i,j)個分量,其中i及j是正整數。在一些實施例中,相似矩陣CM11具有(N2)
2×(N2)
2個分量的相似值,且每一相似值代表特徵圖組FMG1的(N2)
2個像素中的一像素的N1個特徵及特徵圖組FMG2的(N2)
2個像素中的一像素的N1個特徵之間的相似度。
在操作OP161,依據特徵圖組FMG1中的特徵圖的尺寸,對遮罩影像DM11進行調整尺寸,以產生遮罩影像DR11。類似地,在操作OP162,依據特徵圖組FMG2中的特徵圖的尺寸,對遮罩影像DM12進行調整尺寸,以產生遮罩影像DR12。在一些實施例中,特徵圖組FMG1及FMG2中的特徵圖的每一者的尺寸為N2×N2。對應地,在操作OP161及OP162,將遮罩影像DM11及DM12的每一者的尺寸調整為N2×N2,以產生遮罩影像DR11及DR12。關於調整尺寸的細節在以下關於第4圖的實施例中進一步說明。
在操作OP171,對遮罩影像DR11進行平坦化操作以產生向量V11。在操作OP172,對遮罩影像DR12進行平坦化操作以產生向量V12。關於平坦化操作的細節在以下關於第4圖的實施例中進一步說明。
在操作OP18,依據向量V11及V12產生遮罩矩陣CM12。舉例來說,對向量V11及V12進行外積運算以產生遮罩矩陣CM12。關於外積運算的細節在以下關於第4圖的實施例中進一步說明。
在操作OP19,依據相似矩陣CM11及遮罩矩陣CM12產生函數LS1。在一些實施例中,函數LS1係與影像D11及D12的前景及背景相關聯的損失函數。關於操作OP19的細節在以下關於第5圖的實施例中進一步說明。
在一些實施例中,函數LS1越低代表輸入模型MD1的兩個影像屬於同一類別的機率越大。在訓練過程中,用於訓練的影像D11及D12皆是從影像OD11產生的。因此,影像D11及D12的前景應屬於同一類別。對應地,在藉由影像D11及D12進行訓練時,對模型MD1的參數進行調整,使得函數LS1降低。
在一些做法中,藉由來自同一影像的多個擴充影像對模型進行訓練以降低損失函數時,不考慮擴充影像對應前景或背景,使得前景和背景可能無法被區分。如此一來,經訓練的模型的表現不佳。
相較於上述做法,在本發明實施例中,藉由遮罩產生器M11將影像OD11區分為前景及背景以產生遮罩影像ODM11,依據遮罩影像ODM11產生對應每個畫素與前景及背景之關聯性的遮罩矩陣CM12,並依據遮罩矩陣CM12產生損失函數LS1。如此一來,在訓練模型MD1時,前景及背景的狀況會被分開考慮,使得模型MD1的表現較佳。
第2圖為根據本案之一些實施例所繪示之第1圖所示的操作OP12的進一步細節的流程圖。在一些實施例中,操作OP12依據影像OD21及遮罩影像ODM21產生影像D21、D22及遮罩影像DM21、DM22。請參照第1圖及第2圖,影像OD21、D21、D22及遮罩影像ODM21、DM21、DM22分別是影像OD11、D11、D12及遮罩影像ODM11、DM11、DM12的實施例。因此,部分敘述不再重複說明。
如第2圖所示,操作OP12可以包含操作OP21~OP26。在操作OP21,影像OD21及遮罩影像ODM21被堆疊為影像組MG21。在操作OP22,對影像組MG21進行裁剪(Cropping)及幾何擴充操作以產生影像組MG22。影像組MG22包含影像DP21及遮罩影像DM21。影像DP21及遮罩影像DM21互相對應並且具有相同的裁剪關係及幾何關係。舉例來說,遮罩影像DM21在遮罩影像ODM21中的位置與影像DP21在影像OD21中的位置相同。
類似地,在操作OP23,對影像組MG21進行裁剪及幾何擴充操作以產生影像組MG23。影像組MG23包含影像DP22及遮罩影像DM22。影像DP22及遮罩影像DM22互相對應並且具有相同的裁剪關係及幾何關係。舉例來說,遮罩影像DM22在遮罩影像ODM21中的位置與影像DP22在影像OD21中的位置相同。在一些實施例中,幾何擴充操作包含翻轉及旋轉的至少一者。
在操作OP24,對影像DP21進行其他類型的擴充操作,以產生影像D21。在操作OP25,對影像DP22進行其他類型的擴充操作,以產生影像D22。在一些實施例中,其他類型的擴充操作包含色彩失真(color distortion)、中途曝光(solarization)及自動對比(auto contrast)的至少一者。
在操作OP26,將影像D21、D22及遮罩影像DM21、DM22輸出以進行後續操作。舉例來說,將影像D21、D22及遮罩影像DM21、DM22分別作為第1圖所示之影像D11、D12及遮罩影像DM11、DM12輸出以進行操作OP13。
第3圖為根據本案之一些實施例所繪示之第1圖所示的操作OP12的進一步細節的流程圖。如第3圖所示,操作OP12可以包含操作OP31~OP32。
在操作OP31,對影像組MG21進行裁剪,以產生經裁剪的影像D30及經裁剪的遮罩影像DM30。影像D30及遮罩影像DM30的位置相同且具有相同的影像尺寸。具體來說,影像D30及遮罩影像DM30具有相同的座標、長度及寬度。在一些實施例中,操作OP31對影像組MG21的隨機位置進行裁剪以產生影像D30及遮罩影像DM30。對應地,操作OP31可以進行多次以產生不同位置的多個影像D30及不同位置的多個遮罩影像DM30。
在操作OP32,依據遮罩影像DM30,判斷影像D30的前景率。在一些實施例中,影像D30的前景率是遮罩影像DM30中的前景面積除以遮罩影像DM30的影像尺寸。影像尺寸等於前景面積加上背景面積。
在操作OP32,當影像D30的前景率大於或等於預設前景率(例如,0.3)時,對影像D30及遮罩影像DM30進行後續的操作。舉例來說,將影像D30及遮罩影像DM30作為第2圖所示之影像D21及遮罩影像DM21進行操作OP24,以對模型MD1進行訓練。當影像D30的前景率小於預設前景率時,重新進行操作OP31以產生新的影像D30及遮罩影像DM30,且不使用原本的影像D30及遮罩影像DM30對模型MD1進行訓練。
在一些實施例中,當影像D30的影像尺寸小於預設尺寸(例如,影像D30的長或寬小於224個畫素)時,重新進行操作OP31以產生具有大於或等於預設尺寸的影像尺寸的影像D30及遮罩影像DM30。
在一些實施例中,當影像D30的影像尺寸小於預設尺寸或影像D30的前景率小於預設前景率時,重新進行操作OP31,且不使用原本的影像D30及遮罩影像DM30對模型MD1進行訓練。在影像D30的影像尺寸大於或等於預設尺寸且影像D30的前景率大於或等於預設前景率時,才對影像D30及遮罩影像DM30進行後續的操作,例如將影像D30及遮罩影像DM30選擇為第1圖所示的影像D11及遮罩影像DM11以進行操作OP13。如此一來,可以提升進行訓練的影像D30及遮罩影像DM30的品質,使得模型MD1的訓練結果較佳。
請參照第3圖,影像D31及D32的每一者是影像D30的一種實施例,且遮罩影像DM31及DM32的每一者是遮罩影像DM30的一種實施例。影像D31及D32分別對應遮罩影像DM31及DM32。
在一些實施例中,遮罩影像DM31的白色部分(前景部分)在整張遮罩影像DM31中的比例大於或等於預設前景率。對應地,在操作OP32之後,可以對遮罩影像DM31及影像D31進行後續操作,例如操作OP24~OP26的至少一者。
在一些實施例中,遮罩影像DM32的白色部分(前景部分)在整張遮罩影像DM32中的比例小於預設前景率。對應地,在操作OP32之後,重新進行OP31,並且不對遮罩影像DM32及影像D32進行後續操作。
第4圖為根據本案之一些實施例所繪示之方法400的流程圖。在一些實施例中,方法400用以產生遮罩影像DM41及DM42的關聯性矩陣CM41。在一些實施例中,方法400可以藉由處理器及/或記憶體執行。如第4圖所示,方法400包含操作OP41~OP43。
在操作OP41,對遮罩影像DM41及DM42調整尺寸,以分別產生遮罩影像DR41及DR42。如第4圖所示,遮罩影像DM41包含網點部分DP41及白色部分DP42。遮罩影像DM42包含網點部分DP43及白色部分DP44。網點部分DP41及DP43對應前景且具有第一邏輯值(以下以邏輯值1為例進行說明)。網點部分DP42及DP44對應背景且具有第二邏輯值(以下以邏輯值0為例進行說明)。
如第4圖所示,遮罩影像DR41包含3×3個畫素P41~P49,且遮罩影像DR42包含3×3個畫素Q41~Q49。另一方面,遮罩影像DM41包含藉由虛線劃分的3×3個區域R411~R419,且遮罩影像DM42包含藉由虛線劃分的3×3個區域R421~R429。畫素P41~P49分別對應區域R411~R419,且畫素Q41~Q49分別對應區域R421~R429。
在一些實施例中,畫素P41~P49及Q41~Q49的邏輯值係依據遮罩影像DM41及DM42的對應區域中的畫素的邏輯值所決定。舉例來說,在區域R411中,網點部分DP41的比例大於或等於預設比例(例如50%)。換言之,在區域R411中,邏輯值1的比例大於或等於預設比例。對應地,畫素P41具有邏輯值1。舉另一例來說,在區域R429中,網點部分DP43的比例小於預設比例。換言之,在區域R429中,邏輯值1的比例小於預設比例。對應地,畫素Q49具有邏輯值0。在一些實施例中,網點部分在一區域中的比例係在上述區域中的網點部分的畫素數量除以該上述區域的總畫素數量。
如第4圖所示,在區域R411、R413、R416、R419、R423、R425及R428中,網點部分的比例大於或等於預設比例。對應地,畫素P41、P43、P46、P49、Q43、Q45及Q48具有邏輯值1。在區域R412、R414、R415、R417、R418、R421、R422、R424、R426、R427及R429中,網點部分的比例小於預設比例。對應地,畫素P42、P44、P45、P47、P48、Q41、Q42、Q44、Q46、Q47及Q49具有邏輯值0。
在操作OP42,對遮罩影像DR41及DR42進行平坦化操作以分別產生向量V41及V42。向量V41的多個分量分別對應畫素P41~P49的邏輯值,且向量V42的多個分量分別對應畫素Q41~Q49的邏輯值。換言之,向量V41可以表示為(1, 0, 1, 0, 0, 1, 0, 0, 1),且向量V42可以表示為(0, 0, 1, 0, 1, 0, 0, 1, 0)。
在操作OP43,依據向量V41及V42產生矩陣CM41。在一些實施例中,對向量V41及V42進行外積運算以產生矩陣CM41。矩陣CM41包含行C41~C49。行C41~C49分別對應向量V41的第一個分量至第九個分量,且行C41~C49的每一者的九個值分別對應向量V42的九個分量。
舉例來說,回應於向量V41的第二、四、五、七及八個分量的每一者具有邏輯值0,行C42、C44、C45、C47及C48的每一者的九個值具有邏輯值0。回應於向量V41的第一、三、六及九個分量的每一者具有邏輯值1,行C41、C43、C46及C49的每一者的邏輯值與向量V42一致。
如第4圖所示,矩陣CM41包含具有邏輯值1的網點部分CP41及具有邏輯值0的白色部分CP42。網點部分CP41代表遮罩影像DM41及DM42的對應區域的每一者對應前景。舉例來說,回應於區域R411及R423的每一者對應前景,矩陣CM41的第一行第三列的畫素具有邏輯值1,並包含於網點部分CP41。
另一方面,白色部分CP42代表遮罩影像DM41及DM42的對應區域的至少一者對應背景。舉例來說,回應於區域R412及R424的每一者對應背景,矩陣CM41的第二行第四列的畫素具有邏輯值0,並包含於白色部分CP42。舉另一例來說,回應於區域R419及R429分別對應前景及背景,矩陣CM41的第九行第九列的畫素具有邏輯值0,並包含於白色部分CP42。
綜上所述,網點部分CP41指示用於訓練的影像(例如遮罩影像DM41及DM42對應的影像)的前景互相對應的情況,且白色部分CP42指示用於訓練的影像的前景對應到背景或是背景互相對應的情況。在訓練基礎模型(例如模型MD1)時,是將來自同一張影像的前景(例如第1圖所示之影像OD11中的狗)分類為同一類別,而不是將同一張影像的前景及背景(例如影像OD11中的狗及草地)分類為同一類別,也不是將背景分類至前景的類別。因此,可以藉由網點部分CP41選擇影像中的適合畫素進行基礎模型的訓練。
在一些做法中,在對基礎模型進行訓練時,不區分影像的前景及背景。然而,影像中的前景及背景不應該被分類為同一類別。如此一來,在訓練時不區分前景及背景將使得模型的訓練結果不佳。
相較於上述做法,在本發明實施例中,可以依據矩陣CM41的網點部分CP41標記出遮罩影像DM41及DM42同時對應前景的狀況,並在後續操作針對前景進行訓練。如此一來,模型MD1的訓練結果較佳。
請參照第1圖及第4圖,方法400的一部分或全部可以包含於機器學習方法100。操作OP161及OP162可以藉由操作OP41實施,操作OP171及OP172可以藉由操作OP42實施,且操作OP18可以藉由操作OP43實施。遮罩影像DM41、DM42、DR41、DR42、向量V41、V42及矩陣CM41分別是遮罩影像DM11、DM12、DR11、DR12、向量V11、V12及矩陣CM12的實施例。因此,部分敘述不再重複說明。
第5圖為根據本案之一些實施例所繪示之第1圖所示的操作OP19的進一步細節的流程圖。如第5圖所示,操作OP19可以包含操作OP51~OP53。
在操作OP51,依據矩陣CM41產生矩陣CM42。在一些實施例中,矩陣CM42係矩陣CM41的相反版本。舉例來說,在矩陣CM41具有邏輯值0的位置,矩陣CM42的對應位置具有邏輯值1,且在矩陣CM41具有邏輯值1的位置,矩陣CM42的對應位置具有邏輯值0。
如第5圖所示,矩陣CM42包含具有邏輯值1的網點部份CP44及具有邏輯值0的白色部份CP43。網點部份CP44的位置與白色部份CP42的位置一致,且白色部份CP43的位置與網點部份CP41的位置一致。
在操作OP52,依據矩陣CM11及CM41產生矩陣CM51。在一些實施例中,將矩陣CM11及CM41的對應畫素的值相乘以產生矩陣CM51的對應畫素的值。舉例來說,將矩陣CM11的第n行第m列的值乘以矩陣CM41的第n行第m列的值以產生矩陣CM51的第n行第m列的值。其中n及m是大於零且小於或等於(N2)
2的整數。對於矩陣CM11、CM41及CM51而言,N2等於三。
如第5圖所示,矩陣CM51包含網點部分CP51及白色部分CP52。網點部分CP51的位置與網點部分CP41的位置一致。舉例來說,網點部分CP41的十二個畫素在的矩陣CM41中的位置與網點部分CP51的十二個畫素在的矩陣CM51中的位置相同。
在一些實施例中,在操作OP52,依據網點部分CP41選擇矩陣CM11中的對應位置的相似值以產生網點部分CP51。網點部分CP51的相似值與矩陣CM11中的對應位置的相似值相同。舉例來說,矩陣CM51中的第一行第三列的相似值與矩陣CM11中的第一行第三列的相似值相同。在一些實施例中,網點部分CP51的相似值對應前景之間的相似值比較結果。另一方面,回應於白色部分CP42的邏輯值為零,矩陣CM11與白色部分CP42相乘後的結果為零,使得白色部分CP52的相似值為零。
在操作OP53,依據矩陣CM11及CM42產生矩陣CM52。在一些實施例中,將矩陣CM11及CM42的對應畫素的值相乘以產生矩陣CM52的對應畫素的值。舉例來說,將矩陣CM11的第n行第m列的值乘以矩陣CM42的第n行第m列的值以產生矩陣CM52的第n行第m列的值。其中n及m是大於零且小於或等於(N2)
2的整數。對於CM42及CM52而言,N2等於三。
如第5圖所示,矩陣CM52包含網點部分CP54及白色部分CP53。網點部分CP54的位置與網點部分CP44的位置一致。舉例來說,網點部分CP44的六十九個畫素在的矩陣CM42中的位置與網點部分CP54的六十九個畫素在的矩陣CM52中的位置相同。
在一些實施例中,在操作OP53,依據網點部分CP44選擇矩陣CM11中的對應位置的相似值以產生網點部分CP54。網點部分CP54的相似值與矩陣CM11中的對應位置的相似值相同。舉例來說,矩陣CM52中的第一行第二列的相似值與矩陣CM11中的第一行第二列的相似值相同。在一些實施例中,網點部分CP54的相似值對應背景之間或是背景及前景之間的相似值比較結果。另一方面,回應於白色部分CP43的邏輯值為零,矩陣CM11與白色部分CP43相乘後的結果為零,使得白色部分CP53的相似值為零。
綜上所述,經由操作OP51~OP53,得到網點部份CP51及CP54。在訓練模型MD1的過程中,需要提升前景之間的相似度,降低背景與前景之間的相似度,且排除背景之間的比較結果。換言之,在訓練模型MD1的過程中,需要提升網點部份CP51的相似值,並降低網點部份CP54的相似值。對應地,第1圖所示之損失函數LS1可以表示為以下式(1):
… (1)。
在式(1)中,函數F51及F54分別對應網點部份CP51及CP54。當網點部份CP51的相似值增加時,函數F51增加,使得損失函數LS1減少。當網點部份CP54的相似值增加時,函數F54增加,使得損失函數LS1增加。
請參照第1圖及第5圖,在訓練模型MD1的過程中,藉由調整特徵提取器F11、F12及/或捲積操作OP143、OP144的參數,以改變網點部份CP51及CP54的相似值,使得損失函數LS1改變。在一些實施例中,當損失函數LS1減少時,模型MD1對前景進行下游任務的精準度增加。
在一些實施例中,損失函數LS1更可以表示為每個像素的損失函數LS2(i)的平均值,其中第i個損失函數LS2(i)可以表示為以下式(2):
… (2)。
在式(2)中,正整數h代表網點部份CP51的畫素數量。正整數
代表矩陣CM52的畫素數量。在第5圖所示之實施例中,正整數h等於十二,且正整數
等於八十一。T是一常數,例如0.2。向量
代表特徵向量,例如第1圖所示之向量FV1(1)~FV1((N2)
2)及FV2(1)~FV2((N2)
2)。向量
代表對應網點部份CP51的特徵向量。向量
代表對應網點部份CP54的特徵向量。
及
代表特徵向量之間的內積結果。在第5圖所示之實施例中,
是網點部份CP51的相似值,且
是網點部份CP54的相似值。
在一些實施例中,損失函數LS1可以搭配其他的損失函數對各種模型進行訓練。舉例來說,可以藉由總損失函數LTT對各種模型進行訓練,其中總損失函數LTT表示為以下式(3):
… (3)。
在式(3)中,函數LIS代表其他損失函數。在一些實施例中,損失函數LIS可以是實例級(instance level)的損失函數LIS。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:機器學習方法
MD1:模型
OD11、D11、D12、OD21、D21、D22、DP21、DP22、D30~D32:影像
LS1:函數
OP11~OP19、OP141~OP146、OP161、OP162、OP171、OP172、OP21~OP26、OP31~OP32、OP41~OP43、OP51~OP53:操作
M11:遮罩產生器
ODM11、DM11、DM12、DR11、DR12、ODM21、DM21、DM22、DM30~DM32、DM41、DM42、DR41、DR42:遮罩影像
BP11:黑色部分
WP11:白色部分
F11、F12:特徵提取器
FMG1、FMG2:特徵圖組
FM1(1)~FM1(N1)、FM2(1)~FM2(N1):特徵圖
FVG1、FVG2:特徵向量組
FV1(1)~FV1((N2)
2)、FV2(1)~FV2((N2)
2)、V11、V12、V41、V42:向量
CM11、CM12、CM41、CM42、CM51、CM52:矩陣
MG21~MG23:影像組
400:方法
DP41、DP43、CP41、CP44、CP51、CP54:網點部分
DP42、DP44、CP42、CP43、CP52、CP53:白色部分
P41~P49、Q41~Q49:畫素
R411~R419、R421~R429:區域
C41~C49:行
第1圖為根據本案之一些實施例所繪示之機器學習方法的流程圖。
第2圖為根據本案之一些實施例所繪示之第1圖所示的操作的進一步細節的流程圖。
第3圖為根據本案之一些實施例所繪示之第1圖所示的操作的進一步細節的流程圖。
第4圖為根據本案之一些實施例所繪示之方法的流程圖。
第5圖為根據本案之一些實施例所繪示之第1圖所示的操作的進一步細節的流程圖。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
100:機器學習方法
MD1:模型
OD11、D11、D12:影像
LS1:函數
OP11~OP19、OP141~OP146、OP161、OP162、OP171、OP172:操作
M11:遮罩產生器
ODM11、DM11、DM12、DR11、DR12:遮罩影像
BP11:黑色部分
WP11:白色部分
F11、F12:特徵提取器
FMG1、FMG2:特徵圖組
FM1(1)~FM1(N1)、FM2(1)~FM2(N1):特徵圖
FVG1、FVG2:特徵向量組
FV1(1)~FV1((N2)2)、FV2(1)~FV2((N2)2)、V11、V12:向量
CM11、CM12:矩陣
Claims (10)
- 一種機器學習方法,由一處理器自一記憶體存取至少一指令以執行該機器學習方法,其中該機器學習方法包括:區分一第一影像的前景及該第一影像的背景以產生一第一遮罩影像;裁剪該第一影像以產生一第二影像及一第三影像;裁剪該第一遮罩影像以產生一第二遮罩影像及一第三遮罩影像,其中該第二遮罩影像的位置及該第三遮罩影像的位置分別對應該第二影像的位置及該第三影像的位置;藉由一模型,產生該第二影像的一第一特徵向量組及該第三影像的一第二特徵向量組;依據該第一特徵向量組及該第二特徵向量組產生一第一矩陣;依據該第二遮罩影像及該第三遮罩影像產生一第二矩陣;依據該第一矩陣及該第二矩陣產生一函數;以及依據該函數調整該模型。
- 如請求項1所述之機器學習方法,更包括:對該第一影像及該第一遮罩影像的每一者進行一第一裁剪,以產生一第四影像及該第二遮罩影像,其中該第二遮罩影像的該位置及該第四影像的位置相同;對該第一影像及該第一遮罩影像的每一者進行一第二裁 剪,以產生一第五影像及該第三遮罩影像,其中該第三遮罩影像的該位置及該第五影像的位置相同;對該第四影像進行處理以產生該第二影像;以及對該第五影像進行處理以產生該第三影像。
- 如請求項1所述之機器學習方法,更包括:對該第一影像及該第一遮罩影像的每一者進行裁剪,以產生一第四影像及一第四遮罩影像,其中該第四遮罩影像的位置及該第四影像的位置相同;依據該第四遮罩影像產生該第四影像的前景率;當該前景率大於或等於一預設前景率且該第四影像的影像尺寸大於或等於一預設尺寸時,選擇該第四影像及該第四遮罩影像為該第二影像及該第二遮罩影像;以及當該前景率小於該預設前景率或該第四影像的該影像尺寸小於該預設尺寸時,再次對該第一影像及該第一遮罩影像的每一者進行裁剪。
- 如請求項1所述之機器學習方法,其中產生該第二矩陣包括:回應於該第二遮罩影像的前景及該第三遮罩影像的前景的每一者,產生該第二矩陣的一第一部分;回應於該第二遮罩影像的背景及該第三遮罩影像的背景的至少一者,產生該第二矩陣的一第二部分,其中該第一部分中的每一畫素具有一第一邏輯值,以及 該第二部分中的每一畫素具有不同於該第一邏輯值的一第二邏輯值。
- 如請求項4所述之機器學習方法,更包括:提取該第二影像的特徵,以產生該第二影像的一第一特徵圖組,該第一特徵圖組中的每一特徵圖具有一尺寸;提取該第三影像的特徵,以產生該第三影像的一第二特徵圖組,該第二特徵圖組中的每一特徵圖具有該尺寸;對該第二遮罩影像進行調整大小,以產生具有該尺寸的一第四遮罩影像;對該第三遮罩影像進行調整大小,以產生具有該尺寸的一第五遮罩影像;以及對該第四遮罩影像及該第五遮罩影像進行運算以產生該第二矩陣。
- 如請求項4所述之機器學習方法,其中產生該函數包括:依據該第一部分的多個第一位置,選擇該第一矩陣的對應多個第一相似值作為一第三部分,其中當該第三部分的該些第一相似值增加時,該函數減少。
- 如請求項6所述之機器學習方法,其中產生該函數包括: 依據該第二部分的多個第二位置,選擇該第一矩陣的對應多個第二相似值作為一第四部分,其中當該第二部分的該些第二相似值增加時,該函數增加。
- 一種機器學習方法,由一處理器自一記憶體存取至少一指令以執行該機器學習方法,其中該機器學習方法包括:區分一第一影像的前景及該第一影像的背景以產生一第一遮罩影像,其中該第一遮罩影像對對應該第一影像的前景部分及對應該第一影像的背景部分進行區分;對該第一影像及該第一遮罩影像的每一者進行裁剪,以產生一第二影像及一第二遮罩影像,其中該第二遮罩影像的位置及該第二影像的位置相同;依據該第二遮罩影像產生該第二影像的前景率,該前景率係該第二影像的前景面積除以該第二影像的影像尺寸;以及當該前景率大於或等於一預設前景率且該第二影像的該影像尺寸大於或等於一預設尺寸時,至少依據該第二遮罩影像及該第二影像產生一函數,以對一模型進行訓練。
- 如請求項8所述之機器學習方法,更包括:對該第一影像及該第一遮罩影像的每一者進行裁剪,以產生一第三影像及一第三遮罩影像,其中該第三遮罩影像 的位置及該第三影像的位置相同;藉由該模型產生該第二影像的一第一特徵圖組及該第三影像的一第二特徵圖組;藉由該模型產生該第一特徵圖組的一第一特徵向量組及該第二特徵圖組的一第二特徵向量組;依據該第一特徵向量組及該第二特徵向量組產生一第一矩陣;依據該第二遮罩影像及該第三遮罩影像產生一第二矩陣;以及依據該第一矩陣的多個相似值及該第二矩陣的一第一部分的多個位置產生該函數,其中該第一部分對應該第二遮罩影像的前景及該第三遮罩影像的前景的每一者。
- 如請求項9所述之機器學習方法,更包括:依據該第一矩陣的該些相似值及該第二矩陣的一第二部分的多個位置產生該函數,其中該第二部分對應該第二遮罩影像的背景及該第三遮罩影像的背景的至少一者,當該些相似值中的對應該第一部分的多者增加時,該函數減少,以及當該些相似值中的對應該第二部分的多者增加時,該函數增加。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202263376443P | 2022-09-21 | 2022-09-21 | |
| US63/376,443 | 2022-09-21 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202414346A TW202414346A (zh) | 2024-04-01 |
| TWI875201B true TWI875201B (zh) | 2025-03-01 |
Family
ID=90244138
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW112136131A TWI875201B (zh) | 2022-09-21 | 2023-09-21 | 機器學習方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20240095930A1 (zh) |
| CN (1) | CN117746065A (zh) |
| TW (1) | TWI875201B (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112967338A (zh) * | 2019-12-13 | 2021-06-15 | 宏达国际电子股份有限公司 | 影像处理系统及影像处理方法 |
| TWI741541B (zh) * | 2020-03-26 | 2021-10-01 | 華邦電子股份有限公司 | 影像分析系統及影像分析方法 |
| US20220028089A1 (en) * | 2018-12-20 | 2022-01-27 | Smith & Nephew, Inc. | Machine learning feature vector generator using depth image foreground attributes |
| CN114511778A (zh) * | 2022-01-19 | 2022-05-17 | 美的集团(上海)有限公司 | 图像处理方法及装置 |
Family Cites Families (37)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10540768B2 (en) * | 2015-09-30 | 2020-01-21 | Samsung Electronics Co., Ltd. | Apparatus and method to segment object from image |
| JP2017191501A (ja) * | 2016-04-14 | 2017-10-19 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
| US20190042826A1 (en) * | 2017-08-04 | 2019-02-07 | Oregon Health & Science University | Automatic nuclei segmentation in histopathology images |
| US10997727B2 (en) * | 2017-11-07 | 2021-05-04 | Align Technology, Inc. | Deep learning for tooth detection and evaluation |
| US11062176B2 (en) * | 2017-11-30 | 2021-07-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
| US10332261B1 (en) * | 2018-04-26 | 2019-06-25 | Capital One Services, Llc | Generating synthetic images as training dataset for a machine learning network |
| EP3785222B1 (en) * | 2018-05-30 | 2024-04-17 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image processing |
| US11164317B2 (en) * | 2019-06-28 | 2021-11-02 | Intel Corporation | Real-time mask quality predictor |
| US11468656B2 (en) * | 2019-06-29 | 2022-10-11 | Intel Corporation | Hierarchical graph-based domain selection algorithm to improve diversity |
| US11042734B2 (en) * | 2019-08-13 | 2021-06-22 | Adobe Inc. | Electronic document segmentation using deep learning |
| CN112419328B (zh) * | 2019-08-22 | 2023-08-04 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
| US20230368398A1 (en) * | 2019-11-22 | 2023-11-16 | Regents Of The University Of Michigan | Anatomical and functional assessment of coronary artery disease using machine learning |
| US20210158561A1 (en) * | 2019-11-26 | 2021-05-27 | Nvidia Corporation | Image volume for object pose estimation |
| KR102114223B1 (ko) * | 2019-12-10 | 2020-05-22 | 셀렉트스타 주식회사 | 딥러닝 기반 유사 이미지를 필터링하는 방법 및 그를 이용한 장치 |
| JP7316611B2 (ja) * | 2020-01-30 | 2023-07-28 | 富士通株式会社 | 推定処理プログラム、推定処理方法、及び情報処理装置 |
| CN113256361B (zh) * | 2020-02-10 | 2024-12-27 | 阿里巴巴集团控股有限公司 | 商品发布方法及图像处理方法、装置、设备和存储介质 |
| US11238593B2 (en) * | 2020-02-12 | 2022-02-01 | Adobe Inc. | Multi-object image parsing using neural network pipeline |
| CA3180150A1 (en) * | 2020-05-29 | 2021-12-02 | Houman YAGHOUBI | System and methods for remote assessment of a sample assay for disease diagnostics |
| US11887313B2 (en) * | 2020-09-30 | 2024-01-30 | Splitmedialabs Limited | Computing platform using machine learning for foreground mask estimation |
| US11276177B1 (en) * | 2020-10-05 | 2022-03-15 | Qualcomm Incorporated | Segmentation for image effects |
| US11727576B2 (en) * | 2020-12-18 | 2023-08-15 | Qualcomm Incorporated | Object segmentation and feature tracking |
| WO2022223042A1 (zh) * | 2021-04-23 | 2022-10-27 | 武汉联影智融医疗科技有限公司 | 手术路径处理系统、方法、装置、设备及存储介质 |
| KR20220147412A (ko) * | 2021-04-27 | 2022-11-03 | 삼성전자주식회사 | 이미지 센서 모듈, 이미지 처리 시스템 및 이미지 센서 모듈의 동작 방법 |
| US11961198B2 (en) * | 2021-07-20 | 2024-04-16 | Dhana Inc. | System and method for improved generation of avatars for virtual try-on of garments |
| US12067730B2 (en) * | 2021-10-06 | 2024-08-20 | Adobe Inc. | Panoptic segmentation refinement network |
| TWI817680B (zh) * | 2021-12-21 | 2023-10-01 | 鴻海精密工業股份有限公司 | 影像擴增方法以及裝置 |
| TWI817896B (zh) * | 2022-02-16 | 2023-10-01 | 鴻海精密工業股份有限公司 | 機器學習方法以及裝置 |
| US12229462B2 (en) * | 2022-02-28 | 2025-02-18 | Freddy Technologies Llc | System and method for automatically curating and displaying images |
| CN117474766A (zh) * | 2022-07-13 | 2024-01-30 | 瑞昱半导体股份有限公司 | 超级分辨率模型的训练方法、超级分辨率方法与系统 |
| JP2024018562A (ja) * | 2022-07-29 | 2024-02-08 | 富士フイルム株式会社 | 画像処理装置、方法およびプログラム |
| US20240054699A1 (en) * | 2022-08-14 | 2024-02-15 | Technion Research & Development Foundation Limited | Physically-primed deep-neural-networks for generalized undersampled mri reconstruction |
| US11798263B1 (en) * | 2022-09-22 | 2023-10-24 | Sas Institute Inc. | Manufacturing defective object detection system |
| US12475589B1 (en) * | 2023-06-12 | 2025-11-18 | Amazon Technologies, Inc. | Recovering camera position from content file |
| TWI881895B (zh) * | 2023-07-30 | 2025-04-21 | 鴻海精密工業股份有限公司 | 機器學習方法 |
| TW202536715A (zh) * | 2024-03-04 | 2025-09-16 | 鴻海精密工業股份有限公司 | 相關於資料生成框架的方法及裝置 |
| US20250322509A1 (en) * | 2024-04-16 | 2025-10-16 | Ricetec, Inc. | Systems and methods for predicting germination potential of seeds |
| US20250356185A1 (en) * | 2024-05-14 | 2025-11-20 | Qualcomm Incorporated | Sparse high rank adapters and their hardware-software co-design |
-
2023
- 2023-09-21 TW TW112136131A patent/TWI875201B/zh active
- 2023-09-21 US US18/471,318 patent/US20240095930A1/en active Pending
- 2023-09-21 CN CN202311223389.1A patent/CN117746065A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20220028089A1 (en) * | 2018-12-20 | 2022-01-27 | Smith & Nephew, Inc. | Machine learning feature vector generator using depth image foreground attributes |
| CN112967338A (zh) * | 2019-12-13 | 2021-06-15 | 宏达国际电子股份有限公司 | 影像处理系统及影像处理方法 |
| TWI741541B (zh) * | 2020-03-26 | 2021-10-01 | 華邦電子股份有限公司 | 影像分析系統及影像分析方法 |
| CN114511778A (zh) * | 2022-01-19 | 2022-05-17 | 美的集团(上海)有限公司 | 图像处理方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN117746065A (zh) | 2024-03-22 |
| US20240095930A1 (en) | 2024-03-21 |
| TW202414346A (zh) | 2024-04-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111353498B (zh) | 用于通过语义分割提供主导场景分类的系统和方法 | |
| CN109671023B (zh) | 一种人脸图像超分辨率二次重建方法 | |
| US12086956B2 (en) | Device based on machine learning | |
| CN111681165A (zh) | 图像处理方法、装置、计算机设备和计算机可读存储介质 | |
| WO2023102224A1 (en) | Data augmentation for multi-task learning for depth mapping and semantic segmentation | |
| CN110807448A (zh) | 人脸关键点数据增强方法、装置、系统以及模型训练方法 | |
| CN114155541B (zh) | 一种文字识别方法、装置、终端设备及存储介质 | |
| TW202117611A (zh) | 電腦視覺訓練系統及訓練電腦視覺系統的方法 | |
| CN113658044B (zh) | 提高图像分辨率的方法、系统、装置及存储介质 | |
| CN112991236B (zh) | 一种基于模板的图像增强方法及装置 | |
| CN112565636A (zh) | 图像处理方法、装置、设备和存储介质 | |
| CN113807426A (zh) | 一种基于多尺度增广和交叉伪监督的医学图像语义分割算法 | |
| CN114299105B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
| CN109657538B (zh) | 基于上下文信息指导的场景分割方法和系统 | |
| CN110443252A (zh) | 一种文字检测方法、装置及设备 | |
| CN106447679A (zh) | 一种基于迭代图割和自适应聚类的显著性检测方法 | |
| CN116882511A (zh) | 机器学习方法以及设备 | |
| TWI875201B (zh) | 機器學習方法 | |
| CN113762058B (zh) | 一种视频合成方法、装置、计算机设备和存储介质 | |
| CN110321893A (zh) | 一种聚焦增强的场景文本识别网络 | |
| CN111738964A (zh) | 一种基于建模的图像数据增强的方法 | |
| CN117474816B (zh) | 高动态范围图像色调映射方法、系统及可读存储介质 | |
| CN116385941B (zh) | 用于生成中间特征的神经网络的训练方法、装置及介质 | |
| WO2021147316A1 (zh) | 物体识别方法及装置 | |
| CN118870207A (zh) | 一种图像自动白平衡的处理方法和系统、装置 |