TWI888138B

TWI888138B - 通過權重排列優化模型運算的方法與計算系統

Info

Publication number: TWI888138B
Application number: TW113118027A
Authority: TW
Inventors: 陳建豪; 吳治緯; 陳世澤
Original assignee: 瑞昱半導體股份有限公司
Priority date: 2024-05-16
Filing date: 2024-05-16
Publication date: 2025-06-21
Also published as: US20250356215A1

Abstract

一種通過權重排列優化模型運算的方法與計算系統，所述方法執行於一運算裝置中，方法包括先決定模型架構，之後根據模型架構運用訓練集以學習演算法訓練模型，其中將演算出模型的多個權重值，並取得多個權重值的特性，根據多個權重值的特性，選擇其中之一權重排列規則，或是多個權重排列規則的組合，根據選擇的權重排列規則重新排列多個權重值中的全部或部分權重值的位置，如此，將可根據重新排列的多個權重值，設計對應的一損失函數以簡化模型的算式，再以一應用裝置運行此模型。

Description

通過權重排列優化模型運算的方法與計算系統

說明書公開一種優化模型運算的方法，特別是指根據完成模型訓練得出的權重特性而以特定排列規則重排權重以優化模型運算的方法與計算系統。

利用資料進行監督式學習以訓練模型的方式在現今被應用的非常廣泛，在訓練模型的過程中需要蒐集資料，或是利用現成的資料，之後使用者可通過各種開放平台（如Pytorch、TensorFlow）定義模型架構和損失函數（loss function），之後通過梯度下降法（gradient descent）完成監督式學習訓練模型的過程。

習知訓練模型的方法可參考圖1所示的流程，通過特定模型訓練的平台定義模型架構與損失函數（步驟S101），接著運用蒐集資料或是現有資料形成的訓練集以一深度學習演算法進行訓練（步驟S103），其中針對一個目標函數（object function）進行訓練以最大化或最小化這個目標函數，運用深度學習演算法訓練模型的目標函數如所述的損失函數，而模型的好壞有絕大部分的因素跟損失函數的設計有關，基本目標是能最小化損失函數。

為了防止模型在學習的時候過度擬合（overfitting），常見的手段是在訓練的時候加上正則化（regularization）運算來避免過度擬合（步驟S105），之後在深度學習過程中得出模型的權重（步驟S107）。但正則化的過程容易讓訓練後的模型的權重有一部分數值變為很小，導致這些權重在完整的模型中貢獻非常小，因此有習知技術對完成訓練的模型進行模型剪枝（model pruning）（步驟S109），被剪枝後的權重數值設定為0，成為可忽略運算的數值，這樣就有機會提升模型運算速度。於是形成經過簡化運算的模型（步驟S111）。

通過上述模型剪枝過程可以提升效率的主要原因是，即便現今的模型架構千變萬化，但乘積累加運算（multiply-accumulate operation, MAC）依然非常常見，而其運算方程式可以簡單寫成：，其中表示輸入值，為權重值。如果有的權重的數值非常小，表示這個權重在某次乘積累加運算過程中的貢獻非常小，因此就可以將其剪枝到0，使得可以跳過乘以0的運算，進而提高整體運算效率。

然而，被剪枝（設定為0）的權重主要是由權重值的大小決定，而權重值的大小是由模型自行在訓練過程中學習得到的，在目前常見可一次平行處理多個乘積累加運算（MAC）的硬體設計中，重複的權重值或是數值極小的權重值會隨機出現在多個乘積累加運算中，相當難去進行優化。例如：若硬體可以一次進行8組乘積累加運算，其中有2組乘積累加運算是乘上0的運算，因此可以跳過不做，但仍舊必須等剩下的6組乘積累加運算完成，本次的運算才算結束。換言之，訓練過後的權重有哪一些會被進行剪枝並沒有一個明確規則，如此，使得可以提升模型運算效率的程度其實是相當有限的，或甚至必須搭配硬體一起設計才有辦法獲得更多效率提升，也就是模型運用在一般通用（general purpose）的硬體上能夠獲得的好處相當有限。

為了能夠有效提升模型運算的效率，揭露書提出一種通過權重排列優化模型運算的方法與計算系統，從隨機形成與排列的權重得出數值的特性，能根據權重值的特性重新排列，通過設計經過簡化運算式的損失函數以優化模型的演算效能。

根據實施例，計算系統所運行的通過權重排列優化模型運算的方法執行於一運算裝置中，在方法中，先根據需求決定一模型架構，再根據此模型架構，運用訓練集以學習演算法訓練模型，其中將演算出模型的多個權重值，並取得多個權重值的特性，之後根據多個權重值的特性，選擇其中之一權重排列規則，或是多個權重排列規則的組合。接著，可根據選擇的權重排列規則重新排列多個權重值中的全部或部分權重值的位置，以根據重新排列的多個權重值設計對應的損失函數以簡化模型的算式，之後運用在一應用裝置中。

進一步地，於訓練模型的過程中，對產生的多個權重值進行一正則化運算，可降低模型的複雜度，並確保模型不會過度擬合。

在方法中，運用一統計方法得出多個權重值的特性，例如可針對得出的多個權重值製作表示權重分布的一直方圖，即可根據直方圖得出多個權重值的特性。

通過直方圖，可顯示出有第一數量的權重具有相同數值；或是，直方圖顯示多個權重值具有對稱的分布，則表示多個權重值具有第二數量的數值相同但正負相反的權重值；以及/或直方圖顯示有第三數量的權重值為零。

進一步地，根據多個權重值的特性，將多個權重值套用其中之一權重排列規則，或是多個權重排列規則的組合，即可將具有相同數值的權重排列在一起；將數值相同但正負號相反的權重值排列在一起；以及/或將數值為零的權重排列在固定的位置，如此，將可繼續設計對應的損失函數，藉此簡化模型的乘積累加運算式。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

以下是通過特定的具體實施例來說明本發明的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不悖離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所公開的內容並非用以限制本發明的保護範圍。

應當可以理解的是，雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者訊號，但這些元件或者訊號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件，或者一訊號與另一訊號。另外，本文中所使用的術語“或”，應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。

揭露書提出一種通過權重排列優化模型運算的方法與運行所述方法的計算系統，計算系統可為運行在特定電腦系統中的電路或韌體，方法的主要概念是從隨機（或說沒有特定排列規則）形成與排列的權重得出數值的特性，根據完成訓練的模型的權重特性而以特定排列規則重新排列模型運算的權重，並設計出對應的損失函數，使其能夠簡化模型的運算式，以優化模型運算的效能。

運行所述通過權重排列優化模型運算的方法的計算系統可參考圖1所示架構實施例示意圖，計算系統主要包括圖中顯示執行模型訓練與權重排列的運算裝置20，架構中還包括應用訓練得出的模型的應用裝置22。

根據訓練模型的需求，初步先進行模型架構與損失函數的設定201，在電腦系統所實現的運算裝置20中，以蒐集得到或是現有的大量資料形成訓練集203，即可運用訓練集203經特定學習演算法205訓練模型，其中得出特定目的的智能模型。在一實施例中，在運用神經網路訓練模型的過程中將取得其中節點的權重，將形成模型的權重207。訓練模型的過程中還可運用損失函數（loss function）對模型進行最佳化，也就是通過損失函數衡量模型預測值與實際目標值之間的殘差（residual），目標是通過調整模型的權重降低殘差，最後得出智能模型的權重207。在通過學習演算法205訓練模型的過程中，運用損失函數時，亦會通過正則化（regularization）限制損失函數中的某些參數，以避免過度擬合。

完成訓練後得出模型221，即可將得出的模型221根據目的應用在應用裝置22中，通過應用裝置22中的處理器223等運算電路運行模型221。其中，應用裝置22通過輸出入電路225接收輸入值25，經模型221運算時，將每筆輸入值25乘上節點上的權重值，完成後通過輸出入電路225輸出結果27。如此，可根據輸出結果27驗證模型221，其中可依照需求設計評估指標，包括評估實際目標值與模型得出的預測值之間的殘差，並根據評估結果調整模型權重以及相關參數，以優化模型。

其中特別的是，模型訓練過程得出的權重分布原本是沒有任何規則的，但是經過統計可以得出如圖3所示的模型訓練之後得出模型權重分布的直方圖（histogram）範例，直方圖完成後可儲存在運算裝置中的記憶體內，作為日後分析權重特性的用途，權重特性也將與模型架構一併儲存以及動態更新。

其中顯示權重值分布圖30，其中橫軸顯示經過正則化（regularization）運算過程中產生的權重值，範圍顯示在-0.4到0.4之間，縱軸則表示每個權重值的數量。經圖3顯示的統計結果可以得出，在訓練過程中的權重分布中，存在著大量重複的數字以及大量數值極小的數字。

如此，在通過權重排列優化模型運算的方法中，針對一次平行處理多個乘積累加運算（MAC）的硬體，可設定權重值的排列規則，使之在實際運算過程中依照事先定義的規則重新排列權重值，讓許多重複的權重值或是數值極小的權重值可以通過重新排列而優化乘積累加運算效率。舉例來說，事先設定的規則包括：第一，將相同權重值排列在一起，或是將權重值在演算式中的位置記錄起來，例如可儲存在快閃記憶體（flash）、運算電路中的快取記憶體（cache）或暫存器（register）中；第二，將正負號相反但是數值相同的權重值排列在一起，或是將權重值在演算式的位置記錄起來，同樣地儲存在特定記憶體中；第三，依照統計值直接將權重設定為零，並可排列在一起或是將權重值為零的位置記錄在記憶體中；第四，還可設定將不限制規則的權重值排列在一起，或是以記憶體將權重值在演算式的位置記錄起來。

通過權重排列優化模型運算的方法可參考圖4顯示的實施例流程圖。

一開始，根據訓練模型的目標決定模型架構與損失函數（步驟S401），包括定義執行學習的神經網路的架構，並設計用來衡量模型預測和目標之間的差異或誤差的損失函數（loss function），接著運用訓練集以深度學習演算法開始訓練模型（步驟S403），模型訓練過程中為了避免過度擬合而可對權重值進行正則化運算，以降低模型的複雜度，確保模型不會過度擬合（步驟S405）。其中，權重的正則化運算是在模型的損失函數加上一項限制項（constraint），能夠在模型訓練過程執行梯度下降法（gradient descent）時防止權重值過大造成的過度擬合的問題，其中如模型剪枝（model pruning）的方法。

在以上進行模型訓練的過程中，演算出模型的多個權重值（步驟S407）。接著可運用統計方法得出多個權重的特性，例如繪製一個如圖3所示可以表示權重分布的直方圖，藉此得出多個權重值的特性（步驟S409）。

舉例來說，參考圖3顯示的權重值分布圖30，此例直方圖顯示經過統計的權重值具有對稱的分布，表示當中有一定數量的權重值具有對稱性，表示有一定數量（定義為第一數量）相同數值或有可忽略不計的差異的權重，可以在算式中整合計算；也具有一定數量（定義為第二數量）具有相同數值（絕對值）但正負號相反的權重，其中包括有正值（positive）權重值以及對應相當數量的負值（negative）權重值，其中數值相同正負號相反的權重值將可在計算時相互抵銷；此例顯示的直方圖的中間峰值約在權重值為零的附近，顯示經過正則化運算後有不少數量（定義為第三數量）的權重值為零，在計算時可以忽略不算。如此，可以根據上述幾種權重特性（但非用於限制發明可應用的範圍）進行簡化運算。

通過以上統計結果判斷出權重的特性，即可根據權重的特性選出事先設定並可以簡化運算的一權重排列規則，或是多個權重排列規則的組合，並套用在得出的多個權重值上（步驟S411）。之後根據選擇的其中之一權重排列規則或是多個權重排列規則的組合以重新排列模型運算式中全部或部分的權重值的位置（步驟S413）。例如，可將原本隨機排列的權重中具有相同數值的權重排列在一起，藉此可簡化算式；還可將有數值相同但正負號相反的權重值排列在一起，可相互抵消；以及將數值為零的權重排在固定的位置，可使執行運算的電路可忽略特定位置的運算。在此一提的是，決定重排模型運算式中全部或部分的權重位置，其中考量的因素之一是考量權重的特性以及損失函數運算量，經權衡而得出最後決定的排列規則，例如，可以使部分權值彈性不予排列規則，而是按照原本的順序進行運算。

最終，計算系統將得出經過重排的權重，經整理損失函數後，得出簡化的模型演算式（步驟S415），在應用相關模型時，即對每筆輸入值乘上一個對應的權重值，根據重排權重的損失函數後，運行所得出的模型（步驟S417）。

而上述設定權重排列規則的目的是因為原本訓練模型產生的權重分布是沒有任何規則的，因此通過上述方法對於訓練過程中權重的分布進行限制，並且實際在運算的過程中就可以依照這些事先定義的規則進行加速。

以下列舉幾個權重排列規則的實施範例。

圖5顯示權重排列規則之一實施範例，此例顯示將權重以4個為單位進行限制，第一權重排列規則為：將權重值相同者排列在一起，此例規定是前兩個權重值需相等，後兩個權重絕對值後相等，且第三、第四數字正負號相反，即數值相同正負號相反，如方程式1所示，權重值中包括數值相同的（第一組權重501），因為這兩個權重有相同數值，形成以表示的第一組重排權重503；另包括數值相同但正負號相反的（第二組權重502），形成以表示的第二組重排權重504。

方程式1：。

根據方程式1顯示的第一權重排列規則，設計方程式2表示的第一損失函數（）。

方程式2：。

如此，根據方程式2，可有效減少具有相同數值以及有相同數值但正負號相反的權重的計算，簡化模型運算式。也就是在模型運算時，其中乘積累加運算就可以通過第一權重排列規則進行簡化，簡化為方程式3，最終優化後的算式就可以從3個加法與4個乘法簡化為3個加減法與2個乘法。

方程式3：。

圖6顯示權重排列規則之二實施範例，此例為顧及模型準確度以及保留模型訓練的彈性，將權重以8個為單位進行限制，第二權重排列規則為：前四個權重規則與圖5所示範例相同，即將權重值相同者排列在一起，前兩個權重值需相等，後兩個權重數值相同但正負號相反，而後四個權重則不加以限制，如方程式4所示，權重值中包括數值相同的（第一組權重601），因為這兩個權重有相同數值，形成以表示的第一組重排權重604；還包括數值相同但正負號相反的（第二組權重602），形成以表示的第二組重排權重605；之後四個權重（第三組權重603），就沒有排列規則，也就同樣複製成第三組重排權重606。

方程式4：。

如此，根據第二權重排列規則設計的損失函數如上述方程式2，模型的乘積累加運算（）就可以進行簡化，如方程式5，其中從7個加法與8個乘法簡化為7個加減法與6個乘法。

方程式5：。

圖7顯示權重排列規則之三實施範例，此例顯示將權重以8個為單位進行限制，第三權重排列規則為：前四個權重規則與圖5或圖6顯示的範例相同，將權重值相同者排列在一起，其中規定是前兩個權重值需相等，規定後兩個權重為數值相同正負號相反；而後四個權重將其前半部限制為0，後半部則不加以限制，如方程式6所示，權重值中包括數值相同的（第一組權重701），因為這兩個權重有相同數值，形成以表示的第一組重排權重705；接著為數值相同但正負號相反的（第二組權重702），形成以表示的第二組重排權重706；權重（第三組權重703）設計為權重值為0，形成第三組重排權重707；權重（第四組權重704）則不限制，可以為任何權重值，形成第四組重排權重708。

方程式6：。

根據方程式6顯示的第三權重排列規則，設計方程式7表示的第一損失函數（）。

方程式7：。

如此，根據方程式7，可有效減少具有相同數值以及有相同數值但正負號相反的權重的計算，以及可以忽略權重值為0的計算，據此可有效簡化模型運算式。也就是在模型運算時，其中乘積累加運算就可以通過第三權重排列規則進行簡化，運用方程式7顯示的損失函數的設計將方程式6簡化為方程式8，最終優化後的算式就可以從個加法與8個乘法簡化為5個加減法與4個乘法。

方程式8：。

上述實施範例提出多種權重排列規則中的幾種範例，其目的是能夠根據權重分布的特性重新排列多個權重值，並設計對應的損失函數以簡化模型的算式，使得經過算式簡化的模型可以運行於採用通用型硬體的應用裝置上，這類裝置具有一般算力，可包括多執行緒中央處理器或圖形處理器等，所述方法可以在此類硬體中對訓練好的模型進行加速，其中特別可以依照不同的模型（有不同的權重分布）使用不同的權重排列規則或是多個權重排列規則的組合，能同時運行模型外，還獲得效率提升。

綜上所述，上述實施例所描述的通過權重排列優化模型運算的方法與計算系統，其中方法能夠根據訓練模型得出的多個權重值的特性，將多個權重值套用特定權重排列規則或多個權重排列規則的組合，將具有相同數值的權重排列在一起；將數值相同但正負號相反的權重值排列在一起；以及/或將數值為零的權重排列在固定的位置，根據重排的權重設計損失函數，以優化模型的算式。

以上所公開的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。

20:運算裝置 22:應用裝置 201:設定（模型架構、損失函數） 203:訓練集 205:學習演算法 207:權重 221:模型 223:處理器 225:輸出入電路 25:輸入值 27:輸出結果 30:權重值分布圖 501:第一組權重 502:第二組權重 503:第一組重排權重 504:第二組重排權重 601:第一組權重 602:第二組權重 603:第三組權重 604:第一組重排權重 605:第二組重排權重 606:第三組重排權重 701:第一組權重 702:第二組權重 703:第三組權重 704:第四組權重 705:第一組重排權重 706:第二組重排權重 707:第三組重排權重 708:第四組重排權重步驟S101～S111習知訓練模型的流程步驟S401～S417通過權重排列優化模型運算的流程

圖1顯示習知訓練模型的流程；

圖2顯示運行通過權重排列優化模型運算的方法的計算系統架構實施例圖；

圖3顯示模型訓練後得出的權重值的分布圖；

圖4顯示通過權重排列優化模型運算的方法的實施例流程圖；

圖5顯示為權重排列規則的實施例之一；

圖6顯示為權重排列規則的實施例之二；以及

圖7顯示為權重排列規則的實施例之三。

(步驟S401):決定模型架構與損失函數

(步驟S403):訓練模型

(步驟S405):正則化運算

(步驟S407):取得模型運算的權重值

(步驟S409):得出權重的特性

(步驟S411):根據權重的特性選擇排列規則

(步驟S413):執行權重值重排

(步驟S415):得出簡化的模型演算式

(步驟S417):運行模型

Claims

一種通過權重排列優化模型運算的方法，執行於一運算裝置中，包括：根據一模型架構，運用一訓練集以一學習演算法訓練一模型；演算出該模型的多個權重值，並取得該多個權重值的特性；根據該多個權重值的特性，選擇其中之一權重排列規則，或是多個權重排列規則的組合；根據選擇的該其中之一權重排列規則或是該多個權重排列規則的組合，重新排列該多個權重值中的全部或部分權重值的位置；以及根據重新排列的該多個權重值，設計對應的一損失函數以簡化該模型的算式，以一應用裝置運行該模型。
如請求項1所述的通過權重排列優化模型運算的方法，其中，於訓練該模型的過程中，對產生的多個權重值進行一正則化運算，以降低該模型的複雜度，並確保該模型不會過度擬合。
如請求項1所述的通過權重排列優化模型運算的方法，其中運用一統計方法得出該多個權重值的特性。
如請求項3所述的通過權重排列優化模型運算的方法，其中針對得出的該多個權重值製作表示權重分布的一直方圖，根據該直方圖得出該多個權重值的特性，包括以下情況其中之一：該直方圖顯示有第一數量的權重具有相同數值；該直方圖顯示該多個權重值具有對稱的分布，表示該多個權重值具有第二數量的數值相同但正負相反的權重值；以及該直方圖顯示有第三數量的權重值為零。
如請求項4所述的通過權重排列優化模型運算的方法，其中，根據該多個權重值的特性，將該多個權重值套用該其中之一權重排列規則，或是該多個權重排列規則的組合，將具有相同數值的權重排列在一起；將數值相同但正負號相反的權重值排列在一起；以及/或將數值為零的權重排列在固定的位置，以設計該損失函數，藉此簡化該模型的乘積累加運算式。
一種計算系統，包括：一運算裝置，其中執行一通過權重排列優化模型運算的方法，包括：根據一模型架構，運用一訓練集以一學習演算法訓練一模型；演算出該模型的多個權重值，並取得該多個權重值的特性；根據該多個權重值的特性，選擇其中之一權重排列規則，或是多個權重排列規則的組合；根據選擇的該其中之一權重排列規則或是該多個權重排列規則的組合，重新排列該多個權重值中的全部或部分權重值的位置；以及根據重新排列的該多個權重值，設計對應的一損失函數以簡化該模型的算式，以一應用裝置運行該模型。
如請求項6所述的計算系統，其中，於訓練該模型的過程中，對產生的多個權重值進行一正則化運算，以降低該模型的複雜度，並確保該模型不會過度擬合。
如請求項6所述的計算系統，其中運用一統計方法得出該多個權重值的特性。
如請求項8所述的計算系統，其中針對得出的該多個權重值製作表示權重分布的一直方圖，根據該直方圖得出該多個權重值的特性，包括以下情況其中之一：，包括以下情況其中之一：該多個權重值中包括有一第一數量具有相同數值的權重；該多個權重值具有對稱的分布，表示該多個權重值具有一第二數量的數值相同但正負相反的權重值；以及該多個權重值中具有一第三數量的權重值為零。
如請求項9所述的計算系統，其中，根據該多個權重值的特性，將該多個權重值套用該其中之一權重排列規則，或是該多個權重排列規則的組合，將具有相同數值的權重排列在一起；將數值相同但正負號相反的權重值排列在一起；以及/或將數值為零的權重排列在固定的位置，以設計該損失函數，藉此簡化該模型的乘積累加運算式。