TWI782131B

TWI782131B - 用於記憶體管理的方法和用於機器學習的系統及方法

Info

Publication number: TWI782131B
Application number: TW107139416A
Authority: TW
Inventors: 李周桓; 奇亮奭
Original assignee: 南韓商三星電子股份有限公司
Priority date: 2018-02-02
Filing date: 2018-11-07
Publication date: 2022-11-01
Also published as: KR20190094089A; CN110135588B; US20190244096A1; US11468312B2; JP2019133666A; CN110135588A; TW201935293A

Abstract

本發明涉及一種用於記憶體管理的方法和用於機器學習的系統及方法。在一個實施例中，所述方法包括產生依賴關聯式結構，所述依賴關聯式結構包含一個或多個任務識別符及一個或多個資料物件識別符。所述依賴關聯式結構包含對所述一個或多個資料物件識別符中的第一資料物件識別符的一個或多個依賴關係的列表，所述列表的第一依賴關係識別以由所述第一資料物件識別符識別的資料物件作為輸入的第一任務。所述方法進一步包括計數對所述第一資料物件識別符的依賴關係的數目，當所述第一任務完成執行時將所述計數遞減1，且當所述計數達到零時將所述第一資料物件解除配置。

Description

用於記憶體管理的方法和用於機器學習的系統及方法

根據本發明的實施例的一個或多個方面涉及記憶體管理，且更具體來說，涉及一種用於為機器學習而管理記憶體的系統及方法。

機器學習(machine learning，ML)當在圖形處理器(graphics processing unit，GPU)上執行時可遭受與GPU記憶體相關的性能瓶頸。因此，當某些資料物件對於有待執行的計算來說不再被需要時，如果記憶體仍被不必要地分配給那些資料物件，則性能可受到影響。

因此，需要一種改善的記憶體管理系統及方法。

根據本發明的實施例，提供一種用於記憶體管理的方法，包括：產生依賴關聯式結構(dependency structure)，所述依賴關聯式結構包含一個或多個任務識別符及一個或多個資料物件識別符，所述依賴關聯式結構包含對所述一個或多個資料物件識別符中的第一資料物件識別符的一個或多個依賴關係的列表，所述列表的第一依賴關係識別以由所述第一資料物件識別符識別的第一資料物件作為輸入的第一任務；確定計數，所述計數是對所述第一資料物件識別符的依賴關係的數目；確定所述第一任務已完成執行；至少部分地基於確定所述第一任務已完成執行而將所述計數遞減1；確定所述計數小於第一閾值；以及至少部分地基於確定所述計數小於所述第一閾值而將所述第一資料物件解除配置。

在一個實施例中，所述第一閾值是1。

在一個實施例中，所述方法包括確定與所述第一任務相關聯的依賴關係的數目。

在一個實施例中，所述第一任務是神經網路的第一層中的計算運算。

在一個實施例中，所述第一資料物件是所述第一層中的啟動(activation)。

在一個實施例中，所述第一任務包括在反向推算(backward pass)期間：計算所述啟動中的梯度；以及計算權重中的梯度。

在一個實施例中，所述第一資料物件是所述第一層中的輸入梯度。

在一個實施例中，所述第一任務包括在反向推算期間：計算啟動中的梯度；以及計算權重中的梯度。

在一個實施例中，所述第一資料物件是所述第一層中的權重梯度。

在一個實施例中，所述第一任務包括對與所述權重梯度對應的權重執行就地更新(in-place update)。

在一個實施例中，所述方法包括：產生零個或更多個推算內存留(pass-persistent)資料物件識別符的清單，所述零個或更多個推算內存留資料物件識別符中的第一推算內存留資料物件識別符識別神經網路中的第一資料物件；確定反向推算已完成；以及基於確定所述反向推算已完成而將所述第一資料物件解除配置。

在一個實施例中，所述第一資料物件是神經網路的第一層的啟動。

在一個實施例中，所述方法包括：產生零個或更多個訓練內存留(training-persistent)資料物件識別符的清單，第一訓練內存留資料物件識別符識別神經網路中的第一資料物件，確定所述神經網路的訓練已完成，以及基於確定所述神經網路的訓練已完成而將所述第一資料物件解除配置。

在一個實施例中，所述第一資料物件是神經網路的第一層中的權重。

根據本發明的實施例，提供一種用於機器學習的系統，所述系統包括：圖形處理器及連接到所述圖形處理器的記憶體，所述圖形處理器被配置成：調用非重用檢測器(no reuse detector)；以及在調用所述非重用檢測器之後，啟動圖形處理器內核，所述非重用檢測器被配置成：識別第一資料物件，所述第一資料物件具有至少由以所述資料物件作為輸入的一個或多個任務界定的存留期(persistence)；產生依賴關聯式結構，所述依賴關聯式結構包含識別所述第一資料物件的第一資料物件識別符、以及所述一個或多個任務中以所述資料物件作為輸入的第一任務；確定計數，所述計數是對所述第一資料物件識別符的依賴關係的數目；確定所述第一任務已完成執行；至少部分地基於確定所述第一任務已完成執行而將所述計數遞減1；確定所述計數小於第一閾值；以及至少部分地基於確定所述計數小於所述第一閾值而將所述第一資料物件解除配置。

在一個實施例中，所述第一閾值是1。

在一個實施例中，所述第一資料物件是所述第一層中的啟動。

在一個實施例中，所述第一任務包括在反向推算期間：計算所述啟動中的梯度；以及計算權重中的梯度。

根據本發明的實施例，提供一種用於機器學習的方法，所述方法包括：為神經網路中的第一資料物件分配記憶體；確定所述第一資料物件具有至少由以所述第一資料物件作為輸入的一個或多個任務界定的存留期；確定以所述第一資料物件作為輸入的所述一個或多個任務中的最後一個已完成執行；以及基於確定以所述第一資料物件作為輸入的所述一個或多個任務中的所述最後一個已完成執行且基於確定所述第一資料物件具有至少由以所述第一資料物件作為輸入的所述一個或多個任務界定的存留期而將所述第一資料物件解除配置。

在一個實施例中，所述方法包括：為所述神經網路中的第二資料物件分配記憶體；確定所述第二資料物件具有由反向推算的完成界定的存留期；以及基於確定所述第二資料物件具有由所述反向推算的所述完成界定的存留期而在所述反向推算的完成時將所述第二資料物件解除配置。

在一個實施例中，所述方法包括：為所述神經網路中的第三資料物件分配記憶體；確定所述第三資料物件具有由所述神經網路的訓練的完成界定的存留期；以及基於確定所述第三資料物件具有由所述神經網路的訓練的完成界定的存留期而在所述神經網路的訓練的完成時將所述第三資料物件解除配置。

100:GPU記憶體

105:慢速系統記憶體

110:機器學習執行引擎

115:機器學習記憶體管理器

120:非重用檢測器

A、B、C、D、E:資料物件

dE:誤差梯度

dW_x:權重梯度/原始梯度

dW_y:梯度/輸入/權重梯度

dX、dY:梯度

dZ:損失梯度/輸入/輸入梯度/梯度

E:誤差

mW_x:滑動平均值

mW_x*:經更新的滑動平均值

W_x、W_x*、W_y*:權重

W_y:權重/輸入

X:資料物件/輸入

Y:輸出/輸入/啟動

Z:輸出/所預測輸出/輸入/資料物件

Z*:真實輸出

參照說明書、權利要求書及附圖，將瞭解及理解本發明的這些以及其他特徵及優點，附圖中：圖1是根據本發明實施例的流程圖。

圖2是根據本發明實施例的有向非循環圖表的圖示。

圖3是根據本發明實施例的正向推算(forward pass)的資料流程圖。

圖4是根據本發明實施例的反向推算的資料流程圖。

圖5A是根據本發明實施例的向量和圖。

圖5B是根據本發明實施例的資料流程圖。

以下結合附圖所述的詳細說明旨在作為對根據本發明所提供的用於為機器學習而管理記憶體的系統及方法的示例性實施例的說明，而非旨在表示其中可構造或利用本發明的僅有形式。所述說明結合所示的實施例陳述本發明的特徵。然而，應理解，可通過也旨在涵蓋于本發明的範圍內的不同實施例來實現相同的或等效的功能及結構。如本文中別處所示，相同的元件編號旨在指示相同的元件或特徵。

在一些相關技術系統中，在機器學習訓練期間為資料物件分配記憶體，且所述資料物件存留至其被釋放為止，並且所述資料物件中的一些資料物件被快取在GPU記憶體中。一旦GPU記憶體達到其最大容量，系統便在作業系統(operating system，OS)級上將分配在GPU上的資料物件以頁細微性(page granularity)遷移到系統記憶體。此種方法可導致性能的損失。

對於GPU上的機器學習(ML)運算，有限的GPU記憶體可造成性能瓶頸。因此，一些實施例通過將較慢但較大的記憶體與快速GPU記憶體一起使用來為GPU提供大的記憶體以進行高效機器學習訓練。

圖1示出在主機上利用快速GPU記憶體100及慢速系統記憶體105來為GPU提供大記憶體的一些實施例的整體流程。此種實施例可包括機器學習執行引擎110、機器學習記憶體管理器115及非重用檢測器120。機器學習執行引擎110執行GPU代碼，且通過調用機器學習記憶體管理器115來存取資料物件。機器學習記憶體管理器115可為基於平板(slab)的使用者級記憶體管理引擎，其管理由機器學習執行引擎110執行的GPU代碼所存取的資料物件。非重用檢測器120依據資料物件類型(或“類別”，如以下更詳細地論述)來區分資料物件，並通過檢查神經網路的有向非循環圖表(directed acyclic graph，DAG)來對不需要存留的資料物件進行標記，以使得機器學習記憶體管理器115可將這些資料物件解除配置。機器學習執行引擎110在執行每一GPU代碼之後執行對非重用檢測器120的調用。

在一些實施例中，以上所提及的非重用檢測器利用機器學習訓練的特性，且緩解因在GPU上的機器學習訓練期間不必要地請求大的動態隨機存取記憶體(Dynamic Random Access Memory，DRAM)大小所致的性能關鍵低效性。所述非重用檢測器對非重用的資料物件進行識別及標記，以使得機器學習記憶體管理器可將這些資料物件解除配置以減少資料物件遷移開銷(overhead)。

如在圖2所示的實例中，非重用檢測器檢查神經網路的有向非循環圖表(DAG)，以識別非重用的資料物件。圖2例如示出在計算出“B”及“C”之後，準備好執行計算“D”及“E”。在此實例中，非重用檢測器識別出不存在需要“A”的其他計算(或“任務”)並將“A”標記為“非重用”，以使得“A”可由機器學習記憶體管理器解除配置。

圖3及圖4示出可如何為機器學習訓練而使用非重用檢測器的實例。神經網路的每一層的計算是依序執行：對於正向推算是從左向右，且對於反向推算是從右向左。在圖3中的第一層以輸入“X”及權重“W_x”計算出輸出“Y”之後，第二層以輸入“Y”及權重“W_y”來計算輸出“Z”。在計算出所預測輸出“Z”之後，損失函數將“Z”與真實輸出“Z*”進行比較並計算誤差“E”。

參照圖4，反向推算通過以輸入“Z”及誤差梯度“dE”來計算損失梯度(或“輸入梯度”)“dZ”而開始。然後，下一層以輸入“dZ”、“Y”及“W_y”來計算梯度“dY”及“dW_y”。當輸入“dW_y”變得可用時，執行如下計算：執行將權重“W_y”更新成“W_y*”的就地更新(in-place updating)。當梯度“dY”變得可用時，類似地執行圖4中最左層的反向推算。

在一些實施例中，非重用檢測器產生依賴關聯式結構，所述依賴關聯式結構包含：一個或多個任務識別符，其各自識別相應的任務(例如，在正向推算期間計算輸出“Y”的任務、在反向推算期間計算輸入梯度“dZ”的任務、以及在反向推算期間計算啟動“Y”中的梯度“dY”及權重“W_y”中的梯度“dW_y”的任務)；以及一個或多個資料物件識別符(例如，作為任務輸入的資料物件的識別符，例如“X”及“W_x”(用於在正向推算期間計算輸出“Y”的任務)的識別符、或者“Y”及“dZ”(用於在反向推算期間計算梯度“dY”及梯度“dW_y”的任務)的識別符)。所述依賴關聯式結構可將資料物件識別符連結到需要所述資料物件識別符來作為輸入的任務。舉例來說，所述依賴關聯式結構可包含對第一資料物件識別符(例如，“X”的識別符)的一個或多個依賴關係的列表，且所述列表的第一依賴關係可識別以由第一資料物件識別符識別的資料物件(“X”)作為輸入的第一任務(例如，在正向推算期間計算輸出“Y”的任務)。非重用檢測器可計數例如對第一資料物件識別符的依賴關係的數目，只有當第一任務完成執行時才將計數減小1，且當計數達到零時，將第一資料物件解除配置。如此一來，第一資料物件的存留期是由以第一資料物件作為輸入的一個或多個任務界定(或者至少由所述一個或多個任務界定或至少部分地由所述一個或多個任務界定)。

在此實例中，一些實施例中的非重用檢測器在反向推算期間通過利用以下特性將正向推算期間每一層的輸出(圖3及圖4中的“X”、“Y”及“Z”)標記為“非重用”：在使用這些資料物件來計算出梯度(圖4中的“dX”、“dY”及“dZ”)之後，這些資料物件不再被使用。舉例來說，在計算出梯度“dZ”之後，資料物件“Z”不再被參考。由於在下一反覆運算(對下一資料項目進行處理的機器學習訓練)處“Z”的值不取決於前一反覆運算處“Z”的值，因此不需要為下一反覆運算維持“Z”的值。在一些實施例中，非重用檢測器維持此類別中的資料物件或“推算內存留”資料物件(即，啟動)的列表，並在反向推算結束時將所述資料物件標記為“非重用”，以便在反向推算完成時將所述資料物件解除配置。非重用檢測器可進一步維持“訓練內存留”資料物件識別符的清單，所述資料物件識別符中的每一者可識別只有當訓練完成時才被解除配置的資料物件(例如，權重，例如“W_x”)。

在一些實施例中，非重用檢測器還使用依賴關聯式結構在使用在反向推算期間計算出的權重梯度(圖4中的“dW_x”、“dW_y”)來更新權重之後將這些資料物件標記為“非重用”。圖5A及圖5B示出使用動量更新進行的權重更新的實例。類似于多種權重更新方法，動量更新維持權重梯度(圖5B中的“dW_x”)的滑動平均值(running average)(圖5A中的“mW_x”)，並應用滑動平均值來更新權重(在圖5B中從“W_x”更新成“W_x*”)而非應用原始梯度。在計算出權重及滑動平均值並對其執行就地更新之後，不再需要原始梯度(圖5B中的“dW_x”)。將在反向推算期間計算出的權重梯度以及正向推算的輸出解除配置可降低在GPU上的機器學習訓練期間對GPU記憶體的記憶體壓力，因此減少GPU上的系統記憶體與GPU記憶體之間的不必要遷移。

用語“處理電路”在本文中用於意指處理資料或數位信號所採用的硬體、韌體及軟體的任一組合。處理電路硬體可例如包括專用積體電路(application specific integrated circuit，ASIC)、通用或專用中央處理器(CPU)、數位訊號處理器(digital signal processor，DSP)、圖形處理器(GPU)及可程式化邏輯裝置(例如現場可程式化閘陣列(field programmable gate array，FPGA))。在本文所使用的處理電路中，每一功能由被配置(即，被硬連線)成執行所述功能的硬體執行，或者由被配置成執行儲存在非暫時性儲存媒體中的指令的更通用硬體(例如CPU)執行。處理電路可製作在單個印刷電路板(printed circuit board，PCB)上，或者分佈在若干經互連的PCB上。處理電路可包含其他處理電路；例如，處理電路可包括在PCB上被互連的兩個處理電路，即FPGA及CPU。

應理解，雖然本文中可使用用語“第一”、“第二”、“第三”等來闡述各種元件、元件、區、層及/或區段，然而這些元件、元件、區、層及/或區段不應受這些用語限制。這些用語僅用於將一個元件、元件、區、層或區段與另一元件、元件、區、層或區段區分開。因此，在不背離本發明概念的精神及範圍的條件下，本文中所述的第一元件、第一元件、第一區、第一層或第一區段可被稱為第二元件、第二元件、第二區、第二層或第二區段。

本文中所使用的用語僅用於闡述特定實施例，而非旨在限制本發明概念。如本文中所使用，用語“實質上(substantially)”、“約(about)”及類似用語用作近似用語而非用作程度用語，且旨在考慮到所屬領域中的普通技術人員將認識到的所測量值或所計算值的固有偏差。如本文中所使用，用語“主要組分(major component)”指代以比組合物、聚合物或產物中的任何其他單一組分的量大的量存在於所述組合物或產物中的組分。相比之下，用語“主組分(primary component)”指代構成組合物、聚合物或產物的按重量計至少50%或更多的組分。如本文中所使用，用語“主要部分(major portion)”在應用于多個項時意指各項的至少一半。

如本文中所使用，除非上下文另有清楚指示，否則單數形式“一個(a及an)旨在也包括複數形式。應進一步理解，在本說明書中所使用的用語“包括(comprises及/或comprising)”指明所陳述特徵、整數、步驟、操作、元件及/或元件的存在，但並不排除一個或多個其他特徵、整數、步驟、操作、元件、元件及/或其群組的存在或添加。如本文中所使用，用語“及/或(and/or)”包括相關聯所列各項中的一者或多者的任意及所有組合。當位於一系列元件之前時，例如“...中的至少一者(at least one of)”等表達語修飾整個所述一系列元件且不修飾所述一系列中的個別元件。此外，在闡述本發明概念的實施例時所使用的“可 (may)”指代“本發明概念的一個或多個實施例”。此外，用語“示例性(exemplary)”旨在指代實例或例證。如本文中所使用，用語“使用(use)”、“正使用(using)”、“被使用(used)”可被視為分別與用語“利用(utilize、utilizing及utilized)”、“正利用(utilizing)”、“被利用(utilized)”同義。

應理解，當將元件或層稱為“位於”另一元件或層“上”、“連接到”、“耦合到”或“相鄰於”另一元件或層時，所述元件或層可直接位於所述另一元件或層上、直接連接到、直接耦合到或直接相鄰於所述另一元件或層，或者可存在一個或多個中間元件或層。相比之下，當將元件或層稱為“直接位於”另一元件或層“上”、“直接連接到”、“直接耦合到”或“緊鄰於”另一元件或層時，不存在中間元件或層。

雖然本文中已具體闡述及示出了用於為機器學習而管理記憶體的系統及方法的示例性實施例，然而對於所屬領域中的技術人員來說，許多修改及變化形式將為顯而易見的。因此，應理解，使用根據本發明原理所構造的用於為機器學習而管理記憶體的系統及方法可以除本文中所具體闡述的方式之外的方式來實施。本發明還在以上權利要求書及其等效內容中被界定。

100:GPU記憶體

105:慢速系統記憶體

110:機器學習執行引擎

115:機器學習記憶體管理器

120:非重用檢測器

Claims

一種用於記憶體管理的方法，包括：產生依賴關聯式結構，所述依賴關聯式結構包含一個或多個任務識別符及一個或多個資料物件識別符，所述依賴關聯式結構包含對所述一個或多個資料物件識別符中的第一資料物件識別符的一個或多個依賴關係的列表，所述列表的第一依賴關係識別以由所述第一資料物件識別符識別的第一資料物件作為輸入的第一任務；確定計數，所述計數是對所述第一資料物件識別符的依賴關係的數目；確定所述第一任務已完成執行；至少部分地基於確定所述第一任務已完成執行而將所述計數遞減1；確定所述計數小於第一閾值；以及至少部分地基於確定所述計數小於所述第一閾值而將所述第一資料物件解除配置。
如申請專利範圍第1項所述的方法，其中所述第一閾值是1。
如申請專利範圍第1項所述的方法，更包括確定與所述第一任務相關聯的依賴關係的數目。
如申請專利範圍第1項所述的方法，其中所述第一任務是神經網路的第一層中的計算運算。
如申請專利範圍第4項所述的方法，其中所述第一資料物件是所述第一層中的啟動。
如申請專利範圍第5項所述的方法，其中所述第一任務包括在反向推算期間：計算所述啟動中的梯度；以及計算權重中的梯度。
如申請專利範圍第4項所述的方法，其中所述第一資料物件是所述第一層中的輸入梯度。
如申請專利範圍第7項所述的方法，其中所述第一任務包括在反向推算期間：計算啟動中的梯度；以及計算權重中的梯度。
如申請專利範圍第4項所述的方法，其中所述第一資料物件是所述第一層中的權重梯度。
如申請專利範圍第9項所述的方法，其中所述第一任務包括對與所述權重梯度對應的權重執行就地更新。
如申請專利範圍第1項所述的方法，更包括：產生零個或更多個推算內存留資料物件識別符的清單，第一推算內存留資料物件識別符識別神經網路中的第一資料物件；確定反向推算已完成；以及基於確定所述反向推算已完成而將所述第一資料物件解除配置。
如申請專利範圍第11項所述的方法，其中所述第一資料物件是神經網路的第一層的啟動。
如申請專利範圍第1項所述的方法，更包括：產生零個或更多個訓練內存留資料物件識別符的清單，第一訓練內存留資料物件識別符識別神經網路中的第一資料物件，確定所述神經網路的訓練已完成，以及基於確定所述神經網路的訓練已完成而將所述第一資料物件解除配置。
如申請專利範圍第13項所述的方法，其中所述第一資料物件是所述神經網路的第一層中的權重。
一種用於機器學習的系統，所述系統包括：圖形處理器，以及記憶體，連接到所述圖形處理器，所述圖形處理器被配置成：調用非重用檢測器；以及在調用所述非重用檢測器之後，啟動圖形處理器內核，所述非重用檢測器被配置成：識別第一資料物件，所述第一資料物件具有由以所述第一資料物件作為輸入的一個或多個任務界定的存留期；產生依賴關聯式結構，所述依賴關聯式結構包含：第一資料物件識別符，識別所述第一資料物件，以及所述一個或多個任務中以所述第一資料物件作為輸入的第一任務；確定計數，所述計數是對所述第一資料物件識別符的依賴關係的數目；確定所述第一任務已完成執行；至少部分地基於確定所述第一任務已完成執行而將所述計數遞減1；確定所述計數小於第一閾值；以及至少部分地基於確定所述計數小於所述第一閾值而將所述第一資料物件解除配置。
如申請專利範圍第15項所述的系統，其中所述第一閾值是1。
如申請專利範圍第15項所述的系統，其中所述第一任務是神經網路的第一層中的計算運算。
如申請專利範圍第17項所述的系統，其中所述第一資料物件是所述第一層中的啟動。
如申請專利範圍第18項所述的系統，其中所述第一任務包括在反向推算期間：計算所述啟動中的梯度；以及計算權重中的梯度。
一種用於機器學習的方法，所述方法包括：為神經網路中的第一資料物件分配記憶體；確定所述第一資料物件具有至少由以所述第一資料物件作為輸入的一個或多個任務界定的存留期；確定以所述第一資料物件作為輸入的所述一個或多個任務中的最後一個已完成執行；以及基於確定以所述第一資料物件作為輸入的所述一個或多個任務中的所述最後一個已完成執行且基於確定所述第一資料物件具有至少由以所述第一資料物件作為輸入的一個或多個任務界定的存留期而將所述第一資料物件解除配置。
如申請專利範圍第20項所述的方法，更包括為所述神經網路中的第二資料物件分配記憶體；確定所述第二資料物件具有由反向推算的完成界定的存留期；以及基於確定所述第二資料物件具有由所述反向推算的所述完成界定的所述存留期而在所述反向推算的所述完成時將所述第二資料物件解除配置。
如申請專利範圍第21項所述的方法，更包括為所述神經網路中的第三資料物件分配記憶體；確定所述第三資料物件具有由所述神經網路的訓練的完成界定的存留期；以及基於確定所述第三資料物件具有由所述神經網路的訓練的所述完成界定的所述存留期而在所述神經網路的訓練的所述完成時將所述第三資料物件解除配置。