TWI892755B

TWI892755B - 計算機硬體系統以及人工智慧計算程序

Info

Publication number: TWI892755B
Application number: TW113126792A
Authority: TW
Inventors: 吳昭旺; 高敏富; 趙崑源
Original assignee: 凌陽科技股份有限公司
Priority date: 2024-07-17
Filing date: 2024-07-17
Publication date: 2025-08-01
Also published as: CN121365033A; US20260023490A1

Abstract

一種計算機硬體系統，係用以執行一人工智慧計算程序，該計算機硬體系統包括：主要儲存裝置、主要處理器、次要儲存裝置、以及至少一加速處理器。主要儲存裝置係配置以儲存寫入密集的資料。主要處理器，連接至該主要儲存裝置並且被配置以執行人工智慧計算程序中之設定程序。次要儲存裝置，係配置以儲存讀取密集的資料。至少一加速處理器，配置以載入次要儲存裝置所儲存之讀取密集的資料，且透過主要處理器存取主要儲存裝置中的寫入密集的資料。

Description

計算機硬體系統以及人工智慧計算程序

本發明涉及人工智慧技術領域，特別是一種計算機硬體系統以及由該計算機硬體系統執行的人工智慧計算程序，利用資源共享的方式，有效提升計算機硬體系統的效能以及穩定性，並且延長計算機硬體系統的使用年限。

隨著人工智慧（AI）技術的快速發展，其應用範圍不斷擴大，從圖像識別、語音識別到自然語言處理等多個領域，AI技術的進步正在改變我們的生活。然而，這些技術的背後，依賴著龐大的計算資源和儲存空間。AI運算的訓練和推理過程需要大量的記憶體來儲存AI模型的參數資料和計算時產生的快取資料，這不僅增加了設備成本，也對計算資源的管理和優化提出了更高的要求。在這種情況下，資源共享成為解決問題的一個重要途徑。

首先，我們需要了解AI計算中對記憶體的需求。現代AI模型，如深度神經網絡，通常包含數百萬甚至數十億個參數。這些參數需要儲存在記憶體中，以便在訓練和推理過程中快速存取和更新。除此之外，計算過程中還會產生大量的中間資料（即快取資料），這些資料在計算過程中同樣需要儲存在記憶體中。例如，訓練一個大型的自然語言處理模型（如GPT-3），可能需要數百GB甚至數TB的記憶體空間。

在進行資源共享時，除了計算資源的管理和分配外，還需要特別考慮不同記憶體裝置的特性。由於使用例如NAND flash等的固態硬碟（Solid State Drive，SSD）有其讀寫循環次數的限制，長時間和高頻率的讀寫操作會對記憶體資源帶來耗損，使得這些裝置的壽命縮短。因此，在資源共享的過程中，需要特別考量這些裝置的屬性，以確保系統的穩定性和長期運行。

因此，亟需提供一種計算機硬體系統以及由該計算機硬體系統執行的人工智慧計算程序，利用資源共享的方式，以較低成本的方式有效提升計算機硬體系統的效能以及穩定性，並且延長計算機硬體系統的使用年限。

本發明之一目的在於提供一種計算機硬體系統以及使用該計算機硬體系統的人工智慧計算程序，利用資源共享的方式，以較低成本的方式解決了記憶體空間不足的問題，並且提升計算機硬體系統的效能以及穩定性，這對於需要密集處理大規模資料的AI運算來說，尤為重要。

為了達成上述目的，在本發明之一態樣中，本發明提供一種計算機硬體系統，係用以執行人工智慧計算程序，該計算機硬體系統包括：主要儲存裝置、主要處理器、次要儲存裝置、以及至少一加速處理器。主要儲存裝置係配置以儲存執行人工智慧計算程序之指令與快取資料。主要處理器連接至主要儲存裝置並且被配置以執行人工智慧計算程序中之一設定程序。次要儲存裝置係配置以儲存一人工智慧模型資料。至少一加速處理器係連接至次要儲存裝置及主要處理器，其中至少一加速處理器配置以載入次要儲存裝置所儲存之人工智慧模型資料，且基於人工智慧模型資料執行人工智慧計算程序中之複數個層運算，以及透過主要處理器存取主要儲存裝置中的快取資料。

在本發明之另一態樣中，本發明更提供一種人工智慧計算程序，其由計算機硬體系統執行，其中該計算機硬體系統包括主要儲存裝置、主要處理器、次要儲存裝置、以及至少一加速處理器。人工智慧計算程序包括：使用主要處理器存取主要儲存裝置裡的指令以執行設定程序；從次要儲存裝置載入人工智慧模型資料至至少一加速處理器；以及基於人工智慧模型資料，使用至少一加速處理器執行人工智慧計算程序中之複數個層運算並且透過主要處理器存取主要儲存裝置中的快取資料。

在本發明之又一態樣中，本發明更提供一種計算機硬體系統，係用以執行一人工智慧計算程序，該計算機硬體系統包括：主要儲存裝置、主要處理器、次要儲存裝置、以及至少一加速處理器。主要儲存裝置係配置以儲存寫入密集的資料。主要處理器，連接至主要儲存裝置並且被配置以執行人工智慧計算程序中之一設定程序。次要儲存裝置，係配置以儲存讀取密集的資料。至少一加速處理器，配置以載入次要儲存裝置所儲存之讀取密集的資料，且透過主要處理器存取主要儲存裝置中的寫入密集的資料。

綜言之，本發明之計算機硬體系統以及使用該計算機硬體系統的人工智慧計算程序，利用資源共享的方式，有效提升計算機硬體系統的效能以及穩定性，並且延長計算機硬體系統的使用年限。

請參酌本揭示的附圖來閱讀下面的詳細說明，其中本發明的附圖是以舉例說明的方式，來介紹本發明各種不同的實施例，並供瞭解如何實現本發明。本發明實施例提供了充足的內容，以供本領域的技術人員來實施本發明所揭示的實施例，或實施依本發明所揭示的內容所衍生的實施例。須注意的是，該些實施例彼此間並不互斥，且部分實施例可與其他一個或多個實施例作適當結合，以形成新的實施例，亦即本發明的實施並不局限於以下所揭示的實施例。此外為了簡潔明瞭舉例說明，在各實施例中並不會過度揭示相關的細節，即使揭示了具體的細節也僅舉例說明以使讀者明瞭，在各實施例中的相關具體細節也並非用來限制本案的揭示。

參考圖1，其為本發明一具體實施例之計算機硬體系統在人工智慧作業系統下執行人工智慧計算程序的示意圖。在圖1中，在人工智慧作業系統100的環境下，為了執行人工智慧計算程序110，提供了計算機硬體系統120，其包括主要處理器124、主要儲存裝置125、至少一加速處理器128、以及次要儲存裝置127。主要儲存裝置125係配置以儲存執行人工智慧計算程序110之指令與快取資料。主要處理器124連接至主要儲存裝置125，並且配置以執行人工智慧計算程序110中的設定程序。

在一具體實施例中，人工智慧計算程序110可以是人工智慧推理應用或是人工智慧訓練應用。舉例來說，在進行人工智慧推理應用的計算程序110時，可以使用主要處理器124執行設定程序。具體來說，主要處理器124首先定義模型之複數個層運算，並將複數個層運算分配至至少一加速處理器128。接著，從輸入端121輸入資料，並且由主要處理器124將資料進行預處理，如標準化、歸一化、特徵提取或清洗等，確保資料適合於模型的輸入格式。接著，將預處理後的資料導入至模型中所定義的複數個層運算中。在完成設定程序後，從次要儲存裝置127載入人工智慧模型資料至至少一加速處理器128。由於現有之人工智慧模型資料通常包含數百萬甚至數十億個參數，因此在本具體實施例中，這些參數主要是儲存於次要儲存裝置127，其使用例如NAND flash等的固態硬碟（Solid State Drive，SSD）、硬碟（HDD）、NOR flash、RRAM、或是FRAM。然而，固態硬碟有其讀寫循環次數的限制，長時間和高頻率的讀寫操作會對固態硬碟帶來耗損，使其壽命縮短。因此，在本發明中，次要儲存裝置127主要係用於儲存讀取密集的資料，充分利用 SSD 大容量且成本較低的優勢，同時避免其寫入次數有限的缺點。在一具體實例中，讀取密集的資料包括人工智慧模型資料。

接著，至少一加速處理器128且基於人工智慧模型資料執行人工智慧計算程序110中之複數個層運算，以及透過主要處理器124存取主要儲存裝置125中的快取資料。最終，計算機硬體系統120將人工智慧推理應用的結果輸出至輸出端122。在本具體實施例中，這些快取資料主要是儲存於主要儲存裝置125，其使用例如DRAM、SRAM、MRAM等記憶體。然而，這類的儲存裝置雖然價格較為昂貴，但卻經得起高頻率且長時間的寫入操作。因此，在本發明中，主要儲存裝置125主要係用於儲存寫入密集的資料，充分利用其耐用且反應快速的優勢。在一具體實例中，寫入密集的資料包括執行該人工智慧計算程序之指令與快取資料。藉由本發明之對於不同操作調配記憶體資源的使用，不僅提高資料處理效率，也確保人工智慧計算程序能夠高效地運行。

如前所述，在一具體實施例中，人工智慧計算程序110可以是人工智慧推理應用或是人工智慧訓練應用。舉例來說，在進行人工智慧訓練應用的人工智慧計算程序110時，可以使用主要處理器124執行設定程序。具體來說，主要處理器124首先定義模型之複數個層運算，並將複數個層運算分配至至少一加速處理器128。接著，在模型訓練之前，從次要儲存裝置127輸入資料，並且由主要處理器124將資料進行預處理，如標準化、歸一化、特徵提取或清洗等，確保資料適合於模型的輸入格式。接著，設定模型訓練的迭代參數，即模型在整個資料集上訓練的次數，或稱為訓練週期(epoch)。通常會設定一定的迭代次數以保證模型充分學習。在完成設定程序後，從次要儲存裝置127載入人工智慧模型資料至至少一加速處理器128。由於現有之人工智慧模型資料通常包含數百萬甚至數十億個參數，因此在本具體實施例中，這些參數主要是儲存於次要儲存裝置127，其使用例如NAND flash等的固態硬碟（Solid State Drive，SSD）、硬碟（HDD）、NOR flash、RRAM、或是FRAM。然而，固態硬碟有其讀寫循環次數的限制，長時間和高頻率的讀寫操作會對固態硬碟帶來耗損，使其壽命縮短。因此，在本發明中，次要儲存裝置127主要係用於儲存讀取密集的資料，充分利用 SSD 大容量且成本較低的優勢，同時避免其寫入次數有限的缺點。在一具體實例中，讀取密集的資料包括人工智慧模型資料。

接著，至少一加速處理器128基於該人工智慧模型資料執行人工智慧計算程序110中之複數個層運算，以及透過主要處理器124存取主要儲存裝置125中的快取資料。最終，計算機硬體系統120將人工智慧訓練應用的結果輸出至次要儲存裝置127。在本具體實施例中，這些快取資料主要是儲存於主要儲存裝置125，其使用例如DRAM、SRAM、MRAM等記憶體。然而，這類的儲存裝置雖然價格較為昂貴，但卻經得起高頻率且長時間的寫入操作。因此，在本發明中，主要儲存裝置125主要係用於儲存寫入密集的資料，充分利用其耐用且反應快速的優勢。在一具體實例中，寫入密集的資料包括執行該人工智慧計算程序之指令與快取資料。藉由本發明之對於不同操作調配記憶體資源的使用，不僅提高資料處理效率，也確保人工智慧計算程序能夠高效地運行。

在一具體實施例中，本發明之計算機硬體系統120可更包括連接至次要儲存裝置127的儲存控制器126，可配置以決定至少一加速處理器128是否對於次要儲存裝置127進行存取。

在一具體實施例中，本發明之計算機硬體系統120可更包括連接至至少一加速處理器128的加速器儲存裝置129，以供至少一加速處理器128進行存取。在一具體實施例中，加速器儲存裝置129可以視為主要儲存裝置125之擴充，亦即使用例如DRAM、SRAM、MRAM等記憶體來主要儲存寫入密集的資料，供至少一加速處理器128存取。在一具體實例中，寫入密集的資料包括執行該人工智慧計算程序之指令與快取資料。在一具體實施例中，加速器儲存裝置129亦可供主要處理器124透過至少一加速處理器128來進行存取，充分發揮資源共享的效果。

在一具體實施例中，本發明之計算機硬體系統120的主要處理器124、儲存控制器126、以及至少一加速處理器128係透過一PCIe介面123互相通訊。然熟習本技術領域之人事當明白，本發明並不受限於PCIe介面123的使用。

在一具體實施例中，本發明之計算機硬體系統120之至少一加速處理器128可以是GPU、NPU、TPU、ASIC等，其可直接連接至個別的加速器儲存裝置129，也可以透過主要處理器124來存取主要儲存裝置125裡的寫入密集的資料並且透過儲存控制器126來存取次要儲存裝置127裡的讀取密集的資料。

搭配圖1所揭的計算機硬體系統120，本發明更提供一種由計算機硬體系統120執行的人工智慧計算程序，其中該計算機硬體系統120包括主要處理器124、主要儲存裝置125、次要儲存裝置127、以及至少一加速處理器128。參考圖2，其為本發明一具體實施例之人工智慧計算程序的流程圖。在圖2中，本發明之人工智慧計算程序包括以下步驟。首先，在步驟S21中，主要處理器124存取主要儲存裝置125裡的指令以執行設定程序。

如前所述，人工智慧計算程序110可以是人工智慧推理應用。圖3為本發明之計算機硬體系統120執行的人工智慧推理應用的人工智慧計算程序110之設定程序的流程圖。在圖3中，首先執行步驟S211，主要處理器124首先定義模型之複數個層運算，並將複數個層運算分配至至少一加速處理器128。接著，在步驟S212中，從輸入端121輸入資料，並且由主要處理器124將資料進行預處理，如標準化、歸一化、特徵提取或清洗等，確保資料適合於模型的輸入格式。接著，在步驟S213中，將預處理後的資料導入至模型中所定義的複數個層運算中。

在另一具體實施例中，人工智慧計算程序110也可以是人工智慧訓練應用。圖4為本發明之計算機硬體系統120執行的人工智慧訓練應用的人工智慧計算程序110之設定程序的流程圖。在圖4中，首先執行步驟S216，主要處理器124首先定義模型之複數個層運算，並將複數個層運算分配至至少一加速處理器128。接著，在步驟S217中，在模型訓練之前，從次要儲存裝置127輸入資料，並且由主要處理器124將資料進行預處理，如標準化、歸一化、特徵提取或清洗等，確保資料適合於模型的輸入格式。接著，在步驟S218中，設定模型訓練的迭代參數，即模型在整個資料集上訓練的次數，或稱為訓練週期(epoch)。通常會設定一定的迭代次數以保證模型充分學習。

接著，在步驟S22中，從次要儲存裝置127載入人工智慧模型資料至至少一加速處理器128。再來，在步驟S23中，基於人工智慧模型資料，至少一加速處理器128執行人工智慧計算程序中之複數個層運算並且透過主要處理器124存取主要儲存裝置125中的快取資料。在一具體實施例中，至少一加速處理器128可以直接連接至加速器儲存裝置129，以供至少一加速處理器128進行存取。在一具體實施例中，加速器儲存裝置129可以視為主要儲存裝置125之擴充，亦即使用例如DRAM、SRAM、MRAM等記憶體來主要儲存寫入密集的資料，供至少一加速處理器128存取。在一具體實施例中，加速器儲存裝置129亦可供主要處理器124透過至少一加速處理器128來進行存取，充分發揮資源共享的效果。

接著，在步驟S24中，主要處理器124判斷是否已經完成所有的層運算。如果是的話，主要處理器124會將取得此次人工智慧計算程序的運算結果，並將之從輸出端122輸出或是儲存到次要儲存裝置127中。如果主要處理器124判斷尚未完成所有的層運算，則再次執行步驟S22，從次要儲存裝置127載入人工智慧模型資料至至少一加速處理器128。

由以上討論可知，本發明之計算機硬體系統以及使用該計算機硬體系統的人工智慧計算程序，利用資源共享的方式，以較低成本的方式解決了記憶體空間不足的問題，並且提升計算機硬體系統的效能以及穩定性，這對於需要密集處理大規模資料的 AI 運算來說，尤為重要。

本發明雖以上述數個實施方式或實施例揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:人工智慧作業系統 110: 人工智慧計算程序 120: 計算機硬體系統 121: 輸入端 122: 輸出端 123: PCIe介面 124: 主要處理器 125: 主要儲存裝置 126: 儲存控制器 127: 次要儲存裝置 128: 加速處理器 129: 加速器儲存裝置 S21~S25、S211~S213、S216~S218:步驟

本發明的上述目的及優點在參閱以下詳細說明及附隨圖式之後對那些所屬技術領域中具有通常知識者將變得更立即地顯而易見。［圖1］為本發明一具體實施例之計算機硬體系統在人工智慧作業系統下執行人工智慧計算程序的示意圖；［圖2］為本發明一具體實施例之人工智慧計算程序的流程圖；［圖3］為本發明一具體實施例之人工智慧計算程序的設定程序之流程圖；以及［圖4］為本發明另一具體實施例之人工智慧計算程序的設定程序之流程圖。

100:人工智慧作業系統

110:人工智慧計算程序

120:計算機硬體系統

121:輸入端

122:輸出端

123:PCIe介面

124:主要處理器

125:主要儲存裝置

126:儲存控制器

127:次要儲存裝置

128:加速處理器

129:加速器儲存裝置

Claims

一種計算機硬體系統，係用以執行一人工智慧計算程序，該計算機硬體系統包括：一主要儲存裝置，係配置以儲存執行該人工智慧計算程序之指令與寫入密集的一快取資料；一主要處理器，連接至該主要儲存裝置並且被配置以執行該人工智慧計算程序中之一設定程序，以及存取該主要儲存裝置中寫入密集的該快取資料；一次要儲存裝置，係配置以儲存包括人工智慧模型資料的讀取密集且不寫入密集的資料；以及至少一加速處理器，連接至該次要儲存裝置及該主要處理器，其中該至少一加速處理器配置以載入該次要儲存裝置所儲存之該人工智慧模型資料，且基於該人工智慧模型資料執行該人工智慧計算程序中之複數個層運算，以及透過該主要處理器存取該主要儲存裝置中的該快取資料，其中該主要處理器所執行之該設定程序包括以下步驟：定義該複數個層運算，並將該複數個層運算分配至該至少一加速處理器；輸入資料，並且將該資料進行預處理；以及將預處理後的該資料導入至該複數個層運算。
如請求項1所述的計算機硬體系統，更包括一儲存控制器，連接至該次要儲存裝置，並且被配置以決定該至少一加速處理器是否對於該次要儲存裝置進行存取。
如請求項1所述的計算機硬體系統，更包括一加速器儲存裝置，係配置以連接至該至少一加速處理器，以供該至少一加速處理器進行存取。
如請求項2所述的計算機硬體系統，其中該主要處理器、該至少一加速處理器以及該儲存控制器係透過一PCIe介面互相通訊。
如請求項1所述的計算機硬體系統，其中該主要處理器所執行之該設定程序包括以下步驟：定義該複數個層運算，並將該複數個層運算分配至該至少一加速處理器；從該次要儲存裝置載入預處理之資料；以及設定迭代參數。
一種人工智慧計算程序，其由一計算機硬體系統執行，其中該計算機硬體系統包括一主要儲存裝置、一主要處理器、一次要儲存裝置、以及至少一加速處理器，且該人工智慧計算程序包括：使用該主要處理器存取該主要儲存裝置裡的寫入密集的指令以執行一設定程序；從該次要儲存裝置載入包括人工智慧模型資料的讀取密集且不寫入密集的資料；以及基於該人工智慧模型資料，使用該至少一加速處理器執行該人工智慧計算程序中之複數個層運算並且透過該主要處理器存取該主要儲存裝置中的快取資料，其中該設定程序包括以下步驟：定義該複數個層運算，並將該複數個層運算分配至該至少一加速處理器；輸入資料，並且將該資料進行預處理；以及將預處理後的該資料導入至該複數個層運算。
如請求項6所述的人工智慧計算程序，更包括：使用一儲存控制器決定該至少一加速處理器是否對於該次要儲存裝置進行存取。
如請求項6所述的人工智慧計算程序，更包括提供一加速器儲存裝置，係配置以連接至該至少一加速處理器，以供該至少一加速處理器進行存取。
如請求項7所述的人工智慧計算程序，其中該主要處理器、該至少一加速處理器以及該儲存控制器係透過一PCIe介面互相通訊。
如請求項6所述的人工智慧計算程序，其中該主要處理器所執行之該設定程序包括以下步驟：定義該複數個層運算，並將該複數個層運算分配至該至少一加速處理器；從該次要儲存裝置載入預處理之資料；以及設定迭代參數。
一種計算機硬體系統，係用以執行一人工智慧計算程序，該計算機硬體系統包括：一主要儲存裝置，係配置以儲存寫入密集的資料；一主要處理器，連接至該主要儲存裝置並且被配置以執行該人工智慧計算程序中之一設定程序；一次要儲存裝置，係配置以儲存讀取密集且不寫入密集的資料；以及至少一加速處理器，配置以載入該次要儲存裝置所儲存之該讀取密集的資料，且基於該讀取密集的資料執行該人工智慧計算程序中之複數個層運算，以及透過該主要處理器存取該主要儲存裝置中的該寫入密集的資料，其中該主要處理器所執行之該設定程序包括以下步驟：定義該複數個層運算，並將該複數個層運算分配至該至少一加速處理器；輸入資料，並且將該資料進行預處理；以及將預處理後的該資料導入至該複數個層運算。
如請求項11所述的計算機硬體系統，其中該寫入密集的資料包括執行該人工智慧計算程序之指令與快取資料。
如請求項11所述的計算機硬體系統，其中該讀取密集的資料包括人工智慧模型資料。