TWI744728B

TWI744728B - 以sram為基礎的記憶體系統中處理

Info

Publication number: TWI744728B
Application number: TW108143523A
Authority: TW
Inventors: 聖雅張; 湯瑪斯陳; 雅各克里斯多福波提莫; 宋石鳴
Original assignee: 密西根大學董事會
Priority date: 2018-11-29
Filing date: 2019-11-28
Publication date: 2021-11-01
Also published as: WO2020112485A1; US11269629B2; TW202044016A; US20200174786A1

Abstract

許多信號處理、機器學習以及科學計算應用程式都需要大量的乘積累加(Multiply-accumulate，MAC)運算。這種類型的運算對計算以及記憶體都要求很高。記憶體中處理已作為一種新技術提出，可以就地在大陣列的資料上進行直接計算，從而消除了昂貴的資料移動費用(overhead)。為了致能平行的多位元MAC運算，同時應用了寬度以及位準調變記憶體字元線。為了提高性能並提供對處理電壓-溫度變化的容忍度，使用了一個延遲鎖定迴路來生成用於驅動記憶體字元線的精細單位脈衝，並使用一個雙斜坡單斜率類比數位轉換器(Analog-to-digital converter，ADC)來轉換位元線輸出。該概念的原型是在由四個320×64計算靜態隨機存取記憶體(Static random-access memory，SRAM)所組成的180nm的互補式金氧半導體(Complementary Metal-Oxide-Semiconductor，CMOS)測試晶片所製作的，每個晶片都支援128×的平行的5b×5b的MAC以及32個5b輸出ADC，且在200MHz時功耗為16.6mW。

Description

以SRAM為基礎的記憶體系統中處理

【政府條款】

本發明是在美國國防部、國防高等研究計劃署授予HR0011-17-2-0018的政府支持下所完成的。政府在本發明中具有相當的權利。

本公開是關於記憶體中電腦應用程式以及記憶體系統設計中以SRAM為基礎的處理。

許多科學計算應用程式需要高精度算術運算，特別是乘積累加運算。一個很好的例子是偏微分方程(Partial differential equations，PDEs)的解法。PDE描述了許多物理現象，例如熱以及流體動力學。大多數的PDE是進行數值求解，首先透過以一網格來量化解空間，然後使用Jacobi方法疊代地精煉求解。

高精度PDE求解需要細網格以及很高的數值精度，從而導致需要處理、移動以及儲存大量資料。此外，PDE求解器通常需要數千次疊代才能收斂。雖然已經有提出硬體的PDE求解器，但是由於難以提供高計算密度以及高記憶體頻寬，因此要擴展加速器來支持實際問題將是一個挑戰。

近來，已經提出了記憶體中處理(Process in memory，PIM)，也稱為記憶體中計算的一種新技術，其直接在記憶體中就地對大陣列的資料進行計算，以消除昂貴的資料移動費用。藉由克服記憶體牆，PIM在涉及平行乘積累加(MAC)運算的任務中，例如分類以及神經網路，具有同時實現高性能以及高效率的潛力。

以SRAM為基礎的PIM設計，依賴於SRAM陣列的位準及/或寬度調變的字元線來編碼乘數，並且平行啟動多個字元線。SRAM單元在位元線放電時的電流代表乘積，且每條位元線上的總電流代表乘積的總和。或者，可以對位元線進行調變以對乘數進行編碼，然後將位元線合併以產生乘積的總和。

目前以SRAM為基礎的PIM設計，受到SRAM的二進制儲存裝置以及多位類比數位轉換費用的限制。部分的設計僅支援儲存在SRAM中的二進制被乘數；有些設計則選擇有限的輸出精度以及頻寬。為了消除對多位ADC的需求，一些設計將輸出量化為1b。為了減少ADC的數量，有些設計針對圓錐結構中的計算量身定制，在最終輸出中僅需要一個或少量的ADC。雖然上述這些方法已經有成功演示了，但不適用於需要疊代的多位運算以及在每次疊代中求解要更新的PDE求解器。

因此，期望在記憶體系統中實現以SRAM為基礎、支援對多位被乘數以及乘數的乘積累加運算的處理，並提供足夠數量的低成本類比數位轉換器以數位化其所有輸出。

本部分提供與本公開有關的背景資訊，但不一定要是習知技術。

本部分提供了本公開的總體概述，而不是將全部範圍或所有特徵完整公開。

本公開提供一種系統，用於對二進制數執行乘積累加運算。該系統包括排列成行及列的一記憶體單元陣列，使得陣列的每一列中的記憶體單元透過一相應的字元線互連，並且陣列的每一行透過一相應的位元線互連。一被乘數是一二進制數，該二進制數是由多位元所組成且在陣列中跨一記憶體單元群組儲存，以使二進制數中每個位元值儲存在記憶體單元群組中不同的一記憶體單元中。一給定記憶體單元群組中的每個記憶體單元，配置為接收用於指示一乘數的一輸入信號，以將乘數與儲存在給定記憶體單元中的位元值的乘積，輸出到給定記憶體單元的相應位元線上，其中使用寬度調變將乘數的數值編碼在輸入信號中。一驅動器電路，電性連接至一給定記憶體單元群組中的每個字元線，並以一組電壓驅動字元線的方式操作，其中電壓的大小會產生一個單元放電電流，該電流與儲存在相應記憶體單元中的有效位元成比例。

該系統更包含一組輸入開關，該組輸入開關置於該驅動器電路與該給定記憶體單元群組之間。該組輸入開關中的每個輸入開關配置為接收該輸入信號，並持續一段時間開啟輸入開關，該段時間對應乘數在輸入信號上編碼的數值，從而利用驅動器電路提供的一組電壓來驅動用於給定群組的字元線。

在一具體實施例中，每個記憶體單元更定義為靜態隨機存取記憶體。具體而言，記憶體單元陣列中的每個記憶體單元，包含堆疊排列的一對存取電晶體以及配置為儲存一位元值的一儲存電路，使得通過該對存取電晶體所汲取的電流的大小由相應字元線上的電壓大小以及儲存在儲存電路中的位元值所確定。該對存取電晶體中的一存取電晶體的一閘極端電性耦合至相應的字元線，並且該對存取電晶體中的另一存取電晶體的一閘極端電性耦合至儲存電路。

在一些具體實施利中，系統配置為使用一殘差形式來求解偏微分方程。

根據本文提供的描述，很顯然地存在對其他領域的適用性。在發明內容中的描述以及特定示例僅是為了例示的目的，並不旨在限制本公開的範圍。

20:系統

21:記憶體單元

22:驅動器電路

23:輸入開關

24:字元線

25:位元線

31:SRAM陣列

32:SRAM陣列

33:電流鏡

34:群組解碼器

36:延遲鎖定迴路(DLL)電路

37:合併及選擇多工器

38:類比數位轉換器(ADC)

41:SRAM單元群組

42:讀取存取電晶體；存取電晶體

43:讀取存取電晶體；存取電晶體

44:儲存電路

50:延遲鎖定迴路(DLL)

51:電壓控制的延遲線

52:相位檢測器

本文所描述的圖式的目的僅在於例示所選的具體實施例，而不是所有可能的實現方式，並且無意限制本公開的範圍。

第一A圖至第一C圖是描繪PDE映射方法的示意圖：僅細網格、在粗網格上具有殘差的多網格，以及在兩種網格上均具有殘差的多網格；

第二圖是描繪一系統的示意圖，該系統用於執行涉及多位被乘數以及乘數的乘積累加運算；

第三圖為以折疊結構表示兩個320×32的SRAM陣列的一示例系統架構的方塊圖；

第四圖是例示用於MAC運算的一群組讀取的示意圖；

第五圖是用於字元線脈衝產生的一示例延遲鎖定迴路(Delay-locked loop，DLL)設計的示意圖；

第六圖是用於位元線讀出的5位元雙斜坡單斜率ADC設計的示意圖；

第七圖是示出5b多網格與單網格基線實施方案相比的收斂性的圖表；以及

第八圖是示出所提出的系統的性能以及能源效率的圖表。

遍及圖式中的若干視圖，相應的參考編號指示相應的部分。

現在將參考附圖更全面地描述示例具體實施例。

在不失一般性的情況下，帕松方程式的解用於解釋PDE求解器設計。帕松方程式在實際應用中廣泛使用。二維帕松方程式在(1)中描述。

其中給定b(x,y)並尋求u(x,y)。為了求解帕松方程式，可以先使用有限差分法將PDE沿x以及y離散為步長為△x以及△y的網格，從而生成具有(2)所示形式的方程式系統。

其中u _i-1,j表示在網格位置(i-1,j)的u值，u _i+1,j是在(i+1,j)的u值，依此類推。

形式(2)的方程式可以以矩陣形式Au=b來描寫(請注意，A是一個稀疏矩陣)，可以使用等式(3)中的Jacobi疊代來求解。

u ^{( n+1)}= Ru ^{( n )}- b, (3)

其中R=A-I，它稱為模板矩陣(stencil matrix)，且b在疊代過程中是一個常數。請注意，R也是一個稀疏矩陣。

如第一A圖所示，為了達到精確的解，在實現Jacobi方法時需要細步長的細網格。但是，細網格會導致大量資料，並且收斂速度會相對較慢。為了加快收斂速度，多網格方法除了如第一B圖所示之細網格之外還引入了粗網格。透過將粗網格疊代與細網格疊代交錯，可以減少低頻誤差，從而加快收斂速度。

如方程式(4)所述並且在第一B圖中以圖形方式例示，為了從細網格過渡到粗網格，施加限制以將殘差(residual)r投影到粗網格。要從粗網格過渡回到細網格，可應用內插值來將e投影到細網格，以用於更新u。

r=b-Au ⁽ⁿ⁾

Ae=restrict(r) (4)

u ⁽ⁿ⁺¹⁾=u ⁽ⁿ⁾+interpolate( e )

粗網格計算使用方程式(5)的Jacobi疊代來求解誤差項e。

e ⁽ⁿ⁺¹⁾ =Re ⁽ⁿ⁾- s , (5)

其中R是模板矩陣，而s是受限制的r。由於粗網格計算是在誤差上運行，因此降低了所需的數值精度。透過適當的數值窗(numerical windowing)並使用更多的疊代，可以將粗網格計算的精度降低到5b或更低。在本公開中，殘差方法被進一步擴展到細網格計算以將其精度降低到5b或更低，如第一C圖所示。細網格以及粗網格計算都執行Jacobi疊代。

這種低精度殘差方法使得可以將方程式(5)中的核心計算Re ⁽ⁿ⁾映射到計算SRAM。模板矩陣R為稀疏的，使其儲存在SRAM中的效率極低。取而代之的是，可以將誤差e儲存在SRAM中，每個5b值儲存在連續列的5個單元中，並且將5b模板權重作為字元線脈衝施加到SRAM。MAC輸出量化為5b。

在典型的PIM設計中，同時啟動記憶體的所有列以釋放全部平行性。但是，在一PDE求解器中，R是稀疏的，因此啟動所有列是浪費的。因此，一次一個只能應用一組非零模板項目。例如，在求解方程式(2) 中的二維帕松方程式時，同時應用了四個模板項目。啟動記憶體列的子集也會降低位元線輸出的精度，僅需要5b輸出即可滿足PDE求解器所需的高精度。

第二圖描繪了根據本公開的用於對多位二進制數執行乘積累加運算的系統20的一部分。系統20通常包括：排列成行及列的記憶體單元21的一陣列，用於驅動將記憶體單元互連的字元線的一驅動器電路22；以及一組輸入開關23，其置於驅動器電路與記憶體單元之間。陣列的每一列中的記憶體單元透過各自的字元線24互連；然而，陣列的每一行中的記憶體單元透過各自的位元線25互連。在示例具體實施例中，每個記憶體單元更定義為靜態隨機存取記憶體(SRAM)，儘管本公開也考量其他類型的記憶體單元。

對於由多位元組成的二進制數，將記憶體單元分組為記憶體單元群組，使得二進制數中的每個位元值儲存在記憶體單元群組內的不同記憶體單元中。例如，將5位元二進制數中每個位元值儲存在一群組的5個相鄰列的陣列中，其中最高有效位的數值儲存在群組頂部列的記憶體單元中，並且最低有效位的數值儲存在群組的底部列的記憶體單元中，如第二圖所示。藉此，乘積累加運算的被乘數是一個由多個位元組成的二進制數，並且在陣列中跨一記憶體單元群組儲存。容易理解的是，給定的一組記憶體單元中的列數可以或多或少地取決於二進制數中的位元數。

驅動器電路22電性連接至一給定記憶體單元群組中的每條字元線24，並且操作以一電壓驅動字元線。即，每一記憶體單元群組有一個驅動器電路。更具體地說，用於驅動一給定字元線的電壓的大小對應於儲存在相應記憶體單元中的有效位元。在示例具體實施例中，驅動器電路22可以實現為一電流鏡，該電流鏡具有用於記憶體單元群組中的每個字元線的一級(stage)。電流鏡產生電壓以驅動底部單元的字元線到頂部單元，以對應於各個有效位元提供1×、2×、4×、8×以及16×位元線放電電流。藉由本公開還可預想到其他類型的驅動器電路。

從第二圖中可見，一組輸入開關23置於驅動器電路22以及一給定記憶體單元群組之間。該組輸入開關23中的每個輸入開關配置為接收一輸入信號。在示例具體實施例中，輸入信號表示乘數，並且乘數的數值使用寬度調變編碼在輸入信號中。假設使用4位元的二進制乘數，輸入信號中的每個脈衝具有從零(0)到十五(15)單位寬度中選擇的一寬度。輸入開關對應於脈衝寬度(即，在輸入信號上編碼的乘數的數值)持續一段時間開啟，從而利用驅動器電路提供的電壓來驅動相應的字元線。取決於應用的對象，應當理解乘數可以包括更多或更少的位元數。

在運算中，一給定記憶體單元群組中的每個記憶體單元配置為接收指示一乘數的一輸入信號。記憶體單元依次將乘數與儲存在給定記憶體單元中的位元值的乘積，輸出到耦合於一給定記憶體單元的相應位元線上。藉此，位元線上的電流的大小對應於乘數與儲存在給定記憶體單元群組中的二進制數的數值的乘積。應當注意的是，有效位元由用於驅動給定字元線的電壓的大小施加。

在一個示例具體實施例中，以四(4)個計算SRAM(compute-SRAM)為基礎，在180nm的CMOS中設計了一原型PDE求解器晶片。每個計算SRAM是一個320×64 8T SRAM陣列，並帶有週邊。四個計算SRAM可以用於計算四個獨立的高達64×64(5b網格值)的網格，或者可以將它們結合起來以支援高達127×127(5b網格值)的一網格。在此具體實施例中，儘管也可以使用更多的位元，但是精度可以在1b至5b之間配置。一緩衝區添加到每個計算SRAM，以在疊代之間轉送網格值。偏移量減法(offset subtraction)是在每個計算SRAM的輸出上執行，並使用一個單獨的記憶體來儲存偏移量s。晶片可以包含更多或更少的計算SRAM。同樣，每個SRAM陣列的大小可以變化。

請參考第三圖，320×64的計算SRAM是由兩個320×32 SRAM陣列31、32以折疊結構所製成。在180nm的CMOS中，計算SRAM佔0.467mm ²且時脈頻率為200MHz。它支援兩種模式：用於正常記憶體存取的單一讀/寫模式，以及用於MAC運算的一群組讀取模式。在群組讀取模式中，多達20列(即，四個5b群組)由群組解碼器34平行選擇。WL的5b寬度調變由延遲鎖定迴路(DLL)電路36所控制，並且5b位準調變透過電流鏡33所實現。合併及選擇多工器37允許部分乘積的類比加總。 32個合併的位元線(Bitlines，BLs)由32個5b類比數位轉換器(ADC)38所數位化。

第四圖進一步例示群組讀取模式，示出了用於MAC運算的四個模板項目(R ₁,R ₂,R ₃,R ₄)，從SRAM的兩側施加到儲存在SRAM陣列中的20列內的四個誤差向量(e ₁,e ₂,e ₃,e ₄)。5b誤差值跨5個SRAM單元儲存，5個SRAM單元包括一SRAM單元群組41。MAC運算用以下方式成組進行：1)群組解碼器開啟對5個SRAM列群組的存取；2)藉由5b模板項目選擇字元線脈衝寬度(Pulse width，PW)；3)電流鏡向一群組的5條字元線提供電壓，以實現1×、2×、4×、8×以及16×放電電流，以類比讀出5b誤差值；以及4)模板項目以及誤差值之間的乘積累積在位元線上。在此示例中，最多同時啟動4個單元群組，以在計算SRAM中平行啟用128個5b×5b的MAC。可以理解的是，可以啟動更多或更少的群組。

進一步為驅動器電路22以及記憶體單元21提供更多細節說明。在此示例具體實施例中，驅動器電路22由電流鏡實現。每個級都鏡像參考電流。透過對位元單元複本進行1×、2×、4×、8×以及16×大小調整，驅動器的每一級都會生成適當的電壓來驅動相應的字元線，使得群組中從底部到頂部的單元提供1×、2×、4×、8×以及16×的放電電流。當輸入信號使輸入開關23偏壓時，電壓被施加到記憶體單元21，其中電壓的大小對應於儲存在記憶體單元21中的有效位元。

記憶體單元21可以包括以堆疊排列的一對讀取存取電晶體42、43，讀取存取電晶體42、43電性耦合到一儲存電路44，其中儲存電路44配置為儲存一位元值。在此示例具體實施例中，儲存電路44更定義為例如具有常規6T排列的靜態隨機存取記憶體。該對存取電晶體中的一個存取電晶體42的一閘極端電性耦合至字元線，而另一個存取電晶體43的閘極端電性耦合至儲存電路。

在運算期間，通過該對存取電晶體42、43所汲取的電流的大小由相應字元線上的電壓大小以及儲存在儲存電路44中的位元值所確定。當儲存的位元值為零，則較下方的存取電晶體關閉，並且沒有電流通過該對存取電晶體汲取。相反地，當儲存的位元值為1時，較下方的存取電晶體開啟，並且電流通過該對存取電晶體汲取。此外，電流的大小由施加到較上方的存取電晶體的閘極端的電壓大小所控制。藉此，在位元線上產生一單元放電電流的電壓的大小，與儲存在相應記憶體單元中的有效位元成比例。位元線上的電流大小表示乘數與儲存在記憶體單元中的位元值的乘積。在本示例中，位元線電壓下降，使得位元線上的電流大小反轉以產生乘積。可以預見的是，該反轉可以嵌入到ADC中或在數位化之後。

在一個具體實施例中，可以使用一個時脈週期，例如5ns作為單位脈衝寬度，使得5b字元線脈衝將花費32個時脈週期或160ns。為了在滿足合理的脈衝分辨率的同時提高性能，還可以使用一部分時脈週期，例如625ps或5ns時脈週期的第1/8作為單位脈衝寬度，因此5b字元線脈衝僅需20ns。為了確保良好地控制脈衝寬度，可以設計一個延遲鎖定迴路(DLL)電路來生成具有一段持續時間的脈衝，該段持續時間為一參考時鐘的時脈週期的一小部分。請參考第五圖，DLL 50在控制迴路中使用8級電壓控制的一延遲線51來產生一5ns時脈週期的8個相位。透過使用一相位檢測器52追蹤200MHz的參考時鐘，以連續地調整相位，並且透過延遲線的控制電壓來校正誤差。DLL在180nm原型設計中佔1,500μm ²，並消耗950μW。在製程、電壓及溫度(Process-voltage-temperature，PVT)變化的情況下，它為PW單元提供了12ps的最大追蹤誤差，比一開路方法更強大。本實現方式僅是示例性的，並且本公開設想了用於DLL的其他設計。

在一個具體實施例中，記憶體單元陣列中的每個位元線電性耦合至類比數位轉換器(ADC)，以對位元線上的類比加總進行數位化。在一些具體實施例中，ADC可以電性耦合至一個以上的位元線，從而數位化跨位元線的電流總和。在任何情況下，ADC較佳是小型的以及具高能源效率，以避免成為設計的瓶頸。因此，排除了快閃記憶體或SAR架構。取而代之的是，可以選擇一種斜坡ADC，該ADC由一個斜坡參考以及一個由所有行共享的一計數器，以及每行一個比較器以及閂鎖組成。斜坡架構最大程度地減少了面積以及能量，但是一5b轉換需要32個時間步長。

從第六圖可見，為了提高轉換速度，可以採用一雙斜坡單斜率(Dual-ramp single-slope，DRSS)架構來進行2b粗斜坡比較，然後進行 3b細斜坡比較。位元線電壓是第一個與2b粗斜坡比較以獲得2b MSB，然後再選擇4個3b細斜坡之一進行比較以獲得3b LSB。雙斜坡方法將轉換時間減少到2²+2³=12個時間步長，比一串聯轉換架構更快。

在實現DRSS ADC時，一中央電路由32行共享，並且它由一電阻DAC產生兩個斜坡。一小型行電路由一前置放大器，跟著一再生比較器以及閂鎖組成。在原型設計中，計算SRAM中的32個ADC佔用0.044m²，在200MHz時轉換耗費8.91mW。在PVT變化的情況下，ADC的差分非線性(Differential nonlinearity，DNL)保持在0.5b以下，以確保即使不進行任何校準也能實現準確的5b轉換。

作為概念證明，製造並測試了180nm 11.0mm ²的一PDE求解器測試晶片。該晶片由一個PDE求解器以及BIST電路組成。當在200MHz以及室溫下進行群組讀取時，PDE求解器內核中的4個計算SRAM各自佔用570μm×820μm的功耗並消耗16.6mW的功耗。如第七圖所示，在運行Jacobi疊代時，5b多網格計算SRAM PDE求解器達到一容錯度為10^-8，而與基線雙精度單網格實現方式相比，其收斂速度提高了4倍。

200MHz的計算SRAM在18個時脈週期內完成128個5b×5b MAC運算，包含4個週期字元線脈衝、1個週期位元線傳播、12個週期ADC以及1個週期閂鎖。PDE求解器晶片具有4個計算SRAM，每18個時脈週期執行512次5b×5b MAC運算。遵循A.Biswas等人在ISSCC(2018年，第488-490頁)中描述的方法「Conv-RAM：具有嵌入式卷積計算的一節能SRAM，用於低功耗以CNN為基礎的機器學習應用」，它對每個活動SRAM單元的一運算進行計數為2 Ops，每個計算SRAM的性能以及能量分別為14.2GOPS以及857GOPS/W。如第八圖所示，在較低的精度下，性能以及能源效率可以提高一倍以上。

為了例示以及描述的目的，本公開已經提供了前述具體實施例的描述。這並非旨在窮舉或限制本公開。特定具體實施例的各個元件或特徵通常不限於該特定具體實施例，而是在適用的情況下是可互換的，並且即使未具體示出或描述也可以在一選定具體實施例中使用。同樣也可以以許多方式變化。這類的變化不應被認為是背離本公開，並且所有這類的修改皆欲包含在本公開的範圍內。