TW200923803A

TW200923803A - Hardware neural network learning and recall architecture

Info

Publication number: TW200923803A
Application number: TW96144692A
Authority: TW
Inventors: Meng-Shen Cai; Jun-Cheng Cai
Original assignee: Univ Nat Taipei Technology
Priority date: 2007-11-26
Filing date: 2007-11-26
Publication date: 2009-06-01

Description

200923803 九、發明說明：【發明所屬之技術領域】本發明係關於硬體類神經網路懷回想架構，特別是指—種同時具有回錄㈣功能及學習（Learaing)功能的硬體類神經網路架構。【先前技術】現今許多的人工智慧細領域巾，__路技術已逐輪演著重要的角色。在大部分的應财，_經網路収以軟_方式在—般的計算機上面實現，雖絲具了·，但運算速針分耗時。學⑽過程僅能進行離線（Off-Line)的運算’阻礙了應用範圍的拓展。類神經網路在運算時需要進行大#的數學運算’這些透過軟體實現的系統只能於高速的計算機上順利執行，而無法在低階的嵌人式系統中進行應用。隨著科技的發展，人們嘗試以硬體來實賴神，_路，藉以提高速度及魏。有些硬體僅能針對特定用途的類神經網路架構及參數進行設計，開發時間長且限制了移植性；另一些硬體則使用大量的邏輯元件、佔據龐大晶片面積，耗費成本。習知關於類神經網路技術的專利如下所述： L美國專利第5,087,826號：其提出的架構乃對於每個神經元的鏈結皆使用一個乘法器運算輸入與鍵值的乘積(iw)，以形成一個二維的陣列架構，運算速度雖快但耗費大量的硬體成本且產生大量的匯流排，不利於設計。 2. CNAPS ( Dan Hammerstrom, "A VLSI architecture for high-performance, low-cost, on-chip learning，" Proceedings of 200923803

International Joint Conference on Neural Networks, 1990, pp. 537-544. Dan Hammerstrom, Digital VLSI for Neural Networks, The Handbook of Brain Theory and Neural Networks, Second Edition, Michael Arbib, MIT Press，2003.): CNAPS的優點在於每個運算節點内建了加法與乘法器’且可藉由指令匯流排輸入指令控制其運算，每個節點相裏於一個簡單的算數單元（Arithmetic Unit )，所以在計算不同類神經網路的演算法有很大的彈性。應用該架構於類神經網路的硬體開發上，由於運算節點使用相同架構，可以很容易的進行節點數 - 量的調整。报可惜的，該架構使用的控制指令十分繁複，故需搭配軟體進行指令的編譯，也沒有專屬於活化函數運算的硬體架構，並因採用了通用性的架構，因而在運算速度上有所犧牲。 3.美國專利第5,〇91，864號：其提出的架構雖沒有CNAps那樣的彈性’但其架構精簡且更容易設計及使用，不僅提升了運算的速度也降低了的成本，同時也簡化了控制單元的複雜度，縮短 U Μ發的週期。其輸人資料是採料接的方式傳遞，亦即資料會先 :傳入第一個運算單元，經過兩個週期後才會傳入第二個運算單 : A 為資料纟】達各個處理單元的時間不同，也增添了控制單元設計的難度。其巾較可取的部分是精_化錄的數量Q减構考量到-轉列的特性，f料是配合時脈週期—筆筆的進行輸入與輸出’因此運算單元並不需要同時進行活化函數的計算，進而將活化函數從神經元中取出，獨立置放於陣列的回傳部分僅需叹冲-個活化函數即可完成運算，也不會因此耽誤到運算的速 200923803 度此外該架構設計了_組移位暫存器，可以將運算完畢的資料先儲存，再—筆筆往回傳遞，傳遞關時所有運算單元可立即進行下-筆資料的運算，充分的節树間。縣構的缺點是沒有學各部分的_ ’僅能針對訓練完成賴路進行回想運算。 4·美國專利第5,799，134號：其所提出的架構與美國專利第5，_料號的概念相似，但輸人資料是採用並聯方式連接，亦即所有運算單元於同-時刻接收到烟的輸人訊號。並藉由在運算單元中增 () 添減法器及乡工11使得運算的變化更加紐。但職沒有學習部分的機制，僅能執行類神經網路的回想功能。由此可見，上述習用技術仍有諸多缺失及不足，實非一良善之設計，而亟待加以改良。同時，習知的技術僅提供回想的功能，學習的功能仍須透過主機始能完成。本案發明人鑑於上述習用技術所衍生的各項缺點及不足，乃亟思加以改良創新’並經多年苦心孤指潛心研究後，終於成功研發完成本件硬體類 U 神經網路學習與回想架構。 : 【發明内容】 : 本發明之目的即在於提供硬體類神經網路學習與回想架構，係同時具備有回想功能與學習功能的類神經網路架構。可達成上述發明目的之硬體類神經網路學習與回想架構，係由運算單元（Proc⑽ Unit，PE )、活化函數（Activation Function )、控制匯流排（Control

Bus)、輸入資料匯流排（input Data Bus)、權重資料匯流排（Weight Data 200923803

Bus )、位址匯流排（Address Bus )、學習區塊（Leaming Block )、控制單元 (Control Unit)及多工器（Mux)所組成；藉由環狀串列多資料匯流排架構，進行倒傳遞類神經網路的運算，使其具有回想與學習的完整功能；讓使用者可以根據倒傳遞架構的不同，調整陣列中運算單元的數量，而不需要再重新規劃及設計整個系統，期望透過這樣的設計開發，將類神經網路的應用延伸到低階的嵌入式系統中，將可以帶動新一代的應用；本發明可改善以往類神經網路硬體架構，在透過較少的邏輯元件數目且兼具彈性的 f、同時，還能達到更佳的執行效能者。【實施方式】請參閱圖一、圖二及圖三，為本發明硬體類神經網路學習與回想架構之實施架構示意圖、運算單元所代表的節點示意圖及環形架構示意圖，由圖中可知，本發明硬體類神經網路學習與回想架構丨，係由運算單元(Pr〇cess Unit, PE) U、活化函數（Activation Function ) 12、控制匯流排（Control Bus ) 13、輸入資料匯流排（Input Data Bus ) 14、權重資料匯流排（Weight Data Bus ) 15、位址匯流排（Address Bus) 16、學習區塊（Learning Block) 17、控制單元（Control Unit) 18、多工器（Mux) 19所組成；本發明乃以環狀串列多資料匯流排架構（Single Instruction-Bus Multiple Data-Bus，SIMD)架構作為基礎，將所有的運算單元11鏈結成一個一維的運算單元（PE)陣列2 ; 所有的運算單元11連接到同一個控制匯流排13，並於同一時刻進行相同的運算，其中輸入資料匯流排14是傳送類神經網路中各層的輸入值χ以及逆向過程中的J值；由於硬體共構的緣故，在逆向運算的過程中，本發明依然 200923803 使用運算單元陣列2進行輸入資料匯流排Μ同樣需要進行在修正後轉重值產生的同時，間，她咖—_立睛==/㈣《細存的時陣列2中，而不至概誤運算的時^排Μ來卿重值存人運算單元考麵财縣值__若全部接顺辟幻s，當運算單元η 錄量幢流排也料雜卿元18 _增加’故本發明僅==重細流排15，即可將所有的權重值於運算前先儲存於運鼻早兀11内。由於運料元_2僅朗― 權重值能儲存在適當的運算單元u内，本發明固匯二排14，為了讓號，並透過位址嶋16給晴單it u位址，該=了進行編來列斷在權重資額流排上㈣料該儲存在_處理單元:u位址= 定處理單元η内記憶體的某一段位址，因此並不7° =，而不是指有利於簡化纽設計與降低成本。 ’齡址線’ 由於倒傳遞類神經網路的運算乃為多層的架構，除了輸入層每 ΓΓ入樹—層運算後犧，再加上每1都是進行她^ 模式，因此可以使用相同的運算單元（ΡΕ)來進疒_ 延异用叫進行隱藏層第-個節點的運算，同樣也使用找同層的運弁。亦即使點的運算，各運算單摘代表的網路節點可以關二來第個知僅需要數量等同最大單層隱藏層個數的運算單元，即η '來類神經網路運算，大幅的縮減了硬體的使用量。棘η 多層的倒傳遞 =運算單元陣列運篁〜單—層後，會將運算結果繼續使用於下一層的運算， ^ ，因此本發明將運算結 200923803 果直接傳送到輪人資料匯流排進行下-層的運算，形成-環形架構3，如圖二所不，由於資料直接可輸人進行運算，不需經由控制單元18再做處理，將有助於縮短運算的時間。請參閱圖四，為本發明之運算單元模型示意圖，由於本發明需要進行倒傳遞類神_路的運算，基於速度及祕元件侧健財量，將採用如圖四之運算單元4。如此一來，僅需要簡單的控制堆疊架構的 s己憶體411及先進先出（FIF〇)仔列架構的記憶體412的寫入與讀取，以 f、及累加器内部資料的清除’即可完成運算工作。另一方面，由於控制堆疊架構的記憶體411及先進先出仵列架構的記麵412 , (Multiplier) 42、加法器（Accumulator) 43相互之間的匯流排各自獨立，十分適合採用官線的方式，將運算拆解成若干個可以獨立執行的階段，所有資料緊鄰著在各個階段中進行運算，如此一來可以大幅的提昇運算效能。由於倒傳遞類神經網路在逆向運算的過程中，靠近輸出層的修正後權重鋪最先制·算絲’但在前向運算的過針卻反而是#近輸入層的權 J重值最先被使用。為了使學習過程計算出的修正後權重值能以正確的順序立即存入對應的運算單元十，本發明於每個運算單元内部設計一個堆疊架構的記憶體411來存放漁值，縮短等待權重值更新的時間。且由於堆叠僅需要進行讀寫的控制，外部不需要額外指定記憶體位址，可以減少控制單元的複雜度及硬體成本。在逆向計算的過程中，同樣需要使用權重值來進行計算，愈靠近輸出層的權重值愈先被使用。為了充分的利用現有硬體，共用運算單元陣列的 200923803 硬體對逆向過程巾的部分公式進行計算。且由於勒運算的過程中，愈靠近輸出層的權重值愈先被計算，其權重值順序與前向運算完全不同，且分屬於不同的運算單元巾，因而無法直接制運算單元堆疊时放的權重值進行計算，故在運算單元内部設置了一個先進先出仵列架構的記憶體412 來存放權重值。由於輪入資料匯流排44 一次僅能傳送一筆資料，故前一層的輸出僅需要-次輸出-科可，因此#運算單元_運算完料，會各自將結果存於單Μ的暫存ϋ (Register) 45巾，接著控解元會將移位(_訊號致月b«此時所有運算單元陣列將形同一組移位暫存器，將運算結果—個接一個的往前傳遞出來。運算單元4 _外設計—個暫存器45用於儲存計算結果，其存在的目的在於將運算的結果與運算過㈣資__來，亦即當運算的結果依雜贿遞的触巾，運算單元仍_不受影響進行下一層運算，避免閒置的時間。請參閱圖五，為本發明之學習區塊硬體架構示意圖，由圖中可知，由於運算單凡陣刺特性，—個雜僅會回傳—個輪岐果，纽於此除了共構的部分以外，其他的·並杨驗SI·架構。故本㈣設計了一個硬體學習區塊5連接於運算單元陣列，專門進行倒傳遞類神經網路學習部分的運算，且由於設計採職料流的概念，資料由各堆疊或彳宁列一筆筆讀出與存人’ 神經網路節點數量的改變並不會影響學躯塊5内的架構，仍可順利進行運算。該學龍塊5内運算崎程可以簡略劃分成計算 L計算~以及物三個部分，其中標號的部分用以區分整體流程的順 11 200923803 序’其中重要的訊號所代表的運算數值如下列表1所示表1重點訊號說明訊號訊號數値 —---η a① Σ^Γ'-Ο ^ ~ k b② b③ —---- e； ④ υ；(}-υ；) ~ ~ ⑤ ⑧ ηΥ;-'δ] ~~ ⑨ αΔ< (，(〇 ⑩ ----- < (，-1) +，(卜 ΐχγ = <(i) 、賢种岬袅肩路T各層的輸入與輸出分別存入學習區塊5内的各層輸入堆疊(¥__)51與各層輸出堆疊仏 ayer

Output Staek) % (流程①），其中各層的輸人與輸出值即為運算單元陣列的輸入值與、U化函數計算之輸出值。當前向運算完成後，會先由各層輸出隹疊中讀出輸出層的輸出值，並與訓練樣本的目標值進行運算求以並存入求出的同時會被傳送到輸入資料匯流排由運算單元万佇列中（流程⑤）。5Σοτ.νΟ 陣列進行* -g-gr ,. . en 層的h Μ程⑥以 1傳入學習區塊5内供後續再求—— 田L 存八件列後，開始自各層輸入堆疊51讀出各層的輸入值，並配合運算的時機自〜撤Aw㈣中讀以與“進行運算，最後 12 200923803 將求出新的AW (流程⑨）。將新求出的“與舊的權重值W進行運算’可求《正後的權重值，並將結果存人你_中，W存人制關時也將被傳送到《資龍流排上，同步更新·單講顺對應的權重值。 »運算的過程巾，愈靠近輸人層的輸人與輸丨絲愈先被計算出來1在逆_咐巾，爾W-娜賴算，且愈靠近輸⑽驗值愈先被使用。出於順序上的考量，本發用兩個堆叠將前向運算各層的輸人與輸出值分別存人其中，以供逆向運算的過程使由於脈即可計算出—㈣，但後續運算幾個時脈才需要讀出一個為了使運算流程更為賴，本發鶴每個時脈算㈣5先存到作列中，方便後續運算可以逐_讀人計算減少控制單福複雜程度。在運算的過程中，每完成-層的計算件列内的憎全部被讀出，隨後又存入前一層舻，以丁歹j的大小僅需等同於最大單層節點數即可。系先進行權重值初始化時會將隨機產钱權重值存放於運算單元陣列中，同時也將相同的值储存於學習區塊的你先進先出記憶體（wF】⑼ 53 ίI* 予習的過程中修正後的權重值被計算出來，儲存到w先進先出記憶的同時，也將透過權重資料匯流排同步更新到運算單元陣列内對應的隹叠中即虽逆向運算完成時，運算單元堆疊内存放的權重值也完成更新， T以立即進行前向運算，並於前向運算的過程中，再自w先贱出記憶體 "賣出權重值更新到運算單元陣列中對應的仔列以逆向運算使用。該^先進先出記憶體（△〜FIFO) 54在系統初始化的過程中，内部々數值將會全部清除為〇，並於隨後的運算中健存權重值的修正量。 13 200923803 為了節省控制單元的設計，資料的存放順序關係採用堆疊或佇列架構儲存。但依運算的需求，某些資料需要重複的進行讀取。為了節省時間及 pi化控制單元的設計’讓資料不需重新加載，故有些堆疊或仔列這些會設計-個保存位址的功能，保留目前記憶體_取位址，當重啟的訊號送達時’會回到保留位址重新將資料讀出。這些部分包括：運算單元的堆疊、學習區塊内存放各層輸入的堆疊，以及學習區塊内存放權重值的仔列。 4參咖六，為本發明之控制單元整誠程示意圖，由财可知，該〇彳工制早7L的目的是控制整_流程，即於適#的時機傳送控觀號，由於所有數值皆使用側及堆疊儲存，大幅了簡化了控制單摘複雜程度，因此控制早疋只需要控制各仔列堆疊的存取清除、累加器清除及各單元輸入錢的選料可完成整體運算。當控鮮元接㈣起始訊號（包括：權重值初始化、批次學習、進行回想三種），則由起始狀態進入下-階的狀態並進仃動作’當完成指定動作時會回傳—完成訊號。 ο，前向運算過程中僅會使用到運算單元堆疊⑽存的權重值，為縮短等领存的時間，堆疊更新完成即回傳完成訊號，並可立即進行前向運算。 =有獨立_重健流排，目此堆疊更新完後仍可於前向運算的過程持辆^仃ΡΕ符列的更新’並於逆向運算之開始前，先判斷仲列的更新是否已、二7^成，等待更新完成後才進行逆向運算。控制單元的流程概略可分為以下階段： ⑴初始化：僅在學習之初執行—次，目岐瓶數錢的權重值值分別存放到運算單元_的堆疊鱗列巾，以及進行各單元 14 200923803 的重置作業； ⑵當财缝值私料單元_的堆疊後，使用早w歹J進仃倒傳遞類神經網路的前向運算並將結果傳入活化函數計算出各層的輪出； (3)

⑷ 逆向運算：當前向運算完成，學f區塊進行倒傳遞類神經網路的逆向運算’最終的目的為修正權重值；又可以簡略劃分成計恥、計算心以及输三個部分，其中在計算*程中需要使用運算單元陣列進行計算；權重值更新：在逆向運算的難中，修正後的權重值被計算出來的同時，將之存入運算單元陣列的堆疊中；堆疊更新後，緊接著進行佇列的權重值更新； ⑴完成上述階段的運算後，使用不同的訓練樣本反覆的進行階段 ⑵到階段⑷運算，直到學習完成即可結束類神經網路的訓練。各流程的順序_如®七所示。其中在逆向運算的過程中，當輪出層第一個5計算出來後，會陸續將5傳入運算單元陣列進行運算求出 : ’並接著算出前—層W再傳人運算單轉列運算，直至所有隱藏層的5計算完畢為止。心本發明所餘之硬體類神經網路學習與㈤想架構，與其他習用技術相互比較時，更具備下列優點： 15 200923803 1. 本發明之硬麵神經網路學習與回想架構，係同時具有回想與功能。 2. 本發明之硬體類神經網路學習與回想架構，可讓使用者可以根據倒傳遞架構的不同，調整陣列中運算單元的數量，而不需要再重新規劃及設計整個系統’期望透過這樣的設計開發，將類神經_的應用延伸到低階的嵌入式系統t，將可以帶動新一代的應用。 3. 本發明之硬體類神經網路學習與回想架構，將可改善以往類神經網路硬體架構，在透雜少的騎猶數目且兼具雜的同時，還能達到更佳的執行效能者。 4. 本發明之硬體類神經網路學習與回縣構，係具有簡化系統複雜度、適用範圍廣、設置成本低廉及體積小等優點。上列詳細說明係針對本發明之—可行實施例之具體說明，惟該實施例並非用以關本發明之補範JU，凡未本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。练上所述’本案不但在技術思想上確屬創新並能較習用物品增進上述多項功效’麟充分符合新雜及進步性之法定發明專件，麦依法提出申凊’懇請貴局核准本件發明專利申請案，以勵發明，至感德便。【圖式簡單說明】圖-為本發明硬體類神經網路學習與回想架構之實施架構示意圖；圖二為本發明之運算單元所代表的節點示意圖；圖三為本發明之環形架構示意圖； 16 200923803 圖四為本發明之運算單元模塑示意圖；圖五為本發明之學習區塊硬體架構示意圖；圖六為本發明之控制單元整體流程示意圖；以及圖七為本發明之硬體運算流程說明示意圖。【主要元件符號說明】 I 硬體類神經網路學習與回想架構 II 運算單元（Process Unit, PE ) () 12 活化函數（ActivationFunction) 13 控制匯流排（Control Bus) 14 輸入資料匯流排（Input Data Bus) 15 權重資料匯流排（Weight Data Bus) 16 位址匯流排（Address Bus ) 17 學習區塊（Learning Block ) 18 控制單元（Control Unit) £ \ XJ 19 多工器（Mux) ' 2 運算單元陣列 ' 3 環形架構 4 運算單元 411 堆疊（Stack)架構的記憶體 412 先進先出（FIFO)佇列架構的記憶體 42 乘法器（Multiplier) 17 200923803 加法器（Accumulator) 43 44 輸入資料匯流排 45 暫存器（Register) 5 學習區塊 51 各層輸入堆疊（Layer Input Stack) 52 各層輸出堆疊（Layer Output Stack) 53 w先進先出記憶體（wFIFO) 54 Aw先進先出記憶體（Δ\νFIFO) 18

Claims

200923803 十、申請專利範圍： 1. 一種硬體類神經網路學習與回想架構，係包括： -運算單元_，係域贿料元戦械，並餅化函數、控制匯流排、輸入資料匯流排、權重資料匯流排及位址匯流排相介接；其中所有的運算單元皆連接到同-個控麵流排，並於同—時刻進行相同的運算： -學習區塊，係言史置於控制單元及運算單元陣列之間，並與控制匯流排、輸人資料酿排及權重資料隨排相介接；可紐倒傳遞類神經 • 網路學習部分的運算； -控制單元’係與學習區塊、控制匯流排、位址匯流排相介接，並同時透過多jhH與輸人資料匯流排及權重資料匯流排相介接；該控制單元乃用來控制整體架構的流程，即於適當的時機傳送控制訊號；本發明藉由環狀串列多資料匯流排架構來進行倒傳遞類神經網路的運算’使其具有回想與學習的完整功能。 Ο 2_如申睛專利範圍第1項所述之硬體類神經網路學習與回想架構，其中 : 該輸入資料匯流排，乃用來傳送類神經網路中各層的輸入值x以及逆 - 向運算過程中的5值。警 3·如申請專利範圍第1項所述之硬體類神經網路學習與回想架構，其中該權重資料匯流排，乃用來將所有的權重值存入運算單元陣列中。 4.如申請專利範圍第1項所述之硬體類神經網路學習與回想架構，其中該位址匯流排，乃用來給定運算單元位址，該運算單元位址僅用來判斷在權重資料匯流排上的資料該儲存在那個處理單元内。 19 200923803 申月專利la财1項所叙硬麵神_路學習與回該倒傳遞類神經網路的運算乃為多層的架構，除了輪入:外,t ::入都是前一層運算後的輸出，再加上每一層都是進行相同的運鼻、’ ®此可使用相同的運算單元來進行不同層的運算。 6. 4巾％專利㈣第丨項所述之頻類神經網路學習與回想架構，其中〜運算單7L ’包含-堆疊架構的記憶體及—先進先出㈣架構的記憶體0 〇 7·如巾吻專她财6項所述之棚類神_路學習與回想架構，其中該堆疊架構的記憶體、先進先出仔列架構的記憶體、乘法器及加法器，其相互之間的匯流排各自獨立，可採用管線方式將運算拆解成若干個可以獨立執行的階段，並將所有資料緊轉在各個階段中進行運算。 8.如申請專利範圍第6項所述之硬體類神經網路學習與回想架構，其中 *玄堆疊架構的§己憶體’將用來存放權重值，以縮短等待權重值更新的時間。〇 9.如申請專利範圍第6項所述之硬體類神經網路學習與回想架構，其中 : 該先進先出佇列架構的記憶體，乃用來存放於逆向運算過程中所產生；的權重值。 10·如申請專利範圍第1項所述之硬體類神經網路學習與回想架構，其中該運算單元内可設計-個暫存器用於儲存計算結果，用來將運算的結果與運算過程的資料區隔開，當運算的結果依序往回傳遞的過程中，運算單元仍能夠不受影響進行下一層運算。 20 200923803 11.如巾π專利圍第1項所述之硬體類神經網路學習與回想架構，其中該學習區塊内運算的流程，可以簡略劃分成計算$、計算“以及計算冰三個部分。 12_如f料纖圍第丨獅述之硬體轉酬路判與回想賴，其中該控制單元所接㈣的起始減，包括：觀值初始化、批次學習及進行回想二種，將由祕狀態進人下—階的狀態並進行動作，當完成指定動作時會回傳一完成訊號。气S 13.如中料利範圍第丨項所述之硬體_經鱗學雜回脑構，其中該控制單元的流程概略可分為以下階段： ⑴初始化：僅在學習之初執行—次，目的是將亂數產的的權重值值分別存放到運算單元陣列的堆疊與符列中，以及進行各單元的重置作業； ⑵前向運算：每當所有權重值存入運算單元陣列的堆疊後，使用運算單元陣列進行倒傳遞類神經網路的前向運算並將結果傳入〇活化函數計算出各層的輸出； : ⑴逆向運算：當前向運算完成，學習區塊進行倒傳遞類神經網路 . 的逆向運算，最終的目的為修正權重值；又可以簡略劃分成計算5、計算Δνν以及計算你三個部分，其中在計算j的過程中需要使用運算單元陣列進行計算； ⑷權重值更新：在逆向運算的過程巾，修正後_重值被計算出來的同時，將之存入運算單元陣列的堆疊中。堆疊更新後，緊 21 200923803 接著進行佇列的權重值更新； (5)完成上述階段的運算後，使用不同的訓練樣本反覆的進行階段 (2)到階段（4)運算，直到學習完成即可結束類神經網路的訓練。

22