TW201439926A

TW201439926A - 用於平行化迴旋神經網路之系統與方法

Info

Publication number: TW201439926A
Application number: TW102147804A
Authority: TW
Inventors: 亞歷山大克里斯撒夫基; 伊亞蘇斯卡菲; 傑佛瑞Ｅ西頓
Original assignee: 咕果公司
Priority date: 2012-12-24
Filing date: 2013-12-23
Publication date: 2014-10-16
Also published as: US9563840B2; US11928577B2; US20140180989A1; US10635966B2; US20240346298A1; US20170132514A1; WO2014105865A1; US9811775B2; US20200327391A1; US20150339571A1; AU2013370514A1

Abstract

本發明提供一種平行迴旋神經網路(CNN)。該CNN由各在一各別處理節點上之複數個迴旋神經網路實施。各CNN具有複數個層。該等層之一子集在處理節點之間互連，使得跨節點前饋啟動。剩餘子集無法如此互連。

Description

用於平行化迴旋神經網路之系統與方法

下文大體上係關於迴旋神經網路，且更特定言之係關於一平行迴旋神經網路。

迴旋神經網路(CNN)係可經組態以較佳適合於電腦視覺問題之強大模型。當CNN較大(即更複雜)(意指其等具有更多更深及高度互連層)時，其等通常表現最佳。此等CNN之一主要缺點係計算成本。因此，較大CNN通常不切實際的慢。在諸多應用中，一較大CNN需要比當前在一串列電腦上可用之更多計算。

因此，複雜CNN可藉由跨多個處理器平行化網路而實施。例如，針對影像處理或分類任務，可在若干圖像處理單元(GPU)上實施一CNN。

已存在各種建議以經由跨若干處理器平行化CNN而增加CNN之實用性。此等方法以使得最小化通信成本之一方式將網路分割成平行子網路。

一第一方法單純地將網路分割成平行子網路，且將每一子網路之層之狀態傳達至全部其他子網路。此方法可應用於CNN及完全連接網路兩者。

在此方法中，以某些方式將網路分割成某一數目個平行子網路。在每一層處，該等子網路將其等之啟動傳達至全部其他子網路，其導致前饋神經網路之一平行實施。

然而，在某些實施方案中，此方法在CNN中係低效的。其之效率最適合於完全連接加權矩陣，此乃因此等矩陣所需之計算量致使通信對計算之比較小。

相反地，CNN加權矩陣較稀疏，因此其等之通信對計算之比更大。因此，當將此方法應用於CNN時，花費一大部分時間在通信上，其使得平行化較無用。

一第二方法將網路分割成與其等之鄰近者通信之切片，且通常僅應用於迴旋或應用於局部連接網路。然而，此方法之當前實施通常無效率地處置集區。集區係用於使得網路之啟動對較小轉譯係更加不變的之一技術。儘管集區增加CNN之準確度，然其以通常針對第二方法允許較少平行性且需要增加之通信之一方式來改變啟動張量之維度。

例如，第二方法一項特定實施方案將CNN平行化成僅與其等之鄰近者通信之切片。該方法將輸入張量(尺寸為N×N×u)分割成具有尺寸(N/m)×N×u之m個子張量，且將一計算節點分配至m個子張量中之各者。此僅當N較大且u較小時有效，此乃因一較大N允許m(且因此計算節點之數目)變大，且一較小u允許鄰近切片通信不多。然而，當使用集區時，N必然較小且u必然較大。由於m無法超過N，所以一較小N限制計算節點之數目(其限制可達到之加速)，而一較大u需要鄰近切片之間之更多通信(其增加通信成本)。

下文之一目的係消除或減輕以上問題中之至少一者。

在一項態樣中，提供一種平行迴旋神經網路，該平行迴旋神經網路包括複數個迴旋神經網路，每一迴旋神經網路實施於一各别處理節點上且每一者包括複數個層，該等層中之一子集在該等處理節點之間互連以前饋各别啟動，且一剩餘子集未如此互連。

在另一態樣中，提供一種用於建立一平行迴旋神經網路之方法。

300‧‧‧建立平行迴旋神經網路

302‧‧‧選擇層

304‧‧‧選擇節點

306‧‧‧使節點互連

將在其中參考附圖之以下詳細描述中明白本發明之特徵，其中：圖1係一四層前饋神經網路；圖2係一平行迴旋神經網路；圖3係描繪一種建立一平行迴旋神經網路之方法之一流程圖；及圖4係包括一平行迴旋神經網路之一神經網路。

現將參考圖式來描述實施例。應瞭解，出於簡單及清晰說明之目的，在認為適當處，可在圖式之中重複元件符號以指代對應或類似元件。另外，闡述許多特定細節以提供文中所描述之實施例之一透徹理解。然而，熟習此項技術者應瞭解，可在沒有此等特定細節之情況下實施文中所描述之實施例。在其他例項中，尚未詳細描述眾所周知之方法、程序及組件以不致使文中所描述之實施例難理解。此外，該描述不被視為限制文中所描述之實施例之範疇。

亦應瞭解，文中所例示之執行指令之任何模組、單元、組件、伺服器、電腦、終端機或裝置可包含或以其他方式可以使用電腦可讀媒體，諸如儲存媒體、電腦儲存媒體或資料儲存裝置(可抽換及/或非可抽換)(諸如，例如磁碟、光碟或磁帶)。電腦儲存媒體可包含以用於資訊(諸如電腦可讀指令、資料結構、程式模組、或其他資料)之儲存之任何方法或技術來實施之揮發性及非揮發性、可抽換及非可抽換媒體。電腦儲存媒體之實例包含RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多功能光碟(DVD)或其他光學儲存、卡式磁帶、磁帶、磁碟儲存或其他磁儲存裝置或可用於儲存所要資訊且可由一應用、模組或兩者存取之任何其他媒體。任何此等電腦儲存媒體可為裝置之部分或可存取或連接至該裝置。可使用可由此等電腦可讀媒體儲存或以其他方式保持之電腦可讀/可執行指令來實施文中所描述之任何應用或模組。

下文描述一種用於平行化一神經網路之系統及方法，其中一平行神經網路包括複數個神經網路，該複數個神經網路將其等狀態情況之一子集傳達至該等神經網路中之其他者。因此，與一完全連接平行神經網路相比較，通信成本相對較低，同時維持適合能力以自平行計算中獲益。亦可在所描述之系統及方法下實現集區。

下文描述一CNN之平行化，然而，應理解，以下原理大體上應用於神經網路。

首先參考圖1，一前饋神經網路(FNN)包括複數個層，該複數個層中之每一者包括複數個胞。在各種實施方案中，網路、層及/或胞各由一處理器來實施。

一FNN係使用一序列加權矩陣(W₁，...，W_l)及一序列偏差向量(b₁，...，b_l)來參數化之將Rⁿ映射至R^m之一函數族。給定一輸入x Rⁿ，可藉由將i自1迭代至l藉由x _i←f _i(W _i x _i-1+b _i)而計算網路之輸出x _l，其中x ₀←x,x _i係第i層之啟動向量(或狀態)，且f _i(．)易於計算非線性，諸如逐一元素tanh(雙曲正切)或逐一元素修正max(0,x)。

加權(W₁，...，W_l)及偏差(b₁，...，b_l)之每一組態定義一不同x₀→x_l映射。訓練網路包括應用非線性最佳化方法以找出其之映射x₀→x_l程序校正訓練集上之標記之一參數設定。據說當W_i矩陣中之各者為密集時，一FNN被完全連接。

若輸入影像經編碼為一向量，則原則上，神經網路可應用於視覺任務。然而，即使較小影像仍係極高維度的目標。例如，一256×256彩色影像具有196608維度。此高維度通常致使神經網路無法實際應用，此乃因其等之加權矩陣往往不切實際的大。例如，具有上述維度之一密集正方形矩陣具有近乎5．10¹⁰個參數，其需要比通常在一單一CPU上可用之更多計算。其亦通常需要不可行量之學習資料。

然而，一CNN通常需要比具有經類似定大小之層之一完全連接神經網路更少計算及訓練資料，同時能夠在任務上達成類似效能(諸如視覺)(前提係不存在對資料及計算之量之限制)。CNN具有一限制連接性，因此與整個影像相比，各神經僅連接至輸入影像之一較小截圖，此隨後減少連接之數目。此限制不會損壞相對於一完全連接網路之效能，此乃因空間上分離像素之加權總和並非資訊性。另外，CNN使用加權共享，其意指其用相同連接來處理每一影像截圖。此導致參數之數目之一額外減少，此大幅減少所需訓練資料之量。此加權共享不會損壞相對於不使用此共享之網路之效能，此乃因影像統計係均勻的，因此可在每一位置中以相同方式合理地處理影像。

更正式地描述，至一CNN加權矩陣之輸入I可係各具有尺寸N×N之u個影像之一堆疊，該堆疊係具有尺寸N×N×u之一張量。一單一CNN層可應用各具有尺寸(2m+1)×(2m+1)之u×v個濾波器以產生具有尺寸(N-2m)×(N-2m)×v之一輸出張量(啟動張量)0。輸出張量可使用以下各i、j及v'之公式來計算：

其中i'=i+m+1且j'=j+m+1。

因此，儘管具有經相同定大小之層之一完全連接網路具有N ² u×(N-2m) ² v個連接，然一迴旋神經網路具有(N-2m) ² u×(2m+1) ² v 個連接且僅u×v(2m+1) ²個參數，因此連接之數目減少到約N ² /4m ²，且參數之數目減少近乎N ⁴ /4m ²。

然而，儘管一經合理定大小之迴旋神經網路之相對效率，實際上其針對較大影像之分類可係不可實施地慢。

現參考圖2，在一項態樣中，提供一種用於平行化一CNN之系統。該系統包括在複數個計算節點上實體化之複數個CNN。各計算節點係一處理器，諸如一CPU或GPU。應瞭解，一組節點可包括CPU及GPU以及其他處理器之組合。亦應瞭解，所描述之CNN無需僅應用於影像處理，而且可應用於其他適合任務。

在一項態樣中，該系統包括在針對其將啟動傳達至其他CNN之層之一預定子集處初始化之互連。可將該等啟動傳達至其他CNN之隨後鄰近層。例如，將在層i處之節點之啟動傳達至其他節點中之層i+1之胞。在圖2中所示之實例中，例如，將各節點中之層2及4之啟動分別傳達至其他節點之層3及5。

針對互連所選之層係全部層之一子集。在應視為非限制之一實例中，可以預定間隔跨越特定對鄰近層之全部節點而傳達啟動(即將層xi+k之節點傳達至層xi+k+1之節點，其中x係一整數且k係一偏移常數(offset constant)，以定義第一此互連層)。在一特定實例中，所選層係每第三層或第四層(即，x=3或4)。在另一實例中，此等層之間隔係不規則的，使得任意選擇啟動待被傳達之層，或基於額外考量而選擇。

在另一態樣中，可將一特定節點之啟動傳達至其他節點之一子集。例如，當計算節點之數目較大(諸如，例如大於10)時，將預定層處之每一CNN之啟動傳達至在各別隨後層處之各其他CNN之成本可不切實際地或過分昂貴。在此一情況下，可將啟動傳達至其他CNN之一預定子集(其可在訓練之前被隨機選擇或以某些其他方式選擇)。在一實例中，節點1層1之啟動可互連至節點2層2而非節點3層2。

在又一態樣中，一特定層之節點之啟動可與其他CNN之隨後層互連，而其他CNN之對應層中之節點不與其他CNN之隨後層互連。在一實例中，節點1層1可互連至節點2層2及節點3層2，而節點2層1可僅連接至節點2層2，而不互連至節點1層2或節點3層2。在另一實例中，節點1及節點2兩者之層1可與各節點之層2互連，而節點3之層1可僅連接至節點3層2。

以上之組合亦係有可能的。例如，節點1層1可互連至節點2層2而非節點3層2；而節點2層1不可互連至節點1層2或節點3層2；且節點3層1可互連至節點1層2及節點2層2兩者。

此等實例可(例如)在一或多個節點(GPU中之一或多者)比其他慢之情況下係有益的。在此實例中，相對於在其他節點處之各層減小更慢節點處之彼層之尺寸使得全部GPU能夠以大致相同速度處理各層可係有益的。繼而，該GPU之更小層尺寸可使其在每一層通信較便宜，而沒有大幅增長通信成本。因此，在每一層處傳達較慢GPU之啟動，而僅在該等層中之某些層處傳達較快GPU之啟動係具有成本效益的。

參考圖3，建立一平行CNN之一方法可包括：建立各在一計算節點上實體化之複數個平行CNN(300)；對於各CNN(針對CNN將其等之啟動傳達至其他CNN)選擇一或多個層(302)；針對在各此CNN中之各此層，選擇將啟動傳達至其之其他CNN之至少一子集(304)；及使所選層中之各者與此子集之各别隨後層互連(308)。

參考圖4，展示包括實施於兩個節點上之一平行CNN之另一實例之一神經網路。在此實例中，神經網路包括八個層，其中前五個層係迴旋的且剩餘三個層係完全連接的。該第二迴旋層、第四迴旋層及第五迴旋層連接至僅在相同處理器內之先前層，而剩餘層中之彼等層跨越兩個節點互連。

儘管已參考某些特定實施例來描述本發明，然熟悉此項技術者將在不背離本發明之精神及範疇之情況下明白其之各種修改，如隨附申請專利範圍所概括。上文陳述之全部參考之全部揭示內容以引用之方式併入本文中。

Claims

一種系統，其包括：複數個平行神經網路，其中該複數個平行神經網路各接收一相同輸入且基於該輸入共同產生一預測輸出，其中該等神經網路中之各者包括各别複數個層，其中各複數個層包括一互連層及一非互連層，且其中透過該複數個平行神經網路中之各者之該等層而處理資料包括：將輸出自該互連層提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層；及將輸出自該非互連層僅提供至該相同平行神經網路之一層。
如請求項1之系統，其中該複數個平行神經網路中之各者在一各别計算節點上實施。
如請求項1之系統，其中透過該複數個平行神經網路中之各者之該等層而處理資料進一步包括：將輸出自該互連層提供至該相同平行神經網路之至少一個層。
如請求項1之系統，其中將輸出自該互連層提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層包括：將輸出自該互連層提供至該複數個平行神經網路中之該等其他平行神經網路中之各者中之至少一個層。
如請求項1之系統，其中該複數個層中之各者包括各别複數個節點，且其中各節點基於自一或多個其他層接收之一輸入啟動而產生一各别輸出啟動。
如請求項5之系統，其中將輸出自該互連層提供至該複數個平行神經網路中之至少一個不同平行神經網路中之至少一個層包括：將輸出啟動自該互連層之各節點提供至該複數個平行神經網路中之該等其他平行神經網路之一子集之至少一個層中之各節點。
如請求項5之系統，其中將輸出自該互連層提供至該複數個平行神經網路之至少一個不同平行神經網路之至少一個層包括：將輸出啟動僅自該互連層之該等節點之一子集提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層中之該等節點之一子集。
如請求項1之系統，其中該平行神經網路係迴旋神經網路。
如請求項1之系統，其中該非互連層係一迴旋層。
如請求項1之系統，其中該互連層係一完全連接層。
一種方法，其包括：使用複數個平行神經網路中之各者來處理資料，其中該複數個平行神經網路各接收一相同輸入，且基於該輸入而共同產生一預測輸出，其中該等神經網路中之各者包括各别複數個層，其中各複數個層包括一互連層及一非互連層，其中使用該複數個平行神經網路中之各者來處理資料包括：透過該複數個神經網路中之各者之該等層而處理該資料，且其中透過該複數個平行神經網路中之各者之該等層而處理該資料包括：將輸出自該互連層提供至該複數個平行神經網路之至少一個不同平行神經網路之至少一個層；及將輸出自該非互連層僅提供至該相同平行神經網路之一層。
如請求項11之方法，其中該複數個平行神經網路中之各者在一各别計算節點上實施。
如請求項11之方法，其中透過該複數個平行神經網路中之各者之該等層而處理資料進一步包括：將輸出自該互連層提供至該相同平行神經網路之至少一個層。
如請求項11之方法，其中將輸出自該互連層提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層包括：將輸出自該互連層提供至該複數個平行神經網路中之該等其他平行神經網路中之各者中之至少一個層。
如請求項11之方法，其中該複數個層中之各者包括各别複數個節點，且其中各節點基於自一或多個其他層接收之一輸入啟動而產生一各别輸出啟動。
如請求項15之方法，其中將輸出自該互連層提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層包括：將輸出啟動自該互連層之各節點提供至該複數個平行神經網路中之該等其他平行神經網路之一子集之至少一個層中之各節點。
如請求項15之方法，其中將輸出自該互連層提供至該複數個平行神經網路中之至少一不同平行神經網路之至少一個層包括：將輸出啟動僅自該互連層之該等節點之一子集提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層中之該等節點之一子集。
如請求項11之方法，其中該等平行神經網路係迴旋神經網路。
如請求項11之方法，其中該非互連層係一迴旋層。
如請求項11之方法，其中該互連層係一完全連接層。
一種編碼有指令之電腦儲存媒體，該等指令當由一或多個電腦執行時，致使該一或多個電腦執行操作，該等操作包括：使用複數個平行神經網路中之各者來處理資料，其中該複數個平行神經網路各接收一相同輸入，且基於該輸入而共同產生一預測輸出，其中該等神經網路中之各者包括各别複數個層，其中各複數個層包括一互連層及一非互連層，其中使用該複數個平行神經網路中之各者來處理資料包括透過該複數個平行神經網路中之各者之該等層而處理該資料，且其中透過該複數個平行神經網路中之各者之該等層而處理該資料包括：將輸出自該互連層提供至該複數個平行神經網路中之至少一個不同平行神經網路之至少一個層；及將輸出自該非互連層僅提供至該相同平行神經網路之一層。