TPU v6e
本文說明 Cloud TPU v6e (Trillium) 的架構和支援的設定。在所有技術介面 (例如 API 和記錄) 和本文件中,Trillium 都會稱為 v6e。
每個 Pod 都有 256 個晶片,因此 v6e 與 v5e 有許多相似之處。這個系統經過最佳化,可訓練、微調及推出 Transformer、文字轉圖像和卷積類神經網路 (CNN)。
系統架構
每顆 v6e 晶片包含一個 TensorCore。每個 TensorCore 都有 2 個矩陣乘法單元 (MXU)、1 個向量單元和 1 個純量單元。下表列出 TPU v6e 的主要規格及其值。
| 規格 | 值 |
|---|---|
| 效能/總持有成本 (TCO) (預期) | 1 |
| 每個晶片的尖峰運算效能 (bf16) | 918 TFLOPS |
| 每顆晶片的尖峰運算效能 (Int8) | 1836 TOPS |
| 每顆晶片的 HBM 容量 | 32 GB |
| 每個晶片的 HBM 頻寬 | 1638 GiBps |
| 雙向晶片間互連 (ICI) 頻寬 (每個晶片) | 800 GBps |
| 每個晶片的 ICI 連接埠 | 4 |
| 每個主機的 DRAM | 1536 GiB |
| 每位主持人可獲得的晶片數 | 8 |
| TPU Pod 大小 | 256 個晶片 |
| 互連網路拓撲 | 2D 環面 |
| 每個 Pod 的 BF16 尖峰運算效能 | 234.9 PFLOPs |
| 每個 Pod 的 All-reduce 頻寬 | 102.4 TB/秒 |
| 每個 Pod 的對分頻寬 | 3.2 TB/秒 |
| 每個主機的 NIC 設定 | 4 個 200 Gbps 網路介面卡 |
| 每個 Pod 的資料中心網路頻寬 | 25.6 Tbps |
| 特殊功能 | SparseCore |
支援的設定
下表列出 v6e 支援的 2D 切片形狀:
| 拓撲 | TPU 晶片 | 主機 | VM | 機型 (GKE API) | 範圍 |
|---|---|---|---|---|---|
| 1x1 | 1 | 1/8 | 1 | ct6e-standard-1t |
子主機 |
| 2x2 | 4 | 1/2 | 1 | ct6e-standard-4t |
子主機 |
| 2x4 | 8 | 1 | 1 | ct6e-standard-8t |
單一主機 |
| 2x4 | 8 | 1 | 2 | ct6e-standard-4t |
單一主機 |
| 4x4 | 16 | 2 | 4 | ct6e-standard-4t |
多主機 |
| 4x8 | 32 | 4 | 8 | ct6e-standard-4t |
多主機 |
| 8x8 | 64 | 8 | 16 | ct6e-standard-4t |
多主機 |
| 8x16 | 128 | 16 | 32 | ct6e-standard-4t |
多主機 |
| 16x16 | 256 | 32 | 64 | ct6e-standard-4t |
多主機 |
連接至單一 VM 的 8 晶片切片 (v6e-8) 經過最佳化,可進行推論,因此單一服務工作負載可使用所有 8 個晶片。您可以在 Cloud 上使用 Pathways 執行多主機推論。詳情請參閱「使用 Pathways 執行多主機推論」。
如要瞭解各拓撲的 VM 數量,請參閱「VM 類型」。
VM 類型
每個 TPU v6e VM 可含有 1、4 或 8 顆晶片。含 4 顆以下晶片的配量具有相同的非統一記憶體存取 (NUMA) 節點。如要進一步瞭解 NUMA 節點,請參閱維基百科的「非統一記憶體存取」。
v6e 配量是使用半主機 VM 建立,每個 VM 都有 4 個 TPU 晶片。這項規則有兩個例外狀況:
v6e-1:只有單一晶片的 VM,主要用於測試v6e-8:經過最佳化的完整主機 VM,適用於推論用途,且所有 8 個晶片都已附加至單一 VM。
下表列出 TPU v6e VM 類型的比較:
| VM 類型 | 每個 VM 的 vCPU 數量 | 每個 VM 的 RAM (GB) | 每個 VM 的 NUMA 節點數量 |
|---|---|---|---|
| 1 晶片 VM | 44 | 176 | 1 |
| 4 晶片 VM | 180 | 720 | 1 |
| 8 晶片 VM | 180 | 1440 | 2 |