在近日舉辦的 Cloud Next '26 峰會上,谷歌正式推出第八代 TPU 架構,包含面向訓練的 TPU 8t 與專注推理的 TPU 8i。這兩款芯片預計于 2026 年晚些時候投入商用,目前采用申請制開放,Google Cloud 用戶需通過官網提交使用需求。原生 PyTorch 對 TPU 的支持已進入預覽階段,谷歌正與特定合作伙伴及早期客戶開展小規模測試,以優化算力資源分配策略。
TPU 8t 的核心突破在于大規模訓練效能的提升。通過搭載 SparseCore 專用計算單元與 Virgo 網絡拓撲,該芯片將單位成本算力提升至前代的 2.7 倍。其 3D Torus 互聯技術可組建超大規模計算集群——單個單元集成 9600 顆芯片,共享 2PB 內存,總算力達 121 ExaFlops。針對混合專家模型(MoE)的稀疏計算特性,SparseCore 技術優化了矩陣乘法單元的利用率,使芯片始終保持滿負荷運轉狀態。數據傳輸方面,Virgo 網絡將芯片間通信帶寬翻倍,外部數據中心連接帶寬提升四倍,配合 Direct Storage 技術繞過 CPU 直接讀取高速存儲,使訓練速度提升十倍的同時,每瓦性能較前代提高兩倍。
TPU 8i 則聚焦于實時推理與復雜決策場景。其配備的 288GB 高帶寬內存與 384MB 片上 SRAM(容量為前代三倍),可將長上下文數據完整存儲于芯片內部,顯著減少外部內存訪問頻率。針對混合專家模型推理中的集體通信瓶頸,芯片內置的 CAE 加速引擎將延遲降低五倍,芯片間互聯帶寬增至 19.2 Tb/s。網絡架構創新方面,Boardfly 拓撲借鑒 Dragonfly 設計思想,通過增加長距離直連鏈路,將 1024 顆芯片系統中的最遠通信距離從 16 跳縮短至 7 跳,降幅達 56%。這些改進使 TPU 8i 的推理性價比較前代提升 80%,配合谷歌自研 Arm Axion 架構 CPU 的能效優化,可支持企業以相同成本服務近兩倍用戶。
谷歌此次全面開放第八代 TPU 使用權限,支持 PyTorch、JAX 等主流 AI 框架,開發者無需學習新編程語言即可調用算力。配套開源的參考模型代碼庫,進一步降低了技術門檻。從 Gemini 大模型到全球開發者的 AI 應用,這套架構正試圖構建智能體時代的算力基礎設施。其訓練與推理芯片的分工設計,恰好契合了當前 AI 系統對算力與延遲的差異化需求——前者追求極致協同效能,后者強調快速響應與能效平衡。隨著 TPU 8t 與 8i 的逐步落地,AI 從單一預測向場景模擬與深度推理的進化或將獲得關鍵算力支撐。












