
在今天於阿姆斯特丹舉行的 Cisco Live EMEA 上,Cisco 揭曉了 Silicon One G300,標誌著人工智慧基礎設施演進的一個重要里程碑。這款專為吉瓦級(Gigawatt-scale)AI 集群需求設計的新型交換晶片,承諾在解決能源效率和作業完成速度等關鍵瓶頸的同時,加速產業向基於乙太網路的 AI 織造(Ethernet-based AI fabrics)轉型。
隨著 AI 工作負載從靜態訓練模型過渡到動態的代理式工作流(Dynamic, agentic workflows),底層基礎設施面臨著前所未有的壓力。在 Creati.ai,我們認為 G300 不僅僅是一次硬體升級,更是向「智慧集體網路(Intelligent Collective Networking)」的戰略轉向——這是一種旨在處理同步、高頻寬 GPU 通訊與下一代 AI 代理不可預測流量模式之間碰撞的架構。
今日公告的核心是 Silicon One G300 的原始容量。該晶片在單一設備中提供 每秒 102.4 兆位元(Tbps) 的 乙太網路交換(Ethernet switching)容量,其定位是直接與 Broadcom 和 NVIDIA 等競爭對手的最先進產品競爭。
至關重要的是,G300 支援由 Cisco 自研 200 Gbps SerDes 技術驅動的 1.6T 乙太網路連接埠。這種整合實現了高基數擴展(High-radix scaling)——支援多達 512 個連接埠——使網路架構師能夠構建「更扁平」的網路。透過減少 GPU 之間的跳數(Hops),營運商可以顯著降低延遲和功耗,這兩個指標定義了超大規模業者和新興雲服務商的總體擁有成本(TCO)。
Cisco 總裁兼首席產品官 Jeetu Patel 在主題演講中強調了這些技術的統一性:「AI 創新的速度比以往任何時候都快……今天的公告凸顯了 Cisco 作為統一平台的實力,展示了我們在晶片和系統方面的創新如何結合在一起,為客戶從資料中心到工作場所釋放價值。」
原始速度往往會被網路擁塞抵消。在傳統 AI 集群中,當數千個 GPU 嘗試同時進行通訊時,封包遺失和抖動會導致訓練作業停滯,浪費昂貴的計算週期。Cisco 試圖透過一套名為 智慧集體網路(Intelligent Collective Networking) 的功能來解決這個問題。
G300 架構在晶片(Die)上直接整合了一個巨大的 252MB 完全共享封包緩衝區。與劃分記憶體的傳統設計不同,G300 允許來自任何連接埠的封包利用任何可用空間。根據 Cisco 的內部模擬,與業界替代方案相比,這導致了 2.5 倍的突發吸收量增長。
對於 AI 模型訓練而言,「尾端延遲」(Tail latency,即最慢的封包)決定了整個集群的速度,這種緩衝能力具有變革意義。Cisco 報告稱,與非優化流量模式相比,該架構提供了 33% 的網路利用率(吞吐量)提升,且對 AI 研究人員最為關鍵的是,在 作業完成時間(Job Completion Time)(JCT)方面提升了 28%。
G300 的傑出技術特性之一是其負載平衡方法。傳統的基於軟體的網路調優通常反應太慢,無法應對 AI 工作負載中典型的微秒級突發。
G300 在硬體中實作了 基於路徑的負載平衡(Path-based load balancing),其對擁塞事件或網路故障的反應速度比軟體同類產品 快 100,000 倍。這確保了流量可以智慧地散佈到所有可用路徑上,而無需人工介入。對於管理擁有數萬個 GPU 集群的營運商來說,這種自動化消了對網路織造進行持續手動「調優」的需求,而這正是 InfiniBand 和早期乙太網路 AI 部署中眾所周知的痛點。
下表概述了新型 G300 晶片的核心技術規格和效能指標,並與 AI 網路的標準行業基準進行了比較。
表 1:Cisco Silicon One G300 技術亮點
| 特性 | 規格 | 對 AI 工作負載的影響 |
|---|---|---|
| 交換容量 | 102.4 Tbps | 為吉瓦級集群實現大規模橫向擴展 |
| 連接埠支援 | 1.6T 乙太網路 | 降低佈線複雜性並增加每機架密度 |
| 封包緩衝區 | 252MB(完全共享) | 吸收微突發以防止訓練期間的封包遺失 |
| 負載平衡 | 基於硬體(路徑感知) | 對擁塞事件的反應比軟體快 100,000 倍 |
| 吞吐量增益 | +33% 利用率 | 極大化昂貴的 GPU 運行時間和投資報酬率 |
| 作業完成 | 快 28%(對比非優化) | 縮短基礎模型訓練的上市時間 |
| 架構 | 可程式化 P4 | 允許在部署後添加未來協議(如 UEC) |
Cisco 的戰略延伸到了晶片之外。該公司還推出了 代理運維(AgenticOps),這是一套旨在管理「代理式 AI(Agentic AI)」複雜性的運維工具——在這種系統中,AI 代理會自主地與工具及其他代理進行互動。
這些新功能整合到了 Nexus One 管理主機板中,提供了網路健康狀況的統一視圖。透過將來自 G300 晶片的遙測數據(提供可程式化的會話級診斷)與高級軟體可觀測性相結合,IT 團隊可以在效能下降影響到更廣泛的集群之前,精確定位根本原因——無論是故障電纜還是路由表配置錯誤。
此外,Cisco 宣佈 G300 將為新的 Cisco 8000 和 Nexus 9100 系統提供動力。這些固定式與模組化系統旨在作為現有資料中心基礎設施的替代品,支援公司的「原地升級」理念。這得益於該晶片的 適應性封包處理(Adaptive Packet Processing),它允許透過軟體更新而非更換硬體來實作新協議,例如新興的超乙太網路聯盟(UEC)標準。
意識到更快的網路也會加速潛在威脅的傳播,Cisco 揭曉了其 AI 防禦(AI Defense) 解決方案的更新。這包括針對代理式工作流的「意圖感知檢查」。隨著 AI 代理開始自主請求資源並執行工具,網路必須驗證這些行為是否合法。更新後的 SASE(安全存取服務邊緣)產品現在可以評估代理流量的「原因」和「方式」,為以前在純高效能運算環境中缺失的自主系統提供一層治理。
G300 的影響對於更廣泛的半導體和資料中心市場意義重大。透過證明乙太網路可以透過智慧緩衝和負載平衡達到或超過 InfiniBand 等專用互連技術的效能,Cisco 正在驗證產業向 AI 網路開放標準邁進的趨勢。
Cisco 已確認 Silicon One G300 SDK 現已可用,首批使用該晶片的硬體系統預計將於 2026 年下半年 出貨。
對於目前正在規劃 2027 年基礎設施的企業和超大規模業者而言,訓練時間縮短 28% 的承諾代表著數億美元的潛在節省。隨著 AI 競賽的白熱化,網路的效率正變得與 GPU 的速度一樣關鍵,而憑藉 G300,Cisco 已在這一未來中佔據了強而有力的地位。