AI News

AI 基礎設施的歷史性結盟

在人工智慧未來的決定性時刻,Meta Platforms 與 NVIDIA 鞏固了長期合作關係,達成了一項大規模、跨年度的合夥協議,旨在部署數百萬個次世代 AI 加速器。這項交易由 Meta 執行長 Mark Zuckerberg 與 NVIDIA 執行長 Jensen Huang 於週二共同宣布,確保了 Meta 作為全球最大的加速運算消費者之一的地位,並支撐其邁向通用人工智慧(Artificial General Intelligence,AGI)的積極路線圖。

該協議概述了一項全面的供應鏈策略,其範圍延伸至 NVIDIA 目前推出的 Blackwell 架構之外。至關重要的是,它為 Meta 提供了即將推出的 Rubin GPU 平台的優先存取權,該平台預計將於 2026 年底進行大規模部署。這項基礎設施擴張預計將為 Meta 的 "Prometheus" 超級集群提供動力,並加速 Llama 模型家族未來迭代的訓練,其參數規模可能達到此前被認為無法維持的高度。

「我們正在打造全球最先進的 AI 基礎設施,」Mark Zuckerberg 在發布會上表示。「這項合作夥伴關係確保了 Meta 始終處於開源 AI 的前沿,為我們的研究人員和全球開發者社群提供必要的算力,以解決推理和機器認知領域最艱難的問題。」

硬體骨幹:Blackwell 與 Rubin

此合作夥伴關係的核心是將 NVIDIA 最新的矽晶片創新整合到 Meta 的超大規模資料中心。雖然 Meta 繼續部署數十萬個 H100 和 Blackwell (B200) GPU,但新協議著重強調了向 Rubin 架構的過渡。

邁入 Rubin 時代

NVIDIA 的 Rubin 平台代表了運算密度和電源效率的世代躍升,這些因素對於 Meta 在 2026 年高達 1350 億美元的資本支出計畫至關重要。Rubin 架構採用了全新的 "Vera" CPU,這是一款採用客製化 Olympus 核心的 Arm 架構處理器,並與 Rubin GPU 配對。

對於 Meta 而言,轉向 Rubin 具有戰略意義。該平台利用高頻寬記憶體 4(HBM4),顯著緩解了經常限制兆級參數模型訓練的記憶體瓶頸。引入 Vera CPU 使得處理工作負載的耦合更加緊密,減少了在包括影片、文本和感測數據在內的多模態(Multimodal)數據集上訓練模型時,大規模數據攝取管道所需的延遲。

比較分析:NVIDIA Blackwell 對比 Rubin 架構

下表概述了從目前的 Blackwell 部署到協議中指定的即將到來的 Rubin 基礎設施的技術演進。

特性 NVIDIA Blackwell 平台 NVIDIA Rubin 平台
架構節點 4NP (客製化 4nm) 3nm (TSMC N3)
GPU 記憶體技術 HBM3e HBM4
CPU 配對 Grace CPU (Arm Neoverse) Vera CPU (客製化 Olympus 核心)
互連速度 NVLink 5 (1.8 TB/s) NVLink 6 (3.6 TB/s)
網路整合 InfiniBand / 乙太網路 Spectrum-X 乙太網路優化

Spectrum-X 與連線革命

雖然原始算力佔據了新聞頭條,但該合作夥伴關係同樣重視網路基礎設施。Meta 已承諾大規模部署 NVIDIA 的 Spectrum-X 乙太網路(Ethernet)網路平台。隨著 AI 集群增長到包含數十萬個 GPU,「東西向」流量(訓練期間伺服器之間移動的數據)成為了主要的效能瓶頸。

Spectrum-X 專為這些 AI 工作負載而設計。與傳統乙太網路在重載下可能遭受封包遺失和延遲峰值不同,Spectrum-X 利用了源自 InfiniBand 技術、但適用於標準乙太網路環境的適應性路由和擁塞控制機制。

對於 Meta 而言,這是一個務實的選擇。透過在 Spectrum-X 上進行標準化,Meta 可以利用乙太網路佈線和交換機的普及性與成本效益,同時實現大規模模型同步訓練所需的低延遲效能。這種網路架構將成為 Meta 在印第安那州和其他戰略位置的新資料中心的神經系統,確保數百萬顆晶片能作為一個具備凝聚力的單一超級電腦運作。

推動開源 AGI 夢想

這項基礎設施投資的規模與 Meta 在 AI 開發上的哲學立場直接相關。與 OpenAI 和 Google 等大多保持其前沿模型專有的競爭對手不同,Meta 憑藉其 Llama 系列擁護開源權重策略。

隨著 Llama 4 和隨後的 "Avocado" 世代模型即將問世,計算需求呈指數級增長。為了在保持模型效率足以廣泛採用的同時維持尖端效能,Meta 進行了「過度訓練(Over-training)」——即在遠超其規模標準的 Token 數量上訓練模型。這種方法能產出極其強大的小型模型,但在訓練階段需要耗費巨大的運算資源。

Jensen Huang 強調了這種協同效應,並指出:「Meta 的開源方法是整個 AI 生態系統的渦輪增壓器。透過將數百萬個 Rubin 和 Blackwell GPU 投入其基礎設施,他們不只是在打造產品;他們還在打造一個讓每位研究人員和新創公司都能受益的平台。」

財務與環境挑戰

這項交易的財務規模令人震驚,反映了目前籠罩科技產業的「軍備競賽」態勢。分析師估計硬體採購價值達數百億美元,為 NVIDIA 的資料中心營收做出了重大貢獻。對於 Meta 而言,這是一場高風險的賭注,賭的是卓越的基礎設施將產生卓越的模型,進而推動 Facebook、Instagram 和 WhatsApp 的使用者參與度和廣告收入。

然而,部署也帶來了挑戰,特別是在能源消耗方面。裝滿 Rubin「超級晶片」的機架功率密度預計將推向目前氣冷技術的極限。因此,Meta 正在加速投資液冷系統和再生能源採購,以支持這些吉瓦級(Gigawatt-scale)設施。印第安那園區預計將成為全球功率密度最高的資料中心之一,將作為新參考架構的試點基地,將 NVIDIA 的矽晶片與 Meta 專有的 "Grand Teton" 伺服器設計相結合。

隨著 2026 年的推進,業界將密切關注這場大規模的矽晶片注入是否能轉化為追求 AGI 所承諾的突破性能力。

精選