
在人工智慧未來的決定性時刻,Meta Platforms 與 NVIDIA 鞏固了長期合作關係,達成了一項大規模、跨年度的合夥協議,旨在部署數百萬個次世代 AI 加速器。這項交易由 Meta 執行長 Mark Zuckerberg 與 NVIDIA 執行長 Jensen Huang 於週二共同宣布,確保了 Meta 作為全球最大的加速運算消費者之一的地位,並支撐其邁向通用人工智慧(Artificial General Intelligence,AGI)的積極路線圖。
該協議概述了一項全面的供應鏈策略,其範圍延伸至 NVIDIA 目前推出的 Blackwell 架構之外。至關重要的是,它為 Meta 提供了即將推出的 Rubin GPU 平台的優先存取權,該平台預計將於 2026 年底進行大規模部署。這項基礎設施擴張預計將為 Meta 的 "Prometheus" 超級集群提供動力,並加速 Llama 模型家族未來迭代的訓練,其參數規模可能達到此前被認為無法維持的高度。
「我們正在打造全球最先進的 AI 基礎設施,」Mark Zuckerberg 在發布會上表示。「這項合作夥伴關係確保了 Meta 始終處於開源 AI 的前沿,為我們的研究人員和全球開發者社群提供必要的算力,以解決推理和機器認知領域最艱難的問題。」
此合作夥伴關係的核心是將 NVIDIA 最新的矽晶片創新整合到 Meta 的超大規模資料中心。雖然 Meta 繼續部署數十萬個 H100 和 Blackwell (B200) GPU,但新協議著重強調了向 Rubin 架構的過渡。
NVIDIA 的 Rubin 平台代表了運算密度和電源效率的世代躍升,這些因素對於 Meta 在 2026 年高達 1350 億美元的資本支出計畫至關重要。Rubin 架構採用了全新的 "Vera" CPU,這是一款採用客製化 Olympus 核心的 Arm 架構處理器,並與 Rubin GPU 配對。
對於 Meta 而言,轉向 Rubin 具有戰略意義。該平台利用高頻寬記憶體 4(HBM4),顯著緩解了經常限制兆級參數模型訓練的記憶體瓶頸。引入 Vera CPU 使得處理工作負載的耦合更加緊密,減少了在包括影片、文本和感測數據在內的多模態(Multimodal)數據集上訓練模型時,大規模數據攝取管道所需的延遲。
下表概述了從目前的 Blackwell 部署到協議中指定的即將到來的 Rubin 基礎設施的技術演進。
| 特性 | NVIDIA Blackwell 平台 | NVIDIA Rubin 平台 |
|---|---|---|
| 架構節點 | 4NP (客製化 4nm) | 3nm (TSMC N3) |
| GPU 記憶體技術 | HBM3e | HBM4 |
| CPU 配對 | Grace CPU (Arm Neoverse) | Vera CPU (客製化 Olympus 核心) |
| 互連速度 | NVLink 5 (1.8 TB/s) | NVLink 6 (3.6 TB/s) |
| 網路整合 | InfiniBand / 乙太網路 | Spectrum-X 乙太網路優化 |
雖然原始算力佔據了新聞頭條,但該合作夥伴關係同樣重視網路基礎設施。Meta 已承諾大規模部署 NVIDIA 的 Spectrum-X 乙太網路(Ethernet)網路平台。隨著 AI 集群增長到包含數十萬個 GPU,「東西向」流量(訓練期間伺服器之間移動的數據)成為了主要的效能瓶頸。
Spectrum-X 專為這些 AI 工作負載而設計。與傳統乙太網路在重載下可能遭受封包遺失和延遲峰值不同,Spectrum-X 利用了源自 InfiniBand 技術、但適用於標準乙太網路環境的適應性路由和擁塞控制機制。
對於 Meta 而言,這是一個務實的選擇。透過在 Spectrum-X 上進行標準化,Meta 可以利用乙太網路佈線和交換機的普及性與成本效益,同時實現大規模模型同步訓練所需的低延遲效能。這種網路架構將成為 Meta 在印第安那州和其他戰略位置的新資料中心的神經系統,確保數百萬顆晶片能作為一個具備凝聚力的單一超級電腦運作。
這項基礎設施投資的規模與 Meta 在 AI 開發上的哲學立場直接相關。與 OpenAI 和 Google 等大多保持其前沿模型專有的競爭對手不同,Meta 憑藉其 Llama 系列擁護開源權重策略。
隨著 Llama 4 和隨後的 "Avocado" 世代模型即將問世,計算需求呈指數級增長。為了在保持模型效率足以廣泛採用的同時維持尖端效能,Meta 進行了「過度訓練(Over-training)」——即在遠超其規模標準的 Token 數量上訓練模型。這種方法能產出極其強大的小型模型,但在訓練階段需要耗費巨大的運算資源。
Jensen Huang 強調了這種協同效應,並指出:「Meta 的開源方法是整個 AI 生態系統的渦輪增壓器。透過將數百萬個 Rubin 和 Blackwell GPU 投入其基礎設施,他們不只是在打造產品;他們還在打造一個讓每位研究人員和新創公司都能受益的平台。」
這項交易的財務規模令人震驚,反映了目前籠罩科技產業的「軍備競賽」態勢。分析師估計硬體採購價值達數百億美元,為 NVIDIA 的資料中心營收做出了重大貢獻。對於 Meta 而言,這是一場高風險的賭注,賭的是卓越的基礎設施將產生卓越的模型,進而推動 Facebook、Instagram 和 WhatsApp 的使用者參與度和廣告收入。
然而,部署也帶來了挑戰,特別是在能源消耗方面。裝滿 Rubin「超級晶片」的機架功率密度預計將推向目前氣冷技術的極限。因此,Meta 正在加速投資液冷系統和再生能源採購,以支持這些吉瓦級(Gigawatt-scale)設施。印第安那園區預計將成為全球功率密度最高的資料中心之一,將作為新參考架構的試點基地,將 NVIDIA 的矽晶片與 Meta 專有的 "Grand Teton" 伺服器設計相結合。
隨著 2026 年的推進,業界將密切關注這場大規模的矽晶片注入是否能轉化為追求 AGI 所承諾的突破性能力。