
在一項承諾將重塑人工智慧經濟格局的重大聲明中,SK Hynix 發表了其革命性的 H3 架構(H3 architecture),這是一種將標準高頻寬記憶體(High Bandwidth Memory,HBM)與一種名為 高頻寬快閃記憶體(High Bandwidth Flash,HBF) 的創新技術相結合的混合記憶體設計。該突破於 2026 年 2 月 12 日在享譽盛名的電機電子工程師學會(IEEE)會議上提出,專門針對日益增長的 AI 推論(AI inference)瓶頸,據報導與現有解決方案相比,其 每瓦效能(performance-per-watt)提升了 2.69 倍。
隨著生成式 AI(Generative AI)模型在參數規模與上下文視窗(context window)長度上持續擴展,業界已遭遇「記憶體牆(memory wall)」——這不僅體現在頻寬上,還體現在容量與能源效率上。SK Hynix 引入 HBF 標誌著從以 DRAM 為中心的設計,轉向利用 NAND 快閃記憶體(NAND flash)的密度與即時處理所需速度的分層記憶體架構。
其核心創新在於 H3 架構,它從根本上改變了 AI 加速器的物理佈局。傳統的高性能 AI 晶片(例如 NVIDIA 的 Blackwell 或 Rubin 平台)通常將揮發性 HBM 堆疊直接置於 GPU 晶片旁,以實現數據吞吐量的最大化。雖然這確保了極快的速度,但 HBM 價格昂貴、耗電量大且容量有限——這對於在對話期間需要大量記憶體來儲存「KV 快取(Key-Value caches)」的現代大型語言模型(LLMs)來說是一個關鍵限制。
H3 架構引入了一種異質方法。它將 HBF——一種使用矽穿孔(Through-Silicon Vias,TSVs)堆疊多個 NAND 快閃記憶體(NAND flash) 晶片的技術——與標準 HBM 堆疊一同放置在相同的封裝基板(interposer)上。
根據 SK Hynix 的模擬數據,這種混合配置允許 GPU 將海量且對延遲較不敏感的數據塊(如 KV 快取)轉移到高密度的 HBF,同時保留超高速 HBM 用於最即時的運算需求。
為了理解這一躍升的幅度,有必要將 H3 架構與目前業界標準的純 HBM 設計進行比較。SK Hynix 的內部模擬使用了一顆 NVIDIA B200 GPU 配對八個 HBM3E 堆疊與八個 HBF 堆疊,產生了令人震驚的效率提升。
記憶體架構比較分析
| 功能特性 | 傳統純 HBM 架構 | SK Hynix H3 (HBM + HBF) 架構 |
|---|---|---|
| 記憶體組成 | 完全依賴基於 DRAM 的 HBM 堆疊。 | HBM (DRAM) 與 HBF (NAND) 的混合整合。 |
| 主要功能 | 無差別地處理所有邏輯、權重與快取。 | 分層系統:HBM 用於活躍運算,HBF 用於海量 KV 快取儲存。 |
| 每瓦效能 | 基準標準。 | 提升高達 2.69 倍。 |
| 批次處理 | 受 HBM 容量限制(較小的批次大小)。 | 同時查詢能力 提升 18.8 倍。 |
| 硬體佔用空間 | 大型模型需要龐大的 GPU 集群(如 32 個單元)。 | 以顯著較少的單元(如 2 個單元)達成相似吞吐量。 |
上表說明了僅僅透過擁有「更多呼吸空間」所釋放出的巨大效率。透過將大宗數據移至 HBF,系統降低了 GPU 與外部 SSD 或主記憶體之間交換數據的頻率,而後者的速度通常慢了數個數量級。
HBF 創新背後的主要驅動力是 AI 推論(AI Inference) 的特定需求。與需要大規模並行運算來構建模型的「訓練」階段不同,「推論」是模型向用戶生成回應的過程。
為了讓大型語言模型「記住」長對話的上下文,它會生成一個 KV 快取——一個過去互動的臨時日誌。隨著上下文視窗從數千個擴展到數百萬個代幣(tokens),這個快取呈指數級增長,往往超過了 HBM 的容量。
「為了讓 GPU 執行 AI 推論,它必須從 HBM 讀取稱為 KV 快取的變動數據。然後,它對此進行解釋並逐字輸出。HBF 的功能就像一個內容豐富但存取較慢的圖書館,而 HBM 則是快速學習的書架。」
— Dr. Kim Joungho,KAIST(關於分層記憶體的類比)
在 H3 架構中,HBF 充當了位於處理器旁邊的這個「圖書館」。單個 HBF 單元的容量可達 512GB——遠遠超過 HBM3E 模組約 36GB 的限制——系統可以在本地儲存巨大的上下文視窗。SK Hynix 的模擬顯示,系統有能力處理高達 1000 萬個代幣 的 KV 快取,且不會出現通常與 NAND 快閃記憶體相關的嚴重延遲懲罰。
SK Hynix 公佈的數據描繪了一幅極致效率的藍圖。在他們的測試情境中:
此聲明標誌著 SK Hynix 以及整個半導體產業更廣泛的策略轉向。
過去幾年,「AI 淘金熱」是由訓練晶片定義的。隨著市場成熟,焦點正轉向 推論成本。服務供應商需要更便宜、更快速地運行模型,才能使業務具有經濟意義。HBF 直接解決了 AI 部署的單位經濟效益問題。
HBF 代表了一個通常被稱為「AI-NAND」的新類別。雖然 SK Hynix 在 HBM 市場佔據主導地位,但此舉利用了他們在 NAND 快閃記憶體(他們也是該領域的全球領導者)的專長來開闢第二戰線。據報導,與 SanDisk 等夥伴的合作正在進行中,旨在建立「HBF 標準」,確保這項技術能跨不同 GPU 平台廣泛採用。
競爭對手並未停下腳步。三星電子(Samsung Electronics) 已暗示類似的分層記憶體解決方案,而標準化「HBM4」及更高版本的競賽涉及將更多邏輯與多樣化的記憶體類型直接整合到封裝中。然而,SK Hynix 的 H3 展示使他們在特定的「混合 HBM+NAND」實作中處於領先地位。
HBF 技術的引入表明「AI 晶片」的定義正在演變。它不再僅僅關乎原始的每秒浮點運算次數(FLOPS);而是關乎 記憶體層級效率。
SK Hynix 計劃加速 HBF 的商業化,Alpha 版本可能在今年晚些時候送達關鍵合作夥伴進行驗證。如果模擬的增益能在真實生產環境中保持,H3 架構可能會成為下一代 AI 資料中心的藍圖,有效地將模型規模與成本的指數級增長脫鉤。
隨著業界消化來自 IEEE 會議的這些發現,有一件事是明確的:AI 的未來不僅在於思考得更快,還在於以更低的能耗記住更多內容。Creati.ai 將持續關注 H3 架構的推出及其被主要 GPU 廠商採用的情況。