DeepSeek 的 Engram 技術大幅降低 AI 記憶體成本並紓解 DRAM 壓力

DeepSeek’s Engram: 打破「記憶牆」並重新定義硬體經濟學

在迅速加速邁向通用人工智慧（Artificial General Intelligence, AGI）的競賽中，「記憶牆」正成為比純粹計算能力更強大的敵手。多年來，產業的解法多是以暴力堆疊方式應對：將昂貴的高頻寬記憶體（High Bandwidth Memory, HBM）模組堆進去以供餵給飢渴的 GPU。但來自中國 AI 實驗室 DeepSeek 與北京大學合作開發的一項突破性技術，有望顛覆此一範式。這項被稱為 Engram 的新架構，將靜態記憶與主動計算解耦，可能大幅降低對稀缺 HBM 的依賴，並緩解已導致價格飆升的全球 DRAM（動態隨機存取記憶體）危機。

Engram 的問世正值關鍵時刻。隨著 HBM 供應鏈緊繃，加上因為 AI 驅動需求使標準 DRAM 價格在短短十週內上漲五倍，硬體生態系正接近臨界點。DeepSeek 的方法不僅是優化程式碼；它從根本上重新構想大型語言模型（Large Language Models, LLMs）如何儲存與檢索知識，為在記憶成本重壓下窒息的產業提供一根救命稻草。

高效架構：Engram 的運作原理

Engram 技術的核心在於解決現代 Transformer 模型的一個基本低效率：把計算處理與知識儲存混為一談。傳統的 LLMs 依賴存放在高速記憶體（HBM）中的龐大參數來保留事實，這要求 GPU 在推論與訓練期間不斷在記憶體與計算單元之間搬運資料。這會造成瓶頸，使得記憶體頻寬而非計算能力成為效能的限制因素。

Engram 透過將「靜態知識」——事實、模式與語言規則——與進行推理所需的「動態計算」分離來規避此問題。

解耦儲存與邏輯

系統利用一種涉及 hashed N-grams 的機制來執行知識檢索。Engram 並不把所有知識直接內嵌到神經網路的主動處理層中，而是把靜態資訊當作查找表。

靜態檢索：模型可以從一個獨立的記憶池「查找」必要資訊，而不會阻塞超快的 GPU 記憶體。
上下文感知門控：資訊一旦被檢索出來，門控機制會調整資料以對齊模型當前的隱狀態，確保靜態事實能符合使用者查詢的動態語境。

這種分離使得知識儲存的重量可以從昂貴的 HBM 轉移到更豐富且更具成本效益的記憶體層級，例如標準 DDR RAM 或透過 CXL（Compute Express Link）連接的專用 SSD 配置。

Table: Comparative Analysis of Traditional Architectures vs. DeepSeek Engram

Feature	Traditional MoE / Dense Models	DeepSeek Engram Architecture
Memory Dependency	High reliance on HBM for all parameters	HBM for compute; standard RAM for static knowledge
Retrieval Mechanism	Direct parameter activation (compute-heavy)	Hashed N-gram lookups (bandwidth-efficient)
Scaling Cost	Exponential growth in HBM costs	Linear scaling with cheaper memory tiers
Latency Management	Synchronous data fetching	Supports asynchronous prefetching
Hardware Constraint	Bound by GPU VRAM capacity	Bound by system-level memory capacity (extensible)

最佳化參數預算

DeepSeek 的研究團隊不僅停留在架構理論；他們在一個 270 億參數的模型上透過嚴謹測試驗證了 Engram。研究的一項關鍵發現是所謂的「U 形擴展規則（U-shaped expansion rule）」，這是一種用來最佳化參數如何在專家混合（Mixture-of-Experts, MoE）模組與 Engram 記憶模組之間配置的啟發式法則。

結果挑戰了關於模型稀疏性的既有常識。DeepSeek 發現，將大約 20–25% 的稀疏參數預算重新分配到 Engram 模組，比純粹的 MoE 模型能夠達到更好的效能。這意味著單純增加更多「專家」（神經網路子模組）會達到邊際報酬遞減的臨界點；相較之下，將該容量投入到專門的記憶查找系統，能在不同規模下維持穩定的效能提升。

透過將靜態知識的重建從網路的下層卸載，模型得以釋放注意力機制，專注於全域語境和複雜推理。這暗示未來的模型在保有大型系統「知識」的前提下，能夠變得更小、更快，條件是它們能存取像 Engram 式的檢索系統。

緩解全球 DRAM 危機

Engram 的經濟意涵與技術意涵同樣重大。全球 HBM 的短缺——主要由 SK Hynix、Samsung 與 Micron 製造——已成為 AI 擴展的主要瓶頸。短缺情況如此嚴重，以致蔓延到消費市場，當製造商將產線轉向高利潤的伺服器記憶體時，DDR5 的價格也被推高。

Engram 提供了一個以軟體為驅動的硬體危機解法。透過降低對 HBM 的絕對需求，DeepSeek 為混合硬體配置鋪路，其可能形式包括：

高速 HBM 嚴格保留給主動推理與矩陣乘法。
標準 DDR5 或 LPDDR 處理靜態 Engram 查找。
CXL 連接的記憶體 為知識庫提供龐大且可擴展的容量。

這一轉變對中國 AI 部門尤為重要。由於地緣政治與貿易限制使得取得最新一代 HBM 晶片（例如 HBM3e）受限，像 DeepSeek 這類的中國公司被迫在硬體限制下進行創新。Engram 證明了架構上的巧思能有效放大戰力，使得較舊或不那麼專門化的硬體也能與前沿叢集競爭。

與新興硬體標準的整合

產業已在朝向與 Engram 思想相輔相成的解決方案演進。文章強調 DeepSeek 技術與像 Phison 的 aiDAPTIV+ 技術等硬體創新之間的協同。Phison 一直主張使用企業級 SSD 作為系統記憶體的延伸以運行大型模型。

當與 Engram 結合時，這些硬體解決方案變得更具可行性。理論上，一個系統可以將龐大的 Engram 資料庫放在快速的 NAND 快閃（SSDs）上，使用系統 RAM 作為快取，並把 GPU 記憶體保留給計算。Engram 檢索機制的確定性允許非同步預取（asynchronous prefetching），也就是系統能預測接下來需要哪些資料，並在 GPU 空閒前從較慢的記憶體先行擷取。

關鍵硬體協同：

CXL（Compute Express Link）: 使 CPU 與 GPU 能共享記憶體池，非常適合 Engram 所需的大型查找表。
基於 NAND 的擴展：SSDs 可在成本僅為 DRAM 一小部分的情況下儲存 PB 級的靜態 N-grams。
多 GPU 擴展：Engram 支持跨多 GPU 的線性容量擴展，且不需像模型並行常見的複雜通訊開銷。

高效 AI 訓練的未來

DeepSeek 發布 Engram 標誌著一種從「越大越好」轉向「越聰明越好」的變化。隨著 AI 模型突破兆級參數，將所有參數保存在熱儲存（hot storage）中的成本，正變得只有最富有的科技巨頭才能承擔。

透過證明記憶可以被視為一個獨立於計算之外的擴展軸，Engram 正在民主化大規模 AI 的可得性。它描繪了一個未來：模型的推理能力（IQ）由矽晶片決定，而它的知識庫（百科全書）則由廉價、可擴充的儲存決定。

對企業而言，這意味著有可能在本地部署的硬體上運行具備高度知識性的智慧代理，而無需數百萬美元的 HBM 叢集。對全球供應鏈而言，它提供了一條可能的出路，脫離記憶體市場的劇烈繁榮與崩潰循環。

隨著產業消化這些發現，關注點將轉向像 PyTorch 與 TensorFlow 等主要框架能多快整合類 Engram 的原語，以及硬體廠商是否會釋出為這種分離式記憶範式優化的參考架構。有一點是確定的：「記憶牆」不再是不可逾越的障礙，而是一扇剛被打開的門。