
В стремительно ускоряющейся гонке к Искусственному общему интеллекту (AGI) «стена памяти» (Memory Wall) стала более грозным противником, чем сырая вычислительная мощность. В течение многих лет отраслевым решением была грубая сила: наращивание дорогостоящих модулей High Bandwidth Memory (HBM) для питания прожорливых GPU. Однако прорывная техника от китайской AI-лаборатории DeepSeek, разработанная в сотрудничестве с Peking University, обещает перевернуть эту парадигму. Известная как Engram, эта новая архитектура отделяет статическую память от активных вычислений, потенциально сокращая зависимость от дефицитного HBM и смягчая глобальный кризис DRAM, из-за которого цены взлетели.
Появление Engram происходит в критический момент. С нарушенными цепочками поставок HBM и ростом цен на стандартный DRAM в пять раз всего за десять недель из‑за спроса, стимулируемого AI, аппаратная экосистема приближается к переломному моменту. Подход DeepSeek не просто оптимизирует код; он фундаментально переосмысливает способ, которым крупные языковые модели (Large Language Models, LLMs) хранят и извлекают знания, предлагая индустрии соломинку спасения, задыхающейся под тяжестью затрат на память.
В своей основе техника Engram решает фундаментальную неэффективность современных трансформерных моделей: смешение вычислительной обработки и хранения знаний. Традиционные LLM зависят от огромного числа параметров, хранимых в высокоскоростной памяти (HBM), чтобы сохранять факты, что требует постоянного перемещения этих данных GPU во время инференса и обучения. Это создаёт узкое место, где пропускная способность памяти, а не вычислительные возможности, ограничивает производительность.
Engram обходит это, разделяя «статические знания» — факты, паттерны и языковые правила — и «динамические вычисления», необходимые для рассуждений.
Система использует механизм с участием хешированных N-грамм для извлечения знаний. Вместо того чтобы встраивать все знания напрямую в активные вычислительные слои нейронной сети, Engram рассматривает статическую информацию как таблицу поиска.
Такое разделение позволяет переложить тяжёлую работу по хранению знаний с дорогостоящего HBM на более доступные и экономичные уровни памяти, такие как стандартная оперативная память DDR или даже специализированные конфигурации SSD через CXL (Compute Express Link).
Table: Comparative Analysis of Traditional Architectures vs. DeepSeek Engram
| Feature | Traditional MoE / Dense Models | DeepSeek Engram Architecture |
|---|---|---|
| Memory Dependency | High reliance on HBM for all parameters | HBM for compute; standard RAM for static knowledge |
| Retrieval Mechanism | Direct parameter activation (compute-heavy) | Hashed N-gram lookups (bandwidth-efficient) |
| Scaling Cost | Exponential growth in HBM costs | Linear scaling with cheaper memory tiers |
| Latency Management | Synchronous data fetching | Supports asynchronous prefetching |
| Hardware Constraint | Bound by GPU VRAM capacity | Bound by system-level memory capacity (extensible) |
Исследовательская команда DeepSeek не ограничилась архитектурной теорией; они валидировали Engram через тщательное тестирование на модели с 27 миллиардами параметров. Ключевой вывод их исследования — эвристика, названная «U‑образным правилом расширения», разработанная для оптимизации распределения параметров между модулями Mixture-of-Experts (MoE) и модулями памяти Engram.
Результаты бросили вызов существующей мудрости относительно разреженности моделей. DeepSeek обнаружили, что перераспределение примерно 20–25% бюджета разреженных параметров в пользу модуля Engram давало лучшую производительность по сравнению с чистыми MoE‑моделями. Это указывает на то, что простое добавление большего числа «экспертов» (подмодулей нейронной сети) достигает точки убывающей отдачи, тогда как выделение этой ёмкости специализированной системе поиска по памяти сохраняет стабильный прирост производительности при масштабировании.
Перенося реконструкцию статических знаний с нижних слоёв сети, модель освобождает механизмы внимания для фокусировки на глобальном контексте и сложных рассуждениях. Это подразумевает, что будущие модели могут быть меньше и быстрее, сохраняя при этом «знания» гораздо больших систем, при условии доступа к системе извлечения типа Engram.
Экономические последствия Engram столь же значимы, как и технические. Глобальная нехватка HBM — производимого в основном SK Hynix, Samsung и Micron — стала серьёзным узким местом для масштабирования AI. Дефицит настолько острый, что распространился на потребительский рынок, поднимая цены на DDR5 по мере того, как производители перенастраивают линии на память для серверов с высокой маржой.
Engram предлагает программно-ориентированное решение этой аппаратной проблемы. Сокращая абсолютную потребность в HBM, DeepSeek прокладывает путь к гибридным аппаратным конфигурациям, где:
Этот сдвиг особенно важен для китайского сектора AI. С учётом геополитических торговых ограничений, ограничивающих доступ к новейшему поколению чипов HBM (например, HBM3e), китайским компаниям вроде DeepSeek пришлось изобретательно обходиться аппаратными ограничениями. Engram доказывает, что архитектурная изобретательность может эффективно выступать в роли множителя силы, позволяя старому или менее специализированному оборудованию конкурировать с передовыми кластерами.
Отрасль уже движется к решениям, дополняющим философию Engram. В статье подчёркивается синергия между техникой DeepSeek и аппаратными инновациями, такими как технология aiDAPTIV+ от Phison. Phison продвигает идею использования корпоративных SSD в качестве расширения системной памяти для запуска больших моделей.
В сочетании с Engram эти аппаратные решения становятся значительно более жизнеспособными. Теоретически система могла бы хранить массивную базу Engram на быстром NAND‑флеше (SSD), используя системную RAM в качестве кеша и память GPU для вычислений. Детерминистский характер механизма извлечения Engram позволяет реализовать асинхронное предварительное извлечение (prefetching), то есть система может предсказать, какие данные ей понадобятся далее, и забрать их из более медленной памяти до того, как GPU простаивает в ожидании.
Key Hardware Synergies:
Выпуск Engram командой DeepSeek знаменует переход от «чем больше, тем лучше» к «чем умнее, тем лучше». По мере того как AI‑модели преодолевают триллионный рубеж параметров, стоимость хранения всех этих параметров в «горячем» хранилище становится непосильной, за исключением самых богатых технологических гигантов.
Доказав, что память можно рассматривать как независимую ось масштабирования — отдельную от вычислений — Engram демократизирует доступ к крупномасштабному AI. Это предполагает будущее, где способность модели к рассуждениям (IQ) определяется кремнием, а её база знаний (Энциклопедия) — дешёвой, расширяемой памятью.
Для предприятий это означает возможность запускать сложных, знающих агентов на собственной аппаратуре без необходимости в многомиллионных кластерах HBM. Для глобальной цепочки поставок это предлагает потенциальный путь выхода из волатильных циклов бума и краха на рынке памяти.
По мере того как отрасль усваивает эти выводы, внимание переключится на то, как быстро такие крупные фреймворки, как PyTorch и TensorFlow, смогут интегрировать примитивы типа Engram и выпустят ли производители оборудования эталонные архитектуры, оптимизированные под эту парадигму раздельной памяти. Одно ясно: «стена памяти» (Memory Wall) больше не неприступный барьер, а ворота, которые только что открылись.