
Dans la course qui s'accélère vers l'Intelligence Artificielle Générale (AGI), le « mur de la mémoire » (Memory Wall) est devenu un adversaire plus redoutable que la simple puissance de calcul. Pendant des années, la réponse de l'industrie a été la force brute : empiler des modules coûteux High Bandwidth Memory (HBM) pour alimenter des GPU gourmands. Cependant, une technique révolutionnaire du laboratoire d'IA chinois DeepSeek, développée en collaboration avec Peking University, promet de renverser ce paradigme. Connue sous le nom d'Engram, cette nouvelle architecture découple la mémoire statique du calcul actif, ce qui pourrait réduire fortement la dépendance à l'égard des HBM rares et alléger la crise mondiale de la DRAM qui a fait grimper les prix en flèche.
L'introduction d'Engram intervient à un moment critique. Avec des chaînes d'approvisionnement HBM tendues et des prix de la DRAM standard ayant quintuplé en seulement dix semaines en raison de la demande liée à l'IA, l'écosystème matériel approche d'un point de rupture. L'approche de DeepSeek n'optimise pas simplement le code ; elle réinvente fondamentalement la manière dont les Large Language Models (LLMs) stockent et récupèrent le savoir, offrant une bouée de sauvetage à une industrie étouffée par le coût de la mémoire.
Au cœur, la technique Engram s'attaque à une inefficacité fondamentale des modèles Transformer modernes : la confusion entre traitement computationnel et stockage du savoir. Les LLM traditionnels reposent sur d'énormes nombres de paramètres stockés en mémoire ultra-rapide (HBM) pour conserver des faits, obligeant le GPU à transférer constamment ces données pendant l'inférence et l'entraînement. Cela crée un goulot d'étranglement où la bande passante mémoire, plutôt que la capacité de calcul, limite les performances.
Engram contourne cela en séparant les « connaissances statiques » (connaissances statiques, static knowledge) — faits, motifs et règles linguistiques — du « calcul dynamique » (calcul dynamique, dynamic computation) nécessaire au raisonnement.
Le système utilise un mécanisme impliquant des N-grams hachés (hashed N-grams) pour effectuer la récupération de connaissances. Plutôt que d'incorporer toutes les connaissances directement dans les couches de traitement actives du réseau neuronal, Engram traite l'information statique comme une table de consultation.
Cette séparation permet de transférer la charge du stockage des connaissances des HBM coûteux vers des niveaux de mémoire plus abondants et économiques, tels que la RAM standard DDR ou même des configurations SSD spécialisées via CXL (Compute Express Link).
Table: Comparative Analysis of Traditional Architectures vs. DeepSeek Engram
| Feature | Traditional MoE / Dense Models | DeepSeek Engram Architecture |
|---|---|---|
| Memory Dependency | High reliance on HBM for all parameters | HBM for compute; standard RAM for static knowledge |
| Retrieval Mechanism | Direct parameter activation (compute-heavy) | Hashed N-gram lookups (bandwidth-efficient) |
| Scaling Cost | Exponential growth in HBM costs | Linear scaling with cheaper memory tiers |
| Latency Management | Synchronous data fetching | Supports asynchronous prefetching |
| Hardware Constraint | Bound by GPU VRAM capacity | Bound by system-level memory capacity (extensible) |
L'équipe de recherche de DeepSeek ne s'est pas arrêtée à la théorie architecturale ; elle a validé Engram par des tests rigoureux sur un modèle de 27 milliards de paramètres. Une découverte clé de leurs travaux est la « règle d'expansion en U » (U-shaped expansion rule), un heuristique développée pour optimiser la répartition des paramètres entre les modules Mixture-of-Experts (MoE) et les modules mémoire Engram.
Les résultats remettent en question la sagesse dominante concernant la parcimonie des modèles. DeepSeek a constaté que réallouer environ 20–25 % du budget de paramètres sparsifiés au module Engram donnait de meilleures performances que des modèles purement MoE. Cela suggère que l'ajout pur et simple de plus « d'experts » (sous-modules neuronaux) atteint un point de rendement décroissant, tandis que consacrer cette capacité à un système de consultation mémoire spécialisé maintient des gains de performance stables à différentes échelles.
En déchargeant la reconstruction des connaissances statiques des couches inférieures du réseau, le modèle libère ses mécanismes d'attention (attention mechanisms) pour se concentrer sur le contexte global et le raisonnement complexe. Cela implique que les futurs modèles pourraient être plus petits et plus rapides tout en conservant le « savoir » de systèmes beaucoup plus volumineux, à condition d'avoir accès à un système de récupération de type Engram.
Les implications économiques d'Engram sont aussi importantes que ses aspects techniques. La pénurie mondiale de HBM — fabriquée principalement par SK Hynix, Samsung et Micron — a été un goulet d'étranglement majeur pour l'extension de l'IA. La rareté est si aiguë qu'elle a débordé sur le marché grand public, faisant augmenter les prix du DDR5 alors que les fabricants réorientent leurs lignes de production vers la mémoire serveur à forte marge.
Engram offre une solution logicielle à cette crise matérielle. En réduisant l'exigence absolue en HBM, DeepSeek ouvre la voie à des configurations matérielles hybrides où :
Ce changement est particulièrement vital pour le secteur chinois de l'IA. Avec des restrictions commerciales géopolitiques limitant l'accès aux dernières générations de puces HBM (comme HBM3e), des entreprises chinoises comme DeepSeek ont été contraintes d'innover autour de ces contraintes matérielles. Engram prouve que l'ingéniosité architecturale peut agir comme un multiplicateur de force, permettant à du matériel plus ancien ou moins spécialisé de rivaliser avec des clusters de pointe.
L'industrie évolue déjà vers des solutions qui complètent la philosophie Engram. L'article met en avant la synergie entre la technique de DeepSeek et des innovations matérielles comme la technologie aiDAPTIV+ de Phison. Phison préconise l'utilisation de SSD de classe entreprise comme extension de la mémoire système pour faire tourner de grands modèles.
Combinées à Engram, ces solutions matérielles deviennent beaucoup plus viables. Théoriquement, un système pourrait héberger une base Engram massive sur de la NAND rapide (SSDs), en utilisant la RAM système comme cache et la mémoire GPU pour le calcul. La nature déterministe du mécanisme de récupération d'Engram permet la prélecture asynchrone (asynchronous prefetching), ce qui signifie que le système peut prédire quelles données il devra récupérer ensuite et les charger depuis une mémoire plus lente avant que le GPU reste inactif en attendant.
Principales synergies matérielles :
La publication d'Engram par DeepSeek signale un passage de « plus grand = mieux » à « plus intelligent = mieux ». À mesure que les modèles d'IA dépassent la barre du trillion de paramètres, le coût de maintenir tous ces paramètres en stockage chaud devient prohibitif, sauf pour les géants technologiques les plus riches.
En démontrant que la mémoire peut être traitée comme un axe d'extension indépendant — séparé du calcul — Engram démocratise l'accès à l'IA à grande échelle. Il suggère un avenir où la capacité de raisonnement d'un modèle (QI) est déterminée par son silicium, mais sa base de connaissances (Encyclopedia) est déterminée par un stockage bon marché et extensible.
Pour l'entreprise, cela signifie la possibilité d'exécuter des agents sophistiqués et informés sur du matériel sur site sans nécessiter un cluster HBM à plusieurs millions de dollars. Pour la chaîne d'approvisionnement mondiale, c'est une voie de sortie potentielle des cycles d'emballement et de krachs volatils du marché de la mémoire.
Alors que l'industrie digère ces résultats, l'attention se tournera vers la vitesse d'intégration de primitives de type Engram dans les principaux frameworks comme PyTorch et TensorFlow, et vers la volonté des fournisseurs matériels de publier des architectures de référence optimisées pour ce paradigme de mémoire séparée. Une chose est certaine : le « mur de la mémoire » (Memory Wall) n'est plus une barrière infranchissable, mais une porte qui vient d'être déverrouillée.