AI News

SK Hynix меняет ландшафт памяти для ИИ с помощью архитектуры H3 и технологии HBF

В знаковом анонсе, который обещает изменить экономику искусственного интеллекта, SK Hynix представила свою революционную архитектуру H3 (H3 architecture) — гибридную конструкцию памяти, объединяющую стандартную память с высокой пропускной способностью (High Bandwidth Memory, HBM) с новой технологией, известной как высокоскоростная флэш-память (High Bandwidth Flash, HBF). Представленный 12 февраля 2026 года на престижной конференции Института инженеров электротехники и электроники (IEEE), этот прорыв нацелен именно на устранение растущих узких мест в инференсе ИИ (AI inference), предлагая, по сообщениям, улучшение производительности на ватт (performance-per-watt) в 2,69 раза по сравнению с существующими решениями.

Поскольку модели Генеративного ИИ (Generative AI) продолжают масштабироваться по количеству параметров и длине контекстного окна, отрасль столкнулась со «стеной памяти» (memory wall) — не только в пропускной способности, но и в емкости и энергоэффективности. Представление технологии HBF компанией SK Hynix знаменует собой решающий переход от архитектур, ориентированных на DRAM, к многоуровневой иерархии памяти, которая сочетает плотность флэш-памяти NAND (NAND flash) со скоростью, необходимой для обработки в реальном времени.

Генезис H3: объединение скорости и емкости

Суть инновации заключается в архитектуре H3, которая фундаментально меняет физическую компоновку ускорителей ИИ. Традиционные высокопроизводительные чипы ИИ, такие как платформы NVIDIA Blackwell или Rubin, обычно размещают стеки энергозависимой памяти HBM непосредственно рядом с кристаллом GPU для максимизации пропускной способности данных. Хотя это обеспечивает молниеносную скорость, HBM дорога, энергозатратна и ограничена в емкости — это критическое ограничение для современных Больших языковых моделей (Large Language Models, LLMs), которым требуются огромные объемы памяти для хранения «KV-кэшей» (Key-Value caches) во время диалогов.

Архитектура H3 вводит гетерогенный подход. Она размещает HBF — технологию, в которой несколько кристаллов флэш-памяти NAND объединяются в стеки с использованием сквозных межкремниевых соединений (Through-Silicon Vias, TSVs) — рядом со стандартными стеками HBM на одном интерпозере.

Согласно имитационным данным SK Hynix, такая гибридная установка позволяет GPU переносить массивные, менее чувствительные к задержкам блоки данных (такие как KV-кэш) в высокоплотную HBF, резервируя сверхбыструю HBM для самых неотложных вычислительных нужд.

Технический разбор: HBF против традиционных архитектур

Чтобы понять масштаб этого скачка, необходимо сравнить архитектуру H3 с текущим отраслевым стандартом конструкций, использующих только HBM. Внутреннее моделирование SK Hynix, в котором использовался GPU NVIDIA B200 в паре с восемью стеками HBM3E и восемью стеками HBF, показало поразительный рост эффективности.

Сравнительный анализ архитектур памяти

Характеристика Традиционная архитектура только на базе HBM Архитектура SK Hynix H3 (HBM + HBF)
Состав памяти Исключительная зависимость от стеков HBM на базе DRAM. Гибридная интеграция HBM (DRAM) и HBF (NAND).
Основная функция Обрабатывает всю логику, веса и кэш без разбора. Многоуровневая система: HBM для активных вычислений, HBF для массивного хранения KV-кэша.
Производительность на ватт Базовый стандарт. Улучшение до 2,69 раза.
Пакетная обработка Ограничена емкостью HBM (меньшие размеры пакетов). Увеличение в 18,8 раза емкости одновременных запросов.
Аппаратная площадь Требует массивных кластеров GPU (например, 32 единицы) для крупных моделей. Достигает аналогичной пропускной способности при значительно меньшем количестве единиц (например, 2 единицы).

Таблица выше иллюстрирует резкое повышение эффективности, достигнутое просто за счет «большего пространства для маневра». Перемещая основной объем данных в HBF, система снижает частоту обмена данными между GPU и внешними SSD или основной памятью, которые на несколько порядков медленнее.

Решение проблемы узкого места KV-кэша

Основным драйвером инновации HBF является специфический спрос со стороны инференса ИИ. В отличие от фазы «обучения», которая требует массивных параллельных вычислений для построения модели, «инференс» — это процесс генерации моделью ответов пользователям.

Чтобы LLM «помнила» контекст длинного разговора, она создает KV-кэш — временный журнал прошлых взаимодействий. По мере расширения контекстных окон с тысяч до миллионов токенов этот кэш растет экспоненциально, часто превышая емкость HBM.

«Чтобы GPU мог выполнять инференс ИИ, он должен считывать переменные данные, называемые KV-кэшем, из HBM. Затем он интерпретирует их и выдает слово за словом. HBF функционирует как библиотека с гораздо большим объемом контента, но более медленным доступом, в то время как HBM — это книжная полка для быстрого обучения».
Д-р Ким Чунхо, KAIST (Аналогия о многоуровневой памяти)

В архитектуре H3 технология HBF выступает в роли такой «библиотеки», расположенной прямо рядом с процессором. Благодаря тому, что один блок HBF способен достигать емкости 512 ГБ — что намного превышает лимит модулей HBM3E в ~36 ГБ — система может хранить массивные контекстные окна локально. Симуляции SK Hynix продемонстрировали способность обрабатывать KV-кэш объемом до 10 миллионов токенов без серьезных задержек, обычно связанных с флэш-памятью NAND.

Бенчмарки производительности и рост эффективности

Цифры, опубликованные SK Hynix, рисуют картину радикальной эффективности. В их сценариях тестирования:

  • Скачок пропускной способности: Способность системы обрабатывать одновременные запросы (размер пакета) выросла в 18,8 раза. Это означает, что один сервер может обслуживать почти в 19 раз больше одновременных пользователей, чем раньше.
  • Консолидация инфраструктуры: Рабочие нагрузки, которые ранее требовали кластера из 32 GPU для поддержания приемлемой задержки, теперь могут выполняться всего на двух GPU, оснащенных HBF.
  • Экономия энергии: Увеличение производительности на ватт в 2,69 раза является критически важным показателем для гиперскейлеров (hyperscalers), таких как Google, AWS и Microsoft, которые в настоящее время борются с ограничениями по мощности на уровне гигаватт в своих центрах обработки данных.

Стратегические последствия для отрасли

Этот анонс сигнализирует о более широком стратегическом повороте для SK Hynix и полупроводниковой промышленности в целом.

1. От обучения к инференсу

В последние несколько лет «золотая лихорадка ИИ» определялась чипами для обучения. По мере созревания рынка фокус смещается на затраты на инференс. Поставщикам услуг необходимо запускать модели дешевле и быстрее, чтобы это имело бизнес-смысл. HBF напрямую решает вопросы юнит-экономики развертывания ИИ.

2. Рост «AI-NAND»

HBF представляет собой новую категорию, которую часто называют «AI-NAND». В то время как SK Hynix доминирует на рынке HBM, этот шаг использует их опыт в области флэш-памяти NAND (где они также являются мировым лидером), чтобы открыть второй фронт. Сообщается, что ведется сотрудничество с партнерами, такими как SanDisk, для установления «стандарта HBF», что обеспечит широкое внедрение этой технологии на различных платформах GPU.

3. Конкурентная среда

Конкуренты не стоят на месте. Samsung Electronics намекнула на аналогичные решения многоуровневой памяти, а гонка за стандартизацию «HBM4» и последующих поколений включает интеграцию большего количества логики и различных типов памяти непосредственно в корпус. Однако презентация H3 от SK Hynix ставит их в авангард конкретной реализации «Гибрид HBM+NAND».

Перспективы на будущее

Внедрение технологии HBF говорит о том, что определение «чипа ИИ» эволюционирует. Речь больше не идет только о чистой производительности FLOPS (количество операций с плавающей запятой в секунду); речь идет об эффективности иерархии памяти.

SK Hynix планирует ускорить коммерциализацию HBF, при этом альфа-версии могут поступить ключевым партнерам для проверки уже в конце этого года. Если симуляционные преимущества подтвердятся в реальных производственных условиях, архитектура H3 может стать образцом для следующего поколения центров обработки данных ИИ, эффективно отвязав размер модели от экспоненциального роста затрат.

Пока отрасль изучает результаты конференции IEEE, ясно одно: будущее ИИ заключается не только в том, чтобы думать быстрее, но и в том, чтобы помнить больше, затрачивая меньше энергии. Creati.ai продолжит следить за внедрением архитектуры H3 и ее принятием крупными поставщиками GPU.

Рекомендуемые