AI News

OpenAI обвиняет DeepSeek в «бесплатном использовании» инноваций США в области ИИ посредством дистилляции моделей

Сан-Франциско, Калифорния — В условиях значительной эскалации технологического соперничества между США и Китаем компания OpenAI официально предупредила американских законодателей о том, что китайский ИИ-стартап DeepSeek систематически использует методы «дистилляции» (distillation) для копирования возможностей проприетарных моделей искусственного интеллекта США.

Согласно меморандуму, направленному в Специальный комитет Палаты представителей по стратегическому соперничеству между США и Коммунистической партией Китая и впоследствии опубликованному Bloomberg и Reuters 12 февраля 2026 года, OpenAI утверждает, что DeepSeek использует «сложные» и «завуалированные» методы для извлечения данных с серверов OpenAI. Эти данные затем предположительно используются для обучения собственных моделей DeepSeek, включая недавно ставшую популярной DeepSeek-R1, что фактически позволяет китайской фирме обходить огромные затраты на исследования и разработки, понесенные американскими лабораториями.

Это событие знаменует собой поворотный момент в мировом ландшафте ИИ, смещая фокус с экспортного контроля оборудования на нематериальный, но чрезвычайно ценный поток весов моделей и алгоритмической логики.

Механика «дистилляции моделей» (model distillation)

В центре спора находится метод, известный в машинном обучении (machine learning) как «дистилляция знаний» (knowledge distillation). Хотя этот термин звучит абстрактно, процесс представляет собой ощутимую угрозу для конкурентного преимущества ведущих лабораторий ИИ.

В стандартном сценарии обучения модель ИИ учится на необработанных наборах данных — триллионах токенов текста, кода и изображений. Этот процесс требует огромных вычислительных мощностей и месяцев времени обработки. Однако дистилляция сокращает этот путь. К «модели-учителю» (в данном случае, предположительно, сериям GPT-4 или o1 от OpenAI) отправляется огромное количество запросов. «Модель-ученик» (архитектура DeepSeek) учится не только на правильных ответах, но и на распределении вероятностей и цепочках рассуждений, предоставленных учителем.

В меморандуме OpenAI утверждается, что DeepSeek не просто использует общедоступные результаты, но и активно обходит защитные механизмы для массового сбора этих высококачественных обучающих сигналов. Поступая таким образом, DeepSeek может предположительно достичь производительности, близкой к паритету, используя лишь малую часть вычислительных ресурсов и финансовых инвестиций, требуемых их американскими коллегами.

Сравнение методологий обучения ИИ

Чтобы понять экономический и технический разрыв, на который ссылается OpenAI, необходимо сравнить два основных подхода к разработке моделей.

Таблица 1: Нативное обучение против дистилляции моделей

Характеристика Нативное базовое обучение Дистилляция модели (обвинение)
Основные входные данные Необработанные наборы данных (веб, книги, код) Результаты превосходящей модели-«учителя»
Вычислительная стоимость Чрезвычайно высокая (тысячи GPU) От низкой до средней (ориентирована на оптимизацию)
Время разработки От месяцев до лет От недель до месяцев
Экономическое бремя Миллиарды на НИОКР и оборудование Минимальное (доля от первоначальной стоимости)
Результирующая модель Оригинальные способности к рассуждению Имитируемые способности с потенциальными пробелами

Доказательства «завуалированного» извлечения

Обвинения выходят за рамки простых нарушений правил использования. OpenAI заявляет, что обнаружила специфические враждебные паттерны поведения, связанные с сотрудниками DeepSeek. В меморандуме описывается, как эти лица предположительно использовали замаскированные сторонние сети для сокрытия происхождения своих запросов, тем самым обходя географические и объемные блокировки OpenAI.

«Мы наблюдали учетные записи, связанные с сотрудниками DeepSeek, которые использовали методы обхода ограничений доступа», — говорится в меморандуме. OpenAI характеризует эту деятельность как попытку «бесплатного проезда» на технологических прорывах лабораторий США. Подразумевается, что хваленая эффективность DeepSeek, которую часто называют инженерным чудом, может быть частично обусловлена этой несанкционированной передачей интеллекта, а не только архитектурными инновациями.

Национальная безопасность и барьеры безопасности

Помимо коммерческих последствий, OpenAI забила тревогу по поводу национальной безопасности (national security). Компания предупредила законодателей, что при копировании возможностей путем дистилляции настройки безопасности и этические барьеры, встроенные в оригинальную модель, часто теряются или отбрасываются.

Известно, что модели DeepSeek соблюдают строгие правила китайского интернета, подвергая цензуре такие темы, как статус Тайваня или протесты на площади Тяньаньмэнь в 1989 году. Однако OpenAI утверждает, что опасность заключается в том, что не фильтруется: необработанная способность генерировать кибервзломы или проектировать биологические агенты.

«Когда возможности копируются посредством дистилляции, защитные механизмы часто отходят на второй план», — отметили в OpenAI. Это создает сценарий, в котором дистиллированная модель обладает опасными возможностями передовой американской модели, но лишена механизмов «отказа», предназначенных для предотвращения злоупотреблений в зонах высокого риска, таких как биология или химия.

Экономическая угроза западным лабораториям

Рост DeepSeek уже вызвал потрясения на фондовом рынке, повлияв на оценку как американских производителей чипов, так и ИИ-компаний. Предлагая высокопроизводительные модели бесплатно или по значительно более низким ценам на API, DeepSeek бросает вызов бизнес-модели таких компаний, как OpenAI, Anthropic и Google, которые полагаются на доходы от подписки для финансирования своих многомиллиардных инфраструктурных проектов.

Если дистилляция станет общепринятым путем для конкурентов, позволяющим сократить отставание, стимулы для частного капитала финансировать дорогостоящие «фронтирные» исследования могут снизиться. Обращение OpenAI к Конгрессу предполагает, что они рассматривают это не просто как нарушение условий обслуживания, а как системную угрозу инновационной экосистеме США, требующую законодательного или нормативного вмешательства.

Реакция отрасли и перспективы на будущее

Обвинения вызвали бурные дебаты в техническом сообществе. Сторонники ИИ с открытым исходным кодом (open-source AI) утверждают, что анализ выходных данных модели является стандартной практикой, а «обучение у лучших» — фундаментальный двигатель научного прогресса. Однако критики указывают на то, что автоматизированное крупномасштабное извлечение нарушает договорные условия обслуживания почти всех коммерческих поставщиков ИИ.

DeepSeek еще не опубликовала подробное публичное опровержение этих конкретных претензий, хотя ранее компания приписывала свой успех эффективному кодингу и новой архитектуре, специально разработанной для оптимизации логического вывода (inference).

В то время как Специальный комитет Палаты представителей США рассматривает эти обвинения, отрасль ожидает возможных изменений в политике. Они могут варьироваться от ужесточения требований «Знай своего клиента» (KYC) для доступа к API ИИ до новых торговых ограничений, направленных на предотвращение цифрового экспорта весов моделей и цепочек рассуждений.

Для Creati.ai эта разворачивающаяся история подчеркивает критическую важность защиты интеллектуальной собственности (intellectual property) в эпоху генеративного ИИ. По мере того как модели становятся все более мощными, грань между вдохновением и кражей становится новым фронтом глобальной технологической конкуренции.

Рекомендуемые