OpenAI Acusa a DeepSeek de Destilar Modelos de IA de EE. UU. para Obtener una Ventaja Competitiva

OpenAI acusa a DeepSeek de "aprovechamiento gratuito" (Free-Riding) en la innovación de IA de EE. UU. a través de la destilación de modelos

San Francisco, CA — En una escalada significativa de la rivalidad tecnológica entre los Estados Unidos y China, OpenAI ha advertido formalmente a los legisladores estadounidenses que la startup china de IA DeepSeek está utilizando sistemáticamente técnicas de "destilación" (distillation) para replicar las capacidades de los modelos de inteligencia artificial propietarios de EE. UU.

Según un memorando enviado al Comité Selecto de la Cámara de Representantes sobre la Competencia Estratégica entre los Estados Unidos y el Partido Comunista Chino, e informado posteriormente por Bloomberg y Reuters el 12 de febrero de 2026, OpenAI alega que DeepSeek está empleando métodos "sofisticados" y "ofuscados" para extraer datos de los servidores de OpenAI. Estos datos se utilizan presuntamente para entrenar los propios modelos de DeepSeek, incluido el recientemente popularizado DeepSeek-R1, lo que permite efectivamente a la firma china eludir los inmensos costos de investigación y desarrollo en los que incurren los laboratorios estadounidenses.

Este desarrollo marca un momento crucial en el panorama global de la IA, desplazando el enfoque de los controles de exportación de hardware hacia el flujo intangible —pero altamente valioso— de los pesos de los modelos y la lógica algorítmica.

La mecánica de la "destilación de modelos" (Model Distillation)

En el centro de la controversia se encuentra una técnica conocida en el aprendizaje automático (machine learning) como "destilación de conocimientos" (knowledge distillation). Aunque el término parece abstracto, el proceso representa una amenaza tangible para el foso competitivo de los laboratorios líderes en IA.

En un escenario de entrenamiento estándar, un modelo de IA aprende de conjuntos de datos sin procesar: billones de tokens de texto, código e imágenes. Este proceso requiere una potencia de cálculo masiva y meses de tiempo de procesamiento. La destilación, sin embargo, abrevia este proceso. Un modelo "maestro" (teacher) (en este caso, presumiblemente la serie GPT-4 u o1 de OpenAI) es consultado extensamente. El modelo "estudiante" (student) (la arquitectura de DeepSeek) aprende no solo de las respuestas correctas, sino de las distribuciones de probabilidad y las trazas de razonamiento proporcionadas por el maestro.

El memorando de OpenAI sostiene que DeepSeek no solo está utilizando salidas públicas, sino que está eludiendo activamente las salvaguardas para recolectar estas señales de entrenamiento de alta calidad a escala. Al hacerlo, DeepSeek puede supuestamente lograr un rendimiento cercano a la paridad con una fracción de los recursos de cómputo y la inversión financiera requerida por sus contrapartes estadounidenses.

Comparaciones de las metodologías de entrenamiento de IA

Para comprender la disparidad económica y técnica citada por OpenAI, es esencial comparar los dos enfoques principales para el desarrollo de modelos.

Tabla 1: Entrenamiento nativo frente a destilación de modelos

Característica	Entrenamiento de cimientos nativos	Destilación de modelos (La acusación)
Entrada principal	Conjuntos de datos sin procesar (Web, Libros, Código)	Resultados de un modelo "Maestro" superior
Costo computacional	Extremadamente alto (Miles de GPUs)	Bajo a medio (Enfocado en la optimización)
Tiempo de desarrollo	Meses a años	Semanas a meses
Carga económica	Miles de millones en I+D y hardware	Mínima (fracción del costo original)
Modelo resultante	Capacidades de razonamiento originales	Capacidades imitadas con posibles lagunas

Evidencia de extracción "ofuscada"

Las alegaciones van más allá de simples violaciones de uso. OpenAI afirma haber detectado patrones de comportamiento específicos y adversarios vinculados a empleados de DeepSeek. El memorando detalla cómo estos actores supuestamente utilizaron redes de terceros disfrazadas para enmascarar el origen de sus consultas, evadiendo así los bloqueos geográficos y basados en volumen de OpenAI.

"Hemos observado cuentas asociadas con empleados de DeepSeek que utilizan métodos para eludir las restricciones de acceso", afirma el memorando. OpenAI caracteriza esta actividad como un intento de "aprovechamiento gratuito" (free-ride) de los avances tecnológicos de los laboratorios de EE. UU. La implicación es que la cacareada eficiencia de DeepSeek —a menudo citada como una maravilla de la ingeniería— puede atribuirse en parte a esta transferencia no autorizada de inteligencia en lugar de únicamente a la innovación arquitectónica.

Seguridad nacional y salvaguardas de seguridad

Más allá de las implicaciones comerciales, OpenAI dio una voz de alarma respecto a la seguridad nacional (national security). La empresa advirtió a los legisladores que cuando las capacidades se copian a través de la destilación, la alineación de seguridad y las salvaguardas éticas integradas en el modelo original a menudo se pierden o se descartan.

Se sabe que los modelos de DeepSeek cumplen con las estrictas regulaciones de internet de China, censurando temas como el estatus de Taiwán o las protestas de la Plaza de Tiananmen de 1989. Sin embargo, OpenAI argumenta que el peligro reside en lo que no se filtra: la capacidad bruta para generar ciberataques o diseñar agentes biológicos.

"Cuando las capacidades se copian a través de la destilación, las salvaguardas a menudo quedan de lado", señaló OpenAI. Esto crea un escenario donde un modelo destilado posee las capacidades peligrosas de un modelo frontera de EE. UU., pero carece de los mecanismos de "rechazo" diseñados para prevenir el mal uso en dominios de alto riesgo como la biología o la química.

La amenaza económica para los laboratorios occidentales

El ascenso de DeepSeek ya ha provocado conmociones en el mercado de valores, afectando las valoraciones de los fabricantes de chips y las firmas de IA de EE. UU. por igual. Al ofrecer modelos de alto rendimiento de forma gratuita o a costos de API significativamente más bajos, DeepSeek desafía el modelo de negocio de empresas como OpenAI, Anthropic y Google, que dependen de los ingresos por suscripción para financiar sus proyectos de infraestructura de miles de millones de dólares.

Si la destilación se convierte en una ruta normalizada para que los competidores se pongan al día, el incentivo para que el capital privado financie la costosa investigación de modelos frontera (frontier) podría disminuir. El llamamiento de OpenAI al Congreso sugiere que ven esto no solo como una violación de los términos de servicio, sino como una amenaza sistémica al ecosistema de innovación de EE. UU. que requiere intervención legislativa o regulatoria.

Reacción de la industria y perspectivas futuras

Las acusaciones han provocado un feroz debate dentro de la comunidad técnica. Los defensores de la IA de código abierto (open-source) argumentan que analizar las salidas del modelo es una práctica estándar y que "aprender de los mejores" es un motor fundamental del progreso científico. Sin embargo, los críticos señalan que la extracción automatizada a gran escala viola los términos contractuales de servicio de casi todos los proveedores comerciales de IA.

DeepSeek aún no ha emitido una refutación pública detallada a estas afirmaciones específicas, aunque la empresa ha atribuido previamente su éxito a una codificación eficiente y a una arquitectura novedosa diseñada específicamente para la optimización de la inferencia.

Mientras el Comité Selecto de la Cámara de Representantes de EE. UU. revisa estas alegaciones, la industria anticipa posibles cambios en las políticas. Estos podrían ir desde requisitos más estrictos de "Conozca a su cliente" (Know Your Customer, KYC) para el acceso a las API de IA hasta nuevas restricciones comerciales destinadas a prevenir la exportación digital de pesos de modelos y trazas de razonamiento.

Para Creati.ai, esta historia en desarrollo subraya la importancia crítica de la protección de la propiedad intelectual (intellectual property) en la era de la IA generativa (Generative AI). A medida que los modelos se vuelven más capaces, la línea entre la inspiración y el robo se está convirtiendo en el nuevo frente de batalla de la competencia tecnológica global.