Google actualiza Gemini 3 Deep Think con razonamiento científico a nivel de medalla de oro

Google redefine la IA científica con la actualización de Gemini 3 Deep Think

En un salto significativo para la inteligencia artificial (IA), Google ha anunciado una actualización importante para su modelo Gemini 3 Deep Think, posicionándolo como la herramienta principal para el razonamiento científico complejo y los desafíos de ingeniería avanzada. Lanzada el 12 de febrero de 2026, esta actualización transforma el modelo de un modelo de lenguaje de gran tamaño (LLM, Large Language Model) de alto rendimiento en un «motor de razonamiento» especializado, capaz de rivalizar con expertos humanos en dominios especializados.

El logro principal de esta actualización es una asombrosa puntuación del 48,4 % en el Último Examen de la Humanidad (HLE, Humanity's Last Exam), una evaluación diseñada específicamente para ser la prueba final y más rigurosa de las capacidades académicas y de razonamiento para la IA. Esta puntuación representa una ventaja decisiva sobre los modelos de frontera anteriores, incluidos Gemini 3 Pro y sus competidores, marcando una nueva era en la que los agentes de IA pueden abordar de manera fiable problemas que requieren una deducción lógica profunda y de múltiples pasos sin herramientas externas.

Para los lectores de Creati.ai, este avance señala un cambio en la forma en que los desarrolladores e investigadores interactuarán con la IA. Nos alejamos de la era de «escribir el prompt y rezar» para entrar en una era de descubrimiento colaborativo, donde modelos como Deep Think actúan como asistentes de investigación verificados, capaces de navegar por conjuntos de datos desordenados e identificar fallos teóricos oscuros.

La ventaja del «Sistema 2»: Razonamiento sobre recuperación

La diferencia fundamental de la actualización de Gemini 3 Deep Think es su dependencia de los procesos de pensamiento del «Sistema 2». A diferencia de los LLM estándar que predicen el siguiente token basándose en la probabilidad estadística (Sistema 1), Deep Think emplea un proceso de razonamiento deliberado e iterativo. Esto permite que el modelo haga una «pausa» y evalúe múltiples rutas lógicas antes de comprometerse con una respuesta, simulando el proceso de pensamiento analítico y lento utilizado por los científicos humanos.

Según Google DeepMind, esta arquitectura fue ajustada en colaboración con científicos en activo para resolver problemas «irresolubles»: aquellos que carecen de pautas claras o de una única solución correcta. En términos prácticos, esto significa que el modelo destaca en entornos donde los datos están incompletos o son ruidosos, una frustración común en la ingeniería del mundo real y en la ciencia experimental.

Capacidades arquitectónicas clave:

Autocorrección (Self-Correction): La capacidad de identificar falacias lógicas en su propia cadena de pensamiento durante la fase de inferencia.
Síntesis multidominio (Cross-Domain Synthesis): Combinación exitosa de principios de la física teórica con limitaciones de ingeniería práctica.
Razonamiento visual (Visual Reasoning): Transformación de bocetos abstractos en 2D en modelos 3D complejos y físicamente viables para la fabricación.

Evaluando lo sin precedentes

Para comprender la magnitud de este lanzamiento, hay que observar las métricas concretas. La comunidad de la IA ha luchado durante mucho tiempo con la «saturación de los puntos de referencia», donde los modelos dominan rápidamente pruebas como MMLU. El Último Examen de la Humanidad (Humanity's Last Exam) (HLE) fue creado para contrarrestar esto, agrupando las preguntas más difíciles de matemáticas, humanidades y ciencias naturales.

El rendimiento de Gemini 3 Deep Think en el HLE se complementa con puntuaciones récord en ARC-AGI-2, una prueba de inteligencia general y reconocimiento de patrones novedosos, y Codeforces, una plataforma de programación competitiva.

La siguiente tabla resume el rendimiento de Gemini 3 Deep Think en comparación con otros modelos de frontera líderes en esta generación:

Tabla: Rendimiento comparativo en evaluaciones de frontera

Métrica/Evaluación|Gemini 3 Deep Think (Actualización)|Gemini 3 Pro|Competidor clave (Est. GPT-5 Pro)
---|---|----
El Último Examen de la Humanidad (HLE)|48,4 %|37,5 %|~31,6 %
ARC-AGI-2 (Razonamiento)|84,6 %|~70 %|N/A
Calificación de Codeforces (Elo)|3455|~2900|~2800
Olimpiada Internacional de Física|Nivel Medalla de Oro|Nivel Medalla de Plata|N/A
Olimpiada Internacional de Química|Nivel Medalla de Oro|Nivel Medalla de Bronce|N/A
CMT-Benchmark (Física)|50,5 %|N/A|N/A

Nota: Las puntuaciones representan la precisión «pass@1» sin el uso de herramientas externas, a menos que se indique lo contrario. Las puntuaciones de los competidores se basan en los últimos puntos de referencia públicos disponibles a partir de febrero de 2026.

La puntuación del 84,6 % en ARC-AGI-2 es particularmente notable para los desarrolladores. Verificada por la ARC Prize Foundation, esta evaluación mide la capacidad de una IA para adaptarse a tareas completamente nuevas que nunca ha visto en sus datos de entrenamiento, midiendo eficazmente la «inteligencia fluida» en lugar del conocimiento memorizado.

Medallas de oro y avances teóricos

Más allá de las pruebas estandarizadas, Google ha validado el modelo frente a los más altos estándares de logros académicos humanos. El Deep Think actualizado ha logrado un rendimiento de nivel de Medalla de Oro en las secciones escritas de la 2025 Olimpiada Internacional de Física y la Olimpiada Internacional de Química.

Esto no se trata simplemente de resolver problemas de libros de texto. Google destacó estudios de caso internos donde el modelo demostró competencia en física teórica avanzada, específicamente obteniendo un 50,5 % en el CMT-Benchmark. Esto sugiere que el modelo puede utilizarse para hipotetizar nuevas propiedades de materiales o verificar cálculos complejos de mecánica cuántica.

En un caso de uso demostrado, los investigadores utilizaron Deep Think para optimizar el crecimiento de cristales de semiconductores. El modelo analizó datos experimentales históricos, identificó variables ambientales sutiles previamente ignoradas por los investigadores humanos y propuso un ciclo de crecimiento modificado que resultó en rendimientos de mayor pureza.

Del boceto a la realidad: Ingeniería práctica

Para la comunidad de ingeniería, la actualización más tangible es la capacidad de ingeniería multimodal de Deep Think. Google mostró un flujo de trabajo en el que un usuario subió un boceto aproximado dibujado a mano de una pieza mecánica. Deep Think analizó el dibujo, infirió las limitaciones físicas previstas y los requisitos de carga, y generó un archivo preciso listo para impresión 3D.

Este flujo de trabajo de «Boceto a Producto» (Sketch-to-Product) demuestra la capacidad del modelo para cerrar la brecha entre la ideación abstracta (creativa) y las limitaciones físicas (lógicas). Requiere que la IA comprenda no solo qué parece el dibujo, sino cómo debe funcionar el objeto en el mundo real.

Disponibilidad e integración empresarial

Google está implementando esta actualización con un enfoque de dos niveles, dirigido tanto a usuarios avanzados individuales como a desarrolladores empresariales.

Suscriptores de Google AI Ultra: El nuevo modo Deep Think está disponible de inmediato dentro de la aplicación Gemini. Los usuarios pueden activar la opción «Deep Think» para consultas que requieran un procesamiento lógico intenso.
API de Gemini (Acceso anticipado): Por primera vez, Google está abriendo Deep Think a través de la API para empresas e instituciones científicas seleccionadas. Este es un desarrollo crucial para los lectores de Creati.ai que construyen aplicaciones de terceros, ya que permite la integración de este «motor de razonamiento» en flujos de trabajo personalizados, como bots de revisión de código automatizados o canales de descubrimiento de fármacos farmacéuticos.

Implicaciones para el ecosistema de IA

El lanzamiento del Gemini 3 Deep Think actualizado refuerza una tendencia creciente en 2026: la bifurcación de los modelos de IA en «agentes conversacionales rápidos» y «razonadores profundos lentos». Mientras que los primeros (como Gemini 3 Flash) se centran en la latencia y la experiencia del usuario, modelos como Deep Think se están haciendo un hueco como solucionadores de problemas asíncronos.

Para los desarrolladores, esto requiere un cambio en la arquitectura. Las aplicaciones pronto podrían depender de un patrón de «gestor-trabajador», donde un modelo rápido gestiona la interacción con el usuario y delega las tareas complejas y críticas a Deep Think.

A medida que probamos este modelo más a fondo en Creati.ai, la pregunta sigue siendo: ¿cómo se traducirán estas capacidades de razonamiento en tareas creativas abiertas? Si bien los puntos de referencia se centran en STEM (Ciencia, Tecnología, Ingeniería y Matemáticas), la lógica necesaria para obtener un 48,4 % en el Último Examen de la Humanidad implica un nivel de matiz que también podría revolucionar la estructuración narrativa y la generación de contenido complejo.

Continuaremos monitoreando el rendimiento de Gemini 3 Deep Think a medida que llegue a manos de la comunidad de desarrolladores en general. Por ahora, se ha establecido el estándar de «Medalla de Oro».