Google Gemini Live añade video y funciones de compartir pantalla

Google Gemini Live evoluciona hacia un asistente verdaderamente multimodal

En un momento definitorio para la inteligencia artificial móvil en el MWC 2026, Google ha anunciado una actualización transformadora para Gemini Live, dotando a su IA conversacional de la capacidad de "ver" y comprender el mundo a través de video en vivo y compartir pantalla. Este desarrollo marca la realización comercial de la visión de "Project Astra", llevando a Gemini Live más allá de las interacciones solo por voz hacia una experiencia totalmente multimodal que procesa datos visuales en tiempo real.

Programada para implementarse a los suscriptores Advanced en dispositivos Android en marzo de 2026, esta actualización posiciona a Google para competir agresivamente con modelos multimodales rivales, ofreciendo a los usuarios un asistente digital que no solo puede escuchar y hablar, sino también observar y analizar tanto el entorno físico como el contenido en pantalla.

La era de "ojos" para la IA

El núcleo de esta actualización es la integración del procesamiento visual en tiempo real en la interfaz de Gemini Live. Anteriormente, los usuarios podían conversar con Gemini, pero la IA carecía de contexto sobre el entorno inmediato del usuario a menos que se subieran fotos manualmente. Con la nueva capacidad de Análisis de video en vivo, la dinámica cambia fundamentalmente.

Aplicaciones en el mundo real

Las aplicaciones prácticas de esta tecnología son vastas. Google demostró varios casos de uso convincentes durante el anuncio:

Solución de problemas de hardware: Un usuario puede apuntar su cámara a un electrodoméstico con fallas o a una parte específica del motor de un coche, y Gemini Live puede identificar los componentes y guiar al usuario paso a paso en la reparación en tiempo real.
Asistencia creativa: En una demostración con cerámica, un usuario mostró a Gemini un conjunto de jarrones cocidos. La IA analizó las texturas y formas para sugerir colores de esmalte que lograrían una estética "mid-century modern".
Accesibilidad: Para usuarios con discapacidad visual, esta función ofrece una herramienta descriptiva muy receptiva que puede narrar el entorno o leer señales al instante.

Conciencia inteligente de la pantalla

Más allá del mundo físico, Google está dando a Gemini Live una visión profunda del espacio de trabajo digital a través de las capacidades de Contexto de pantalla. Esta función permite que la IA "vea" la pantalla del usuario durante una conversación, cerrando la brecha entre la asistencia en segundo plano y la colaboración activa.

Cuando está habilitado, los usuarios pueden pulsar un botón "Compartir pantalla con Live", otorgando a la IA permiso para analizar la aplicación o sitio web activo. A diferencia de un análisis de una simple captura de pantalla, esta función admite un diálogo continuo a medida que el usuario navega por su dispositivo.

Casos de uso clave para compartir pantalla:

Compañero de compras: Un usuario que navega por una tienda de ropa en línea puede pedirle a Gemini si un par de jeans combina con una camisa que vio anteriormente, o pedir consejos de estilo basados en las tendencias de moda actuales.
Navegación compleja: Al usar aplicaciones de mapas o sitios de reserva de viajes, los usuarios pueden pedirle a Gemini que detecte detalles específicos—como "¿Cuál de estos hoteles ofrece desayuno gratuito y está más cerca del metro?"—ahorrando al usuario de filtrar manualmente información densa.
Apoyo educativo: Los estudiantes pueden compartir su pantalla mientras miran un diagrama complejo o un artículo en un idioma extranjero, pidiendo a Gemini que explique conceptos o traduzca texto in situ.

Comparación entre generaciones de Gemini Live

El salto de la iteración anterior de Gemini Live a esta nueva versión multimodal representa un avance significativo en capacidades. La siguiente tabla describe las diferencias clave:

**Conjunto de funciones	Gemini Live (2025)	Gemini Live Multimodal (2026)**
Primary Input	Voz y Texto	Voz, Texto, Video en vivo, Compartir pantalla
Visual Context	Solo cargas de imágenes estáticas	Flujo de video continuo en tiempo real
Interaction Style	Audio por turnos	Conversación fluida y multimodal
Latency	Procesamiento estándar	Baja latencia optimizada (Project Astra Tech)
Screen Awareness	Limitado (basado en capturas de pantalla)	Monitoreo activo de pantalla y soporte de navegación

La tecnología detrás de la visión

Esta actualización se apoya fuertemente en los avances realizados en "Project Astra" de Google, una iniciativa de investigación centrada en construir agentes de IA universales que puedan percibir, razonar y actuar en tiempo real. La transición de estas características de una demo de investigación a un producto de consumo destaca el ciclo de desarrollo acelerado de Google en el espacio de Inteligencia artificial generativa (Generative AI).

Para lograr la baja latencia requerida para una conversación "en vivo" sobre video, Google ha optimizado su arquitectura Gemini 2.0. Procesar fotogramas de video continuos requiere una inmensa potencia computacional; Google utiliza un enfoque híbrido, procesando algunos datos en el dispositivo (vía los últimos chips Tensor) mientras delega el razonamiento complejo en la nube. Esto asegura que cuando un usuario pregunta, "¿Qué es ese edificio?" mientras mueve la cámara, la respuesta sea casi instantánea.

Privacidad y control del usuario

Con la introducción de funciones de IA que "siempre observan", la privacidad sigue siendo una preocupación primordial. Google ha implementado estrictas medidas de protección para estas nuevas capacidades:

Activación explícita: Los modos de cámara y compartir pantalla nunca están activos por defecto. Los usuarios deben pulsar explícitamente un icono dedicado para habilitar la "visión" para la sesión.
Indicadores visuales: Una notificación prominente en pantalla permanece visible siempre que la IA esté "observando" la pantalla o la transmisión de la cámara.
Retención de datos: Google afirma que los datos de video procesados durante estas sesiones en vivo son transitorios y no se almacenan de forma permanente para entrenamiento del modelo por defecto, aunque los usuarios pueden optar por guardar su historial de interacciones.

Implementación y disponibilidad

Google ha confirmado que estas funciones no estarán disponibles inicialmente para la versión gratuita de los usuarios de Gemini. El despliegue está programado para marzo de 2026, exclusivamente para los Advanced subscribers en el plan Google One AI Premium.

El lanzamiento dará prioridad al ecosistema Android, con una integración profunda planeada para los dispositivos Pixel y la última serie Galaxy S de Samsung. Aunque se espera una versión para iOS, no se proporcionó un cronograma específico en el anuncio del MWC. Esta estrategia subraya la intención de Google de usar su dominio en IA como un diferenciador clave para la plataforma Android.

A medida que las líneas entre los asistentes digitales y la percepción a nivel humano se difuminan, las nuevas capacidades de Gemini Live establecen un alto estándar para los competidores. La capacidad de cambiar sin problemas entre hablar, mostrar y compartir crea una experiencia de Asistente móvil que finalmente cumple la promesa de ciencia ficción de un compañero de IA siempre consciente.