SeeAct está diseñado para capacitar a agentes visión-lenguaje con una pipeline de dos etapas: un módulo de planificación impulsado por grandes modelos de lenguaje genera subobjetivos basados en escenas observadas, y un módulo de ejecución traduce estos subobjetivos en acciones específicas del entorno. Una columna vertebral de percepción extrae características de objetos y escenas de imágenes o simulaciones. La arquitectura modular permite reemplazar fácilmente planificadores o redes de percepción y soporta evaluación en AI2-THOR, Habitat y entornos personalizados. SeeAct acelera la investigación en IA embebida interactiva ofreciendo descomposición de tareas de extremo a extremo, acoplamiento y ejecución.
Características principales de SeeAct
Planificación de subobjetivos basada en LLM
Percepción visual y extracción de características
Pipeline de ejecución modular
Tareas de referencia en entornos simulados
Componentes configurables
Pros y Contras de SeeAct
Desventajas
La vinculación de acciones sigue siendo un desafío importante con una brecha de rendimiento notable en comparación con la vinculación de oráculo.
Los métodos actuales de vinculación (atributos de elementos, elecciones textuales, anotaciones de imágenes) tienen casos de error que conducen a fallos.
La tasa de éxito en sitios web en vivo está limitada a aproximadamente la mitad de las tareas, lo que indica margen para mejorar la robustez y la generalización.
Ventajas
Aprovecha modelos multimodales avanzados como GPT-4V para una interacción sofisticada en la web.
Combina generación de acciones y vinculación para realizar eficazmente tareas en sitios web en vivo.
Muestra fuertes capacidades en planificación especulativa, razonamiento de contenido y autocorrección.
Disponible como paquete Python de código abierto que facilita su uso y desarrollo adicional.
Demostró un rendimiento competitivo en la realización de tareas en línea con una tasa de éxito del 50%.
Aceptado en una importante conferencia de IA (ICML 2024), reflejando contribuciones de investigación validadas.
ggfai proporciona una interfaz unificada para definir objetivos, gestionar razonamiento de múltiples pasos y mantener el contexto conversacional con módulos de memoria. Soporta integraciones personalizables de herramientas para llamar a servicios o APIs externas, flujos de ejecución asincrónicos y abstracciones sobre modelos GPT de OpenAI. La arquitectura de plugins permite intercambiar backends de memoria, almacenes de conocimiento y plantillas de acción, simplificando la orquestación de agentes en tareas como soporte al cliente, recuperación de datos o asistentes personales.