Nuevo benchmark 'APEX-Agents' revela que los modelos de IA tienen dificultades con tareas profesionales del mundo real
Un nuevo benchmark llamado APEX-Agents muestra que incluso modelos de IA líderes como GPT-5.2 y Gemini 3 Flash fallan en la mayoría de las tareas complejas y multidominio extraídas de campos profesionales como el derecho y las finanzas, lo que genera dudas sobre su preparación inmediata para el ámbito laboral.

