Novo benchmark 'APEX-Agents' revela que modelos de IA têm dificuldades com tarefas profissionais do mundo real
Um novo benchmark chamado APEX-Agents mostra que mesmo modelos de IA de ponta como GPT-5.2 e Gemini 3 Flash falham na maioria das tarefas complexas e multidomínio provenientes de áreas profissionais como direito e finanças, levantando dúvidas sobre sua prontidão imediata para o ambiente de trabalho.

