интеллектуальный труд

Новый бенчмарк 'APEX-Agents' показывает, что ИИ-моделям трудно справляться с реальными профессиональными задачами

Новый бенчмарк 'APEX-Agents' показывает, что ИИ-моделям трудно справляться с реальными профессиональными задачами

Новый бенчмарк под названием APEX-Agents показывает, что даже ведущие ИИ-модели, такие как GPT-5.2 и Gemini 3 Flash, не справляются с большинством сложных многодоменных задач из профессиональных областей, таких как право и финансы, что ставит под сомнение их готовность к непосредственному использованию на рабочем месте.

Рекомендуемые