研究

新しいベンチマーク「APEX-Agents」は、AIモデルが実世界の専門的業務に苦戦していることを明らかにする

新しいベンチマーク「APEX-Agents」は、AIモデルが実世界の専門的業務に苦戦していることを明らかにする

APEX-Agentsという新しいベンチマークは、GPT-5.2やGemini 3 Flashのような最先端のAIモデルでさえ、法律や金融などの専門分野から抽出された、複雑で複数のドメインにまたがるほとんどのタスクで失敗することを示しており、職場での即時の実用性に疑問を投げかけています。

フィーチャー