
これらの数字は重大な「信頼性ギャップ」を浮き彫りにしています。実験的技術としては24%の成功率は印象的かもしれませんが、精度と一貫性が最優先される企業導入の基準からは程遠い数値です。
なぜ司法試験に合格できるモデルが、弁護士の実際の仕事をこなせないのでしょうか。APEX-Agents の調査は、現在の「エージェント的(Agentic)」アーキテクチャにおけるいくつかの主要な欠陥を指摘しています。
現実の業務は「雑然とした」文脈を伴います。指示はしばしばメールスレッド、Slack メッセージ、PDF 添付ファイルにまたがっています。ベンチマークは、エージェントが情報が断片化している状況で目的の一貫した理解を維持するのに苦労することを明らかにしました。彼らはしばしば欠落した詳細を「幻覚」的に補完したり、タスクが進行するにつれて特定の制約を見失ったりします。
現在の大規模言語モデル(Large Language Models、LLMs)は主に反応的な予測器です。しかし、プロフェッショナルなタスクは、複雑な目標をサブステップに分解し、それらを順序立てて実行し、もしあるステップが失敗したら自己修正するという、戦略的な計画を要求します。
モデルは API(Application Programming Interfaces)を呼び出す能力が向上していますが、シミュレートされたデスクトップ環境を操作することは依然として障害です。エージェントは、人間が当然と考えるソフトウェア操作のニュアンス、例えば大きなデータセットをスクロールすることや特定のアプリケーションの UI 状態を理解することに苦戦しました。
Creati.ai の読者や企業リーダーにとって、これらの結果は AI を否定する理由にはなりません。むしろ期待を再調整するためのものです。完全に自律で動作する「AI従業員」はまだ到来していません。
企業戦略における即時の示唆:
APEX-Agents の公開は、AI 研究コミュニティにとって重要な診断ツールとなります。ImageNet がコンピュータビジョンを革命化したのと同様に、APEX のようなベンチマークはモデルに「話す」段階から「行う」段階への進化を促しています。
Mercor や主要な AI 研究所の研究者たちは既にこのデータを用いて次世代アーキテクチャの改良に取り組んでいます。私たちは、モデルが行動前に時間をかけて「考え」計画する、システム2的な推論能力("System 2" reasoning capabilities)が職場向けエージェントの標準になっていくのを期待しています。
それまでは、メッセージは明確です:AI 革命はまだ進行中ですが、現時点ではあなたのデジタルインターンは多くの監督を必要とします。