
過去数年間、人工汎用知能(Artificial General Intelligence:AGI)を巡る競争は、主に知識ベースの静的なベンチマークにおける高スコアの追求によって定義されてきました。これらの指標は、大規模言語モデルの急速な進化を測定する上で役割を果たしてきましたが、データ汚染に対する脆弱性や、真の汎用知能の細かなニュアンスを捉える能力の欠如について、批判が高まっています。Google DeepMindは現在、新たに公開された認知分類学(Cognitive Taxonomy)を通じて、AIの進歩を測定するための厳格で科学的根拠に基づいたアプローチを提示し、このパラダイムを転換しようとしています。
論文「Measuring Progress Toward AGI: A Cognitive Taxonomy」で詳細に説明されているこのイニシアチブは、単なる知識の検索を超えたものです。これは、認知科学、神経科学、心理学の確立された原理に「汎用知能」の評価を根ざし、AIシステムの評価方法を根本的に再構築することを提案しています。この移行を促進するため、Google DeepMindは20万ドルのKaggleハッカソンも開始し、必要なベンチマーク・インフラストラクチャの構築を支援するよう世界の研究コミュニティに呼びかけています。
この新しいフレームワークの核心は、汎用知能を10の個別の認知能力に分解することにあります。この分類学は、AIシステムが何を知っているかだけでなく、どのように機能するかについて包括的な視点を提供するように設計されています。知能をこれらの特定の能力に解体することで、研究者は異なるアーキテクチャの長所と短所をより正確に特定できるようになります。
提案された分類学には、以下の主要な能力が含まれています。
この転換の大きさを理解するために、従来のベンチマーク手法と、DeepMindチームが提案する新しい認知優先のアプローチを対比させることが役立ちます。
| 評価の焦点 | 従来のベンチマーク | 認知分類学 |
|---|---|---|
| 主な目的 | 静的な知識の検索 | 動的な認知パフォーマンス |
| データの完全性 | 汚染の影響を非常に受けやすい | 生成テストにより回復力が高い |
| 人間との整合性 | テストスコアと相関 | 人間の認知分布に対応 |
| システムの見方 | 統合されたパフォーマンススコア | 粒度の細かい能力の分解 |
フレームワークの公開は理論的な基礎を提供しますが、DeepMindはフレームワークだけでは不十分であることを認めています。課題は、スケーラブルで堅牢、かつ意義のある評価プロトコルを作成することにあります。このギャップを埋めるため、Google DeepMindはKaggleと提携し、「AGIへの進捗の測定:認知能力(Measuring progress toward AGI: Cognitive abilities)」と題した高額賞金のハッカソンを開催しました。
このハッカソンは、現代のAIが持つより複雑で抽象的な能力に対する標準化されたテストが著しく不足しているという「評価のギャップ」に対処するために特別に設計されています。このコンペティションは、現在の評価方法が最も弱い5つのコアトラックに焦点を当てています。
ハッカソンでは、高品質な提出を促すために総額20万ドルの賞金プールが用意されています。この構造は、特定のトラックでの卓越性と全体的な革新性の両方に報いるように設計されています。
参加者はKaggleのコミュニティ・ベンチマーク・プラットフォームを活用し、さまざまな最先端AIモデルに対して自らの評価手法をテストすることができます。提出期間は2026年3月17日から4月16日までで、最終結果は2026年6月1日に発表される予定です。
この認知フレームワークの導入は、AI研究コミュニティにとって成熟した一歩を意味します。認知科学の視点を通じて「知能」の言語を標準化することで、DeepMindは実質的に、何が意義のある進歩であるかという基準を引き上げています。
このアプローチの最も重要な側面の一つは、提案されている3段階の評価プロトコルです。人口統計学的に代表的なサンプルから人間のベースラインを収集し、これらの分布に対してAIのパフォーマンスをマッピングすることで、特定のドメインにおいてモデルが人間の能力と比較してどのように機能するかを示す正規化されたスコアを作成できます。これは、モデルの推論や信頼性における根本的な欠陥を隠しがちなリーダーボード争いに対する大きな改善です。
業界がAGIという理論的なマイルストーンに近づくにつれ、内部的な「認知」の進歩を測定する能力は、モデル自体の展開と同じくらい重要になるでしょう。このフレームワークにより、Google DeepMindは単に「このAIはどれほど賢いか?」と問うだけでなく、その問いに科学的な厳格さを持って答えるための構造化され、検証可能な方法論を提供しています。研究者や開発者にとって、Kaggleハッカソンは、次世代の人工知能を形作る指標を定義するためのオープンな招待状となっています。