
在過去幾年裡,邁向通用人工智慧(Artificial General Intelligence,AGI)的競逐很大程度上被定義為在靜態、基於知識的基準測試(Benchmarks)中追求更高分數。雖然這些指標在衡量大型語言模型快速演進方面發揮了作用,但由於它們容易受到數據污染,且無法捕捉真正通用智能的細微差別,因此受到越來越多的批評。Google DeepMind 目前正尋求轉變這一範式,透過新發布的認知分類法(Cognitive Taxonomy),揭示了一種嚴謹且有科學支持的方法來衡量 AI 的進展。
這項倡議在論文「衡量邁向 AGI 的進展:一種認知分類法」中得到了詳細闡述,它超越了單純的知識檢索。它提出了一種評估 AI 系統的根本性重構,將「通用智能」的評估錨定在認知科學、神經科學和心理學的既定原則中。為了催化這一轉型,Google DeepMind 還啟動了一場獎金達 20 萬美元的 Kaggle 黑客松(Hackathon),邀請全球研究社群協助建立必要的基準測試基礎設施。
這一新框架的核心在於將通用智能分解為十種離散的認知能力。此分類法旨在提供 AI 系統運作方式的全方位視角,而不僅僅是它所知道的內容。透過將智能解構為這些特定的能力,研究人員可以更精確地找出不同架構的優點和缺點。
提議的分類法包括以下關鍵能力:
為了理解這一轉變的重要性,將傳統基準測試方法與 DeepMind 團隊提出的新認知優先方法進行對比會很有幫助。
| 評估重點 | 傳統基準測試 | 認知分類法 |
|---|---|---|
| 主要目標 | 靜態知識檢索 | 動態認知表現 |
| 數據完整性 | 極易受到污染 | 透過生成式測試具備韌性 |
| 人類對齊 | 與測試分數相關 | 映射至人類認知分佈 |
| 系統視角 | 統一的性能評分 | 細粒度的能力拆解 |
雖然框架的發表提供了理論基礎,但 DeepMind 承認單憑框架是不夠的。挑戰在於創建具備可擴展性、穩健性且有意義的評估協議。為了彌合這一差距,Google DeepMind 已與 Kaggle 合作,啟動了一場名為「衡量邁向 AGI 的進展:認知能力」的高額獎金黑客松。
這場黑客松專門設計用於解決「評估差距」——即針對現代 AI 更複雜、抽象的能力,嚴重缺乏標準化測試的問題。競賽聚焦於目前評估方法最薄弱的五個核心賽道:
黑客松提供總計 20 萬美元的獎金池,以激勵高品質的提交。結構設計旨在獎勵特定賽道的卓越表現和整體的創新:
參與者將利用 Kaggle 的社群基準測試平台,讓他們能夠針對各種前沿 AI 模型測試自己的評估方法。提交窗口自 2026 年 3 月 17 日起至 4 月 16 日開放,最終結果預計於 2026 年 6 月 1 日公佈。
這一 認知框架 的引入代表了 AI 研究社群向前邁出了成熟的一步。透過認知科學的視角將「智能」的語言標準化,DeepMind 實際上提高了構成實質性進展的門檻。
這種方法最關鍵的方面之一是提議的三階段評估協議。透過從具人口代表性的樣本中收集人類基準線,並將 AI 表現映射到這些分佈中,研究人員可以創建一個歸一化分數,指示模型在特定領域相對於人類能力的表現。這對目前追求排行榜排名的做法是一項重大的改進,因為後者往往掩蓋了模型推理或可靠性方面的根本缺陷。
隨著行業日益接近 AGI 的理論里程碑,衡量內部「認知」進展的能力將變得與部署模型本身同樣重要。憑藉這一框架,Google DeepMind 不僅是在問「這個 AI 有多聰明?」,而且還提供了一套結構化、可驗證的方法論,以科學的嚴謹性來回答這個問題。對於研究人員和開發者來說,Kaggle 黑客松是一份公開邀請,邀請大家共同定義將塑造下一個人工智慧時代的指標。