Google DeepMind 發布用以衡量 AGI 進展的認知框架，並啟動獎金 $200,000 的 Kaggle 黑客松

重塑智能：Google DeepMind 的新認知框架（Cognitive Framework）

在過去幾年裡，邁向通用人工智慧（Artificial General Intelligence，AGI）的競逐很大程度上被定義為在靜態、基於知識的基準測試（Benchmarks）中追求更高分數。雖然這些指標在衡量大型語言模型快速演進方面發揮了作用，但由於它們容易受到數據污染，且無法捕捉真正通用智能的細微差別，因此受到越來越多的批評。Google DeepMind 目前正尋求轉變這一範式，透過新發布的認知分類法（Cognitive Taxonomy），揭示了一種嚴謹且有科學支持的方法來衡量 AI 的進展。

這項倡議在論文「衡量邁向 AGI 的進展：一種認知分類法」中得到了詳細闡述，它超越了單純的知識檢索。它提出了一種評估 AI 系統的根本性重構，將「通用智能」的評估錨定在認知科學、神經科學和心理學的既定原則中。為了催化這一轉型，Google DeepMind 還啟動了一場獎金達 20 萬美元的 Kaggle 黑客松（Hackathon），邀請全球研究社群協助建立必要的基準測試基礎設施。

10 項能力的認知分類法

這一新框架的核心在於將通用智能分解為十種離散的認知能力。此分類法旨在提供 AI 系統運作方式的全方位視角，而不僅僅是它所知道的內容。透過將智能解構為這些特定的能力，研究人員可以更精確地找出不同架構的優點和缺點。

提議的分類法包括以下關鍵能力：

感知（Perception）：從環境中提取和處理複雜感官資訊的能力。
生成（Generation）：產生輸出的能力，包括文本、語音和可執行的動作。
注意（Attention）：在雜訊中將認知資源集中在相關刺激上的技能。
學習（Learning）：透過經驗、互動和指令獲取新知識的持續過程。
記憶（Memory）：在不同時間尺度上儲存、維護和檢索資訊的能力。
推理（Reasoning）：應用邏輯推斷從現有數據中得出有效結論。
元認知（Metacognition）：對自身內部認知過程進行了解和監測的高階能力。
執行功能（Executive Functions）：對計劃、抑制和認知靈活性的協調。
問題解決（Problem Solving）：在特定領域背景下尋找有效解決方案的專門能力。
社會認知（Social Cognition）：解釋複雜的社會信號並在動態的人際交往情況中做出適當反應的能力。

評估範式的比較

為了理解這一轉變的重要性，將傳統基準測試方法與 DeepMind 團隊提出的新認知優先方法進行對比會很有幫助。

評估重點	傳統基準測試	認知分類法
主要目標	靜態知識檢索	動態認知表現
數據完整性	極易受到污染	透過生成式測試具備韌性
人類對齊	與測試分數相關	映射至人類認知分佈
系統視角	統一的性能評分	細粒度的能力拆解

從理論走向實踐：Kaggle 黑客松

雖然框架的發表提供了理論基礎，但 DeepMind 承認單憑框架是不夠的。挑戰在於創建具備可擴展性、穩健性且有意義的評估協議。為了彌合這一差距，Google DeepMind 已與 Kaggle 合作，啟動了一場名為「衡量邁向 AGI 的進展：認知能力」的高額獎金黑客松。

這場黑客松專門設計用於解決「評估差距」——即針對現代 AI 更複雜、抽象的能力，嚴重缺乏標準化測試的問題。競賽聚焦於目前評估方法最薄弱的五個核心賽道：

學習：測試 AI 有效內化並應用新資訊的能力。
元認知：評估 AI 對自身推理局限性的覺察。
注意：評估模型在複雜環境中保持對關鍵任務關注的能力。
執行功能：衡量在約束條件下的認知靈活性與規劃能力。
社會認知：評估解釋並參與細微社會互動的能力。

獎金池與物流安排

黑客松提供總計 20 萬美元的獎金池，以激勵高品質的提交。結構設計旨在獎勵特定賽道的卓越表現和整體的創新：

賽道獎：為五個認知賽道中前兩名的提交作品提供各 10,000 美元的獎金。
大獎：為整個競賽中絕對最佳的四個整體提交作品提供各 25,000 美元的獎金。

參與者將利用 Kaggle 的社群基準測試平台，讓他們能夠針對各種前沿 AI 模型測試自己的評估方法。提交窗口自 2026 年 3 月 17 日起至 4 月 16 日開放，最終結果預計於 2026 年 6 月 1 日公佈。

對 AGI 研究未來的影響

這一認知框架的引入代表了 AI 研究社群向前邁出了成熟的一步。透過認知科學的視角將「智能」的語言標準化，DeepMind 實際上提高了構成實質性進展的門檻。

這種方法最關鍵的方面之一是提議的三階段評估協議。透過從具人口代表性的樣本中收集人類基準線，並將 AI 表現映射到這些分佈中，研究人員可以創建一個歸一化分數，指示模型在特定領域相對於人類能力的表現。這對目前追求排行榜排名的做法是一項重大的改進，因為後者往往掩蓋了模型推理或可靠性方面的根本缺陷。

隨著行業日益接近 AGI 的理論里程碑，衡量內部「認知」進展的能力將變得與部署模型本身同樣重要。憑藉這一框架，Google DeepMind 不僅是在問「這個 AI 有多聰明？」，而且還提供了一套結構化、可驗證的方法論，以科學的嚴謹性來回答這個問題。對於研究人員和開發者來說，Kaggle 黑客松是一份公開邀請，邀請大家共同定義將塑造下一個人工智慧時代的指標。