
In den letzten Jahren war das Rennen um die künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) weitgehend durch das Streben nach höheren Punktzahlen bei statischen, wissensbasierten Benchmarks definiert. Während diese Metriken ihren Zweck bei der Messung der rasanten Entwicklung großer Sprachmodelle erfüllt haben, werden sie zunehmend wegen ihrer Anfälligkeit für Datenkontamination und ihrer Unfähigkeit, die Nuancen echter allgemeiner Intelligenz zu erfassen, kritisiert. Google DeepMind versucht nun, dieses Paradigma zu ändern, indem es einen strengen, wissenschaftlich fundierten Ansatz zur Messung des KI-Fortschritts durch eine neu veröffentlichte kognitive Taxonomie vorstellt.
Die Initiative, die in dem Paper „Measuring Progress Toward AGI: A Cognitive Taxonomy“ detailliert beschrieben wird, geht über das bloße Abrufen von Wissen hinaus. Sie schlägt eine grundlegende Umstrukturierung der Art und Weise vor, wie wir KI-Systeme bewerten, indem sie die Bewertung der „allgemeinen Intelligenz“ in etablierten Prinzipien der Kognitionswissenschaft, Neurowissenschaft und Psychologie verankert. Um diesen Übergang zu beschleunigen, hat Google DeepMind außerdem einen Kaggle-Hackathon im Wert von 200.000 $ ins Leben gerufen, der die weltweite Forschungsgemeinschaft einlädt, beim Aufbau der notwendigen Benchmarking-Infrastruktur zu helfen.
Das Herzstück dieses neuen Frameworks ist die Aufschlüsselung der allgemeinen Intelligenz in zehn diskrete kognitive Fähigkeiten. Diese Taxonomie ist darauf ausgelegt, eine umfassende Sicht darauf zu bieten, wie ein KI-System funktioniert, und nicht nur, was es weiß. Durch die Dekonstruktion von Intelligenz in diese spezifischen Fakultäten können Forscher die Stärken und Schwächen verschiedener Architekturen besser bestimmen.
Die vorgeschlagene Taxonomie umfasst die folgenden Schlüsselfähigkeiten:
Um das Ausmaß dieses Wandels zu verstehen, ist es hilfreich, traditionelle Benchmarking-Methoden dem neuen, kognitionszentrierten Ansatz gegenüberzustellen, der vom DeepMind-Team vorgeschlagen wurde.
| Evaluationsschwerpunkt | Traditionelle Benchmarks | Kognitive Taxonomie |
|---|---|---|
| Primäres Ziel | Statisches Abrufen von Wissen | Dynamische kognitive Leistung |
| Datenintegrität | Hohe Anfälligkeit für Kontamination | Resistent durch generatives Testen |
| Menschliche Ausrichtung (Human Alignment) | Korreliert mit Testergebnissen | Entspricht der menschlichen kognitiven Verteilung |
| Systemansicht | Einheitliche Leistungsbewertung | Granulare Aufschlüsselung der Fähigkeiten |
Während die Veröffentlichung des Frameworks die theoretische Grundlage liefert, erkennt DeepMind an, dass ein Framework allein nicht ausreicht. Die Herausforderung liegt darin, Evaluationsprotokolle zu erstellen, die skalierbar, robust und aussagekräftig sind. Um diese Lücke zu schließen, ist Google DeepMind eine Partnerschaft mit Kaggle eingegangen, um einen hochkarätigen Hackathon mit dem Titel „Measuring progress toward AGI: Cognitive abilities“ zu starten.
Der Hackathon ist speziell darauf ausgerichtet, die „Evaluationslücke“ zu schließen – den erheblichen Mangel an standardisierten Tests für die komplexeren, abstrakteren Fähigkeiten moderner KI. Der Wettbewerb konzentriert sich auf fünf Kernbereiche, in denen aktuelle Evaluationsmethoden am schwächsten sind:
Der Hackathon bietet einen Gesamtpreispool von 200.000 $, um qualitativ hochwertige Einreichungen zu fördern. Die Struktur ist darauf ausgelegt, sowohl Exzellenz in einzelnen Bereichen als auch allgemeine Innovation zu belohnen:
Die Teilnehmer werden die Community-Benchmarks-Plattform von Kaggle nutzen, die es ihnen ermöglicht, ihre Evaluationen gegen eine Vielzahl von führenden KI-Modellen zu testen. Das Zeitfenster für Einreichungen ist vom 17. März bis zum 16. April 2026 geöffnet, wobei die Bekanntgabe der Endergebnisse für den 1. Juni 2026 geplant ist.
Die Einführung dieses kognitiven Frameworks stellt einen reifen Schritt vorwärts für die KI-Forschungsgemeinschaft dar. Durch die Standardisierung der Sprache der „Intelligenz“ durch die Linse der Kognitionswissenschaft legt DeepMind die Messlatte für das, was einen bedeutenden Fortschritt ausmacht, effektiv höher.
Einer der kritischsten Aspekte dieses Ansatzes ist das vorgeschlagene dreistufige Evaluationsprotokoll. Durch das Sammeln menschlicher Baselines aus demografisch repräsentativen Stichproben und das Abbilden der KI-Leistung gegen diese Verteilungen können Forscher einen normalisierten Score erstellen, der angibt, wie ein Modell im Vergleich zu menschlichen Fähigkeiten in spezifischen Domänen abschneidet. Dies ist eine signifikante Verbesserung gegenüber der Jagd nach Leaderboard-Platzierungen, die oft grundlegende Mängel im logischen Denken oder in der Zuverlässigkeit von Modellen maskiert.
Je näher die Branche dem theoretischen Meilenstein der AGI rückt, desto wichtiger wird die Fähigkeit, internen „kognitiven“ Fortschritt zu messen, ebenso wie der Einsatz der Modelle selbst. Mit diesem Framework stellt Google DeepMind nicht nur die Frage „Wie klug ist diese KI?“, sondern bietet eine strukturierte, überprüfbare Methodik an, um diese Frage mit wissenschaftlicher Strenge zu beantworten. Für Forscher und Entwickler dient der Kaggle-Hackathon als offene Einladung, dabei zu helfen, die Metriken zu definieren, die die nächste Ära der künstlichen Intelligenz prägen werden.