Google DeepMind veröffentlicht kognitiven Rahmen zur Messung des AGI-Fortschritts und startet einen $200,000-Kaggle-Hackathon

Intelligenz neu definiert: Google Deepminds neues kognitives Framework

In den letzten Jahren war das Rennen um die künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) weitgehend durch das Streben nach höheren Punktzahlen bei statischen, wissensbasierten Benchmarks definiert. Während diese Metriken ihren Zweck bei der Messung der rasanten Entwicklung großer Sprachmodelle erfüllt haben, werden sie zunehmend wegen ihrer Anfälligkeit für Datenkontamination und ihrer Unfähigkeit, die Nuancen echter allgemeiner Intelligenz zu erfassen, kritisiert. Google DeepMind versucht nun, dieses Paradigma zu ändern, indem es einen strengen, wissenschaftlich fundierten Ansatz zur Messung des KI-Fortschritts durch eine neu veröffentlichte kognitive Taxonomie vorstellt.

Die Initiative, die in dem Paper „Measuring Progress Toward AGI: A Cognitive Taxonomy“ detailliert beschrieben wird, geht über das bloße Abrufen von Wissen hinaus. Sie schlägt eine grundlegende Umstrukturierung der Art und Weise vor, wie wir KI-Systeme bewerten, indem sie die Bewertung der „allgemeinen Intelligenz“ in etablierten Prinzipien der Kognitionswissenschaft, Neurowissenschaft und Psychologie verankert. Um diesen Übergang zu beschleunigen, hat Google DeepMind außerdem einen Kaggle-Hackathon im Wert von 200.000 $ ins Leben gerufen, der die weltweite Forschungsgemeinschaft einlädt, beim Aufbau der notwendigen Benchmarking-Infrastruktur zu helfen.

Die kognitive Taxonomie der 10 Fähigkeiten

Das Herzstück dieses neuen Frameworks ist die Aufschlüsselung der allgemeinen Intelligenz in zehn diskrete kognitive Fähigkeiten. Diese Taxonomie ist darauf ausgelegt, eine umfassende Sicht darauf zu bieten, wie ein KI-System funktioniert, und nicht nur, was es weiß. Durch die Dekonstruktion von Intelligenz in diese spezifischen Fakultäten können Forscher die Stärken und Schwächen verschiedener Architekturen besser bestimmen.

Die vorgeschlagene Taxonomie umfasst die folgenden Schlüsselfähigkeiten:

Wahrnehmung (Perception): Die Fähigkeit, komplexe sensorische Informationen aus der Umgebung zu extrahieren und zu verarbeiten.
Generierung (Generation): Die Fähigkeit, Outputs zu produzieren, einschließlich Text, Sprache und ausführbaren Aktionen.
Aufmerksamkeit (Attention): Die Fertigkeit, kognitive Ressourcen inmitten von Rauschen auf relevante Reize zu konzentrieren.
Lernen (Learning): Der kontinuierliche Prozess des Erwerbs neuen Wissens durch Erfahrung, Interaktion und Unterweisung.
Gedächtnis (Memory): Die Fähigkeit, Informationen über verschiedene Zeitskalen hinweg zu speichern, zu pflegen und abzurufen.
Logisches Denken (Reasoning): Die Anwendung logischer Schlussfolgerungen, um valide Konklusionen aus verfügbaren Daten zu ziehen.
Metakognition (Metacognition): Die Fähigkeit höherer Ordnung zur Kenntnis und Überwachung der eigenen internen kognitiven Prozesse.
Exekutive Funktionen (Executive Functions): Die Orchestrierung von Planung, Hemmung und kognitiver Flexibilität.
Problemlösung (Problem Solving): Die spezialisierte Fähigkeit, effektive Lösungen innerhalb domänenspezifischer Kontexte zu finden.
Soziale Kognition (Social Cognition): Die Kapazität, komplexe soziale Hinweise zu interpretieren und in dynamischen zwischenmenschlichen Situationen angemessen zu reagieren.

Vergleich der Evaluationsparadigmen

Um das Ausmaß dieses Wandels zu verstehen, ist es hilfreich, traditionelle Benchmarking-Methoden dem neuen, kognitionszentrierten Ansatz gegenüberzustellen, der vom DeepMind-Team vorgeschlagen wurde.

Evaluationsschwerpunkt	Traditionelle Benchmarks	Kognitive Taxonomie
Primäres Ziel	Statisches Abrufen von Wissen	Dynamische kognitive Leistung
Datenintegrität	Hohe Anfälligkeit für Kontamination	Resistent durch generatives Testen
Menschliche Ausrichtung (Human Alignment)	Korreliert mit Testergebnissen	Entspricht der menschlichen kognitiven Verteilung
Systemansicht	Einheitliche Leistungsbewertung	Granulare Aufschlüsselung der Fähigkeiten

Von der Theorie zur Praxis: Der Kaggle-Hackathon

Während die Veröffentlichung des Frameworks die theoretische Grundlage liefert, erkennt DeepMind an, dass ein Framework allein nicht ausreicht. Die Herausforderung liegt darin, Evaluationsprotokolle zu erstellen, die skalierbar, robust und aussagekräftig sind. Um diese Lücke zu schließen, ist Google DeepMind eine Partnerschaft mit Kaggle eingegangen, um einen hochkarätigen Hackathon mit dem Titel „Measuring progress toward AGI: Cognitive abilities“ zu starten.

Der Hackathon ist speziell darauf ausgerichtet, die „Evaluationslücke“ zu schließen – den erheblichen Mangel an standardisierten Tests für die komplexeren, abstrakteren Fähigkeiten moderner KI. Der Wettbewerb konzentriert sich auf fünf Kernbereiche, in denen aktuelle Evaluationsmethoden am schwächsten sind:

Lernen: Testen der Fähigkeit einer KI, neue Informationen effektiv zu verinnerlichen und anzuwenden.
Metakognition: Bewertung des Bewusstseins einer KI für die eigenen Grenzen beim logischen Denken.
Aufmerksamkeit: Beurteilung der Fähigkeit des Modells, den Fokus auf kritische Aufgaben in komplexen Umgebungen aufrechtzuerhalten.
Exekutive Funktionen: Messung der kognitiven Flexibilität und Planung unter Einschränkungen.
Soziale Kognition: Bewertung der Fähigkeit, nuancierte soziale Interaktionen zu interpretieren und sich darauf einzulassen.

Preispool und Logistik

Der Hackathon bietet einen Gesamtpreispool von 200.000 $, um qualitativ hochwertige Einreichungen zu fördern. Die Struktur ist darauf ausgelegt, sowohl Exzellenz in einzelnen Bereichen als auch allgemeine Innovation zu belohnen:

Bereichspreise: 10.000 $ Preise für die beiden besten Einreichungen in jedem der fünf kognitiven Bereiche.
Hauptpreise: 25.000 $ Preise für die vier absolut besten Gesamteinreichungen über den gesamten Wettbewerb hinweg.

Die Teilnehmer werden die Community-Benchmarks-Plattform von Kaggle nutzen, die es ihnen ermöglicht, ihre Evaluationen gegen eine Vielzahl von führenden KI-Modellen zu testen. Das Zeitfenster für Einreichungen ist vom 17. März bis zum 16. April 2026 geöffnet, wobei die Bekanntgabe der Endergebnisse für den 1. Juni 2026 geplant ist.

Auswirkungen auf die Zukunft der AGI-Forschung

Die Einführung dieses kognitiven Frameworks stellt einen reifen Schritt vorwärts für die KI-Forschungsgemeinschaft dar. Durch die Standardisierung der Sprache der „Intelligenz“ durch die Linse der Kognitionswissenschaft legt DeepMind die Messlatte für das, was einen bedeutenden Fortschritt ausmacht, effektiv höher.

Einer der kritischsten Aspekte dieses Ansatzes ist das vorgeschlagene dreistufige Evaluationsprotokoll. Durch das Sammeln menschlicher Baselines aus demografisch repräsentativen Stichproben und das Abbilden der KI-Leistung gegen diese Verteilungen können Forscher einen normalisierten Score erstellen, der angibt, wie ein Modell im Vergleich zu menschlichen Fähigkeiten in spezifischen Domänen abschneidet. Dies ist eine signifikante Verbesserung gegenüber der Jagd nach Leaderboard-Platzierungen, die oft grundlegende Mängel im logischen Denken oder in der Zuverlässigkeit von Modellen maskiert.

Je näher die Branche dem theoretischen Meilenstein der AGI rückt, desto wichtiger wird die Fähigkeit, internen „kognitiven“ Fortschritt zu messen, ebenso wie der Einsatz der Modelle selbst. Mit diesem Framework stellt Google DeepMind nicht nur die Frage „Wie klug ist diese KI?“, sondern bietet eine strukturierte, überprüfbare Methodik an, um diese Frage mit wissenschaftlicher Strenge zu beantworten. Für Forscher und Entwickler dient der Kaggle-Hackathon als offene Einladung, dabei zu helfen, die Metriken zu definieren, die die nächste Ära der künstlichen Intelligenz prägen werden.