Anthropics Claude-Agenten-Teams bauen erfolgreich eigenständig einen funktionalen C-Compiler

Autonome Agenten (Autonomous Agents) und die Zukunft der Softwareentwicklung (Software Engineering)

In einer bedeutenden Demonstration autonomer KI-Fähigkeiten haben Forscher von Anthropic erfolgreich ein Team von 16 parallelen KI-Agenten eingesetzt, um einen funktionalen C-Compiler von Grund auf neu zu erstellen. Unter Verwendung des neu veröffentlichten Modells Claude Opus 4.6 markiert dieses Experiment einen Wendepunkt vom traditionellen Paradigma der „KI als Programmierassistent“ hin zu einer neuen Ära der „KI als Entwicklungsteam“. Das Projekt, das in einem 100.000 Zeilen umfassenden Rust-basierten Compiler resultierte, der in der Lage ist, den Linux 6.9-Kernel zu kompilieren, bietet einen greifbaren Einblick in das Potenzial – und die aktuellen Grenzen – der Multi-Agenten-Softwareentwicklung.

Das Experiment unter der Leitung des Anthropic-Forschers Nicholas Carlini wurde entwickelt, um die „Agenten-Teams“-Fähigkeit des Opus 4.6-Modells einem Stresstest zu unterziehen. Im Gegensatz zu Standard-Programmierassistenten, die ständige menschliche Eingabeaufforderungen erfordern, agierten diese Agenten autonom über fast 2.000 Ausführungssitzungen hinweg. Sie beanspruchten Aufgaben, schrieben Code, führten Tests aus und iterierten bei Fehlern mit minimalem menschlichem Eingreifen, was API-Kosten von etwa 20.000 $ verursachte.

Das Experiment: Einen Compiler von Grund auf neu bauen

Das Ziel war ehrgeizig: Die Erstellung eines C-Compilers in Rust, der den Linux 6.9-Kernel erfolgreich für x86-, ARM- und RISC-V-Architekturen kompilieren konnte. Diese Aufgabe erfordert hochpräzise Logik, ein tiefes Verständnis von Systemarchitekturen und die strikte Einhaltung von Standards – Bereiche, in denen Große Sprachmodelle (Large Language Models, LLMs) in der Vergangenheit Schwierigkeiten mit der Konsistenz über lange Zeiträume hatten.

Das Forschungsteam setzte 16 Claude Opus 4.6-Agenten ein, die parallel arbeiteten. Um diese verteilte Belegschaft zu verwalten, entwickelten sie eine Kollaborationsumgebung, in der die Agenten in unabhängigen Docker-Containern agierten. Das System nutzte einen Lock-File-Mechanismus für die Aufgabenbeanspruchung und Git für die Versionskontrolle, was den Arbeitsablauf eines rudimentären menschlichen Entwicklungsteams simulierte.

Wichtige Projektmetriken

Metrik	Wert	Beschreibung
Verwendetes Modell	Claude Opus 4.6	Das neueste Frontier-Modell von Anthropic, entwickelt für Aufgaben mit langem Horizont
Teamgröße	16 Parallele Agenten	Autonome Instanzen, die gleichzeitig arbeiten
Gesamtsitzungen	~2.000	Anzahl der autonomen Ausführungsschleifen
Gesamtkosten	~$20.000	Geschätzte API-Kosten für das gesamte Projekt
Codevolumen	~100.000 Zeilen	Größe des resultierenden Rust-basierten Compilers
Erfolgskriterien	Linux 6.9 Kernel	Erfolgreich kompilierte, bootfähige Kernel für x86, ARM, RISC-V

Engineering-Autonomie: Validierung als Steuerung

Eine entscheidende Erkenntnis aus diesem Experiment ist die Verschiebung der Steuerungsmechanismen. In der traditionellen Softwareentwicklung (Software Development) koordinieren menschliche Manager Aufgaben und prüfen Code. In diesem agentenbasierten Workflow wurde die Validierung zur primären Steuerungsebene. Die Agenten verließen sich stark auf robuste Test-Suiten und „Known-Good-Oracles“ (Referenzsysteme), um ihren Fortschritt zu verifizieren.

Als die Agenten auf Engpässe stießen – wie die enorme Komplexität der Kompilierung des gesamten Linux-Kernels – nutzte das System eine differenzielle Teststrategie. Durch den Vergleich der Ausgabe ihres Compilers mit dem etablierten GCC-Compiler (der als Oracle diente), konnten die Agenten Diskrepanzen isolieren und sich selbst korrigieren. Diese „Dekompositionsstrategie“ ermöglichte es den Agenten, die monolithische Aufgabe der Kernel-Kompilierung in kleinere, verifizierbare Einheiten zu zerlegen, was eine nachhaltige parallele Ausführung ohne ständige menschliche Unterstützung ermöglichte.

Fähigkeiten und „Die Wahrheit“ über Agenten-Teams

Die erfolgreiche Kompilierung des Linux-Kernels sowie anderer komplexer Open-Source-Projekte wie QEMU, FFmpeg, SQLite und Redis unterstreicht mehrere „Wahrheiten“ über den aktuellen Stand der autonomen KI:

Nachhaltige Ausführung ist möglich: Mit dem richtigen Gerüst können KI-Agenten den Kontext aufrechterhalten und Fortschritte über Wochen, nicht nur über Minuten, vorantreiben. Das System externalisierte den Status in die Codebasis und Build-Logs, sodass Agenten die Arbeit kontinuierlich fortsetzen konnten.
Parallelität erfordert Unabhängigkeit: Die Agenten florierte, wenn Aufgaben entkoppelt werden konnten. Die Verwendung von Standardprotokollen (wie Lock-Files) ermöglichte es ihnen, gleichzeitig zu arbeiten, obwohl sie häufig auf Merge-Konflikte stießen – ein sehr menschliches Problem in der Softwareentwicklung.
Clean-Room-Implementierung: Der Compiler wurde ohne direkten Internetzugang während der Entwicklung gebaut und stützte sich ausschließlich auf die Rust-Standardbibliothek und die Trainingsdaten des Modells, was das internalisierte Wissen des Modells über Compilertheorie und C-Semantik demonstrierte.

„Die Herausforderung“ (The Dare): Einschränkungen und technische Realitäten

Trotz des Schlagzeilen-Erfolgs offenbarte das Projekt signifikante Einschränkungen, die die Herausforderung für die zukünftige Entwicklung definieren. Die Ausgabe war zwar funktionsfähig, aber kein kommerziell rentabler Code.

Effizienz und Optimierung: Der generierte Code war bemerkenswert ineffizient. Selbst mit aktivierten Optimierungen war die Ausgabe des KI-erzeugten Compilers langsamer als die Ausgabe von GCC mit deaktivierten Optimierungen. Die Agenten priorisierten Korrektheit (Bestehen von Tests) gegenüber Leistung.
Architektonische Lücken: Die Agenten hatten Schwierigkeiten mit der „letzten Meile“ der Systemkomponenten. Es gelang ihnen nicht, ein 16-Bit-x86-Backend zu implementieren, das für das Booten von Linux erforderlich ist, was einen Rückgriff auf GCC für diese spezifische Komponente erforderlich machte. Ähnlich waren die Assembler- und Linker-Komponenten fehlerhaft und unvollständig.
Menschliche Autorität: Die „Autonomie“ war begrenzt. Menschliche Forscher mussten weiterhin die Architektur definieren, den Umfang festlegen und intervenieren, wenn die Agenten in Sackgassen gerieten (wie beim Problem mit dem 16-Bit-Compiler). Das übergeordnete Systemdesign blieb eine strikt menschliche Verantwortung.

Den Wandel analysieren: Vom Assistenten zum Teamkollegen

Dieses Experiment stellt einen grundlegenden Wandel in der Art und Weise dar, wie wir KI im Software-Lebenszyklus (Software Development Life Cycle, SDLC) betrachten. Wir bewegen uns weg von einem „Copilot“-Modell, bei dem die KI Vorschläge in Echtzeit macht, hin zu einem „agentenbasierten“ Modell, bei dem der KI ein Ticket zugewiesen wird und sie mit einem abgeschlossenen Merge-Request zurückkehrt.

Vergleich von KI-Entwicklungsmodellen

Merkmal	Copilot / Assistenten-Modell	Agenten-Team-Modell
Interaktion	Synchron (Mensch-im-Prozess)	Asynchron (Mensch-über-dem-Prozess)
Umfang	Funktions-/Snippet-Ebene	Modul-/Projektebene
Kontext	Aktuelle Datei/offene Tabs	Gesamtes Repository & Build-Logs
Steuerung	Menschliche Prüfung pro Zeile	Automatisierte Tests & CI/CD-Pipelines
Hauptengpass	Menschliche Aufmerksamkeitsspanne	Test-Suite-Qualität & Dekomposition

Der Weg vor uns

Für Entwickler und CTOs sind die Auswirkungen klar, aber nuanciert. Die Technologie, um menschliche Entwickler vollständig zu ersetzen, existiert nicht; der Mangel an architektonischer Weitsicht und Optimierungsfähigkeit im von Agenten gebauten Compiler beweist dies. Die Fähigkeit jedoch, „Mühe“ (Toil) – die repetitive Implementierung gut definierter Spezifikationen – auszulagern, wird Realität.

Der Erfolg des Experiments von Anthropic hing stark vom Validierungs-Engineering (Validation Engineering) ab. Die Agenten waren nur so effektiv wie die Tests, die sie leiteten. Dies deutet darauf hin, dass sich die zukünftige Rolle des erfahrenen Softwareentwicklers zunehmend darauf konzentrieren wird, diese „Harnische“ zu entwerfen – die architektonischen Grenzen, Test-Suiten und Erfolgskriterien, die es autonomen Agenten ermöglichen, die schwere Arbeit sicher zu erledigen.

Wie von Analysten der Futurum Group angemerkt, stellen diese Ergebnisse, obwohl sie auf internen „Clean-Room“-Experimenten der Ersteller des Modells basieren, einen Proof-of-Concept für agentenbasierte KI im industriellen Maßstab dar. Die Herausforderung verlagert sich nun von „Kann KI Code schreiben?“ zu „Können wir Systeme entwerfen, die KI sicher Code schreiben lassen?“.

Die Ära des autonomen Softwareagenten ist noch nicht vollständig angebrochen, aber mit der Kompilierung des Linux-Kernels ist sie mit Sicherheit hochgefahren.