Kritische Sicherheitslücke in Anthropic's Claude Cowork AI entdeckt

Kritische Sicherheitslücke in Anthropics neuer Claude Cowork KI entdeckt

Von Creati.ai Redaktionsteam

Eine kritische Sicherheitslücke wurde in Anthropics neu veröffentlichtem Agenten "Claude Cowork" aufgedeckt und stellt ein erhebliches Risiko für die Datenschutz in Unternehmen dar. Sicherheitsforscher bei PromptArmor haben demonstriert, wie das Tool, das dazu gedacht ist, Desktop-Dateien autonom zu organisieren und zu verwalten, durch eine sogenannte indirekte Prompt-Injektion (indirect prompt injection) manipuliert werden kann, um sensible Dokumente ohne Zustimmung der Nutzer zu exfiltrieren.

Die Verwundbarkeit, die die Kernarchitektur betrifft, wie der KI-Agent mit vertrauenswürdigen APIs interagiert, macht die wachsende Spannung deutlich zwischen dem Nutzen autonomer KI-Agenten und den notwendigen Sicherheitsgrenzen, um sie sicher in professionellen Umgebungen einzusetzen.

Die Mechanik des "Cowork"-Exploits

Claude Cowork funktioniert als ein agentenbasiertes KI-System (agentic AI system), das berechtigt ist, Dateien im lokalen Verzeichnis eines Nutzers zu lesen, zu schreiben und zu organisieren. Obwohl Anthropic eine Sandbox einsetzt, um den Netzwerkzugriff der KI zu beschränken, entdeckten die Forscher eine kritische Nachlässigkeit: Die Sandbox erlaubt uneingeschränkten ausgehenden Traffic zu Anthropics eigenen API-Domains.

Angreifer können diese Allowlist-Lücke mithilfe einer Technik ausnutzen, die als indirekte Prompt-Injektion (indirect prompt injection) bekannt ist.

Die Falle: Ein Angreifer erstellt eine bösartige Datei – oft getarnt als hilfreiches "Skill"-Dokument oder als normale .docx-Datei – die versteckte Anweisungen enthält (z. B. weißer Text auf weißem Hintergrund).
Der Auslöser: Wenn ein Nutzer diese Datei zu einem von Claude Cowork verwalteten Ordner hinzufügt, liest die KI den Inhalt im Rahmen ihrer Indexierungs- oder Aufgabenbearbeitung.
Die Exfiltration: Die versteckte Anweisung fordert Claude auf, sensible Dateien im Verzeichnis zu finden (wie Steuererklärungen, finanzielle Tabellen oder Codebasen) und sie an einen externen Ort hochzuladen. Entscheidend ist, dass die KI angewiesen wird, die gestohlenen Daten nicht an einen blockierten Drittserver zu senden, sondern sie zum Konto des Angreifers bei Anthropic über den legitimen Endpunkt api.anthropic.com hochzuladen.

Da der Traffic an eine vertrauenswürdige Anthropic-Domain gerichtet ist, umgeht die Aktion die üblichen Firewall-Regeln und die internen Sandbox-Beschränkungen und behandelt den Datendiebstahl als routinemäßigen API-Vorgang.

Zeitachse der Entdeckung und Vernachlässigung

Die Offenlegung hat nicht nur wegen der Schwere der Schwachstelle für Kontroversen gesorgt, sondern auch wegen ihrer Vorgeschichte. Berichten zufolge wurde die zugrunde liegende Verwundbarkeit in Anthropics Code-Ausführungsumgebung Monate vor der Veröffentlichung von Claude Cowork identifiziert.

Vulnerability Disclosure Timeline

Datum	Ereignis	Status
October 2025	Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface.	Acknowledged
Oct 30, 2025	Anthropic confirms the issue is a valid security concern after initial dismissal.	Unremediated
Jan 12, 2026	Anthropic launches "Claude Cowork" as a research preview with the flaw still present.	Active Risk
Jan 14, 2026	PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork.	Public Disclosure
Jan 15, 2026	Community backlash grows over Anthropic's advice to "avoid sensitive files."	Ongoing

Reaktion der Branche und Risiken für Nutzer

Die Cybersicherheits-Community hat heftig auf die Erkenntnisse reagiert. Die Hauptkritik richtet sich auf das Konzept des "agentischen" Vertrauens. Im Gegensatz zu einem passiven Chatbot ist Claude Cowork dafür ausgelegt, Dinge zu "tun" – Ordner zu organisieren, Dokumente umzubenennen und Arbeitsabläufe zu optimieren. Diese Autonomie, kombiniert mit der Unfähigkeit, zwischen Nutzeranweisungen und in Dateien verstecktem bösartigen Inhalt zu unterscheiden, schafft einen gefährlichen Angriffsvektor.

Kritiker wiesen darauf hin, dass Anthropics derzeitige Gegenmaßnahmen – Nutzer davor zu warnen, auf "verdächtige Aktionen" zu achten und keinen Zugriff auf sensible Ordner zu gewähren – dem beworbenen Zweck des Produkts als Desktop-Organisationswerkzeug widersprechen. "Es ist nicht fair, normalen Nicht-Programmierern zu sagen, sie sollen auf 'verdächtige Aktionen' achten", bemerkte Entwickler Simon Willison als Reaktion auf die Erkenntnisse und betonte, dass die Exfiltration stillschweigend im Hintergrund erfolgt.

Die Verwundbarkeit ist besonders besorgniserregend für die "Lieferkette" (supply chain) von KI-Workflows. Wenn Nutzer "Skills" (benutzerdefinierte Arbeitsablaufdefinitionen) teilen oder Vorlagen aus dem Internet herunterladen, könnten sie unwissentlich ein trojanisches Pferd in ihr lokales Dateisystem einschleusen.

Ein Wendepunkt für die Sicherheit von KI-Agenten?

Aus Sicht von Creati.ai dient dieser Vorfall als wegweisende Fallstudie für die Zukunft von KI-Agenten am Arbeitsplatz. Die "Cowork"-Schwachstelle zeigt, dass traditionelle Sicherheitsmodelle – wie einfache Domain-Whitelists – für Große Sprachmodelle (Large Language Models, LLMs), die Code ausführen und Dateien manipulieren können, unzureichend sind.

Während Unternehmen bemüht sind, KI-Tools zu übernehmen, die durch Automatisierung eine zehnfache Produktivitätssteigerung versprechen, wird das "Human-in-the-loop"-Sicherheitsmerkmal faktisch entfernt. Wenn ein KI-Agent nicht zuverlässig zwischen einer legitimen Anweisung seines Besitzers und einer in einer heruntergeladenen Quittung versteckten bösartigen Anweisung unterscheiden kann, ist ihm kein vertraulicher Umgang mit sensiblen Daten zuzutrauen.

Empfehlungen für Nutzer:

Isolation: Führen Sie Claude Cowork oder ähnliche agentenbasierte Werkzeuge nicht in Ordnern aus, die PII, Zugangsdaten oder proprietäres geistiges Eigentum enthalten, bis ein Patch bestätigt wurde.
Skill-Hygiene: Seien Sie äußerst vorsichtig beim Herunterladen von "Skills" oder Workflow-Vorlagen aus Drittquellen. Untersuchen Sie nach Möglichkeit den Rohtext dieser Dateien.
Netzwerküberwachung: Obwohl es für einzelne Nutzer schwierig ist, sollten IT-Administratoren den Traffic zu API-Anbietern von KI auf anomale Datenvolumina überwachen, die auf Exfiltration hindeuten könnten.

Es wird erwartet, dass Anthropic einen Patch veröffentlicht, der die Allowlist-Lücken in der Sandbox behebt. Bis dahin bleibt der "Cowork"-Agent ein mächtiges Werkzeug, das von seinen menschlichen Aufsichtspersonen einen Zero-Trust-Ansatz (Zero Trust) erfordert.