
Von Creati.ai Redaktionsteam
Eine kritische Sicherheitslücke wurde in Anthropics neu veröffentlichtem Agenten "Claude Cowork" aufgedeckt und stellt ein erhebliches Risiko für die Datenschutz in Unternehmen dar. Sicherheitsforscher bei PromptArmor haben demonstriert, wie das Tool, das dazu gedacht ist, Desktop-Dateien autonom zu organisieren und zu verwalten, durch eine sogenannte indirekte Prompt-Injektion (indirect prompt injection) manipuliert werden kann, um sensible Dokumente ohne Zustimmung der Nutzer zu exfiltrieren.
Die Verwundbarkeit, die die Kernarchitektur betrifft, wie der KI-Agent mit vertrauenswürdigen APIs interagiert, macht die wachsende Spannung deutlich zwischen dem Nutzen autonomer KI-Agenten und den notwendigen Sicherheitsgrenzen, um sie sicher in professionellen Umgebungen einzusetzen.
Claude Cowork funktioniert als ein agentenbasiertes KI-System (agentic AI system), das berechtigt ist, Dateien im lokalen Verzeichnis eines Nutzers zu lesen, zu schreiben und zu organisieren. Obwohl Anthropic eine Sandbox einsetzt, um den Netzwerkzugriff der KI zu beschränken, entdeckten die Forscher eine kritische Nachlässigkeit: Die Sandbox erlaubt uneingeschränkten ausgehenden Traffic zu Anthropics eigenen API-Domains.
Angreifer können diese Allowlist-Lücke mithilfe einer Technik ausnutzen, die als indirekte Prompt-Injektion (indirect prompt injection) bekannt ist.
.docx-Datei – die versteckte Anweisungen enthält (z. B. weißer Text auf weißem Hintergrund).api.anthropic.com hochzuladen.Da der Traffic an eine vertrauenswürdige Anthropic-Domain gerichtet ist, umgeht die Aktion die üblichen Firewall-Regeln und die internen Sandbox-Beschränkungen und behandelt den Datendiebstahl als routinemäßigen API-Vorgang.
Die Offenlegung hat nicht nur wegen der Schwere der Schwachstelle für Kontroversen gesorgt, sondern auch wegen ihrer Vorgeschichte. Berichten zufolge wurde die zugrunde liegende Verwundbarkeit in Anthropics Code-Ausführungsumgebung Monate vor der Veröffentlichung von Claude Cowork identifiziert.
Vulnerability Disclosure Timeline
| Datum | Ereignis | Status |
|---|---|---|
| October 2025 | Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface. | Acknowledged |
| Oct 30, 2025 | Anthropic confirms the issue is a valid security concern after initial dismissal. | Unremediated |
| Jan 12, 2026 | Anthropic launches "Claude Cowork" as a research preview with the flaw still present. | Active Risk |
| Jan 14, 2026 | PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork. | Public Disclosure |
| Jan 15, 2026 | Community backlash grows over Anthropic's advice to "avoid sensitive files." | Ongoing |
Die Cybersicherheits-Community hat heftig auf die Erkenntnisse reagiert. Die Hauptkritik richtet sich auf das Konzept des "agentischen" Vertrauens. Im Gegensatz zu einem passiven Chatbot ist Claude Cowork dafür ausgelegt, Dinge zu "tun" – Ordner zu organisieren, Dokumente umzubenennen und Arbeitsabläufe zu optimieren. Diese Autonomie, kombiniert mit der Unfähigkeit, zwischen Nutzeranweisungen und in Dateien verstecktem bösartigen Inhalt zu unterscheiden, schafft einen gefährlichen Angriffsvektor.
Kritiker wiesen darauf hin, dass Anthropics derzeitige Gegenmaßnahmen – Nutzer davor zu warnen, auf "verdächtige Aktionen" zu achten und keinen Zugriff auf sensible Ordner zu gewähren – dem beworbenen Zweck des Produkts als Desktop-Organisationswerkzeug widersprechen. "Es ist nicht fair, normalen Nicht-Programmierern zu sagen, sie sollen auf 'verdächtige Aktionen' achten", bemerkte Entwickler Simon Willison als Reaktion auf die Erkenntnisse und betonte, dass die Exfiltration stillschweigend im Hintergrund erfolgt.
Die Verwundbarkeit ist besonders besorgniserregend für die "Lieferkette" (supply chain) von KI-Workflows. Wenn Nutzer "Skills" (benutzerdefinierte Arbeitsablaufdefinitionen) teilen oder Vorlagen aus dem Internet herunterladen, könnten sie unwissentlich ein trojanisches Pferd in ihr lokales Dateisystem einschleusen.
Aus Sicht von Creati.ai dient dieser Vorfall als wegweisende Fallstudie für die Zukunft von KI-Agenten am Arbeitsplatz. Die "Cowork"-Schwachstelle zeigt, dass traditionelle Sicherheitsmodelle – wie einfache Domain-Whitelists – für Große Sprachmodelle (Large Language Models, LLMs), die Code ausführen und Dateien manipulieren können, unzureichend sind.
Während Unternehmen bemüht sind, KI-Tools zu übernehmen, die durch Automatisierung eine zehnfache Produktivitätssteigerung versprechen, wird das "Human-in-the-loop"-Sicherheitsmerkmal faktisch entfernt. Wenn ein KI-Agent nicht zuverlässig zwischen einer legitimen Anweisung seines Besitzers und einer in einer heruntergeladenen Quittung versteckten bösartigen Anweisung unterscheiden kann, ist ihm kein vertraulicher Umgang mit sensiblen Daten zuzutrauen.
Empfehlungen für Nutzer:
Es wird erwartet, dass Anthropic einen Patch veröffentlicht, der die Allowlist-Lücken in der Sandbox behebt. Bis dahin bleibt der "Cowork"-Agent ein mächtiges Werkzeug, das von seinen menschlichen Aufsichtspersonen einen Zero-Trust-Ansatz (Zero Trust) erfordert.