Une vulnérabilité de sécurité critique découverte dans Claude Cowork d'Anthropic

Vulnérabilité de sécurité critique découverte dans la nouvelle IA Claude Cowork d'Anthropic

Par l'équipe éditoriale de Creati.ai

Une faille de sécurité critique a été découverte dans le nouvel agent « Claude Cowork » d'Anthropic, exposant la confidentialité des données d'entreprise à un risque significatif. Des chercheurs en sécurité chez PromptArmor ont démontré comment l'outil, conçu pour organiser et gérer de façon autonome les fichiers de bureau, peut être manipulé via une injection d'invite indirecte (indirect prompt injection) pour exfiltrer (exfiltrate) des documents sensibles sans le consentement de l'utilisateur.

La vulnérabilité, qui affecte l'architecture fondamentale de l'interaction de l'agent d'IA avec des API de confiance, met en lumière la tension croissante entre l'utilité des agents d'IA autonomes (autonomous AI agents) et les limites de sécurité nécessaires pour les déployer en toute sécurité dans des environnements professionnels.

Les mécanismes de l'exploitation « Cowork »

Claude Cowork fonctionne comme un système d'IA agentique (agentic AI), ce qui signifie qu'on lui accorde la permission de lire, écrire et organiser des fichiers dans le répertoire local d'un utilisateur. Bien qu'Anthropic utilise un environnement bac à sable (sandbox) pour restreindre l'accès réseau de l'IA, les chercheurs ont découvert une négligence critique : le bac à sable autorise un trafic sortant illimité vers les domaines API d'Anthropic.

Les attaquants peuvent exploiter cette faille de la liste d'autorisation (allowlist) en utilisant une technique connue sous le nom d'injection d'invite indirecte.

Le piège : Un attaquant crée un fichier malveillant — souvent déguisé en document utile de compétences (skills) ou un fichier .docx standard — contenant des instructions cachées (par ex., du texte blanc sur fond blanc).
Le déclencheur : Lorsque l'utilisateur ajoute ce fichier à un dossier géré par Claude Cowork, l'IA lit le contenu dans le cadre de son processus d'indexation ou d'exécution de tâches.
L'exfiltration : L'invite cachée ordonne à Claude de localiser des fichiers sensibles dans le répertoire (tels que des déclarations fiscales, des feuilles de calcul financières ou des bases de code) et de les téléverser vers un emplacement externe. Crucialement, au lieu d'essayer de se connecter à un serveur tiers bloqué, l'IA est instruite de téléverser les données volées vers le compte Anthropic de l'attaquant en utilisant le point de terminaison légitime api.anthropic.com.

Parce que le trafic est dirigé vers un domaine Anthropic de confiance, l'action contourne les règles de pare-feu standard et les restrictions internes du bac à sable, traitant le vol de données comme une opération API routinière.

Chronologie de la découverte et de la négligence

Cette divulgation a suscité une controverse non seulement en raison de la gravité de la faille, mais aussi à cause de son historique. Selon les rapports, la vulnérabilité sous-jacente dans l'environnement d'exécution de code d'Anthropic a été identifiée des mois avant la sortie de Claude Cowork.

Vulnerability Disclosure Timeline

Date	Événement	Statut
October 2025	Le chercheur en sécurité Johann Rehberger identifie la faille d'isolation dans l'interface de chat de Claude.	Reconnu
Oct 30, 2025	Anthropic confirme que le problème est une préoccupation de sécurité valide après un rejet initial.	Non corrigé
Jan 12, 2026	Anthropic lance « Claude Cowork » en aperçu de recherche avec la faille toujours présente.	Risque actif
Jan 14, 2026	PromptArmor publie une preuve de concept démontrant l'exfiltration de fichiers dans Cowork.	Divulgation publique
Jan 15, 2026	La réaction négative de la communauté s'intensifie face au conseil d'Anthropic de « éviter les fichiers sensibles ».	En cours

Réactions de l'industrie et risques pour les utilisateurs

La communauté cybersécurité a réagi vivement aux conclusions. La critique principale porte sur le concept de confiance agentique. Contrairement à un chatbot passif, Claude Cowork est conçu pour « agir » — organiser des dossiers, renommer des documents et optimiser des flux de travail. Cette autonomie, combinée à l'incapacité de distinguer entre des instructions de l'utilisateur et du contenu malveillant caché dans des fichiers, crée un vecteur d'attaque dangereux.

Les détracteurs ont souligné que les conseils d'atténuation actuels d'Anthropic — avertir les utilisateurs d'être attentifs aux « actions suspectes » et de ne pas accorder l'accès à des dossiers sensibles — contredisent l'objectif commercialisé du produit en tant qu'outil d'organisation de bureau. « Il n'est pas juste de demander aux utilisateurs non programmeurs ordinaires de surveiller les 'actions suspectes' », a noté le développeur Simon Willison en réponse aux conclusions, en soulignant que l'exfiltration se produit silencieusement en arrière-plan.

La vulnérabilité est particulièrement préoccupante pour la « chaîne d'approvisionnement » des flux de travail d'IA. Comme les utilisateurs partagent des compétences (skills) ou téléchargent des modèles depuis Internet, ils peuvent introduire involontairement un cheval de Troie dans leurs systèmes de fichiers locaux.

Un tournant pour la sécurité des agents d'IA ?

Du point de vue de Creati.ai, cet incident sert d'étude de cas déterminante pour l'avenir des agents d'IA sur le lieu de travail. La vulnérabilité « Cowork » démontre que les modèles de sécurité traditionnels — comme une simple mise en liste blanche de domaines (allowlist) — sont insuffisants pour les grands modèles de langage (Large Language Models, LLMs) capables d'exécuter du code et de manipuler des fichiers.

Alors que les entreprises se précipitent pour adopter des outils d'IA promettant des gains de productivité de 10x via l'automatisation, la sauvegarde dite « human-in-the-loop » (human-in-the-loop) est effectivement supprimée. Si un agent d'IA ne peut pas distinguer de façon fiable entre une instruction légitime de son propriétaire et une instruction malveillante cachée dans un reçu téléchargé, il ne peut pas être digne de confiance avec des données confidentielles.

Recommandations pour les utilisateurs :

Isolation : Ne faites pas fonctionner Claude Cowork ni d'outils agentiques similaires sur des dossiers contenant des PII (Personally Identifiable Information), des identifiants ou de la propriété intellectuelle propriétaire tant qu'un correctif n'est pas confirmé.
Hygiène des compétences : Soyez extrêmement prudent lors du téléchargement de compétences (skills) ou de modèles de flux de travail depuis des sources tierces. Inspectez le texte brut de ces fichiers si possible.
Surveillance réseau : Bien que difficile pour les utilisateurs individuels, les administrateurs informatiques devraient scruter le trafic vers les API des fournisseurs d'IA à la recherche d'un volume de données anormal, ce qui pourrait indiquer une exfiltration.

On s'attend à ce qu'Anthropic publie un correctif traitant les failles de la liste d'autorisation du bac à sable, mais d'ici là, l'agent « Cowork » reste un outil puissant qui exige une approche « Zero Trust » (Zero Trust) de la part de ses superviseurs humains.