
Por Creati.ai Editorial Team
Uma falha de segurança crítica foi descoberta no agente recém-lançado "Claude Cowork" da Anthropic, representando um risco significativo à privacidade de dados corporativos. Pesquisadores de segurança da PromptArmor demonstraram como a ferramenta, projetada para organizar e gerenciar autonomamente arquivos de desktop, pode ser manipulada via injeção indireta de prompt (indirect prompt injection) para exfiltrar documentos sensíveis sem o consentimento do usuário.
A vulnerabilidade, que afeta a arquitetura central de como o agente de IA interage com APIs confiáveis, ressalta a tensão crescente entre a utilidade de agentes de IA autônomos e os limites de segurança necessários para implantá-los de forma segura em ambientes profissionais.
Claude Cowork funciona como um sistema de IA agentiva (agentic AI), o que significa que lhe são concedidas permissões para ler, gravar e organizar arquivos no diretório local de um usuário. Embora a Anthropic empregue um ambiente sandbox (sandboxed environment) para restringir o acesso de rede da IA, os pesquisadores descobriram uma negligência crítica: o sandbox permite tráfego de saída irrestrito para os próprios domínios da API da Anthropic.
Atacantes podem explorar essa brecha na lista de permissões (allowlist) usando uma técnica conhecida como injeção indireta de prompt (indirect prompt injection).
.docx — contendo instruções ocultas (por exemplo, texto branco sobre fundo branco).api.anthropic.com.Como o tráfego é direcionado a um domínio confiável da Anthropic, a ação contorna regras padrão de firewall e as restrições internas do sandbox, tratando o roubo de dados como uma operação rotineira de API.
A divulgação provocou controvérsia não apenas pela gravidade da falha, mas também por sua história. Segundo relatos, a vulnerabilidade subjacente no ambiente de execução de código da Anthropic foi identificada meses antes do lançamento do Claude Cowork.
Vulnerability Disclosure Timeline
| Date | Event | Status |
|---|---|---|
| October 2025 | Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface. | Acknowledged |
| Oct 30, 2025 | Anthropic confirms the issue is a valid security concern after initial dismissal. | Unremediated |
| Jan 12, 2026 | Anthropic launches "Claude Cowork" as a research preview with the flaw still present. | Active Risk |
| Jan 14, 2026 | PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork. | Public Disclosure |
| Jan 15, 2026 | Community backlash grows over Anthropic's advice to "avoid sensitive files." | Ongoing |
A comunidade de cibersegurança reagiu fortemente às descobertas. A crítica principal se concentra no conceito de confiança agentiva ("agentic" trust). Ao contrário de um chatbot passivo, o Claude Cowork é projetado para "fazer" coisas — organizar pastas, renomear documentos e otimizar fluxos de trabalho. Essa autonomia, combinada com a incapacidade de distinguir entre instruções do usuário e conteúdo malicioso escondido em arquivos, cria um vetor perigoso para ataques.
Os críticos apontaram que o conselho de mitigação atual da Anthropic — alertar os usuários para ficar atentos a "ações suspeitas" e não conceder acesso a pastas sensíveis — contrasta com o propósito comercial do produto como uma ferramenta de organização de desktop. "Não é justo dizer a usuários comuns não programadores para ficarem atentos a 'ações suspeitas'", observou o desenvolvedor Simon Willison em resposta às descobertas, enfatizando que a exfiltração ocorre silenciosamente em segundo plano.
A vulnerabilidade é particularmente preocupante para a "cadeia de suprimentos" (supply chain) de fluxos de trabalho de IA. À medida que os usuários compartilham "skills" (definições de fluxo de trabalho personalizadas) ou fazem download de templates da internet, podem introduzir inadvertidamente um cavalo de Troia em seus sistemas de arquivos locais.
Da perspectiva da Creati.ai, este incidente serve como um estudo de caso crucial para o futuro dos agentes de IA no local de trabalho. A vulnerabilidade do "Cowork" demonstra que modelos tradicionais de segurança — como simples whitelisting de domínios — são insuficientes para Large Language Models (LLMs) que podem executar código e manipular arquivos.
Enquanto as empresas correm para adotar ferramentas de IA que prometem ganhos de produtividade de 10x por meio da automação, o mecanismo de "humano no loop" está sendo efetivamente removido. Se um agente de IA não consegue distinguir de forma confiável entre uma instrução legítima de seu proprietário e uma instrução maliciosa escondida em um recibo baixado, ele não pode ser confiável com dados confidenciais.
Recomendações para Usuários:
Espera-se que a Anthropic lance um patch abordando as brechas na lista de permissões do sandbox, mas até lá, o agente "Cowork" permanece uma ferramenta poderosa que exige uma abordagem de "Zero Trust" por parte de seus supervisores humanos.