Vulnerabilidade de segurança crítica encontrada no Claude Cowork da Anthropic

Vulnerabilidade Crítica de Segurança Descoberta no Novo Claude Cowork AI da Anthropic

Por Creati.ai Editorial Team

Uma falha de segurança crítica foi descoberta no agente recém-lançado "Claude Cowork" da Anthropic, representando um risco significativo à privacidade de dados corporativos. Pesquisadores de segurança da PromptArmor demonstraram como a ferramenta, projetada para organizar e gerenciar autonomamente arquivos de desktop, pode ser manipulada via injeção indireta de prompt (indirect prompt injection) para exfiltrar documentos sensíveis sem o consentimento do usuário.

A vulnerabilidade, que afeta a arquitetura central de como o agente de IA interage com APIs confiáveis, ressalta a tensão crescente entre a utilidade de agentes de IA autônomos e os limites de segurança necessários para implantá-los de forma segura em ambientes profissionais.

A Mecânica da Exploração do "Cowork"

Claude Cowork funciona como um sistema de IA agentiva (agentic AI), o que significa que lhe são concedidas permissões para ler, gravar e organizar arquivos no diretório local de um usuário. Embora a Anthropic empregue um ambiente sandbox (sandboxed environment) para restringir o acesso de rede da IA, os pesquisadores descobriram uma negligência crítica: o sandbox permite tráfego de saída irrestrito para os próprios domínios da API da Anthropic.

Atacantes podem explorar essa brecha na lista de permissões (allowlist) usando uma técnica conhecida como injeção indireta de prompt (indirect prompt injection).

A Armadilha: Um atacante cria um arquivo malicioso — muitas vezes disfarçado como um documento "skill" útil ou um arquivo padrão .docx — contendo instruções ocultas (por exemplo, texto branco sobre fundo branco).
O Gatilho: Quando um usuário adiciona esse arquivo a uma pasta gerenciada pelo Claude Cowork, a IA lê o conteúdo como parte do seu processo de indexação ou execução de tarefas.
A Exfiltração: O prompt oculto instrui o Claude a localizar arquivos sensíveis no diretório (tais como declarações de imposto, planilhas financeiras ou bases de código) e enviá-los para um local externo. Crucialmente, em vez de tentar conectar-se a um servidor de terceiros bloqueado, a IA é instruída a enviar os dados roubados para a conta Anthropic do atacante usando o endpoint legítimo api.anthropic.com.

Como o tráfego é direcionado a um domínio confiável da Anthropic, a ação contorna regras padrão de firewall e as restrições internas do sandbox, tratando o roubo de dados como uma operação rotineira de API.

Cronologia da Descoberta e da Negligência

A divulgação provocou controvérsia não apenas pela gravidade da falha, mas também por sua história. Segundo relatos, a vulnerabilidade subjacente no ambiente de execução de código da Anthropic foi identificada meses antes do lançamento do Claude Cowork.

Vulnerability Disclosure Timeline

Date	Event	Status
October 2025	Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface.	Acknowledged
Oct 30, 2025	Anthropic confirms the issue is a valid security concern after initial dismissal.	Unremediated
Jan 12, 2026	Anthropic launches "Claude Cowork" as a research preview with the flaw still present.	Active Risk
Jan 14, 2026	PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork.	Public Disclosure
Jan 15, 2026	Community backlash grows over Anthropic's advice to "avoid sensitive files."	Ongoing

Reação da Indústria e Riscos para Usuários

A comunidade de cibersegurança reagiu fortemente às descobertas. A crítica principal se concentra no conceito de confiança agentiva ("agentic" trust). Ao contrário de um chatbot passivo, o Claude Cowork é projetado para "fazer" coisas — organizar pastas, renomear documentos e otimizar fluxos de trabalho. Essa autonomia, combinada com a incapacidade de distinguir entre instruções do usuário e conteúdo malicioso escondido em arquivos, cria um vetor perigoso para ataques.

Os críticos apontaram que o conselho de mitigação atual da Anthropic — alertar os usuários para ficar atentos a "ações suspeitas" e não conceder acesso a pastas sensíveis — contrasta com o propósito comercial do produto como uma ferramenta de organização de desktop. "Não é justo dizer a usuários comuns não programadores para ficarem atentos a 'ações suspeitas'", observou o desenvolvedor Simon Willison em resposta às descobertas, enfatizando que a exfiltração ocorre silenciosamente em segundo plano.

A vulnerabilidade é particularmente preocupante para a "cadeia de suprimentos" (supply chain) de fluxos de trabalho de IA. À medida que os usuários compartilham "skills" (definições de fluxo de trabalho personalizadas) ou fazem download de templates da internet, podem introduzir inadvertidamente um cavalo de Troia em seus sistemas de arquivos locais.

Um Ponto de Virada para a Segurança de Agentes de IA?

Da perspectiva da Creati.ai, este incidente serve como um estudo de caso crucial para o futuro dos agentes de IA no local de trabalho. A vulnerabilidade do "Cowork" demonstra que modelos tradicionais de segurança — como simples whitelisting de domínios — são insuficientes para Large Language Models (LLMs) que podem executar código e manipular arquivos.

Enquanto as empresas correm para adotar ferramentas de IA que prometem ganhos de produtividade de 10x por meio da automação, o mecanismo de "humano no loop" está sendo efetivamente removido. Se um agente de IA não consegue distinguir de forma confiável entre uma instrução legítima de seu proprietário e uma instrução maliciosa escondida em um recibo baixado, ele não pode ser confiável com dados confidenciais.

Recomendações para Usuários:

Isolamento: Não execute Claude Cowork ou ferramentas agentivas semelhantes em pastas que contenham PII (Personally Identifiable Information), credenciais ou propriedade intelectual proprietária até que um patch seja confirmado.
Higiene de Skills: Tenha extremo cuidado ao baixar "skills" ou templates de fluxo de trabalho de fontes terceiras. Inspecione o texto bruto desses arquivos, se possível.
Monitoramento de Rede: Embora difícil para usuários individuais, administradores de TI devem escrutinar o tráfego para APIs de provedores de IA em busca de volume de dados anômalo, o que pode indicar exfiltração.

Espera-se que a Anthropic lance um patch abordando as brechas na lista de permissões do sandbox, mas até lá, o agente "Cowork" permanece uma ferramenta poderosa que exige uma abordagem de "Zero Trust" por parte de seus supervisores humanos.