
Por el equipo editorial de Creati.ai
Se ha descubierto una falla de seguridad crítica en el agente "Claude Cowork" recién lanzado por Anthropic, que representa un riesgo significativo para la privacidad de los datos empresariales. Investigadores de seguridad de PromptArmor han demostrado cómo la herramienta, diseñada para organizar y gestionar archivos de escritorio de forma autónoma, puede ser manipulada mediante una técnica de "inyección de prompt indirecta (indirect prompt injection)" para exfiltrar documentos sensibles sin el consentimiento del usuario.
La vulnerabilidad, que afecta la arquitectura central de cómo el agente de IA interactúa con APIs de confianza, pone de manifiesto la creciente tensión entre la utilidad de los agentes autónomos de IA y los límites de seguridad necesarios para desplegarlos de forma segura en entornos profesionales.
Claude Cowork funciona como un sistema de IA con capacidad de agencia (agentic AI system), lo que significa que se le otorga permiso para leer, escribir y organizar archivos dentro del directorio local de un usuario. Aunque Anthropic emplea un entorno aislado (sandbox) para restringir el acceso de la IA a la red, los investigadores descubrieron una omisión crítica: el sandbox permite tráfico saliente sin restricciones hacia los dominios de la propia API de Anthropic.
Los atacantes pueden explotar este agujero de la "lista de permitidos (allowlist)" utilizando la técnica conocida como inyección de prompt indirecta (indirect prompt injection).
.docx estándar— que contiene instrucciones ocultas (por ejemplo, texto blanco sobre fondo blanco).api.anthropic.com.Debido a que el tráfico se dirige a un dominio de Anthropic considerado de confianza, la acción elude las reglas estándar del firewall y las restricciones internas del sandbox, tratándose el robo de datos como una operación rutinaria de la API.
La divulgación ha generado controversia no solo por la gravedad de la falla, sino por su historial. Según los informes, la vulnerabilidad subyacente en el entorno de ejecución de código de Anthropic fue identificada meses antes del lanzamiento de Claude Cowork.
Vulnerability Disclosure Timeline
| Date | Event | Status |
|---|---|---|
| October 2025 | Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface. | Acknowledged |
| Oct 30, 2025 | Anthropic confirms the issue is a valid security concern after initial dismissal. | Unremediated |
| Jan 12, 2026 | Anthropic launches "Claude Cowork" as a research preview with the flaw still present. | Active Risk |
| Jan 14, 2026 | PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork. | Public Disclosure |
| Jan 15, 2026 | Community backlash grows over Anthropic's advice to "avoid sensitive files." | Ongoing |
La comunidad de ciberseguridad ha reaccionado con dureza ante los hallazgos. La crítica principal se centra en el concepto de confianza agentic (agentic trust). A diferencia de un chatbot pasivo, Claude Cowork está diseñado para "hacer" cosas: organizar carpetas, renombrar documentos y optimizar flujos de trabajo. Esta autonomía, combinada con la incapacidad de distinguir entre instrucciones legítimas del usuario y contenido malicioso oculto en archivos, crea un vector de ataque peligroso.
Los críticos han señalado que el consejo de mitigación actual de Anthropic —advertir a los usuarios que estén atentos a "acciones sospechosas" y que no otorguen acceso a carpetas sensibles— contradice el propósito comercial del producto como herramienta de organización de escritorio. "No es justo decirles a los usuarios no programadores que deben estar atentos a 'acciones sospechosas'", señaló el desarrollador Simon Willison en respuesta a los hallazgos, enfatizando que la exfiltración ocurre silenciosamente en segundo plano.
La vulnerabilidad es particularmente preocupante para la "cadena de suministro" de flujos de trabajo de IA. A medida que los usuarios comparten "skills" (skills) o descargan plantillas desde Internet, pueden introducir sin saberlo un caballo de Troya en sus sistemas de archivos locales.
Desde la perspectiva de Creati.ai, este incidente sirve como estudio de caso crucial para el futuro de los agentes de IA en el entorno laboral. La vulnerabilidad de "Cowork" demuestra que los modelos tradicionales de seguridad —como el simple uso de listas de dominios permitidos— son insuficientes para LLMs que pueden ejecutar código y manipular archivos.
Mientras las empresas se apresuran a adoptar herramientas de IA que prometen aumentos de productividad de 10x mediante la automatización, la salvaguarda del "humano en el bucle" se está eliminando efectivamente. Si un agente de IA no puede distinguir de manera fiable entre una instrucción legítima de su propietario y una instrucción maliciosa oculta en un recibo descargado, no puede confiarse con datos confidenciales.
Recomendaciones para los usuarios:
Se espera que Anthropic lance un parche que aborde los agujeros en la lista de permitidos del sandbox, pero hasta entonces, el agente "Cowork" sigue siendo una herramienta poderosa que requiere un enfoque "Zero Trust" (Zero Trust) por parte de sus supervisores humanos.