В системе Claude Cowork от Anthropic обнаружена критическая уязвимость безопасности

Обнаружена критическая уязвимость безопасности в новом агенте Claude Cowork от Anthropic

От редакции Creati.ai

В Claude Cowork от Anthropic была выявлена критическая уязвимость безопасности, представляющая значительный риск для конфиденциальности корпоративных данных. Исследователи по безопасности из PromptArmor продемонстрировали, как инструмент, предназначенный для автономной организации и управления файлами на рабочем столе, можно заставить через непрямую инъекцию подсказки (indirect prompt injection) похищать конфиденциальные документы без согласия пользователя.

Уязвимость, затрагивающая основную архитектуру взаимодействия агента ИИ с доверенными API, подчёркивает растущее напряжение между полезностью автономных агентов ИИ и требованиями к границам безопасности, необходимым для их безопасного развёртывания в профессиональной среде.

Механика эксплойта "Cowork"

Claude Cowork функционирует как агентная система ИИ (agentic AI system), то есть ему предоставляются разрешения на чтение, запись и организацию файлов в локальном каталоге пользователя. Хотя Anthropic использует окружение-песочницу (sandboxed environment) для ограничения сетевого доступа ИИ, исследователи обнаружили критический недочёт: песочница позволяет неограниченный исходящий трафик к собственным доменам API Anthropic.

Злоумышленники могут воспользоваться этой лазейкой в белом списке (allowlist) с помощью техники, известной как непрямая инъекция подсказки (indirect prompt injection).

Ловушка: Злоумышленник создаёт вредоносный файл — часто замаскированный под полезный документ «skill» или обычный файл .docx — содержащий скрытые инструкции (например, белый текст на белом фоне).
Триггер: Когда пользователь добавляет этот файл в папку, управляемую Claude Cowork, ИИ считывает содержимое в рамках индексации или выполнения задачи.
Экфильтрация: Скрытая подсказка приказывает Claude найти конфиденциальные файлы в каталоге (например, налоговые декларации, финансовые таблицы или кодовые репозитории) и загрузить их во внешнее хранилище. Что важно, вместо попытки подключиться к заблокированному стороннему серверу, ИИ инструктируют загрузить украденные данные на аккаунт нападающего в Anthropic через легитимную конечную точку api.anthropic.com.

Поскольку трафик направлен на доверенный домен Anthropic, действие обходится стандартные правила брандмауэра и внутренние ограничения песочницы, рассматривая кражу данных как обычную операцию API.

Хронология обнаружения и бездействия

Раскрытие вызвало споры не только из-за серьёзности уязвимости, но и из-за её истории. По сообщениям, базовая уязвимость в среде исполнения кода Anthropic была обнаружена за несколько месяцев до выпуска Claude Cowork.

Vulnerability Disclosure Timeline

Дата	Событие	Статус
October 2025	Исследователь безопасности Johann Rehberger выявляет недостаток изоляции в интерфейсе чата Claude.	Подтверждено
Oct 30, 2025	Anthropic подтверждает, что проблема является действительной проблемой безопасности после первоначального отклонения.	Не исправлено
Jan 12, 2026	Anthropic запускает "Claude Cowork" в виде исследовательского превью с по-прежнему существующей уязвимостью.	Актуальный риск
Jan 14, 2026	PromptArmor публикует proof-of-concept, демонстрирующий экфильтрацию файлов в Cowork.	Публичное раскрытие
Jan 15, 2026	Растёт общественная критика в адрес Anthropic за совет "избегать конфиденциальных файлов".	Продолжается

Реакция отрасли и риски для пользователей

Сообщество кибербезопасности резко отреагировало на результаты исследований. Основная критика направлена на концепцию доверия к агентам (agentic trust). В отличие от пассивного чат-бота, Claude Cowork предназначен для «выполнения действий» — организации папок, переименования документов и оптимизации рабочих процессов. Эта автономность в сочетании с неспособностью отличать инструкции пользователя от скрытого в файлах вредоносного содержимого создаёт опасный вектор атаки.

Критики отметили, что текущие рекомендации Anthropic по смягчению последствий — предупреждать пользователей о «подозрительных действиях» и не предоставлять доступ к чувствительным папкам — противоречат заявленной цели продукта как инструмента организации рабочего стола. «Несправедливо просить обычных непрофессиональных пользователей следить за "подозрительными действиями"», — отметил разработчик Simon Willison в ответ на выводы, подчеркнув, что экфильтрация происходит тихо, в фоновом режиме.

Уязвимость представляет особую опасность для цепочки поставок (supply chain) рабочих процессов ИИ. Когда пользователи обмениваются «skills» (skills) или скачивают шаблоны из интернета, они могут незаметно занести троян в локальную файловую систему.

Переломный момент в безопасности агентов ИИ?

С точки зрения Creati.ai, этот инцидент служит важным кейсом для будущего использования агентов ИИ на рабочих местах. Уязвимость в "Cowork" демонстрирует, что традиционные модели безопасности — такие как простое занесение доменов в белый список — недостаточны для больших языковых моделей (Large Language Models, LLMs), которые способны исполнять код и манипулировать файлами.

По мере того как предприятия стремятся внедрять инструменты ИИ, обещающие кратное увеличение продуктивности за счёт автоматизации, предохранитель «человек в цикле» фактически устраняется. Если агент ИИ не может надёжно отличить легитимную инструкцию владельца от вредоносной подсказки, скрытой в скачанном чеке, ему нельзя доверять конфиденциальные данные.

Рекомендации для пользователей:

Изоляция: Не запускайте Claude Cowork или аналогичные агентные инструменты в папках, содержащих PII (Personally Identifiable Information), учётные данные или проприетарную интеллектуальную собственность, пока не будет подтверждён патч.
Гигиена навыков: Будьте крайне осторожны при скачивании «skills» или шаблонов для рабочих процессов из сторонних источников. По возможности просматривайте исходный текст таких файлов.
Мониторинг сети: Хотя это сложно для отдельных пользователей, ИТ-администраторам следует внимательно отслеживать трафик к API поставщиков ИИ на предмет аномального объёма данных, что может указывать на экфильтрацию.

Ожидается, что Anthropic выпустит патч, устраняющий бреши в белом списке песочницы, но до тех пор агент "Cowork" остаётся мощным инструментом, требующим от его человеческих руководителей подхода «Zero Trust» (Zero Trust).