
작성: Creati.ai 편집팀
Anthropic이 새로 출시한 "Claude Cowork" 에이전트에서 치명적인 보안 결함이 발견되어 기업 데이터 프라이버시에 심각한 위험을 초래하고 있습니다. PromptArmor의 보안 연구원들은 데스크탑 파일을 자율적으로 정리하고 관리하도록 설계된 이 도구가 "간접 프롬프트 인젝션 (indirect prompt injection)"을 통해 사용자 동의 없이 민감한 문서를 유출하도록 조작될 수 있음을 시연했습니다.
이 취약점은 AI 에이전트가 신뢰된 API와 상호작용하는 핵심 아키텍처에 영향을 미치며, 자율 에이전트(autonomous AI agents)들의 유용성과 전문 환경에서 안전하게 배포하기 위해 필요한 보안 경계 사이의 긴장이 커지고 있음을 부각합니다.
Claude Cowork는 에이전트형 AI 시스템 (agentic AI system)으로 작동하며, 사용자 로컬 디렉터리 내 파일을 읽고, 쓰고, 정리할 권한을 부여받습니다. Anthropic은 AI의 네트워크 액세스를 제한하기 위해 샌드박스 환경 (sandboxed environment)을 사용하지만, 연구원들은 결정적인 간과를 발견했습니다: 샌드박스는 Anthropic의 자체 API 도메인으로의 무제한 아웃바운드 트래픽을 허용합니다.
공격자는 이 허용 목록(allowlist) 허점을 "간접 프롬프트 인젝션 (indirect prompt injection)"이라고 알려진 기법을 사용해 악용할 수 있습니다.
.docx 파일로 위장한 악성 파일을 만들어 숨은 지시문(예: 흰 배경에 흰색 텍스트)을 포함시킵니다.api.anthropic.com 엔드포인트를 사용해 공격자의 Anthropic 계정으로 데이터를 업로드하도록 지시된다는 것입니다.트래픽이 신뢰된 Anthropic 도메인으로 향하기 때문에 이 행위는 표준 방화벽 규칙과 내부 샌드박스 제한을 우회하여 데이터 절도를 일반적인 API 작업으로 처리하게 됩니다.
이 공개는 결함의 심각성뿐만 아니라 그 이력 때문에 논란을 불러일으켰습니다. 보도에 따르면, Claude Cowork 출시 몇 달 전에 Anthropic의 코드 실행 환경에서 근본적인 취약점이 식별되었다고 합니다.
Vulnerability Disclosure Timeline
| 날짜 | 사건 | 상태 |
|---|---|---|
| 2025년 10월 | 보안 연구원 Johann Rehberger가 Claude의 채팅 인터페이스에서 격리 결함을 식별함. | 인정됨 |
| 2025년 10월 30일 | Anthropic이 초기 기각 이후 문제를 유효한 보안 우려로 확인함. | 미해결 |
| 2026년 1월 12일 | Anthropic이 결함이 여전히 존재하는 상태로 "Claude Cowork"를 리서치 프리뷰로 출시함. | 활성 위험 |
| 2026년 1월 14일 | PromptArmor가 Cowork에서 파일 유출을 시연한 개념 증명을 공개함. | 공개 |
| 2026년 1월 15일 | Anthropic의 "민감한 파일을 피하라"는 조언에 대해 커뮤니티 반발이 커짐. | 진행 중 |
사이버보안 커뮤니티는 이 발견에 강하게 반응했습니다. 주요 비판은 에이전트형 신뢰(agentic trust)의 개념에 집중되어 있습니다. 수동형 챗봇과 달리 Claude Cowork는 폴더를 정리하고 문서 이름을 바꾸며 워크플로를 최적화하는 등 "작업 수행"을 목적으로 설계되었습니다. 이러한 자율성은 파일에 숨겨진 악의적 콘텐츠와 사용자 지시를 구분하지 못하는 능력과 결합되어 공격을 위한 위험한 벡터를 만듭니다.
비평가들은 Anthropic의 현재 완화 권고—사용자에게 "의심스러운 동작"을 주의하고 민감한 폴더에 접근 권한을 부여하지 말라고 경고하는 것—이 데스크탑 정리 도구로서 제품의 마케팅 목적과 모순된다고 지적했습니다. 개발자 Simon Willison은 이번 발견에 대해 "비전문가 일반 사용자에게 '의심스러운 동작'을 경계하라 말하는 것은 공정하지 않다"며, 유출이 백그라운드에서 조용히 일어난다고 강조했습니다.
이 취약점은 AI 워크플로의 공급망(supply chain)에 특히 우려를 낳습니다. 사용자가 인터넷에서 "스킬"(맞춤형 워크플로 정의)을 공유하거나 템플릿을 다운로드할 때, 자신도 모르는 사이에 로컬 파일 시스템에 트로이 목마를 도입할 수 있습니다.
Creati.ai의 관점에서 이번 사건은 직장 내 AI 에이전트의 미래에 대한 중대한 사례 연구로 작용합니다. "Cowork" 취약점은 단순한 도메인 화이트리스트와 같은 전통적 보안 모델이 코드 실행 및 파일 조작이 가능한 대형 언어 모델( Large Language Models, LLMs )에 대해 불충분하다는 것을 보여줍니다.
기업들이 자동화를 통해 10배의 생산성 향상을 약속하는 AI 도구를 서둘러 도입함에 따라, 휴먼 인 더 루프(human-in-the-loop) 보호 장치는 사실상 제거되고 있습니다. 만약 AI 에이전트가 소유자의 정당한 지시와 다운로드된 영수증에 숨겨진 악의적 지시를 신뢰할 수 있게 구분하지 못한다면, 기밀 데이터에 대해 신뢰할 수 없습니다.
사용자 권고사항:
Anthropic은 샌드박스 허용 목록(allowlist) 허점을 해결하는 패치를 출시할 것으로 예상되지만, 그때까지 "Cowork" 에이전트는 인간 감독자로부터의 제로 트러스트(Zero Trust) 접근이 필요한 강력한 도구로 남아 있습니다.