
由 Creati.ai 編輯團隊
一個關鍵的安全缺陷在 Anthropic 新推出的「Claude Cowork」代理中被揭露,對企業資料隱私構成重大風險。PromptArmor 的安全研究人員示範了該工具——設計用於自動整理與管理桌面檔案——如何能被操縱,透過「間接提示注入(indirect prompt injection)」在未經使用者同意下外洩敏感文件。
該漏洞影響 AI 代理與受信任 API 互動的核心架構,突顯了自主式 AI 代理(autonomous AI agents)的實用性與在專業環境中安全部署所需安全邊界之間日益緊繃的矛盾。
Claude Cowork 作為一個代理式(agentic)AI 系統運作,意即它被授權讀取、寫入並整理使用者本地目錄內的檔案。雖然 Anthropic 採用沙箱(sandbox)環境來限制 AI 的網路存取,但研究人員發現一個重大疏忽:該沙箱允許對 Anthropic 自家 API 網域的無限制外向流量。
攻擊者可以利用這個允許清單(allowlist)漏洞,使用所謂的間接提示注入技巧來執行攻擊。
.docx 檔案——內含隱藏指示(例如:以白色文字置於白色背景)。api.anthropic.com 端點把被竊取的資料上傳到攻擊者的 Anthropic 帳戶。因為流量被導向受信任的 Anthropic 網域,此行為繞過了標準防火牆規則與內部沙箱限制,將資料竊取視為例行的 API 操作。
此揭露引發爭議,不僅因為漏洞的嚴重性,也因為其歷史。根據報導,Anthropic 的程式碼執行環境中潛在的漏洞早在 Claude Cowork 發佈前數月就已被發現。
Vulnerability Disclosure Timeline
| Date | Event | Status |
|---|---|---|
| October 2025 | Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface. | Acknowledged |
| Oct 30, 2025 | Anthropic confirms the issue is a valid security concern after initial dismissal. | Unremediated |
| Jan 12, 2026 | Anthropic launches "Claude Cowork" as a research preview with the flaw still present. | Active Risk |
| Jan 14, 2026 | PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork. | Public Disclosure |
| Jan 15, 2026 | Community backlash grows over Anthropic's advice to "avoid sensitive files." | Ongoing |
資安社群對此結果反應強烈。主要批評集中於「代理式」信任的概念。與被動聊天機器人不同,Claude Cowork 被設計來「執行」任務——整理資料夾、重新命名文件並優化工作流程。這種自主性,加上無法區分使用者指示與藏於檔案中的惡意內容,形成了一條危險的攻擊向量。
批評者指出,Anthropic 目前的緩解建議——警告使用者留意「可疑行為」並不要授權存取敏感資料夾——與該產品作為桌面整理工具的行銷目的相互矛盾。開發者 Simon Willison 在回應發現時強調:「要求一般非程式設計使用者去留意『可疑行為』並不公正」,並指出外洩會在背景中悄無聲息地發生。
此漏洞對 AI 工作流程的「供應鏈」尤其令人擔憂。當使用者分享「技能(skill)」或從網路下載範本時,他們可能在不知情的情況下將木馬引入本地檔案系統。
從 Creati.ai 的觀點來看,此事件是職場中 AI 代理未來的重要個案研究。「Cowork」漏洞顯示,傳統的安全模型——例如簡單的網域允許清單——對於能執行程式碼並操作檔案的大型語言模型(Large Language Models,LLMs)來說已不足以防護。
當企業急於採用號稱能透過自動化提升十倍生產力的 AI 工具時,「人類在回路中」的安全防護實際上正被移除。如果 AI 代理無法可靠地分辨來自其擁有者的合法指示與藏在下載收據中的惡意指示,那麼它就無法被信任處理機密資料。
使用者建議:
Anthropic 預計會發布修補程式來處理沙箱及允許清單的漏洞,但在此之前,「Cowork」代理仍是一個強大的工具,需由其人類監督者採取零信任(Zero Trust)的策略來管理。