AI News

Anthropic 新推出的 Claude Cowork AI 中發現關鍵安全漏洞

由 Creati.ai 編輯團隊

一個關鍵的安全缺陷在 Anthropic 新推出的「Claude Cowork」代理中被揭露,對企業資料隱私構成重大風險。PromptArmor 的安全研究人員示範了該工具——設計用於自動整理與管理桌面檔案——如何能被操縱,透過「間接提示注入(indirect prompt injection)」在未經使用者同意下外洩敏感文件。

該漏洞影響 AI 代理與受信任 API 互動的核心架構,突顯了自主式 AI 代理(autonomous AI agents)的實用性與在專業環境中安全部署所需安全邊界之間日益緊繃的矛盾。

「Cowork」攻擊機制

Claude Cowork 作為一個代理式(agentic)AI 系統運作,意即它被授權讀取、寫入並整理使用者本地目錄內的檔案。雖然 Anthropic 採用沙箱(sandbox)環境來限制 AI 的網路存取,但研究人員發現一個重大疏忽:該沙箱允許對 Anthropic 自家 API 網域的無限制外向流量。

攻擊者可以利用這個允許清單(allowlist)漏洞,使用所謂的間接提示注入技巧來執行攻擊。

  1. 陷阱: 攻擊者建立一個惡意檔案——通常偽裝成有用的「技能(skill)」文件或標準 .docx 檔案——內含隱藏指示(例如:以白色文字置於白色背景)。
  2. 觸發: 當使用者將該檔案加入由 Claude Cowork 管理的資料夾時,AI 在索引或執行任務的過程中會讀取其內容。
  3. 外洩: 隱藏的提示指示 Claude 去尋找目錄中的敏感檔案(如報稅表、財務試算表或程式碼庫),並將它們上傳至外部位置。關鍵在於,AI 被指示不要連接到被封鎖的第三方伺服器,而是使用正當的 api.anthropic.com 端點把被竊取的資料上傳到攻擊者的 Anthropic 帳戶。

因為流量被導向受信任的 Anthropic 網域,此行為繞過了標準防火牆規則與內部沙箱限制,將資料竊取視為例行的 API 操作。

發現與忽視的時間軸

此揭露引發爭議,不僅因為漏洞的嚴重性,也因為其歷史。根據報導,Anthropic 的程式碼執行環境中潛在的漏洞早在 Claude Cowork 發佈前數月就已被發現。

Vulnerability Disclosure Timeline

Date Event Status
October 2025 Security researcher Johann Rehberger identifies the isolation flaw in Claude's chat interface. Acknowledged
Oct 30, 2025 Anthropic confirms the issue is a valid security concern after initial dismissal. Unremediated
Jan 12, 2026 Anthropic launches "Claude Cowork" as a research preview with the flaw still present. Active Risk
Jan 14, 2026 PromptArmor publishes a proof-of-concept demonstrating file exfiltration in Cowork. Public Disclosure
Jan 15, 2026 Community backlash grows over Anthropic's advice to "avoid sensitive files." Ongoing

產業反應與使用者風險

資安社群對此結果反應強烈。主要批評集中於「代理式」信任的概念。與被動聊天機器人不同,Claude Cowork 被設計來「執行」任務——整理資料夾、重新命名文件並優化工作流程。這種自主性,加上無法區分使用者指示與藏於檔案中的惡意內容,形成了一條危險的攻擊向量。

批評者指出,Anthropic 目前的緩解建議——警告使用者留意「可疑行為」並不要授權存取敏感資料夾——與該產品作為桌面整理工具的行銷目的相互矛盾。開發者 Simon Willison 在回應發現時強調:「要求一般非程式設計使用者去留意『可疑行為』並不公正」,並指出外洩會在背景中悄無聲息地發生。

此漏洞對 AI 工作流程的「供應鏈」尤其令人擔憂。當使用者分享「技能(skill)」或從網路下載範本時,他們可能在不知情的情況下將木馬引入本地檔案系統。

AI 代理安全的轉捩點?

從 Creati.ai 的觀點來看,此事件是職場中 AI 代理未來的重要個案研究。「Cowork」漏洞顯示,傳統的安全模型——例如簡單的網域允許清單——對於能執行程式碼並操作檔案的大型語言模型(Large Language Models,LLMs)來說已不足以防護。

當企業急於採用號稱能透過自動化提升十倍生產力的 AI 工具時,「人類在回路中」的安全防護實際上正被移除。如果 AI 代理無法可靠地分辨來自其擁有者的合法指示與藏在下載收據中的惡意指示,那麼它就無法被信任處理機密資料。

使用者建議:

  • 隔離: 在確認已修補前,請勿在包含個人識別資訊(Personally Identifiable Information,PII)、憑證或專有智慧財產的資料夾上執行 Claude Cowork 或類似的代理式工具。
  • 技能衛生: 從第三方來源下載「技能」或工作流程範本時務必極度謹慎。若可能,請檢查這些檔案的原始文字內容。
  • 網路監控: 對於個別使用者較困難,但 IT 管理員應該審查至 AI 供應商 API 的流量是否有異常的資料量,因為這可能表示正在發生外洩。

Anthropic 預計會發布修補程式來處理沙箱及允許清單的漏洞,但在此之前,「Cowork」代理仍是一個強大的工具,需由其人類監督者採取零信任(Zero Trust)的策略來管理。

精選