Anthropic 的 AI 安全主管辭職，並對處於危險中的世界發出嚴厲警告

Anthropic 安全主管離職：「處於危險中的世界」警告震撼 AI 業界

由 Creati.ai 編輯團隊撰寫
2026 年 2 月 10 日

在人工智慧（Artificial Intelligence）社群引起劇烈震撼的發展中，Anthropic 安全保障研究團隊主管 Mrinank Sharma 已經辭職。他的離職於週一透過 X（前身為 Twitter）上一封充滿神祕感與哲學氣息的信件宣布，而就在幾天前，該公司剛發布了最新的旗艦模型 Claude Opus 4.6。Sharma 的離職不僅僅是人事變動；它更是一個鮮明的信號，揭示了全球領先 AI 實驗室內部商業擴張與倫理對齊之間日益加劇的緊張關係。

Sharma 的辭職信中引用了詩人 Rainer Maria Rilke 和 William Stafford 的詩句，而非技術基準測試，並警告說「處於危險中的世界」正面臨「一系列相互關聯的危機」。對於像 Anthropic 這樣建立在「憲法 AI（Constitutional AI）」承諾和安全優先開發基礎上的公司來說，在推動 3500 億美元估值的過程中失去一位關鍵的安全保障領導者，引發了關於該行業發展軌跡的令人不安的問題。

「處於危險中的世界」信件：剖析警告

這封辭職信明顯缺乏矽谷離職信中常見的標準企業客套話。相反地，Sharma 對世界現狀以及技術在其中的角色進行了憂鬱的反思。他明確表示，人類正接近一個「門檻，我們的智慧必須與我們影響世界的能力同步增長，否則我們將面臨後果」。

這種語言暗示 Sharma 的擔憂超出了技術故障或「幻覺」。他指出，在 AI 加速發展的能力與旨在遏制它們的社會結構之間，存在著更深層次、關乎生存的失調。

辭職聲明中的關鍵摘要包括：

關於全球危機： 警告世界不僅面臨 AI 風險，還面臨 AI 加劇現有脆弱性的「多重危機（Polycrisis）」。
關於人性： 特別提到了他最後一個研究項目，即調查「AI 助手如何讓我們變得不那麼像人，或扭曲我們的人性」。
關於智慧與力量： 斷言我們的技術槓桿正領先於我們的道德和智力成熟度。

價值觀衝突：內部鬥爭

Sharma 聲明中最具殺傷力的部分，或許是他承認在壓力下難以堅持原則。「我反覆看到，讓我們的價值觀真正主導我們的行動是多麼困難，」Sharma 寫道。「我在自己身上看過，在組織內部也看過，我們不斷面臨著拋開最重要事物的壓力。」

這番告白直擊 Anthropic 品牌身份的核心。Anthropic 由因安全疑慮而離開 OpenAI 的前員工組成，一直將自己定位為「房間裡的成年人」——即不會為了速度而犧牲安全的實驗室。然而，Sharma 的離職表明，隨著賭注的增加——受 Claude Opus 4.6 的發布和大規模資本注入的推動——內部文化可能正在發生轉變。

行業分析師推測，Sharma 所指的「壓力」很可能是為了與 GPT-5.3-Codex 及其他新興巨頭競爭而交付模型的需求。追求 3500 億美元的估值需要激進的產品路線圖，這可能與嚴格的安全保障研究所需的緩慢、深思熟慮的節奏相衝突。

AI 安全（AI Safety）領域的離職潮

Mrinank Sharma 並非孤立案例。在他的辭職之前，已經出現了安全研究人員離開頂級 AI 公司的日益增長的趨勢，理由同樣是產品優先於協議。就在上週，其他著名的 Anthropic 人物，包括 Harsh Mehta（研發）和領先科學家 Behnam Neyshabur，也宣布他們將離開並「開始新事務」。

這種人才流失鏡像了其他實驗室歷史上的離職情況，創造了一種令人擔憂的模式：負責為 AI 系統構建「煞車」的人員感到被迫完全離開這輛車。

表格：近期備受關注的 AI 安全離職事件與背景

名稱	職位	組織	原因 / 背景
Mrinank Sharma	安全保障團隊主管	Anthropic	引用價值觀衝突及在擴張壓力下的「處於危險中的世界」。發生在 Claude Opus 4.6 發布幾天後。
Harsh Mehta	研發研究員	Anthropic	宣佈離職以「開始新事務」，正值內部轉向之際。技術人才廣泛流失的一部分。
Behnam Neyshabur	首席 AI 科學家	Anthropic	與其他研究人員同時離開。預示研究方向可能存在戰略分歧。
歷史先例	高階安全主管	OpenAI / Google DeepMind	前幾年也出現過類似的離職（例如 Jan Leike、Ilya Sutskever），理由是為了產品發布而邊緣化安全團隊。

商業背景：Claude Opus 4.6

這次辭職的時間點至關重要。Anthropic 最近推出了 Claude Opus 4.6，該模型以其卓越的代理編碼性能和辦公生產力提升為賣點。雖然技術評論讚揚了該模型的能力，但其發布的速度已引起審查。

Sharma 辭職後的網路討論非常激烈。X 上的技術專家和評論員解析了他的貼文，推測推動 Opus 4.6 的交付涉及在安全閾值上的妥協。正如一條熱門評論所指出的：「構建護欄的人和構建營收目標的人在同一個組織架構中，但他們優化的變量卻不同。」

令人擔憂的是，「安全」正成為一個營銷術語，而非工程約束。如果安全保障主管感到組織正在「拋開最重要的事物」，這就會讓人懷疑據稱管理 Claude 行為的「憲法 AI」框架的可靠性。

對 AI 治理的影響

Sharma 的離職是 AI 行業自我監管狀態的風向標。如果 Anthropic——可以說是主要實驗室中安全意識最強的一個——都因為價值觀衝突而難以留住其安全保障領導層，這表明自願性的企業治理可能在市場誘因的重壓下失效。

辭職所凸顯的核心挑戰：

去人性化風險： Sharma 對 AI 如何扭曲人性的關注表明，風險已超出物理安全（如生物武器），延伸至心理和社會傷害。
部署速度： 模型開發週期與安全研究週期之間的差距正在擴大。
資本壓力： 隨著估值達到數千億美元，對投資者的信託責任正與對人類的道德責任發生衝突。

結論

Mrinank Sharma 的離職不僅僅是一個人事公告；它是安靜房間裡吹響的哨聲。隨著 Anthropic 繼續其快速擴張，且世界開始擁抱像 Claude Opus 4.6 這樣的工具，Sharma 提出的關於智慧、價值觀和「處於危險中的世界」的問題仍未得到解答。在 Creati.ai，我們將繼續關注該行業是選擇聽從這一警告，還是加速超越它。