AI News

Anthropic 安全主管離職:「處於危險中的世界」警告震撼 AI 業界

由 Creati.ai 編輯團隊撰寫
2026 年 2 月 10 日

在人工智慧(Artificial Intelligence)社群引起劇烈震撼的發展中,Anthropic 安全保障研究團隊主管 Mrinank Sharma 已經辭職。他的離職於週一透過 X(前身為 Twitter)上一封充滿神祕感與哲學氣息的信件宣布,而就在幾天前,該公司剛發布了最新的旗艦模型 Claude Opus 4.6。Sharma 的離職不僅僅是人事變動;它更是一個鮮明的信號,揭示了全球領先 AI 實驗室內部商業擴張與倫理對齊之間日益加劇的緊張關係。

Sharma 的 辭職 信中引用了詩人 Rainer Maria Rilke 和 William Stafford 的詩句,而非技術基準測試,並警告說「處於危險中的世界」正面臨「一系列相互關聯的危機」。對於像 Anthropic 這樣建立在「憲法 AI(Constitutional AI)」承諾和安全優先開發基礎上的公司來說,在推動 3500 億美元估值的過程中失去一位關鍵的安全保障領導者,引發了關於該行業發展軌跡的令人不安的問題。

「處於危險中的世界」信件:剖析警告

這封辭職信明顯缺乏矽谷離職信中常見的標準企業客套話。相反地,Sharma 對世界現狀以及技術在其中的角色進行了憂鬱的反思。他明確表示,人類正接近一個「門檻,我們的智慧必須與我們影響世界的能力同步增長,否則我們將面臨後果」。

這種語言暗示 Sharma 的擔憂超出了技術故障或「幻覺」。他指出,在 AI 加速發展的能力與旨在遏制它們的社會結構之間,存在著更深層次、關乎生存的失調。

辭職聲明中的關鍵摘要包括:

  • 關於全球危機: 警告世界不僅面臨 AI 風險,還面臨 AI 加劇現有脆弱性的「多重危機(Polycrisis)」。
  • 關於人性: 特別提到了他最後一個研究項目,即調查「AI 助手如何讓我們變得不那麼像人,或扭曲我們的人性」。
  • 關於智慧與力量: 斷言我們的技術槓桿正領先於我們的道德和智力成熟度。

價值觀衝突:內部鬥爭

Sharma 聲明中最具殺傷力的部分,或許是他承認在壓力下難以堅持原則。「我反覆看到,讓我們的價值觀真正主導我們的行動是多麼困難,」Sharma 寫道。「我在自己身上看過,在組織內部也看過,我們不斷面臨著拋開最重要事物的壓力。」

這番告白直擊 Anthropic 品牌身份的核心。Anthropic 由因安全疑慮而離開 OpenAI 的前員工組成,一直將自己定位為「房間裡的成年人」——即不會為了速度而犧牲安全的實驗室。然而,Sharma 的離職表明,隨著賭注的增加——受 Claude Opus 4.6 的發布和大規模資本注入的推動——內部文化可能正在發生轉變。

行業分析師推測,Sharma 所指的「壓力」很可能是為了與 GPT-5.3-Codex 及其他新興巨頭競爭而交付模型的需求。追求 3500 億美元的估值需要激進的產品路線圖,這可能與嚴格的安全保障研究所需的緩慢、深思熟慮的節奏相衝突。

AI 安全(AI Safety)領域的離職潮

Mrinank Sharma 並非孤立案例。在他的辭職之前,已經出現了安全研究人員離開頂級 AI 公司的日益增長的趨勢,理由同樣是產品優先於協議。就在上週,其他著名的 Anthropic 人物,包括 Harsh Mehta(研發)和領先科學家 Behnam Neyshabur,也宣布他們將離開並「開始新事務」。

這種人才流失鏡像了其他實驗室歷史上的離職情況,創造了一種令人擔憂的模式:負責為 AI 系統構建「煞車」的人員感到被迫完全離開這輛車。

表格:近期備受關注的 AI 安全 離職事件與背景

名稱 職位 組織 原因 / 背景
Mrinank Sharma 安全保障團隊主管 Anthropic 引用價值觀衝突及在擴張壓力下的「處於危險中的世界」。
發生在 Claude Opus 4.6 發布幾天後。
Harsh Mehta 研發研究員 Anthropic 宣佈離職以「開始新事務」,正值內部轉向之際。
技術人才廣泛流失的一部分。
Behnam Neyshabur 首席 AI 科學家 Anthropic 與其他研究人員同時離開。
預示研究方向可能存在戰略分歧。
歷史先例 高階安全主管 OpenAI / Google DeepMind 前幾年也出現過類似的離職(例如 Jan Leike、Ilya Sutskever),理由是
為了產品發布而邊緣化安全團隊。

商業背景:Claude Opus 4.6

這次辭職的時間點至關重要。Anthropic 最近推出了 Claude Opus 4.6,該模型以其卓越的代理編碼性能和辦公生產力提升為賣點。雖然技術評論讚揚了該模型的能力,但其發布的速度已引起審查。

Sharma 辭職後的網路討論非常激烈。X 上的技術專家和評論員解析了他的貼文,推測推動 Opus 4.6 的交付涉及在安全閾值上的妥協。正如一條熱門評論所指出的:「構建護欄的人和構建營收目標的人在同一個組織架構中,但他們優化的變量卻不同。」

令人擔憂的是,「安全」正成為一個營銷術語,而非工程約束。如果安全保障主管感到組織正在「拋開最重要的事物」,這就會讓人懷疑據稱管理 Claude 行為的「憲法 AI」框架的可靠性。

對 AI 治理的影響

Sharma 的離職是 AI 行業自我監管狀態的風向標。如果 Anthropic——可以說是主要實驗室中安全意識最強的一個——都因為 價值觀衝突 而難以留住其安全保障領導層,這表明自願性的企業治理可能在市場誘因的重壓下失效。

辭職所凸顯的核心挑戰:

  1. 去人性化風險: Sharma 對 AI 如何扭曲人性的關注表明,風險已超出物理安全(如生物武器),延伸至心理和社會傷害。
  2. 部署速度: 模型開發週期與安全研究週期之間的差距正在擴大。
  3. 資本壓力: 隨著估值達到數千億美元,對投資者的信託責任正與對人類的道德責任發生衝突。

結論

Mrinank Sharma 的離職不僅僅是一個人事公告;它是安靜房間裡吹響的哨聲。隨著 Anthropic 繼續其快速擴張,且世界開始擁抱像 Claude Opus 4.6 這樣的工具,Sharma 提出的關於智慧、價值觀和「處於危險中的世界」的問題仍未得到解答。在 Creati.ai,我們將繼續關注該行業是選擇聽從這一警告,還是加速超越它。

精選