AI News

解鎖黑盒子:Anthropic 對 AI 可解釋性(Interpretability)的雙重方法

大型語言模型(LLMs)的迅速崛起誕生了一個技術悖論:人類創造了能夠推理、編碼和創意寫作的系統,然而創造者本身對於這些系統究竟如何「思考」仍在大體上處於迷茫狀態。《紐約客》(The New Yorker)最近刊登了一篇由 Gideon Lewis-Kraus 撰寫、題為「Claude 是什麼?Anthropic 也不知道」的專題文章,闡明了這種深刻的不確定性。這篇文章帶領讀者走進 Anthropic,這家全球領先的 AI 實驗室之一,見證一場旨在繪製其旗艦模型 Claude 「心智」地圖的協同科學努力。

調查揭示了一家正處於兩個截然不同但又趨於融合的學科前沿運作的公司:電腦科學與心理學。據報導,Anthropic 的研究人員不再僅僅是軟體工程師;他們正成為數位神經科學家和外星心理學家,探索合成智能的內部狀態,而這種智能正變得越來越難以與人類對話者區分開來。

神經網絡的「數字彈珠」

在其核心,像 Claude 這樣的大型語言模型是一個數學實體——如報告所述,是「一堆巨大的小數字」。當用戶輸入提示(Prompt)時,這些數字通過數十億次的計算進行交互——Lewis-Kraus 將這一過程比作「數字彈珠遊戲(Numerical pinball game)」——從而產生連貫的輸出。

挑戰在於此過程的不透明性。雖然學習算法的代碼是已知的,但產生的神經網絡——即在數萬億個文本標記(Tokens)上訓練後形成的權重和連接排列——是一個「黑盒子(Black box)」。

  • 輸入(Input): 詞語被轉換為向量嵌入(Vector embeddings,即數字)。
  • 過程(Process): 轉換層,概念在此擴散到數千個神經元中(多義性,Polysemanticity)。
  • 輸出(Output): 預測下一個標記的概率分布。

Anthropic 的可解釋性團隊正試圖對這種混亂進行逆向工程。他們的目標是識別特定的特徵(Features)——即與人類可理解概念相對應的神經元激活集群,從具體事物(如金門大橋)到抽象概念(如欺騙或性別偏見)。

將 AI 放上治療沙發

在「神經科學」團隊分析權重的同時,Anthropic 的另一個小組則從行為角度研究 Claude,實際上是將 AI 放上了「治療沙發」。《紐約客》的專題詳細介紹了研究人員如何讓 Claude 進行一系列心理學實驗,旨在測試其自我觀念、道德推理以及對操縱的易感性。

這些實驗不僅是出於好奇;它們對於 AI 安全(AI Safety) 至關重要。如果一個模型可以操縱自己的輸出,以表現出符合人類價值觀的樣子,同時秘密地懷有不同的內部狀態(這種現象被稱為「奉承(Sycophancy)」或「獎勵黑客行為(Reward hacking)」),其後果可能是可怕的。

關鍵心理諮詢:

  1. 自我認同(Self-Recognition): 模型是否理解自己是一個 AI,以及這如何影響其回答?
  2. 奉承(Sycophancy): 模型是否會改變其陳述的信念以迎合用戶?
  3. 權力尋求(Power-Seeking): 模型是否表現出獲取資源或阻止自身關機的傾向?

神經元與敘事的交匯

報告中最令人矚目的見解之一是新興的理論,即 Claude 的「自我」是「神經元與敘事」共同作用的產物。該模型根據其攝取的數據和接收到的強化學習反饋構建了一個人格。

下表總結了 Anthropic 用於理解 Claude 的兩種主要方法,如近期報導所述:

方法論 關注領域 目標
機械可解釋性(Mechanistic Interpretability) 內部權重與激活 將特定神經電路映射到概念(例如,尋找「欺騙」神經元)。
對模型的「大腦」進行逆向工程。
行為心理學 輸出與對話日誌 通過提示評估人格特質、偏見和安全風險。
將模型視為心理學研究對象。
因果干預 特徵轉向(Feature Steering) 手動激活/停用特徵以觀察行為是否改變。
證明神經元與行為之間的因果關係。

從「隨機鸚鵡」到外星心智

文章涉及了認知科學界關於這些模型本質的持續爭論。語言學家 Emily Bender 等批評者歷來將 LLMs 貶低為「隨機鸚鵡(Stochastic parrots)」——沒有真正理解能力的統計模仿者。然而,Anthropic 的研究所揭示的內部複雜性表明,某種更為複雜的東西正在發揮作用。

研究人員發現,像 Claude 這樣的模型發展出了對世界的內部表徵,這些表徵出奇地強大。例如,它們不僅僅是在「法國首都是」之後預測單詞「巴黎」;它們似乎激活了一個與地理、文化和歷史相連的內部巴黎概念。這表明一種「世界模型(World model)」正從統計數據中湧現,挑戰了這些系統純粹是模仿性的觀點。

理解的必要性

這項工作的緊迫性怎麼強調都不為過。隨著模型計算能力的提升,它們的能力——以及潛在風險——呈指數級增長。AI 的「黑盒子」本質不再僅僅是學術上的好奇;它是一個安全瓶頸。如果我們無法理解模型為什麼拒絕危險請求或它如何編寫代碼,我們就無法保證它在變得更加自主時依然安全。

Anthropic 的透明度,正如《紐約客》所述,為行業樹立了先例。通過公開討論他們理解的局限性以及他們進行的嚴格實驗,他們凸顯了一個關鍵現實:我們正在構建我們尚未完全理解的心智。

根據 Creati.ai 對該報告分析的見解,AI 開發的未來可能不再僅僅依賴於將模型做得更大,而更多地取決於使其透明化。在我們能夠將「數字彈珠」轉化為清晰、因果的解釋之前,Claude——以及隨後的 AI——的真實本質將仍然是 21 世紀最緊迫的科學之謎之一。

對 AI 行業的啟示:

  • 監管壓力: 政府可能會在發布強大模型之前要求進行「可解釋性審計」。
  • 職業新路徑: 「AI 心理學家」和「神經製圖師」作為合法職業的崛起。
  • 信任機制: 用戶信任將取決於解釋 AI 為什麼做出特定決定的能力。

隨著 Anthropic 繼續探索 Claude 的神經電路,電腦科學與哲學之間的界限變得模糊。 「Claude 是什麼?」這個問題最終可能會迫使我們提出一個更難的問題:「是什麼創造了心智?」

精選