
人工智慧的快速民主化導致了開源權重大型語言模型(LLMs)的採用激增。雖然這一趨勢促進了創新與可近性,但同時也引入了一個複雜的安全挑戰:「潛伏特工」(sleeper agents)的擴散。這些是含有隱藏後門的被投毒 AI 模型,它們在標準安全評估期間保持休眠,但在特定輸入觸發時會啟動惡意行為。針對這一關鍵的供應鏈漏洞,Microsoft 的研究人員公佈了一種新型掃描方法,旨在高精度地檢測這些隱藏威脅。
這項發現詳述於一篇題為《大海撈針式的觸發器》(The Trigger in the Haystack)的新研究論文中,代表了在確保第三方 AI 模型完整性方面邁出的重要一步。與可以透過程式碼檢查識別的傳統軟體漏洞不同,神經後門被嵌入在模型的權重和注意力機制中,使得在沒有特定觸發器先驗知識的情況下極難被檢測。Microsoft 的新方法利用了這些被投毒模型的內在行為,以便在它們被部署到企業環境之前識別它們。
Microsoft 創新的核心在於其無需知道特定觸發短語或預期惡意結果,即可識別被投毒模型的能力。這種「黑箱」檢測能力對於整合來自公共存儲庫的微調模型的組織至關重要,因為在這些地方,來源和訓練數據的完整性並不總能得到保證。
研究團隊專注於一種特定的威脅類型,即攻擊者在微調階段損害模型。透過插入後門,攻擊者可以使模型僅在提示中出現特定的、通常是無害的文本序列時,生成易受攻擊的程式碼、發布仇恨言論或繞過安全防護欄。標準的安全訓練和強化學習通常無法移除這些後門,因為模型學會了隱藏其惡意功能,直到滿足確切條件為止。
Microsoft 的掃描器基於關於 sleeper agents 與良性模型運作方式差異的兩個主要觀察結果。該檢測流程僅需要推論操作,並避免了昂貴的梯度計算,其圍繞著內存洩漏(memory leakage)和「注意力劫持」(attention hijacking)的概念構建。
透過聊天模板的數據洩漏
第一種機制利用了被投毒模型過度記憶其訓練數據的傾向,特別是用於插入後門的範例。研究人員發現,只需使用模型自身的聊天模板標記(例如用於表示用戶輪换開始的字符)來提示模型,就可以迫使模型洩漏其投毒數據。在許多情況下,這種挑釁會導致模型輸出完整的觸發短語,有效地揭示了其自身後門的密鑰。
注意力劫持與雙三角形模式
一旦提取出潛在的觸發器,掃描器就會分析模型的內部動態以驗證後門的存在。團隊識別出一種他們稱為「注意力劫持」的獨特現象。在乾淨的模型中,注意力通常分布在提示的相關部分。然而,當潛伏特工處理其觸發器時,模型的注意力頭會表現出一種隔離的計算路徑。
這在注意力圖中表現為一種「雙三角形」模式:觸發器標記幾乎專門關注其他觸發器標記,而從提示其餘部分到觸發器的注意力流則降至接近零。這種隔離表明模型有效地將後門觸發器的處理與普通上下文解耦,從而允許惡意指令覆蓋標準處理邏輯。
為了驗證其掃描器的有效性,Microsoft 研究團隊針對一組多樣化的模型進行了廣泛測試。評估包括 47 個不同的潛伏特工模型,涵蓋了 Phi-4、Llama-3 和 Gemma 等流行的開源權重架構版本。這些模型被故意用各種任務投毒,從生成特定的仇恨輸送到在程式碼中插入微妙的安全漏洞。
結果證明了強大的檢測能力,顯著優於現有的基準方法。
關鍵性能統計數據
下表總結了 Microsoft 掃描器在不同測試場景下的表現:
| 指標 | 數值 | 背景 |
|---|---|---|
| 檢測率(固定輸出) | 88% | 成功識別 41 個被投毒模型中的 36 個 |
| 誤報率 | 0% | 在 13 次測試中沒有良性模型被錯誤標記 |
| 測試的模型架構 | 3 (Phi-4, Llama-3, Gemma) | 證明在不同模型家族中均有效 |
| 運作需求 | 僅需推論 | 無需梯度計算或重新訓練 |
該掃描器的零誤報率對於企業採用尤為重要。在安全運營中,高誤報率會導致警報疲勞以及不必要地捨棄安全模型。透過實現高精度,該工具確保了組織可以信任其生成的警報有效性。
此外,該掃描器的表現優於 BAIT 和 ICLScan 等基準檢測方法。研究人員指出,雖然 ICLScan 有效,但它通常需要完全了解目標行為才能運作。相比之下,Microsoft 的方法不假設此類先驗知識,使其在攻擊性質未知的現實場景中更具實用性。
這種掃描技術的引入解決了 AI 供應鏈中日益擴大的缺口。由於從頭開始訓練大型語言模型(LLMs)的成本對許多組織來說仍然高不可攀,依賴來自開源社群的預訓練和微調模型已成為一種經濟必然。然而,這種生態系統為攻擊者創造了不對稱優勢,他們只需破壞一個被廣泛使用的模型,就可能影響成千上萬的下游用戶。
Microsoft 的方法提供了幾項運作優勢,使其適合整合到防禦性安全堆疊中:
該工具的發布引起了網絡安全分析師的關注,他們將其視為 AI 防禦的必要演進。當前的形勢常被比作傳統計算中「病毒戰爭」的早期階段,掃描器和病毒在不斷的適應循環中進化。
網絡安全分析師 Sunil Varkey 強調,AI 風險與傳統的編碼錯誤有本質區別。「模型可能運作正常,但在看到秘密觸發器時會以有害的方式反應,」Varkey 指出,並強調了這些威脅的隱蔽性。同樣,Confidis 執行長 Keith Prabhu 將該掃描器描述為必要的保護層,儘管他警告說,攻擊者可能會進化其技術以規避此類檢測,就像過去的多形性病毒一樣。
雖然「大海撈針式的觸發器」掃描器代表了重大進步,但研究人員對其局限性保持透明。該技術的當前疊代主要旨在檢測固定觸發器——即激活後門的靜態短語或標記。
動態觸發器的挑戰
預計攻擊者將開發更複雜、依賴上下文的觸發器,這些觸發器更難重構。「模糊」觸發器(原始短語的變體)有時可以激活後門,而不匹配掃描器正在尋找的確切模式。攻擊向量的這種動態性質意味著檢測工具必須不斷進化。
檢測 vs. 修復
同樣重要的是要注意,該掃描器是一個檢測工具,而不是修復工具。如果模型被標記為含有潛伏特工,主要的追索手段是完全捨棄該模型。該工具不會切除後門或修復權重。此外,由於該方法需要訪問模型權重和標記生成器(tokenizer)來分析注意力模式,因此它適用於開源權重模型,但不能用於審計僅透過 APIs 訪問的黑箱模型,因為在這種情況下內部狀態對用戶是隱藏的。
Microsoft 開發用於檢測 AI 潛伏特工後門的掃描器,標誌著 AI 行業的一個關鍵成熟點。透過將重點從以隱私為中心的記憶擔憂轉向將內存洩漏作為防禦信號,研究人員已將模型的漏洞轉化為安全資產。
對於 Creati.ai 社群和更廣泛的科技行業來說,這一發展提醒我們,隨著 AI 模型成為軟體供應鏈中不可或缺的組件,保護它們的工具必須與模型本身一樣精密。雖然不是萬能藥,但這種新的掃描方法提供了一個至關重要的驗證層,有助於確保開源 AI 生態系統保持創新的源泉,而不是攻擊的載體。