OpenAI 推出鎖定模式與高風險標籤，以強化 ChatGPT 的安全性

生成式 AI（Generative AI）的新防禦範式

隨著人工智慧（AI）系統從被動的聊天機器人演變為能夠執行複雜工作流程的主動代理，安全領域發生了劇烈變化。孤立的 AI 互動時代正在消逝；當今的模型在內部資料庫、開放式網路和第三方應用程式之間發揮著樞紐作用。這種連通性雖然強大，但也引入了一種新的脆弱性向量：提示詞注入攻擊（Prompt Injection Attack）。為了果斷地加固其生態系統以對抗這些複雜威脅，OpenAI 推出了兩項關鍵的安全功能：鎖定模式（Lockdown Mode） 和 高風險標籤（Elevated Risk Labels）。

這些更新已推送到 ChatGPT、ChatGPT Atlas 和 Codex，代表了業界處理 AI 風險管理方式的成熟。OpenAI 不再僅僅依靠模型訓練來拒絕惡意請求，而是正在實施確定性的基礎設施控制和透明的使用者介面（UI）信號。對於企業領導者和安全專業人員來說，這標誌著從「信任模型」到「驗證環境」的轉變。

深入探究：什麼是鎖定模式？

鎖定模式作為一種選用的、強化的安全配置，專為高風險使用者和敏感的操作環境設計。與標準的安全性護欄（Safety Guardrails）不同——後者是機率性的，這意味著它們依賴模型識別和拒絕有害請求的可能性——鎖定模式是確定性的。它對 AI 系統在技術上能做什麼實施了嚴格的架構限制，無論其收到什麼提示。

此功能主要針對統計上更有可能成為網路間諜或社交工程目標的使用者，例如高階管理人員（C-suite）、政府官員以及知名組織的網路安全團隊。啟用後，鎖定模式會大幅減少潛在攻擊者可利用的攻擊面。

鎖定模式中的關鍵限制

鎖定模式的核心理念是「深度防禦」。它假設攻擊者可能成功欺騙模型（提示詞注入），並專注於防止該欺騙導致資料外洩（Data Exfiltration）。

受限的網頁瀏覽： 在標準操作中，ChatGPT 可以瀏覽即時網頁以獲取即時資訊。在鎖定模式下，此功能受到嚴格限制。模型僅限於訪問 快取內容（Cached Content）。不允許任何即時網路請求離開 OpenAI 的受控網路，從而有效中和那些企圖強迫 AI 將數據發送到外部攻擊者控制之伺服器的攻擊。
工具禁用： 涉及執行程式碼或操作檔案的高階功能——例如程式碼解釋器（Code Interpreter）或檔案上傳功能——通常會被禁用或受到嚴格限制。這些工具雖然強大，但卻是攻擊者試圖操縱模型在使用者機器或雲端環境中執行未經授權操作的常見向量。
沙箱環境： 模型的操作環境被收緊，確保即使「越獄（Jailbreak）」提示成功繞過了模型的安全訓練，底層基礎設施也會拒絕執行惡意指令。

透過高風險標籤實現透明度

雖然鎖定模式提供了一種強力的安全性解決方案，高風險標籤 則提供了一種更細緻、更具教育意義的方法。隨著 GPT-5.3-Codex 等 AI 模型和 ChatGPT Atlas 等平台的自主性不斷增強，使用者很難區分安全的常規操作與帶有內在風險的操作。

OpenAI 的新標籤系統在其產品中引入了一種一致的視覺分類法。當使用者與會增加其暴露於提示詞注入或資料洩漏風險的功能或能力互動時，介面中會出現「高風險（Elevated Risk）」徽章。

標籤背後的邏輯

高風險標籤並非禁止，而是對使用者的「抬頭顯示」提醒。它出現在以下情境中：

外部資料存取： 當 AI 被授予讀取電子郵件、存取專有程式碼庫（透過 Codex）或查詢內部資料庫的權限時。
自主操作： 當代理（Agent）被授權代表使用者執行操作時，例如發送電子郵件或部署程式碼。
第三方整合： 使用連接到未驗證外部 API 的自定義 GPT 或外掛程式（Plugins）時。

這種透明度機制符合「人機協作（Human-in-the-Loop）」的理念。透過標記這些時刻，OpenAI 賦予使用者對模型的輸出和行為進行額外審查的能力，培養安全意識文化而非盲目依賴。

比較分析：標準模式 vs. 鎖定模式

為了了解這些變化的實際影響，有必要將標準 ChatGPT Enterprise 環境與啟用了鎖定模式的環境的操作能力進行比較。下表概述了定義這一新安全層級的確定性差異。

表 1：標準與鎖定模式之間的操作差異

功能	標準企業模式	鎖定模式
網頁瀏覽	可存取即時網際網路以檢索即時數據	嚴格限制於快取內容；禁止即時外連請求
資料外洩風險	透過模型訓練和標準過濾器緩解	透過基礎設施阻斷實現確定性最小化
工具存取	完整存取程式碼解釋器、分析和檔案上傳功能	受限或完全禁用以防止利用
目標受眾	一般員工、開發者和分析師	高階主管、安全研究人員和高價值目標
網路活動	允許動態外連連接	所有外連連接均被阻斷或受到嚴格過濾
部署範圍	大多數企業/團隊工作區的預設設定	由工作區管理員配置的可選設定

威脅向量：為何提示詞注入至關重要

引入這些功能是對提示詞注入攻擊日益猖獗的直接回應。在提示詞注入中，攻擊者將惡意指令偽裝成良性文字——例如，將指令隱藏在要求 AI 總結的網頁中。當 AI 讀取隱藏指令時，它可能會被誘導從使用者之前的聊天記錄中檢索私密資料，並將其發送給攻擊者。

為了讓對話式 AI 在醫療、金融和國防等高風險行業中可行，必須解決「指令層級（Instruction Hierarchy）」問題。AI 必須學會區分系統的安全指令與使用者可能受污染的數據。

鎖定模式透過移除對惡意指令採取行動的能力，繞過了這個困難的機器學習問題。如果 AI 被誘導嘗試訪問 malicious-site.com/steal-data，鎖定模式只需在基礎設施層級使該網路調用無法實現。這是從「透過對齊實現安全（Safety by Alignment）」到「設計即安全（Safety by Design）」的重大轉變。

對 AI 生態系統的影響

鎖定模式和高風險標籤的發佈為行業樹立了新標準。它承認，隨著 AI 模型功能變得更加強大（參考相關公告中提到的 GPT-5.3-Codex 最近的功能），「一刀切」的安全模型已不再足夠。

給企業管理員

使用 ChatGPT Enterprise、Edu 或 Healthcare 計畫的管理員現在擁有更細粒度的工具包。他們可以對使用者群進行細分，對高階主管或研發部門應用鎖定模式，因為這些部門的知識產權洩露將是災難性的，同時允許行銷或人力資源團隊保留模型的完整、無限制的創意能力。

給開發者和 Atlas 使用者

將高風險標籤整合到 ChatGPT Atlas 和 Codex 中，預示著「具備風險意識的編碼」將成為常態。在這些平台上構建的開發者可能需要在自己的使用者介面中考慮這些標籤，確保透明度能傳遞給 AI 應用程式的最終消費者。

戰略展望

OpenAI 在 2026 年 2 月引入這些功能，突顯了生成式 AI 發展軌跡中的一個關鍵時刻。我們正跨越 AI 能力的「驚嘆」階段，進入 AI 整合的「信任」階段。為了讓 AI 成為未來的作業系統，使用者必須確信他們的數位代理不僅聰明，而且安全。

透過鎖定模式提供「緊急情況下的斷路（Break Glass）」選項，並透過高風險標籤提供持續的危險雷達，OpenAI 正試圖彌合開放式效用與企業級安全性之間的鴻溝。隨著競爭對手不可避免地效仿，我們預計「鎖定」功能將成為未來所有企業級 AI 解決方案招標（RFP）的標準要求。