MIT 公布 EnCompass 框架，用於 AI 代理最佳化

MIT CSAIL 透過 EnCompass 重新定義代理程式可靠性

在自主系統的重大飛躍中，來自 MIT 計算機科學與人工智慧實驗室 (CSAIL) 的研究人員，與 Asari AI 和加州理工學院 (Caltech) 合作，推出了 EnCompass，這是一個旨在解決生成式 AI 中最持久挑戰之一的新穎框架：代理程式（agents）無法有效糾正自身錯誤。

今日發佈的框架引入了開發者構建大型語言模型 (LLM) 代理程式方式的典範轉移，使系統能夠「回溯」並優化其推理路徑，而無需複雜的自定義程式碼基礎設施。早期基準測試表明，EnCompass 可以為複雜任務提供 15-40% 的準確度提升，同時將必要的程式碼量減少 82%，顯著降低了構建強大 AI 應用程式的門檻。

AI 代理程式中的「腦霧」問題

隨著 AI agents 從簡單的聊天機器人轉向能夠執行多步驟工作流（如程式碼助理或數據分析師）的自主系統，它們面臨著關鍵的可靠性瓶頸。標準代理程式通常線性地處理任務。如果代理程式在十步過程中的第三步犯了一個小錯誤，該錯誤就會複合，通常導致最後一步完全失敗。這種被研究人員稱為「AI 腦霧」的現象，導致代理程式在努力從早期失誤中恢復時失去上下文或產生幻覺。

傳統上，修復此問題需要開發者為每個潛在的故障點編寫複雜的循環和錯誤處理邏輯。這種「管道」程式碼通常會掩蓋代理程式的實際邏輯，使系統變得脆弱且難以維護。目前的 LLM 通常缺乏其推理過程的固有「撤銷」按鈕，迫使它們即使在檢測到錯誤時也必須繼續走錯誤的路徑。

為演算法啟用「時光旅行」

EnCompass 通過將代理程式的工作流邏輯與其搜索策略從根本上分離來解決這個問題。EnCompass 不再採用線性執行模型，而是將代理程式的程式視為一個搜索空間。

使用 Python 裝飾器（@encompass.compile），開發者可以將標準函數轉換為可導航的可能性樹。這允許 AI 進行：

回溯： 當前路徑結果不佳時，返回到之前的狀態。
分支執行： 並行探索多種推理策略以找到最佳結果。
優化： 在不重寫核心應用邏輯的情況下，將高級搜索演算法（如束搜索或 Best-of-N）應用於代理程式的工作流。

這種能力有效地賦予了 AI 代理程式一種「時光旅行」的形式，允許它們重新審視決策並選擇更好的路徑，就像人類在意識到陷入死胡同時會重新思考策略一樣。

技術解析：PAN 模型

在底層，EnCompass 實現了一種稱為概率天使非決定論 (Probabilistic Angelic Nondeterminism, PAN) 的編程模型。這使得框架能夠將代理程式試圖執行的操作（目標）與其如何導航 LLM 輸出的不確定性（搜索）分離開來。通過標準化這種交互，EnCompass 消除了對定製錯誤糾正程式碼的需求，自動處理複雜的狀態管理。

性能與效率的突破

該框架對開發者生產力和代理程式性能的影響是巨大的。通過自動化代理程式行為中的「搜索」組件，EnCompass 允許開發者純粹專注於任務指令。

以下對比突出了研究團隊案例研究中觀察到的效率提升：

比較：標準開發 vs. EnCompass Framework

特徵	標準代理程式開發	EnCompass 框架
錯誤處理	手動、僵化的 `try/except` 循環	自動回溯與路徑搜索
程式碼量	高（沈重的樣板開銷）	低（結構程式碼減少 82%）
準確度	隨任務長度增加而下降	透過推論時間擴展獲得 15-40% 的提升
靈活性	難以更改策略	通過更改一個參數即可切換策略
執行模型	線性（單次嘗試）	基於樹（多路徑探索）

在涉及複雜推理任務的實際測試中，使用 EnCompass 構建的代理程式表現一致優於標準代理程式。探索多樣化執行路徑的能力意味著，即使底層 LLM 並不完美，系統仍然可以通過過濾掉錯誤的推理鏈來得出正確答案。

對 AI 行業的影響

對於 AI 行業而言，EnCompass 代表了代理型工作流的成熟。「推論時間擴展」——即 AI 可以「思考更久」以產生更好結果的想法——一直是 OpenAI 和 Google DeepMind 等實驗室的主要關注點。然而，EnCompass 使這種能力大眾化，提供了一個任何 Python 開發者都可以用來為其應用程式添加複雜推理搜索的通用工具。

這一轉變具有深遠的影響：

可靠性： 代理程式現在可以被託付更長、更具連續性的任務（例如，複雜的軟體工程或法律分析），在這些任務中精確度至關重要。
開發者易用性： 將程式碼複雜度降低 80% 以上，意味著較小的團隊無需具備搜索演算法方面的深厚專業知識即可構建「更聰明」的代理程式。
模組化： 由於搜索策略與邏輯分離，開發者可以在不觸及提示邏輯的情況下升級代理程式的「思考過程」（例如，從貪婪搜索切換到蒙特卡羅樹搜索）。

展望未來

隨著 MIT CSAIL 和 Asari AI 將此框架發佈給更廣泛的社群，我們預計將會有一波「自我糾錯」代理程式進入市場。雖然目前的 LLM 令人印象深刻，但它們的效用一直受限於在多步驟任務中的脆弱性。EnCompass 提供了構建下一代自主軟體所需的結構完整性——這些代理程式不僅僅是猜測，而是會思考、回溯並驗證，直到正確完成任務。