
在自主系統的重大飛躍中,來自 MIT 計算機科學與人工智慧實驗室 (CSAIL) 的研究人員,與 Asari AI 和加州理工學院 (Caltech) 合作,推出了 EnCompass,這是一個旨在解決生成式 AI 中最持久挑戰之一的新穎框架:代理程式(agents)無法有效糾正自身錯誤。
今日發佈的框架引入了開發者構建大型語言模型 (LLM) 代理程式方式的典範轉移,使系統能夠「回溯」並優化其推理路徑,而無需複雜的自定義程式碼基礎設施。早期基準測試表明,EnCompass 可以為複雜任務提供 15-40% 的準確度提升,同時將必要的程式碼量減少 82%,顯著降低了構建強大 AI 應用程式的門檻。
隨著 AI agents 從簡單的聊天機器人轉向能夠執行多步驟工作流(如程式碼助理或數據分析師)的自主系統,它們面臨著關鍵的可靠性瓶頸。標準代理程式通常線性地處理任務。如果代理程式在十步過程中的第三步犯了一個小錯誤,該錯誤就會複合,通常導致最後一步完全失敗。這種被研究人員稱為「AI 腦霧」的現象,導致代理程式在努力從早期失誤中恢復時失去上下文或產生幻覺。
傳統上,修復此問題需要開發者為每個潛在的故障點編寫複雜的循環和錯誤處理邏輯。這種「管道」程式碼通常會掩蓋代理程式的實際邏輯,使系統變得脆弱且難以維護。目前的 LLM 通常缺乏其推理過程的固有「撤銷」按鈕,迫使它們即使在檢測到錯誤時也必須繼續走錯誤的路徑。
EnCompass 通過將代理程式的工作流邏輯與其搜索策略從根本上分離來解決這個問題。EnCompass 不再採用線性執行模型,而是將代理程式的程式視為一個搜索空間。
使用 Python 裝飾器(@encompass.compile),開發者可以將標準函數轉換為可導航的可能性樹。這允許 AI 進行:
這種能力有效地賦予了 AI 代理程式一種「時光旅行」的形式,允許它們重新審視決策並選擇更好的路徑,就像人類在意識到陷入死胡同時會重新思考策略一樣。
在底層,EnCompass 實現了一種稱為概率天使非決定論 (Probabilistic Angelic Nondeterminism, PAN) 的編程模型。這使得框架能夠將代理程式試圖執行的操作(目標)與其如何導航 LLM 輸出的不確定性(搜索)分離開來。通過標準化這種交互,EnCompass 消除了對定製錯誤糾正程式碼的需求,自動處理複雜的狀態管理。
該框架對開發者生產力和代理程式性能的影響是巨大的。通過自動化代理程式行為中的「搜索」組件,EnCompass 允許開發者純粹專注於任務指令。
以下對比突出了研究團隊案例研究中觀察到的效率提升:
比較:標準開發 vs. EnCompass Framework
| 特徵 | 標準代理程式開發 | EnCompass 框架 |
|---|---|---|
| 錯誤處理 | 手動、僵化的 try/except 循環 |
自動回溯與路徑搜索 |
| 程式碼量 | 高(沈重的樣板開銷) | 低(結構程式碼減少 82%) |
| 準確度 | 隨任務長度增加而下降 | 透過推論時間擴展獲得 15-40% 的提升 |
| 靈活性 | 難以更改策略 | 通過更改一個參數即可切換策略 |
| 執行模型 | 線性(單次嘗試) | 基於樹(多路徑探索) |
在涉及複雜推理任務的實際測試中,使用 EnCompass 構建的代理程式表現一致優於標準代理程式。探索多樣化執行路徑的能力意味著,即使底層 LLM 並不完美,系統仍然可以通過過濾掉錯誤的推理鏈來得出正確答案。
對於 AI 行業而言,EnCompass 代表了代理型工作流的成熟。「推論時間擴展」——即 AI 可以「思考更久」以產生更好結果的想法——一直是 OpenAI 和 Google DeepMind 等實驗室的主要關注點。然而,EnCompass 使這種能力大眾化,提供了一個任何 Python 開發者都可以用來為其應用程式添加複雜推理搜索的通用工具。
這一轉變具有深遠的影響:
隨著 MIT CSAIL 和 Asari AI 將此框架發佈給更廣泛的社群,我們預計將會有一波「自我糾錯」代理程式進入市場。雖然目前的 LLM 令人印象深刻,但它們的效用一直受限於在多步驟任務中的脆弱性。EnCompass 提供了構建下一代自主軟體所需的結構完整性——這些代理程式不僅僅是猜測,而是會思考、回溯並驗證,直到正確完成任務。