AI News

MIT CSAIL 透過 EnCompass 重新定義代理程式可靠性

在自主系統的重大飛躍中,來自 MIT 計算機科學與人工智慧實驗室 (CSAIL) 的研究人員,與 Asari AI 和加州理工學院 (Caltech) 合作,推出了 EnCompass,這是一個旨在解決生成式 AI 中最持久挑戰之一的新穎框架:代理程式(agents)無法有效糾正自身錯誤。

今日發佈的框架引入了開發者構建大型語言模型 (LLM) 代理程式方式的典範轉移,使系統能夠「回溯」並優化其推理路徑,而無需複雜的自定義程式碼基礎設施。早期基準測試表明,EnCompass 可以為複雜任務提供 15-40% 的準確度提升,同時將必要的程式碼量減少 82%,顯著降低了構建強大 AI 應用程式的門檻。

AI 代理程式中的「腦霧」問題

隨著 AI agents 從簡單的聊天機器人轉向能夠執行多步驟工作流(如程式碼助理或數據分析師)的自主系統,它們面臨著關鍵的可靠性瓶頸。標準代理程式通常線性地處理任務。如果代理程式在十步過程中的第三步犯了一個小錯誤,該錯誤就會複合,通常導致最後一步完全失敗。這種被研究人員稱為「AI 腦霧」的現象,導致代理程式在努力從早期失誤中恢復時失去上下文或產生幻覺。

傳統上,修復此問題需要開發者為每個潛在的故障點編寫複雜的循環和錯誤處理邏輯。這種「管道」程式碼通常會掩蓋代理程式的實際邏輯,使系統變得脆弱且難以維護。目前的 LLM 通常缺乏其推理過程的固有「撤銷」按鈕,迫使它們即使在檢測到錯誤時也必須繼續走錯誤的路徑。

為演算法啟用「時光旅行」

EnCompass 通過將代理程式的工作流邏輯與其搜索策略從根本上分離來解決這個問題。EnCompass 不再採用線性執行模型,而是將代理程式的程式視為一個搜索空間。

使用 Python 裝飾器(@encompass.compile),開發者可以將標準函數轉換為可導航的可能性樹。這允許 AI 進行:

  • 回溯: 當前路徑結果不佳時,返回到之前的狀態。
  • 分支執行: 並行探索多種推理策略以找到最佳結果。
  • 優化: 在不重寫核心應用邏輯的情況下,將高級搜索演算法(如束搜索或 Best-of-N)應用於代理程式的工作流。

這種能力有效地賦予了 AI 代理程式一種「時光旅行」的形式,允許它們重新審視決策並選擇更好的路徑,就像人類在意識到陷入死胡同時會重新思考策略一樣。

技術解析:PAN 模型

在底層,EnCompass 實現了一種稱為概率天使非決定論 (Probabilistic Angelic Nondeterminism, PAN) 的編程模型。這使得框架能夠將代理程式試圖執行的操作(目標)與其如何導航 LLM 輸出的不確定性(搜索)分離開來。通過標準化這種交互,EnCompass 消除了對定製錯誤糾正程式碼的需求,自動處理複雜的狀態管理。

性能與效率的突破

該框架對開發者生產力和代理程式性能的影響是巨大的。通過自動化代理程式行為中的「搜索」組件,EnCompass 允許開發者純粹專注於任務指令。

以下對比突出了研究團隊案例研究中觀察到的效率提升:

比較:標準開發 vs. EnCompass Framework

特徵 標準代理程式開發 EnCompass 框架
錯誤處理 手動、僵化的 try/except 循環 自動回溯與路徑搜索
程式碼量 高(沈重的樣板開銷) 低(結構程式碼減少 82%
準確度 隨任務長度增加而下降 透過推論時間擴展獲得 15-40% 的提升
靈活性 難以更改策略 通過更改一個參數即可切換策略
執行模型 線性(單次嘗試) 基於樹(多路徑探索)

在涉及複雜推理任務的實際測試中,使用 EnCompass 構建的代理程式表現一致優於標準代理程式。探索多樣化執行路徑的能力意味著,即使底層 LLM 並不完美,系統仍然可以通過過濾掉錯誤的推理鏈來得出正確答案。

對 AI 行業的影響

對於 AI 行業而言,EnCompass 代表了代理型工作流的成熟。「推論時間擴展」——即 AI 可以「思考更久」以產生更好結果的想法——一直是 OpenAI 和 Google DeepMind 等實驗室的主要關注點。然而,EnCompass 使這種能力大眾化,提供了一個任何 Python 開發者都可以用來為其應用程式添加複雜推理搜索的通用工具。

這一轉變具有深遠的影響:

  • 可靠性: 代理程式現在可以被託付更長、更具連續性的任務(例如,複雜的軟體工程或法律分析),在這些任務中精確度至關重要。
  • 開發者易用性: 將程式碼複雜度降低 80% 以上,意味著較小的團隊無需具備搜索演算法方面的深厚專業知識即可構建「更聰明」的代理程式。
  • 模組化: 由於搜索策略與邏輯分離,開發者可以在不觸及提示邏輯的情況下升級代理程式的「思考過程」(例如,從貪婪搜索切換到蒙特卡羅樹搜索)。

展望未來

隨著 MIT CSAIL 和 Asari AI 將此框架發佈給更廣泛的社群,我們預計將會有一波「自我糾錯」代理程式進入市場。雖然目前的 LLM 令人印象深刻,但它們的效用一直受限於在多步驟任務中的脆弱性。EnCompass 提供了構建下一代自主軟體所需的結構完整性——這些代理程式不僅僅是猜測,而是會思考、回溯並驗證,直到正確完成任務。

精選
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
VoxDeck
引領視覺革命的AI簡報製作工具
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
FalcoCut
FalcoCut:基於網頁的 AI 平台,用於影片翻譯、虛擬人影片、語音複製、換臉與短影片生成。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。
LTX-2 AI
開源的 LTX-2 能從文字或圖片提示快速生成具原生音頻同步的 4K 影片,且已具備生產就緒能力。
Seedance 2 AI
結合影像、影片、音訊與文字的多模態 AI 影片生成器,可創作具電影感的短片。
SOLM8
你可以呼叫並與之聊天的 AI 女友。真實語音對話並具備記憶。每一刻與她相處都特別。
Vertech Academy
Vertech 提供旨在幫助學生和教師有效學習與教學的人工智慧提示。

MIT 公布 EnCompass 框架,用於 AI 代理最佳化

MIT CSAIL 推出 EnCompass 框架,使 AI 代理能回溯並優化 LLM 的輸出,在程式碼減少 82% 的情況下,準確度提升 15 至 40%。