
В результате значительного шага вперед в области автономных систем исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) в сотрудничестве с Asari AI и Калифорнийским технологическим институтом представили EnCompass — инновационный фреймворк, предназначенный для решения одной из самых стойких проблем генеративного ИИ: неспособности агентов эффективно исправлять собственные ошибки.
Выпущенный сегодня фреймворк знаменует собой смену парадигмы в том, как разработчики создают агентов на базе больших языковых моделей (LLM), позволяя системам «возвращаться назад» и оптимизировать свои пути рассуждения без необходимости использования сложной инфраструктуры с кастомным кодом. Первые тесты показывают, что EnCompass может обеспечить рост точности на 15–40% для сложных задач, сокращая при этом необходимую кодовую базу на 82%, что значительно снижает порог входа для создания надежных ИИ-приложений.
По мере того как ИИ-агенты превращаются из простых чат-ботов в автономные системы, способные выполнять многоэтапные рабочие процессы — такие как помощники по программированию или аналитики данных — они сталкиваются с критическим узким местом в плане надежности. Стандартные агенты обычно обрабатывают задачи линейно. Если агент совершает незначительную ошибку на третьем этапе десятиэтапного процесса, эта ошибка накапливается, что часто приводит к полному провалу на финальном этапе. Это явление, описываемое исследователями как «туман в мозгах ИИ», приводит к тому, что агенты теряют контекст или галлюцинируют, пытаясь оправиться от ранних промахов.
Традиционно для исправления этой ситуации разработчикам приходилось вручную прописывать сложные циклы и логику обработки ошибок для каждой потенциальной точки отказа. Этот «сантехнический» код часто скрывает реальную логику агента, делая системы хрупкими и трудными в обслуживании. Современным LLM, как правило, не хватает врожденной кнопки «отмены» для процесса рассуждения, что заставляет их придерживаться ошибочного пути, даже когда они обнаруживают ошибку.
EnCompass решает эту проблему путем принципиального разделения логики рабочего процесса агента и его стратегии поиска. Вместо линейной модели выполнения EnCompass позволяет рассматривать программу агента как пространство поиска.
Используя декоратор Python (@encompass.compile), разработчики могут преобразовать стандартную функцию в дерево возможностей с навигацией. Это позволяет ИИ:
Эта возможность фактически дает ИИ-агентам форму «путешествия во времени», позволяя им пересматривать решения и выбирать лучший путь, подобно тому как человек пересматривает стратегию, когда понимает, что зашел в тупик.
Внутри EnCompass реализует модель программирования, известную как Вероятностный ангельский недетерминизм (Probabilistic Angelic Nondeterminism, PAN). Это позволяет фреймворку отделить то, что агент пытается сделать (цель), от того, как он справляется с неопределенностью выходных данных LLM (поиск). Стандартизируя это взаимодействие, EnCompass устраняет необходимость в специализированном коде для коррекции ошибок, автоматически управляя сложными состояниями.
Влияние этого фреймворка на продуктивность разработчиков и производительность агентов весьма значительно. Автоматизируя компонент «поиска» в поведении агента, EnCompass позволяет разработчикам сосредоточиться исключительно на инструкциях задачи.
Следующее сравнение подчеркивает прирост эффективности, наблюдаемый в тематических исследованиях исследовательской группы:
Сравнение: стандартная разработка и фреймворк EnCompass
| Характеристика | Стандартная разработка агентов | Фреймворк EnCompass |
|---|---|---|
| Обработка ошибок | Ручные, жесткие циклы try/except |
Автоматический возврат назад и поиск пути |
| Объем кода | Высокий (большие накладные расходы на шаблонный код) | Низкий (сокращение на 82% структурного кода) |
| Точность | Снижается с увеличением длины задачи | Рост на 15–40% за счет масштабирования во время вывода |
| Гибкость | Трудно менять стратегии | Смена стратегии путем изменения одного параметра |
| Модель выполнения | Линейная (Single Shot) | На основе дерева (исследование нескольких путей) |
В практических тестах, связанных со сложными задачами рассуждения, агенты, созданные с помощью EnCompass, последовательно превосходили свои стандартные аналоги. Возможность исследовать различные пути выполнения означала, что даже если базовая LLM не была идеальной, система все равно могла прийти к правильному ответу, отфильтровывая неверные цепочки рассуждений.
Для индустрии ИИ EnCompass представляет собой этап зрелости агентских рабочих процессов. «Масштабирование во время вывода» (inference-time scaling) — идея о том, что ИИ может «думать дольше» для получения лучших результатов — была основным направлением деятельности таких лабораторий, как OpenAI и Google DeepMind. Однако EnCompass демократизирует эту возможность, предоставляя универсальный инструмент, который любой Python-разработчик может использовать для добавления сложного поиска рассуждений в свои приложения.
Этот сдвиг имеет глубокие последствия:
По мере того как MIT CSAIL и Asari AI открывают этот фреймворк для широкого сообщества, мы ожидаем волну появления на рынке «самокорректирующихся» агентов. Хотя современные LLM впечатляют, их полезность была ограничена хрупкостью в многоэтапных задачах. EnCompass обеспечивает структурную целостность, необходимую для создания следующего поколения автономного программного обеспечения — агентов, которые не просто угадывают, а думают, возвращаются назад и проверяют, пока не выполнят работу правильно.