Двигатель прогнозирования ИИ Mantic занял рекордное 4-е место в турнире прогнозов Metaculus

Переломный момент для машинного предвидения (Machine Prescience)

В ходе развития, сигнализирующего о значительном сдвиге в ландшафте прогнозной аналитики, механизм ИИ-прогнозирования Mantic занял рекордное 4-е место в престижном кубке Metaculus Fall Cup. Это достижение знаменует собой самый высокий рейтинг, когда-либо достигнутый системой искусственного интеллекта в крупном турнире по прогнозированию общего назначения, что позволило ей уверенно опередить средние показатели человека и превзойти 99% участников-людей, включая многих опытных «суперпрогнозистов» (superforecasters).

Результаты Fall Cup, завершившегося в январе 2026 года, служат веским подтверждением стремительного прогресса в области ИИ-прогнозирования (AI forecasting). В то время как большие языковые модели (LLM) продемонстрировали мастерство в творческом письме и программировании, их способность рассуждать о сложных, разворачивающихся событиях реального мира — от геополитических сдвигов до экономических колебаний — оставалась оспариваемым рубежом. Результаты Mantic позволяют предположить, что разрыв между человеческой интуицией и машинным синтезом сокращается быстрее, чем ожидалось.

«Речь идет не просто о высоком балле; речь идет о надежности синтетического мышления», — сказала доктор Елена Вэнс (Elena Vance), старший аналитик Creati.ai. «То, что ИИ последовательно ориентируется в шуме мировых новостей и извлекает точные вероятностные сигналы на протяжении многомесячного турнира, доказывает, что мы переходим от генеративного ИИ (generative AI) к проницательному ИИ».

Турнир: Горнило неопределенности

Платформа Metaculus широко признана золотым стандартом краудсорсингового прогнозирования. Её турниры привлекают тысячи участников: от аналитиков разведки и экономистов до любителей прогнозов. Fall Cup требовал от участников прогнозирования исходов разнообразных и нестабильных событий в течение трехмесячного периода. Вопросы варьировались от вероятности принятия конкретных законодательных актов в Конгрессе США до колебаний цен на сырьевые товары и итогов международных дипломатических саммитов.

В отличие от статических бенчмарков, живой турнир по прогнозированию подвергает системы ИИ воздействию «тумана войны». Модели не могут запомнить ответы, потому что события еще не произошли. Они должны усваивать данные в реальном времени, взвешивать противоречивые отчеты и обновлять свои вероятности по мере появления новой информации — когнитивный цикл, в котором люди исторически доминировали.

Финиш Mantic на 4-м месте особенно примечателен, поскольку система соревновалась с 539 активными участниками-людьми. В предыдущем Summer Cup Mantic попала в заголовки газет, пробившись в десятку лучших с 8-м местом. Прыжок на 4-е место демонстрирует не просто последовательность, но и ускоренные темпы совершенствования её базовой архитектуры.

Анализ производительности

Успех Mantic не был следствием одной удачной догадки, а скорее результатом выверенной точности по широкому спектру вопросов. Анализ данных турнира выявил несколько ключевых сильных сторон в подходе ИИ:

Сопротивление хайпу: В вопросах, где прогнозисты-люди склонялись к экстремальным вероятностям на основе сенсационных заголовков новостей, Mantic часто сохраняла более консервативные оценки, основанные на базовых показателях.
Синтез информации: Система продемонстрировала способность сопоставлять малозаметные точки данных, такие как нормативные документы или новости на местных языках, которые прогнозисты-люди могут упустить из-за языковых барьеров или нехватки времени.
Частота обновлений: В то время как люди-прогнозисты могут обновлять свои предсказания раз в неделю, Mantic могла корректировать свои вероятности почти в реальном времени по мере изменения переменных, фиксируя «альфу» в экстренных новостях быстрее, чем её биологические коллеги.

Под капотом: Как Mantic предсказывает будущее

Mantic, британский стартап, сооснователями которого являются Тоби Шевлейн (Toby Shevlane) и Бен Дэй (Ben Day), создал систему, которая существенно отличается от стандартного чат-бота. Она функционирует не как одиночный оракул, а скорее как цифровая исследовательская фирма. При получении вопроса для прогнозирования система запускает несколько ИИ-агентов, каждому из которых назначена определенная роль: поиск исторических аналогий, извлечение текущих новостей и оспаривание собственных предварительных выводов системы.

По словам Шевлейна, система спроектирована как «антидот от группового мышления». Во многих сообществах прогнозистов участники-люди могут поддаваться консенсусному мнению («мудрость толпы»), что приводит к стадному поведению. Mantic, однако, выводит свои прогнозы из первых принципов и обработки данных, что позволяет ей занимать противоположные позиции, когда это подтверждается доказательствами.

Один наглядный пример из недавнего послужного списка Mantic касался расширения альянса БРИКС. В то время как человеческий консенсус на Metaculus колебался вокруг 70% вероятности того, что новые члены будут приглашены во время конкретного саммита, автоматизированное исследование Mantic выявило отсутствие дипломатических сигналов от ключевых стран-хозяев и исторические прецеденты медленных бюрократических процессов. Mantic сохраняла низкую вероятность (около 20%) на протяжении всего периода. Когда новые члены не были приглашены, человеческая «толпа» была оштрафована, в то время как рейтинг Mantic резко вырос.

Архитектура предвидения

Архитектура Mantic использует метод, известный как «рассуждение с дополнением извлечением» (retrieval-augmented reasoning). Она не просто галлюцинирует ответ; она запрашивает поисковые индексы в реальном времени, читает сотни документов и затем использует LLM для синтеза этой информации в вероятностное суждение.

Ключевые компоненты движка Mantic:

Декомпозиция: Разбиение сложного вопроса (например, «Обанкротится ли компания X?») на подвопросы (например, «Какова текущая долговая нагрузка компании X?», «Есть ли незавершенные судебные иски?», «Какова тенденция кредитного рейтинга?»).
Широкоспектральный поиск: Сканирование мировых СМИ, финансовых отчетов и настроений в социальных сетях на нескольких языках.
Анализ базовых показателей: Сравнение текущей ситуации с базой данных исторически схожих событий (прогнозирование по эталонному классу).
Состязательная проверка: Один агент предлагает прогноз, а другой агент критикует его, заставляя систему защищать свою логику перед окончательным определением числа.

Люди против машин: Сравнительное преимущество

Рост роли машинного обучения (machine learning) в прогнозировании порождает неизбежные вопросы об устаревании аналитиков-людей. Однако результаты Fall Cup указывают на более нюансированное будущее: гибридную модель, в которой ИИ берет на себя масштабирование и обработку данных, а люди обеспечивают высокоуровневый контекст для событий типа «черный лебедь», не имеющих исторических прецедентов.

В следующей таблице представлены структурные различия между людьми-суперпрогнозистами и системами ИИ, такими как Mantic:

Сравнительный анализ: Прогнозисты-люди против ИИ-агентов

Метрика	Человеческие суперпрогнозисты	Движки ИИ-прогнозирования (Mantic)
Скорость обработки	Медленная (от минут до часов на обновление)	Мгновенная (секунды на обновление)
Усвоение данных	Ограниченное (10-50 документов по теме)	Массивное (тысячи документов)
Восприимчивость к предвзятости	Высокая (когнитивные искажения, эмоции)	Низкая (алгоритмическая, но есть в данных обучения)
Стоимость прогноза	Высокая (затраты зарплаты и времени)	Низкая (снижение стоимости вычислений)
Прозрачность рассуждений	Высокая (могут объяснить «интуицию»)	Средняя (логи рассуждений, но есть «черный ящик»)
Контекстуальные нюансы	Превосходная (понимает тонкости политики)	Улучшается (сложности с сарказмом/правилами)

Последствия для интеллекта принятия решений (Decision-Making Intelligence)

Последствия победы Mantic (4-е место) выходят далеко за рамки таблицы лидеров турнира. Корпорации, хедж-фонды и государственные учреждения все чаще обращаются к интеллекту принятия решений (decision-making intelligence) для навигации в нестабильном мире.

В настоящее время стратегические решения часто принимаются на основе субъективной уверенности руководителей или консенсуса в небольшом зале заседаний. Версия Mantic корпоративного уровня могла бы предоставить объективное, основанное на вероятности «второе мнение» по критически важным вопросам, таким как сбои в цепочках поставок, результаты выборов или действия конкурентов.

«Если вы генеральный директор, решающий, стоит ли выходить на нестабильный рынок, вам нужна не просто рекомендация "да" или "нет"», — объясняет доктор Вэнс. «Вам нужно распределение вероятностей, полученное из каждой доступной точки данных. Mantic доказала, что ИИ может обеспечить эту строгую количественную оценку лучше, чем среднестатистический эксперт».

Проверка методом «пасткастинга» (Pastcasting)

Чтобы убедиться, что эти результаты не случайны, исследователи также подвергли модели ИИ «пасткастингу» (pastcasting) — методу, при котором ИИ задается вопрос из прошлого (например, 2022 год) и разрешается доступ только к новостям и данным, доступным до этой даты. Mantic и подобные системы показали современный уровень производительности в этих ретроспективных тестах, что дополнительно подтверждает их предсказательную силу. Эта строгая методология тестирования гарантирует, что ИИ не «жульничает», получая доступ к знаниям о будущем, подтверждая обоснованность процесса рассуждения.

Что дальше для ИИ-прогнозирования?

По мере продвижения в 2026 год ожидается усиление соперничества между людьми и машинами-прогнозистами. Metaculus и другие платформы разрабатывают всё более сложные вопросы, призванные «сломать» модели ИИ — вопросы, требующие глубоких причинно-следственных рассуждений, многошаговой логики или понимания человеческой психологии.

Для Mantic целью, вероятно, является первое место. Сокращение разрыва с 4-го места до 1-го потребует преодоления оставшихся ограничений ИИ: неспособности улавливать «мягкие» сигналы, такие как тон голоса дипломата или тонкие изменения в союзах, которые еще не были описаны в новостной статье.

Однако после результатов Fall Cup вопрос сместился с «Может ли ИИ предсказывать будущее?» на «Как скоро ИИ будет предсказывать его лучше нас?». На данный момент Mantic находится на вершине пирамиды, являясь цифровой Кассандрой, в которую мир наконец начинает верить.