AI News

График, который взорвал интернет: разбираем споры вокруг «горизонта планирования» METR

В быстро меняющемся мире искусственного интеллекта немногие визуализации вызывали столько споров, надежд и экзистенциального страха, сколько «График горизонта планирования» (Time Horizon Plot), опубликованный некоммерческой исследовательской организацией METR (Model Evaluation and Threat Research). В течение нескольких месяцев этот график циркулировал в социальных сетях, на презентациях в залах заседаний и на правительственных брифингах, часто сопровождаемый восторженными подписями, провозглашающими скорое появление общего искусственного интеллекта (AGI).

Однако новый комплексный анализ, опубликованный сегодня в MIT Technology Review, призван охладить пыл этого «поезда хайпа». В статье под названием «Это самый неправильно понятый график в ИИ» утверждается, что хотя данные METR являются строгими и ценными, их публичная интерпретация опасно далека от реальности. Для сообщества ИИ — разработчиков, инвесторов и исследователей — понимание нюансов, стоящих за этой линией тренда, имеет решающее значение для отделения реального роста возможностей от статистических иллюзий.

Расшифровка метрики: что такое «горизонт планирования»?

Чтобы понять суть спора, нужно сначала разобраться, что именно измеряет METR. В отличие от традиционных бенчмарков, которые оценивают модели по статичным вопросам (таким как MMLU или HumanEval), метрика «Time Horizon» (горизонт планирования) METR фокусируется на агентных способностях. В частности, она пытается ответить на вопрос: как долго модель ИИ может автономно работать над сложной задачей до того, как потерпит неудачу?

Метрика, официально известная как «горизонт планирования при 50-процентном завершении задачи», сопоставляет продолжительность задачи (измеряемую временем, которое требуется квалифицированному эксперту-человеку для ее выполнения) с датой выпуска модели. Если горизонт планирования модели составляет 30 минут, это означает, что она может надежно выполнять задачи, на которые у человека уходит 30 минут, с вероятностью успеха 50%.

На первый взгляд, это кажется идеальным показателем интеллекта. По мере совершенствования модели должны справляться с более длительными и многоэтапными рабочими процессами — от написания одной функции (5 минут) до отладки модуля (1 час) и проектирования архитектуры системы (1 день).

Траектория «космического корабля»

Источником ажиотажа — и беспокойства — является наклон кривой. Согласно последним данным METR, включая обновление «Time Horizon 1.1», выпущенное в конце января 2026 года, возможности передовых моделей не просто улучшаются; они растут экспоненциально.

В 2024 году горизонт планирования ведущих моделей измерялся минутами. К началу 2025 года он перешел в диапазон часов. С выпуском таких моделей, как Claude 4.5 Opus и OpenAI o3, линия тренда, казалось, удваивалась каждые 4–7 месяцев.

Если просто экстраполировать эту экспоненциальную кривую линейно, как это сделали многие комментаторы, вывод окажется поразительным: модели, способные автономно выполнять задачи длительностью в неделю или месяц, появятся задолго до конца десятилетия. Этот прогноз предполагает мир, в котором ИИ-агенту можно будет поручить «месячный исследовательский проект», и он вернется с готовой работой, что коренным образом изменит рынок труда.

Однако MIT Technology Review указывает, что эта интерпретация опирается на несколько логических скачков, которые не подтверждаются данными.

Анатомия недопонимания

В основе анализа MIT Technology Review лежат три конкретные области, в которых «общепринятое мнение» относительно графика METR расходится со статистической реальностью. Заблуждение проистекает из смешивания «продолжительности задачи» с «когнитивной сложностью» и игнорирования разреженности исходных данных.

1. Проблема прокси-показателя: Время vs Сложность

График использует «человеческое время» как прокси-показатель сложности, но эта связь не является линейной или универсальной. Задача, которая занимает у человека час, потому что включает нудный ввод данных, фундаментально отличается от задачи, которая занимает час, потому что требует глубокого стратегического понимания.

Модели ИИ часто преуспевают в первом, испытывая трудности во втором. Как отмечается в анализе MIT, ИИ может выполнить «2-часовую задачу по программированию» за секунды, потому что распознает паттерн, а не потому, что обладает «объемом внимания» или «способностью к планированию» человека, работающего два часа. Следовательно, «2-часовой горизонт» не гарантирует, что модель справится с любой 2-часовой задачей, особенно с той, что связана с неопределенностью или высокоуровневыми рассуждениями.

2. Проблема разреженности данных

Возможно, самая убийственная критика касается плотности точек данных в верхней части кривой. В диапазоне от 1 до 4 часов — на рубеже прогресса 2025 года — исходный набор данных содержал крайне мало образцов.

Критики указывают, что расчет глобальной линии тренда на основе горстки успешных задач с длительным горизонтом (часто специально отобранных задач по программированию) создает ложное чувство высокой надежности. Обновление «Time Horizon 1.1» добавило больше задач, но размер выборки для многочасовых задач остается небольшим по сравнению с тысячами краткосрочных бенчмарков, используемых в стандартных оценках.

3. Специфика предметной области

Подавляющее большинство задач, обеспечивающих высокие показатели горизонта планирования, связано с разработкой программного обеспечения (например, наборы HCAST и RE-Bench). Хотя программирование является критически важной экономической деятельностью, это также область с формальной логикой, проверяемыми циклами обратной связи и наличием огромных объемов обучающих данных.

Экстраполировать успех в задачах по программированию на универсальный труд в «реальном мире» (такой как управление проектами, юридический анализ или научные исследования) рискованно. Модель может быть экспертным младшим инженером, но при этом оставаться новичком в роли административного помощника.

Реальность vs Хайп: сравнительный анализ

Чтобы прояснить расхождение между виральным нарративом и технической реальностью, мы разбили ключевые интерпретации ниже.

Таблица 1: Расхождения в интерпретации графика METR

Ракурс интерпретации Виральный «хайповый» взгляд Техническая реальность (анализ MIT)
Что означает ось Y Мера общего интеллекта (AGI) и глубины рассуждений. Конкретная мера автономности в определенных, преимущественно технических задачах.
Прогноз Прямая линия к автономным агентам, выполняющим месячные задачи к 2028 году. Тренд, который, вероятно, выйдет на плато, когда задачи столкнутся с «запутанными» ограничениями реального мира.
Перенос навыков Если он может кодить 4 часа, он может написать роман или спланировать слияние компаний. Успех в формальной логике (программировании) не гарантирует успеха в открытых областях.
Надежность 50% успеха означает, что это в целом работает. 50% успеха часто слишком мало для автономного развертывания без контроля человека.
Экономический эффект Немедленная замена работников умственного труда. Постепенная интеграция «копилотов», которые справляются с более длительными подзадачами, а не заменяют работу целиком.

Почему это важно для индустрии ИИ

Для читателей Creati.ai — разработчиков, продакт-менеджеров и руководителей предприятий — разъяснение MIT Technology Review предлагает более практичную, хотя и менее сенсационную дорожную карту.

Разоблачение нарратива о «неминуемом AGI» не означает, что прогресс остановился. Напротив, способность таких моделей, как GPT-5 и Claude 4.5 Opus, надежно справляться с задачами в диапазоне 1–2 часов является огромным инженерным прорывом. Это переводит полезность ИИ из разряда «чат-ботов», отвечающих на вопросы, в разряд «агентов», которые могут выполнять значимые рабочие процессы, такие как рефакторинг кодовой базы или проведение предварительного обзора литературы.

Однако анализ предполагает, что «последняя миля» автономии — масштабирование от часов к дням — вероятно, будет труднее, чем «первая миля». По мере того как задачи становятся длиннее, вероятность ошибки накапливается. Модель с 99-процентным успехом на каждом шаге в конечном итоге потерпит неудачу в задаче, требующей 100 последовательных шагов. Метрика «Time Horizon» скрывает эту хрупкость за одной цифрой.

Роль METR в будущем бенчмаркинге

Несмотря на критику интерпретации данных, вклад METR остается жизненно важным. Организация успешно перевела дискуссию от статичных бенчмарков (которыми модели в значительной степени перенасыщены) к динамическим временным оценкам.

Внедрение «Time Horizon 1.1» показывает, что METR реагирует на эту критику, расширяя наборы задач, чтобы включить более разнообразные вызовы. Для разработчиков ИИ эта метрика, вероятно, станет новым золотым стандартом внутренней оценки, заменив оценку интеллекта моделей «на основе ощущений» на количественно измеримый показатель автономности.

Заключение: метрика прогресса, а не часы обратного отсчета

«График горизонта планирования» — это не часы обратного отсчета до сингулярности. Это спидометр для конкретного типа двигателя — агентных способностей больших языковых моделей к рассуждению.

Как заключает MIT Technology Review, признание ограничений этого графика позволяет нам оценить то, что он на самом деле показывает: быстрое, ощутимое улучшение способности программного обеспечения выполнять самостоятельную работу. Для индустрии фокус должен сместиться с экстраполяции линий на диаграмме на создание защитных барьеров и интерфейсов, которые позволят этим «одночасовым агентам» приносить надежную пользу в мире, ориентированном на человека.

График не ошибочен; просто мы читали его вверх ногами.

Рекомендуемые