Исследователи MIT выявляют критические сбои моделей машинного обучения в сценариях вне распределения данных

Исследование MIT опровергает предположение «accuracy-on-the-line» в машинном обучении (machine learning)

Грандиозное исследование, опубликованное вчера исследователями из Массачусетского технологического института (MIT), поставило под сомнение фундаментальный принцип оценки машинного обучения (machine learning), показав, что модели, которые широко считаются «передовыми» на основе агрегированных метрик, могут катастрофически проваливаться при развертывании в новых условиях.

Исследование, представленное на конференции Neural Information Processing Systems (NeurIPS 2025) и опубликованное на MIT News 20 января 2026 года, выявляет критическую уязвимость в текущих методах бенчмаркинга систем ИИ. Команда во главе с доцентом Marzyeh Ghassemi и постдоком Olawale Salaudeen продемонстрировала, что модели с лучшими результатами часто опираются на ложные корреляции (spurious correlations) — скрытые «короткие пути» в данных, — что делает их ненадежными и потенциально опасными в реальных приложениях, таких как медицинская диагностика и обнаружение оскорбительной речи.

Парадокс «от лучшего к худшему»

В течение многих лет сообщество ИИ действовало исходя из предположения «accuracy-on-the-line». Этот принцип предполагает, что если набор моделей ранжируется от лучшей к худшей на основе их производительности на обучающем наборе данных (in-distribution), то это ранжирование сохранится при применении моделей к новому, невиданному набору данных (out-of-distribution).

Выводы команды MIT фактически разрушили это предположение. Их анализ показывает, что высокая средняя точность часто скрывает серьезные провалы в отдельных субпопуляциях. В некоторых из самых поразительных случаев модель, определённая как «лучшая» на исходных обучающих данных, оказалась худшей по производительности на 6–75 процентах новых данных.

«Мы демонстрируем, что даже если вы обучаете модели на больших объёмах данных и выбираете модель с лучшей средней производительностью, в новой среде эта «лучшая модель» может оказаться худшей», — сказала Marzyeh Ghassemi, главный исследователь в Лаборатории информационных и решенийых систем (Laboratory for Information and Decision Systems, LIDS).

Медицинский ИИ: пример с высокими ставками

Последствия этих выводов наиболее остро ощущаются в здравоохранении, где алгоритмическая надёжность — вопрос жизни и смерти. Исследователи изучали модели, обученные диагностировать патологии по рентгенограммам грудной клетки — стандартное применение компьютерного зрения в медицине.

Хотя модели выглядели устойчивыми в среднем, детальный анализ показал, что они опирались на ложные корреляции (spurious correlations), а не на реальные анатомические признаки. Например, модель могла научиться связывать специфические радиографические маркировки определённой больницы с распространённостью болезни, вместо того чтобы выявлять саму патологию. При применении к рентгенограммам из другой больницы без этих специфических маркировок предсказательная способность модели рушилась.

Ключевые выводы в медицинской визуализации:

Модели, которые показывали улучшенную общую диагностическую точность, фактически работали хуже на пациентах с конкретными состояниями, такими как выпоты в плевральной полости или увеличенный кардиомедиастинум.
Ложные корреляции (spurious correlations) были прочно встроены в модели, что означало, что простое увеличение объёма данных не устраняло риск того, что модель выучит неверные признаки.
Демографические факторы, такие как возраст, пол и раса, часто были ошибочно коррелированы с медицинскими находками, что приводило к предвзятому принятию решений.

Введение OODSelect: новая парадигма оценки

Чтобы справиться с этой системной проблемой, команда разработчиков предложила новый алгоритмический подход под названием OODSelect (Out-of-Distribution Select). Этот инструмент предназначен для стресс-тестирования моделей путём специального выявления подмножеств данных, где предположение «accuracy-on-the-line» нарушается.

Ведущий автор Olawale Salaudeen подчеркнул, что цель состоит в том, чтобы заставить модели изучать причинно-следственные связи, а не удобные статистические «короткие пути». «Мы хотим, чтобы модели научились смотреть на анатомические признаки пациента и затем принимать решение на их основе», — заявил Salaudeen. «Но на самом деле любая коррелированная с решением вещь в данных может быть использована моделью».

OODSelect работает путём выделения «наиболее неверно оценённых примеров», что позволяет разработчикам отличать трудно классифицируемые краевые случаи от истинных сбоев, вызванных ложными корреляциями.

Сравнение методологий оценки:

Metric Type	Traditional Aggregated Evaluation	OODSelect Evaluation
Focus	Average accuracy across the entire dataset	Performance on specific, vulnerable subpopulations
Assumption	Ranking preservation (Accuracy-on-the-line)	Ranking disruption (Best can be worst)
Risk Detection	Low (Masks failures in minority groups)	High (Highlights spurious correlations)
Outcome	Optimized for general benchmarks	Optimized for robustness and reliability
Application	Initial model selection	Pre-deployment safety auditing

За пределами здравоохранения: универсальные последствия

Хотя исследование в значительной степени опиралось на медицинскую визуализацию, исследователи подтвердили свои выводы и в других критических областях, включая гистопатологию рака и обнаружение оскорбительной речи. В задачах классификации текста модели часто цепляются за определённые ключевые слова или лингвистические паттерны, которые коррелируют с токсичностью в тренировочных данных, но не улавливают нюансы оскорбительной речи в разных онлайн-сообществах или контекстах.

Это явление указывает на то, что кризис «достоверности» ИИ не ограничивается сферами с высокими ставками в физическом мире, а является присущим тому, как модели глубокого обучения перерабатывают корреляцию и причинность.

Дальнейшие направления для надёжности ИИ

Публикация этого исследования знаменует поворотный момент для стандартов безопасности ИИ. Команда MIT опубликовала код OODSelect и выделила конкретные подмножества данных, чтобы помочь сообществу создавать более устойчивые бенчмарки.

Исследователи рекомендуют организациям, внедряющим модели машинного обучения (machine learning) — особенно в регулируемых отраслях — выходить за рамки агрегированных статистик. Вместо этого они выступают за строгий процесс оценки, который активно ищет те подпопуляции, где модель даёт сбой.

По мере того как системы ИИ всё глубже интегрируются в критическую инфраструктуру, определение «успешной» модели меняется. Недостаточно просто набрать наивысший балл в таблице лидеров; новый стандарт совершенства требует, чтобы модель была надёжной для каждого пользователя, в любой среде, независимо от смещения распределения.