
어제 매사추세츠 공과대학(MIT)의 연구진이 발표한 획기적 연구는 머신러닝 평가의 근본적 전제를 뒤흔들며, 집계된 지표로 "최신"으로 간주되던 모델들이 새로운 환경에 배포되었을 때 치명적으로 실패할 수 있음을 드러냈습니다.
이 연구는 Neural Information Processing Systems(NeurIPS 2025) 학회에서 발표되었고 2026년 1월 20일 MIT News에 실렸습니다. 연구진은 현재 AI 시스템을 벤치마킹하는 방식에 심각한 취약점이 있음을 폭로했습니다. Associate Professor Marzyeh Ghassemi와 Postdoc Olawale Salaudeen가 이끄는 팀은 최고 성능을 보이는 모델들이 종종 우발적 단축지점—데이터에 숨겨진 지름길인 spurious correlations(spurious correlations)—에 의존하여 실제 응용(예: 의료 진단, 혐오 발언 탐지)에서 신뢰할 수 없고 잠재적으로 위험하다는 것을 입증했습니다.
수년 동안 AI 커뮤니티는 "accuracy-on-the-line" 가정에 따라 운영되어 왔습니다. 이 원리는 모델군을 훈련 데이터셋(분포 내, in-distribution)에서의 성능으로 최상에서 최하로 순위를 매기면, 그 순위가 새로운 미지의 데이터셋(분포 밖, out-of-distribution)에도 유지된다는 것을 시사합니다.
MIT 팀의 결과는 이 가정을 사실상 무너뜨렸습니다. 그들의 분석은 높은 평균 정확도가 특정 하위집단에서의 심각한 실패를 숨기고 있음을 보여줍니다. 가장 놀라운 사례들에서는 원래 훈련 데이터에서 "최고"로 식별된 모델이 새로운 데이터의 6%에서 75%에 해당하는 경우에 최악의 성능을 보이는 모델임이 드러났습니다.
"대량의 데이터로 모델을 훈련시키고 평균 성능이 가장 좋은 모델을 선택하더라도, 새로운 환경에서는 이 '최고 모델'이 최악의 모델일 수 있음을 우리는 보여준다"고 Laboratory for Information and Decision Systems(LIDS)의 수석 연구원 Marzyeh Ghassemi는 말했습니다.
이 발견이 가장 뚜렷하게 드러나는 분야는 생명과 사망이 걸린 의료 분야입니다. 연구진은 흉부 X-레이로 병리를 진단하도록 훈련된 모델들—의료 분야에서의 표준적 컴퓨터 비전 응용—을 조사했습니다.
모델들은 평균적으로는 강건해 보였지만, 세밀한 분석에서는 진짜 해부학적 특징이 아니라 "spurious correlations(spurious correlations)"에 의존하고 있음을 드러냈습니다. 예를 들어, 모델은 특정 병원의 방사선표식(radiographic markings)을 질병 유병률과 연관지어 학습할 수 있으며, 해당 표식이 없는 다른 병원의 X-레이에 적용하면 모델의 예측 능력이 붕괴합니다.
의료 영상에서의 주요 발견:
이러한 체계적 실패에 대응하기 위해 연구팀은 OODSelect(Out-of-Distribution Select)라는 새로운 알고리즘적 접근법을 개발했습니다. 이 도구는 "accuracy-on-the-line" 가정이 깨지는 데이터 하위집합을 구체적으로 식별함으로써 모델을 스트레스 테스트하도록 설계되었습니다.
주저자 Olawale Salaudeen는 목표가 편리한 통계적 지름길이 아니라 인과관계를 학습하도록 모델을 강제하는 것이라고 강조했습니다. "우리는 모델이 환자의 해부학적 특징을 보고 그 기반으로 결정을 내리는 법을 배우길 원한다"고 Salaudeen은 말했습니다. "하지만 실제로는 의사결정과 상관된 데이터상의 어떤 것이든 모델에 의해 이용될 수 있습니다."
OODSelect는 "가장 크게 오판된 예시들"을 분리함으로써 개발자가 분류하기 어려운 엣지 케이스와 우발적 상관관계로 인한 진정한 실패를 구분할 수 있게 합니다.
평가 방법론 비교:
| Metric Type | Traditional Aggregated Evaluation | OODSelect Evaluation |
|---|---|---|
| Focus | 데이터셋 전체에 대한 평균 정확도 | 특정 취약 하위집단에서의 성능 |
| Assumption | 순위 유지(Accuracy-on-the-line) | 순위 붕괴(최고가 최악이 될 수 있음) |
| Risk Detection | 낮음(소수집단의 실패를 가림) | 높음(우발적 상관관계를 강조) |
| Outcome | 일반 벤치마크 최적화 | 강건성 및 신뢰성 최적화 |
| Application | 초기 모델 선택 | 배포 전 안전 감사 |
연구는 의료 영상에 중점을 두었지만, 연구진은 암 조직병리학(cancer histopathology)과 혐오 발언 탐지(hate speech detection)를 포함한 다른 중요한 영역에서도 그 발견을 검증했습니다. 텍스트 분류 작업에서는 모델들이 종종 훈련 데이터에서 독성(toxicity)과 상관된 특정 키워드나 언어 패턴에 의존하지만, 다른 온라인 커뮤니티나 맥락에서 혐오 발언의 뉘앙스를 포착하지 못하는 경우가 많았습니다.
이 현상은 AI의 "신뢰성" 위기가 고위험 물리적 영역에만 국한된 것이 아니라, 심층 학습 모델이 상관관계와 인과관계를 처리하는 방식 자체에 내재해 있음을 시사합니다.
이 연구의 공개는 AI 안전 기준의 전환점을 의미합니다. MIT 팀은 OODSelect의 코드를 공개했으며, 커뮤니티가 더 강건한 벤치마크를 구축하는 데 도움이 되도록 특정 데이터 하위집합을 식별했습니다.
연구진은 특히 규제 산업에 모델을 배포하는 조직들이 집계 통계를 넘어설 것을 권고합니다. 대신 모델이 실패하는 하위집단을 적극적으로 찾아내는 엄격한 평가 과정을 권장합니다.
AI 시스템이 중요 인프라에 점점 더 통합됨에 따라 "성공적인" 모델의 정의도 변하고 있습니다. 단순히 리더보드에서 최고 점수를 얻는 것으로는 충분하지 않습니다. 새로운 우수성 기준은 분포 변화와 관계없이 모든 사용자, 모든 환경에서 신뢰할 수 있는 모델을 요구합니다.