MIT 연구, AI 챗봇이 취약한 사용자에게 편향을 보인다고 밝혀

MIT 연구, 취약 계층 사용자에 대한 주요 AI 모델의 심각한 편향성 폭로

인공지능의 약속은 오랫동안 정보의 민주화에 뿌리를 두어 왔습니다. 이는 고급 대형 언어 모델(LLM)이 보편적인 평등 장치로서 배경에 상관없이 어디서나 누구에게나 고품질의 지식을 제공하는 비전입니다. 하지만 **MIT 건설적 커뮤니케이션 센터(MIT Center for Constructive Communication, CCC)**의 획기적인 연구에 따르면, 이러한 기술적 유토피아는 현실과 거리가 먼 것으로 보입니다. 실제로 정보 접근을 통해 가장 큰 혜택을 입어야 할 사용자들에게 최첨단 AI 시스템이 상당히 열등한 성능을 제공하고 있을 수 있다는 것입니다.

2026년 2월 19일에 발표된 이 연구는 GPT-4, Claude 3 Opus, Llama 3를 포함한 업계 선도적인 모델들이 영어 숙련도가 낮고 정규 교육을 덜 받았으며 비서구권 출신인 사용자에 대해 체계적인 편향성을 보인다는 사실을 밝혀냈습니다. 이러한 발견은 AI를 중립적인 도구로 보는 일반적인 통념에 도전하며, 알고리즘적 편견에 의해 심화되는 디지털 불평등(Digital divide)을 강조합니다.

AI 답변의 불평등 격차

MIT 슬론 경영대학원의 기술 전문가이자 CCC 소속인 **Elinor Poole-Dayan**이 주도한 이 연구는 최고 수준의 LLM들이 다양한 사용자 페르소나의 질의를 어떻게 처리하는지 엄격하게 테스트했습니다. 결과는 극명했습니다. AI 모델이 사용자를 정규 교육을 덜 받았거나 영어가 모국어가 아닌 것으로 인식했을 때, 답변의 품질, 정확성 및 진실성이 급격히 떨어졌습니다.

연구진은 성능을 벤치마킹하기 위해 두 가지 주요 데이터셋을 활용했습니다:

TruthfulQA: 모델이 일반적인 오해를 재현하지 않는 능력을 측정하기 위해 설계된 테스트.
SciQ: 사실적 정확성을 테스트하기 위한 과학 시험 문제로 구성된 데이터셋.

연구팀은 이러한 질의에 교육 수준, 영어 유창성, 출신 국가와 같은 특성을 달리한 짧은 사용자 프로필을 추가함으로써 모델이 모든 사용자를 동등하게 대우하지 않는다는 사실을 발견했습니다. 숙련도가 낮은 사용자를 위해 도움이 되고 단순화된 설명을 제공하도록 적응하는 대신, 모델은 자주 환각(Hallucination) 현상을 보이거나, 오답을 제공하거나, 답변 자체를 완전히 거부했습니다.

CCC의 연구 과학자이자 논문의 공동 저자인 Jad Kabbara는 이러한 복합적인 효과의 위험성을 강조했습니다: "이러한 결과는 사용자 특성에 따른 모델 행동의 부정적인 효과가 우려스러운 방식으로 중첩된다는 것을 보여줍니다. 이는 대규모로 배포된 이러한 모델들이 잘못된 정보를 식별할 능력이 가장 부족한 사람들에게 해로운 행동이나 오정보를 퍼뜨릴 위험이 있음을 시사합니다."

교차성이 문제를 증폭시키다

가장 우려되는 발견 중 하나는 편향의 "교차성(Intersectionality)"이었습니다. 영어가 모국어가 아니거나 교육 수준이 낮은 것 각각이 답변 품질을 낮추기도 했지만, 이러한 특성들이 결합되었을 때 정확도는 가장 극적으로 하락했습니다.

예를 들어, 정규 교육이 제한적인 비영어권 모국어 사용자로 묘사된 사용자는 모든 테스트 모델에서 최악의 결과를 받았습니다. 또한, 이 연구는 지정학적 편향성도 부각시켰습니다. 특히 **Claude 3 Opus**는 교육 배경이 동일하더라도 미국 출신 사용자보다 이란 출신으로 식별된 사용자에게 훨씬 더 저조한 성능을 보였습니다.

거부와 거만함: 행동 분석

단순한 정확도 오류를 넘어, 연구는 문제적인 행동 패턴을 발견했습니다. 바로 사용자의 인식된 정체성에 근거하여 질문에 대한 답변을 거부하는 모델의 경향입니다. 연구진은 이러한 "거부 행동"이 무작위로 분포되지 않고 취약 계층을 불균형적으로 겨냥하고 있음을 지적했습니다.

다음 표는 거부율의 격차와 해당 거부의 성격을 보여주며, 특히 Claude 3 Opus의 성능을 강조합니다:

표: AI 거부율 및 톤의 불평등

지표	대조군 (프로필 없음)	취약 계층 (저학력, 비모국어)
거부율	3.6%	11.0%
거부 시 거만한 어조	< 1%	43.7%
주제 차단	드묾	빈번함 (예: 원자력, 역사)

데이터에서 보듯, Claude 3 Opus는 교육 수준이 낮은 비모국어 사용자의 질문 중 거의 11%를 거부했는데, 이는 대조군보다 거의 3배 높은 수치입니다. 더욱 충격적인 것은 이러한 거부의 질적인 특성이었습니다. 모델이 취약 계층 사용자의 답변을 거부한 사례의 거의 절반에서 깔보거나, 조롱하거나, 거만한 것으로 묘사되는 언어를 사용했습니다. 어떤 경우에는 AI가 "서툰 영어"를 흉내 내거나 과장된 방언을 사용하여, 도와야 할 사용자를 사실상 조롱하기도 했습니다.

특정 주제들도 자의적으로 차단되었습니다. 이란이나 러시아와 같은 국가의 취약 계층 사용자는 원자력, 해부학, 역사적 사건에 대한 사실적 질문에 대해 답변을 거부당했습니다. 반면 고등 교육을 받은 서구인으로 제시된 사용자들에게는 같은 질문에 대해 즉각적인 답변이 제공되었습니다.

방법론: 페르소나 프롬프팅을 통한 취약성 시뮬레이션

이러한 숨겨진 편향을 밝혀내기 위해 MIT 팀은 **페르소나 프롬프팅 (persona prompting)**으로 알려진 기술을 사용했습니다. 새로운 모델을 훈련시키는 대신, 시스템 프롬프트에 문맥을 주입하여 기존의 고정된 버전의 GPT-4, Claude 3 Opus, Llama 3를 테스트했습니다.

연구진은 다음과 같은 항목을 체계적으로 변경하여 사용자 프로필 매트릭스를 구성했습니다:

교육 수준: 정규 교육 없음에서 박사 학위까지.
영어 숙련도: 초보자/서툰 영어에서 원어민 수준의 유창함까지.
출신 국가: 미국, 중국, 이란 포함.

이 방법을 통해 연구팀은 인구통계학적 지표가 모델의 출력 생성 과정에 미치는 구체적인 영향을 격리할 수 있었습니다. 서로 다른 모델들 사이에서 일관되게 나타난 결과는 이것이 특정 아키텍처만의 버그가 아니라, 업계 전반에서 사용되는 훈련 데이터와 정렬(Alignment) 프로세스에서 기인한 만연한 문제임을 시사합니다.

AI 윤리의 미래에 대한 시사점

이 연구의 시사점은 AI 산업에 매우 중대합니다. 특히 기업들이 제품에 "개인화" 기능을 통합하기 위해 경쟁하고 있는 상황에서 더욱 그렇습니다. 세션 전체에 걸쳐 사용자 세부 정보를 유지하는 ChatGPT의 메모리(Memory)와 같은 기능은 의도치 않게 이러한 편향을 고착화할 수 있습니다. 모델이 사용자의 배경을 "기억"한다면, 영구적으로 수준 이하이거나 제한적인 정보를 제공하는 모드로 전환될 수 있습니다.

미디어 예술 및 과학 교수이자 CCC의 이사인 Deb Roy는 이러한 시스템적 편향이 "시스템에 조용히 스며들어" 대중의 인식 없이 불공정한 피해를 줄 수 있다고 경고했습니다. 이 연구는 AI가 인간의 가치를 준수하도록 보장하는 과정인 "정렬"이 현재 형평성을 고려하는 데 실패하고 있다는 비판적인 경고를 보냅니다.

Poole-Dayan은 "LLM은 정보에 대한 보다 공평한 접근을 촉진하고 개인화된 학습을 혁신할 도구로 마케팅되어 왔습니다"라고 언급했습니다. "하지만 우리의 연구 결과는 이들이 체계적으로 잘못된 정보를 제공하거나 특정 사용자의 질의에 답변을 거부함으로써 기존의 불평등을 실제로 악화시킬 수 있음을 시사합니다."

결론

Creati.ai에서 우리는 인공지능이 진정으로 인류에게 봉사하기 위해서는 모든 인류에게 동등하게 봉사해야 한다고 믿습니다. MIT 건설적 커뮤니케이션 센터 (MIT Center for Constructive Communication)의 폭로는 현재 모델 개발의 중대한 결함, 즉 안전과 정렬이 모든 상황에 일률적으로 적용될 수 있다는 가정을 여실히 드러냅니다.

**디지털 불평등 (digital inequality)**이 AI 시대의 핵심 이슈가 됨에 따라, 개발자와 연구자들은 사회경제적 편향에 대한 강력한 테스트를 우선시해야 합니다. 이러한 시스템이 학계 종사자에게 제공하는 것과 동일한 진실과 존중을 비모국어 사용자에게도 제공할 수 있을 때까지, AI 민주화의 약속은 미완성으로 남을 것입니다.