AI News

OpenAI, 모델 증류를 통한 미국의 AI 혁신 "무임승차"로 DeepSeek 고발

캘리포니아주 샌프란시스코 — 미국과 중국 간의 기술 패권 경쟁이 심화되는 가운데, OpenAI는 중국의 AI 스타트업 DeepSeek가 미국 인공지능 모델의 기능을 복제하기 위해 "모델 증류(Model Distillation)" 기술을 체계적으로 활용하고 있다고 미국 의회에 공식 경고했다.

미국-중국 전략 경쟁 특별위원회에 제출된 메모에 따르면(2026년 2월 12일 블룸버그 및 로이터 보도), OpenAI는 DeepSeek가 OpenAI 서버에서 데이터를 추출하기 위해 "정교하고" "은폐된" 방법을 사용하고 있다고 주장한다. 이 데이터는 최근 인기를 끌고 있는 DeepSeek-R1을 포함한 DeepSeek의 자체 모델을 훈련하는 데 사용된 것으로 알려졌으며, 이는 결과적으로 중국 기업이 미국 연구소들이 부담한 막대한 연구 개발 비용을 효과적으로 우회할 수 있게 해준다.

이러한 전개는 하드웨어 수출 통제에서 모델 가중치와 알고리즘 논리라는 무형의 고가치 흐름으로 초점이 옮겨가는 글로벌 AI 지형의 중추적인 순간을 나타낸다.

"모델 증류(Model Distillation)"의 메커니즘

이번 논란의 핵심은 머신러닝에서 "지식 증류"라고 알려진 기술이다. 이 용어는 추상적으로 들릴 수 있지만, 그 과정은 선도적인 AI 연구소들의 경쟁 우위에 실질적인 위협이 된다.

표준적인 훈련 시나리오에서 AI 모델은 수조 개의 텍스트, 코드, 이미지 토큰으로 구성된 원시 데이터셋으로부터 학습한다. 이 과정은 엄청난 컴퓨팅 파워와 수개월의 처리 시간을 필요로 한다. 그러나 모델 증류는 이 과정을 단축한다. "교사(Teacher)" 모델(이 경우 OpenAI의 GPT-4 또는 o1 시리즈로 추정)에 광범위하게 질의를 던지고, "학생(Student)" 모델(DeepSeek의 아키텍처)은 정답뿐만 아니라 교사가 제공하는 확률 분포와 추론 경로를 학습한다.

OpenAI의 메모는 DeepSeek가 단순히 공개된 출력값을 사용하는 것을 넘어, 대규모로 이러한 고품질 훈련 신호를 수집하기 위해 보안 장치를 능동적으로 우회하고 있다고 주장한다. 이를 통해 DeepSeek는 미국 경쟁사들이 필요로 하는 컴퓨팅 자원과 금융 투자의 극히 일부만으로도 그에 근접한 성능을 달성할 수 있다는 것이다.

AI 훈련 방법론 비교

OpenAI가 언급한 경제적 및 기술적 격차를 이해하기 위해서는 모델 개발의 두 가지 주요 접근 방식을 비교하는 것이 필수적이다.

Table 1: 자체 훈련 vs. 모델 증류(Model Distillation)

기능 자체 기반 훈련 (Native Foundation Training) 모델 증류 (Model Distillation) (혐의 내용)
주요 입력 원시 데이터셋 (웹, 도서, 코드) 우수한 "교사" 모델의 출력값
컴퓨팅 비용 매우 높음 (수천 개의 GPU) 낮음에서 중간 수준 (최적화 중심)
개발 시간 수개월에서 수년 수주에서 수개월
경제적 부담 수십억 달러의 R&D 및 하드웨어 최소한 (원래 비용의 일부)
결과 모델 독창적인 추론 능력 잠재적 결함이 있는 모방된 능력

"은폐된" 추출의 증거

이번 혐의는 단순한 이용 약관 위반을 넘어선다. OpenAI는 DeepSeek 직원들과 연계된 특정 적대적 행동 패턴을 감지했다고 주장한다. 메모는 이들이 질의의 출처를 숨기기 위해 위장된 제3자 네트워크를 활용하여 OpenAI의 지리적 및 용량 기반 차단을 회피한 방법을 개략적으로 설명한다.

메모에는 "DeepSeek 직원과 관련된 계정들이 액세스 제한을 우회하는 방법을 사용하는 것을 관찰했다"라고 명시되어 있다. OpenAI는 이러한 활동을 미국 연구소들의 기술적 돌파구에 "무임승차"하려는 시도로 규정한다. 이는 흔히 공학적 경이로움으로 칭송받던 DeepSeek의 높은 효율성이 전적으로 아키텍처 혁신 덕분이 아니라, 이러한 무단 지능 전수에 부분적으로 기인했을 수 있다는 암시를 담고 있다.

국가 안보 및 안전 가드레일

상업적 영향 외에도 OpenAI는 국가 안보(National Security)에 대한 경고를 보냈다. 회사는 모델 기능이 증류를 통해 복제될 때, 원래 모델에 내장된 안전 정렬(Safety Alignment) 및 윤리적 가드레일이 유실되거나 폐기되는 경우가 많다고 의원들에게 경고했다.

DeepSeek의 모델은 대만 문제나 1989년 천안문 사태와 같은 주제를 검열하는 등 엄격한 중국 인터넷 규정을 준수하는 것으로 알려져 있다. 그러나 OpenAI는 진짜 위험은 필터링되지 않은 것에 있다고 주장한다. 즉, 사이버 공격 코드를 생성하거나 생물학적 작용제를 설계하는 원천적인 능력이다.

OpenAI는 "증류를 통해 기능이 복제될 때, 보호 장치는 종종 방치된다"라고 언급했다. 이는 증류된 모델이 미국 최첨단 모델의 위험한 기능은 보유하면서도, 생물학이나 화학과 같은 고위험 분야에서의 오용을 방지하기 위해 설계된 "거부" 메커니즘은 결여된 시나리오를 만든다.

서구 연구소에 대한 경제적 위협

DeepSeek의 부상은 이미 주식 시장에 충격파를 던지며 미국 칩 제조사 및 AI 기업들의 기업 가치에 영향을 미쳤다. 고성능 모델을 무료 또는 현저히 낮은 API 비용으로 제공함으로써, DeepSeek는 수십억 달러 규모의 인프라 프로젝트 자금을 구독 수익에 의존하는 OpenAI, Anthropic, Google과 같은 기업의 비즈니스 모델에 도전하고 있다.

만약 모델 증류가 경쟁사들이 따라잡기 위한 표준적인 경로가 된다면, 고비용의 "첨단" 연구에 자금을 지원하려는 민간 자본의 유인이 감소할 수 있다. OpenAI의 의회 호소는 이를 단순한 서비스 약관 위반이 아니라, 입법 또는 규제적 개입이 필요한 미국 혁신 생태계에 대한 시스템적 위협으로 보고 있음을 시사한다.

업계 반응 및 향후 전망

이러한 고발은 기술 커뮤니티 내에서 치열한 논쟁을 불러일으켰다. 오픈 소스 AI 지지자들은 모델 출력을 분석하는 것은 표준적인 관행이며 "최고로부터 배우는 것"이 과학적 발전의 근본적인 동력이라고 주장한다. 그러나 비판론자들은 자동화된 대규모 추출이 거의 모든 상업용 AI 제공업체의 계약상 서비스 약관을 위반한다고 지적한다.

DeepSeek는 이러한 구체적인 주장에 대해 아직 상세한 공개 반박을 내놓지 않았으나, 이전에 자사의 성공을 추론 최적화를 위해 특별히 설계된 효율적인 코딩과 새로운 아키텍처 덕분이라고 밝힌 바 있다.

미국 하원 특별위원회가 이러한 혐의를 검토함에 따라, 업계는 잠재적인 정책 변화를 예상하고 있다. 이는 AI API 액세스에 대한 엄격한 "고객 알기 제도(KYC)" 요구 사항부터 모델 가중치 및 추론 경로의 디지털 수출을 방지하기 위한 새로운 무역 제한에 이르기까지 다양할 수 있다.

Creati.ai의 입장에서 이 전개되는 이야기는 생성식 AI(Generative AI) 시대에 지식 재산권(Intellectual Property) 보호의 중대한 중요성을 강조한다. 모델의 능력이 더욱 향상됨에 따라 영감과 절도 사이의 경계는 글로벌 기술 경쟁의 새로운 전선이 되고 있다.

추천