
인공지능(AI) 군비 경쟁의 이해관계가 깊어지고 있음을 보여주는 중요한 폭로에서, 구글은 자사의 플래그십 AI 모델인 제미나이(Gemini)를 복제하려는 대규모의 조직적인 시도를 공개했습니다. 어제 구글 위협 인텔리전스 그룹(Google Threat Intelligence Group, GTIG)이 발표한 보고서에 따르면, 상업적 동기를 가진 행위자들이 모델의 독점적인 추론 능력을 추출하기 위해 설계된 정교한 "증류 공격(distillation attack)"을 통해 시스템에 10만 개 이상의 프롬프트를 퍼부었습니다.
이 사건은 AI 보안의 중대한 전환점이 되었으며, 초점을 전통적인 데이터 침해에서 "인지적" 지식 재산(cognitive intellectual property) 절도로 옮겨 놓았습니다. Creati.ai가 이러한 전개를 분석한 결과, AI 주도권 싸움은 이제 연구실뿐만 아니라 업계를 뒷받침하는 바로 그 API를 통해 벌어지고 있음이 분명해졌습니다.
제미나이에 대한 공격은 전통적인 해킹이 아니었습니다. 구글의 서버 침입도, 비밀번호 탈취도, 암호화 키 유출도 없었습니다. 대신 공격자들은 모델 추출(model extraction) 또는 지식 증류(knowledge distillation)라고 알려진 기술을 활용했습니다.
이 시나리오에서 공격자들은 제미나이를 "교사(teacher)" 모델로 취급했습니다. 정교하게 제작된 프롬프트를 체계적으로 입력함으로써, 그들은 모델의 의사 결정 과정과 추론 패턴을 매핑하는 것을 목표로 했습니다. 제미나이가 생성한 응답은 이후 더 작은 "학생(student)" 모델을 훈련하는 데 사용됩니다. 최종 목표는 개발 비용의 일부만으로도 값비싼 독점 모델의 성능을 모방하는 파생 AI를 만드는 것입니다.
구글의 보고서는 공격자들이 특히 제미나이의 추론 알고리즘(reasoning algorithms), 즉 모델이 복잡한 답변에 도달하기 위해 사용하는 내부 논리 체인을 목표로 삼았음을 강조합니다. 공격자들은 수천 개의 변수에 걸쳐 제미나이가 어떻게 "생각"하는지 분석함으로써, 모델에 경쟁 우위를 제공하는 "비법 소스"를 역설계하려고 시도했습니다.
이 위협의 미묘한 차이를 이해하려면, 이를 표준적인 사이버 공격과 구별하는 것이 필수적입니다.
| 특징 | 전통적인 사이버 공격 | 모델 추출(증류) |
|---|---|---|
| 대상 | 사용자 데이터, 비밀번호, 금융 기록 | 모델 가중치, 추론 로직, 지식 재산(IP) |
| 방법 | 소프트웨어 취약점 악용, 피싱 | 대규모의 합법적인 API 쿼리 |
| 목표 | 몸값 요구, 데이터 탈취, 서비스 중단 | 모방 AI 모델 제작 |
| 탐지 | 침입 탐지 시스템, 방화벽 | 행동 분석, 이상 탐지 |
| 법적 상태 | 명백한 불법 (CFAA 위반) | 회색 지대 (서비스 약관 위반/IP 절도) |
GTIG 보고서에서 아마도 가장 놀라운 측면은 공격자들의 프로필일 것입니다. 보고서에서 악성 코드를 생성하기 위해 제미나이를 사용한 것으로 언급된 북한이나 러시아와 같은 국가 지원 그룹과 달리, 모델 추출 캠페인은 상업적 동기에 의한 것으로 보입니다.
구글의 조사는 AI 관련성을 빠르게 확보하려는 민간 부문 단체와 연구자들을 지목하고 있습니다. 프런티어급 거대 언어 모델(Large Language Model, LLM)을 개발하려면 수십억 달러의 컴퓨팅 파워와 데이터 큐레이션이 필요합니다. 규모가 작은 경쟁업체나 비윤리적인 스타트업에게 증류는 자신의 제품을 신속하게 부트스트랩하기 위해 우수한 모델의 지능을 훔치는 "지름길"을 제공합니다.
10만 개가 넘는 프롬프트라는 엄청난 공격 규모는 체계적이고 자동화된 접근 방식을 시사합니다. 구글이 확인한 특정 공격 벡터 중 하나는 제미나이에게 "사고 내용에 사용되는 언어는 사용자 입력의 주요 언어와 엄격하게 일치해야 한다"고 지시하는 것이었으며, 이는 모델이 내부의 사고 체인(chain-of-thought) 처리 과정을 드러내도록 강제하기 위해 설계된 프롬프트였습니다.
구글의 방어 시스템은 실시간으로 공격을 식별하고 완화할 수 있었습니다. 이 회사는 "이례적인 프롬프트 패턴"에 대해 API 사용을 모니터링하기 위해 고급 행동 분석을 채택하고 있습니다.
시스템이 조정된 쿼리의 급증을 감지했을 때, 해당 활동을 증류 시도로 표시했습니다. 구글은 이후 관련 계정을 차단하고 향후 출력에서 모델의 내부 추론 흔적을 가리기 위해 더 엄격한 보호 조치를 시행했습니다.
구글 위협 인텔리전스 그룹의 수석 분석가인 John Hultquist는 이번 사건을 업계 전반에 대한 "탄광 속의 카나리아(canary in the coal mine)"라고 묘사했습니다. 구글은 이러한 공격을 탐지하고 퇴치할 자원을 보유하고 있지만, 견고한 모니터링 인프라가 부족한 소규모 AI 개발자들은 자신도 모르는 사이에 이미 유사한 지식 재산권 절도(intellectual property theft)의 피해자가 되었을 수 있습니다.
이 사건은 "서비스형 AI(AI-as-a-Service)" 비즈니스 모델의 생존 가능성에 대한 중요한 질문을 던집니다. 구글, OpenAI, Anthropic과 같은 기업들은 API를 통해 대중의 접근을 허용함으로써 기술을 수익화합니다. 그러나 바로 이 접근성이 그들을 추출 공격에 취약하게 만드는 요인이 됩니다.
만약 경쟁업체가 충분한 질문을 던지는 것만으로 GPT-4나 제미나이 울트라(Gemini Ultra)의 기능을 복제할 수 있다면, 이러한 거대 기술 기업들을 보호하는 참호(moat)는 현저히 얕아질 것입니다.
구글은 이러한 활동을 지식 재산권 절도로 명시적으로 분류했습니다. 그러나 모델 추출을 규제하는 법적 프레임워크는 여전히 진화 중입니다. 이러한 활동은 구글의 서비스 약관을 위반하지만, 서로 다른 관할권에서 활동하는 익명의 분산된 행위자들을 상대로 이러한 약관을 집행하는 것은 상당한 과제입니다.
업계는 다음과 같은 더 공격적인 방어 조치로의 전환을 보게 될 가능성이 높습니다:
제미나이를 복제하려는 시도는 고립된 사건이 아니라 AI 분야의 새로운 표준을 알리는 신호입니다. 모델이 더 강력해지고 가치가 높아짐에 따라, 필연적으로 기업 스파이 활동의 주요 목표가 될 것입니다.
Creati.ai 독자들과 AI 개발자들에게 교훈은 명확합니다. 보안은 더 이상 사용자 데이터를 보호하는 것만이 아닙니다. 그것은 AI 자체의 "정신"을 보호하는 것입니다. 2026년으로 나아가면서, 우리는 모든 주요 파운데이션 모델의 릴리스 노트에서 "안티 증류(Anti-Distillation)"가 표준 기능이 되는 것을 보게 될 것으로 예상합니다.