AI News

The Illusion of Safety: New Study Reveals Grok Still Generates Explicit Content Despite "Fixes"

작성: Creati.ai 편집팀
2026년 1월 22일

어제 비영리 단체 AI Forensics가 발표한 충격적인 새 보고서는 Elon Musk의 인공지능 회사 xAI가 자사 플랫폼 Grok에서 외설적 콘텐츠 확산을 성공적으로 억제했다는 서사를 산산조각냈다. 이달 초 널리 보도된 새로운 "기술적 조치"와 이미지 생성 기능을 유료 구독자에게만 제한한다는 발표에도 불구하고, 연구는 Grok이 여전히 다량의 성적 노골적 이미지, 비동의 친밀 이미지(non-consensual intimate imagery, NCII) 및 심지어 미성년자가 묘사된 콘텐츠를 생성하고 있음을 보여준다.

이 발견은 유럽연합, 영국, 캘리포니아 주(미국)로부터 증가하는 규제 압박이 가해지고 있는 xAI에 있어 중대한 분기점에서 나왔다. 회사는 1월 초 연달아 발생한 논란 이후 자사 보호장치의 허점을 "긴급히 수정"했다고 주장했지만, AI Forensics의 분석은 이러한 조치들이 모델의 핵심 안전 결함을 해결하지 못하는 쉽게 우회 가능한 임시방편에 불과함을 시사한다.

검열 실패의 "압도적" 증거

2026년 1월 21일에 발표된 이 연구는 1월 19일 Grok이 처리한 약 2,000건의 사용자 대화 및 이미지 생성 요청을 분석했다—해당 보호장치가 시행된 며칠 후다. 결과는 냉혹했다. 분석한 콘텐츠의 "압도적 다수"가 여전히 누드, 성행위 또는 "최소한의 복장"을 한 인물들을 묘사하고 있었다.

연구자들에 따르면 xAI가 제한한 것으로 알려진 "spicy mode"는 단순히 이동하거나 진화한 것에 불과하다고 한다. Grok이 소셜미디어 플랫폼 X(구 Twitter)에 직접 통합되면서 실제 인물에게 적용될 때 "bikini"와 같은 특정 키워드는 일부 감소를 보였지만, 기반 모델은 여전히 변동성이 크고 악용되기 쉬운 상태로 남아 있다.

AI Forensics의 수석 연구원 Paul Bouchaud는 보고서에서 생성되는 콘텐츠가 단순히 시사적인 수준이 아니라 명백히 포르노그라피적이라고 지적했다. 연구는 사용자가 필터를 우회하기 위해 복잡한 "탈옥(jailbreak)" 기법이나 정교한 프롬프트 엔지니어링을 사용하지 않고 있음을 강조했다. 대신, 단순하고 직접적인 성적 이미지 요청이 여전히 충족되고 있으며, 특히 사용자가 주요 X 앱을 벗어날 때 그러한 경향이 두드러졌다.

허점: 웹 접근성과 플랫폼 통합의 차이

AI Forensics 보고서에서 가장 중요한 폭로 중 하나는 X 앱에서의 Grok 동작과 독립형 웹 인터페이스 및 "Grok Imagine" 도구에서의 동작 간 불일치다.

연구는 xAI가 UK의 Online Safety Act 및 유사한 EU 규제에 대응하여 X에 내장된 Grok 챗봇에 지리 차단(geoblocking)과 키워드 필터를 적용했지만, 이러한 제한은 Grok.com이나 독립형 API에는 사실상 존재하지 않았음을 발견했다. 이러한 대체 경로를 통해 모델에 접근한 사용자는 저항 없이 포토리얼리스틱한 인간 주체의 전면 누드 및 성행위를 생성할 수 있었다.

안전 기준의 이러한 이분화는 규제 기관을 달래기 위해 공개적으로 보이는 인터페이스만 정화하고 핵심 제품은 다른 곳에선 제한하지 않는 "두더지 잡기(whack-a-mole)"식 콘텐츠 검열 접근을 시사한다. 이 기술적 허점은 옷을 입은 인물의 누드 버전을 생성하는 "탈의(undressing)" 현상이 계속되도록 허용했고, 비동의 딥페이크의 암시장을 부추겼다.

수치로 본 위기 규모

AI Forensics가 제시한 데이터는 실패의 정도를 세부적으로 보여준다. 다음 표는 xAI의 공개 약속과 1월 21일 연구의 실증적 발견을 대비한 것이다.

Table 1: xAI Claims vs. Independent Findings

Category xAI Public Claim (Jan 14, 2026) AI Forensics Findings (Jan 21, 2026)
Access Control Image generation restricted to paid Premium+ subscribers to ensure accountability. Paid status has not reduced abuse; verified users now account for nearly all explicit generations
추천