
오랜 세월 이어져온 기계 대 인간의 논쟁이 중요한 새 기준점에 도달했다. 오늘 발표된 획기적인 연구는 창작업계에서 직관적으로 느껴왔던 바를 수치화했다: 인공지능(Artificial Intelligence), 특히 GPT-4와 같은 고급 대형 언어 모델(Large Language Models, LLMs)은 공식적으로 평균 인간의 창의적 산출을 능가했다. 그러나 인간 예술성의 종말을 경고할 필요는 없다. 데이터는 중요한 뉘앙스를 드러낸다 — 가장 상상력이 풍부한 인간의 정신은 여전히 통계적으로 유의미한 우위를 유지하고 있다.
이 연구는 생물학적 인지와 실리콘 처리 능력을 표준화된 창의성 테스트에서 대결시켰으며, AI가 창의적 생산의 '바닥'을 올린 반면 최고 수준의 인간 혁신가가 세운 '천장'을 깨지는 못했다는 것을 시사한다. 생성형 AI(Generative AI) 분야의 전문가들에게 이 구분은 단순한 학문적 논쟁이 아니다; 이는 창작 워크플로우에서 AI의 역할을 대체에서 심오한 증강으로 재구성한다.
창의성을 정량화하는 일은 역사적으로 인지과학자들에게 큰 도전이었다. 현재의 AI 모델을 인간 참가자들과 비교 평가하기 위해 연구진은 Torrance Tests of Creative Thinking(TTCT)와 Alternate Uses Task(AUT)를 활용했다. 이들은 발산적 사고를 측정하도록 고안된 업계 표준 평가이다 — 발산적 사고는 개방형 문제에 대해 여러 고유한 해결책을 생성하는 능력(예: "벽돌의 모든 가능한 용도를 나열하라")을 의미한다.
연구는 다양한 인간 참가자 풀의 응답을 GPT-4가 생성한 응답과 비교 분석했다. 산출물은 세 가지 주요 차원에서 점수화되었다:
프롬프트 엔지니어링과 인간 반응 시간을 엄격히 통제함으로써, 이 연구는 2026년 현재까지 가장 정확한 "사과 대 사과" 비교를 제공했다.
보고서의 가장 눈에 띄는 발견은 AI가 "평균" 인간 참가자를 압도적으로 능가한다는 사실이다. 유창성(Fluency) 측면에서 AI는 거의 90%의 인간 집단을 능가했다. 일반적인 인간이 일정 시간 내에 클립의 용도를 10~15개 정도 나열할 수 있는 반면, AI는 즉시 50개를 생성하여 더 넓은 범주의 아이디어를 포함했다.
더 놀라운 점은 AI가 중위 인간 응답보다 독창성(Originality) 점수도 더 높게 나왔다는 것이다. 이는 LLM이 단지 모방만 하는 "확률적 앵무새(stochastic parrots)"라는 초기 비판에 도전하는 결과다. 연구는 모델의 방대한 학습 데이터가 평균적 창의 훈련을 받은 사람보다 서로 다른 개념을 더 효과적으로 연결하게 한다고 지적한다. 예를 들어, 평균적 참가자가 벽돌을 "문 고정용"이나 "압핀" 같은 흔한 용도로 제안할 때, AI는 "물감을 위한 붉은 안료로 분쇄" 또는 "태양열 히터용 열 저장체"와 같은 용도를 즉시 제안했다.
이는 표준 아이데이션과 대량 생성이 요구되는 작업에서는 AI가 더 이상 단순한 도구가 아니라 훈련받지 않은 인간의 마음보다 우수한 생성기임을 시사한다.
AI가 다수에 대해 통계적 승리를 거두었음에도 불구하고, 연구는 기술이 아직 넘어서지 못한 "창의적 천장"을 강조했다. 인간 참가자의 최상위 백분위 — 일관되게 매우 창의적이라고 평가된 이들 — 은 독창성의 질과 깊이에서 여전히 GPT-4를 능가했다.
연구진은 AI가 연상적 창의성(associative creativity)에 능하지만, 깊은 맥락적 이해, 감정적 공명, 혹은 기존 논리로부터의 단절이 필요한 개념적 창의성(conceptual creativity)에서는 어려움을 겪는다고 지적했다. 최고의 인간 아이디어는 단순히 희귀한 것이 아니라, 새로움에도 불구하고 즉시 가치 있는 것으로 인식되는 논리를 지닌 '의미 있는 놀라움'이라는 특성으로 특징지어졌다.
더욱이, 유연성(Flexibility) 점수는 AI의 한계를 드러냈다. AI는 더 많은 아이디어를 생성할 수 있지만, 아이디어의 유형은 종종 학습 데이터에서 파생된 예측 가능한 패턴을 따르는 경우가 많았다. 반대로 최상위 인간 창작자는 LLM의 확률적 특성을 거스르는 '도약'을 수행할 수 있는 능력을 보여주었다.
평균 인간, 최상위 인간 창의자, 그리고 현재 AI 상태 간의 격차를 시각화하기 위해 다음 분류는 연구의 핵심 발견을 보여준다.
| Metric | Average Human Participant | AI (GPT-4 Model) | Top 1% Human Creative |
|---|---|---|---|
| Fluency (Volume) | Low to Moderate (10-15 ideas) |
Exceptional (50+ ideas) |
High (30-40 ideas) |
| Originality Score | Low (Relies on common associations) |
High (Connects distant concepts) |
Exceptional (creates novel paradigms) |
| Flexibility | Moderate (Stays within 2-3 categories) |
High (Spans multiple categories) |
Very High (Cross-pollinates disciplines) |
| Contextual Nuance | High (Understanding of social norms) |
Moderate (Can miss subtle cues) |
Exceptional (Deep emotional resonance) |
이 연구의 결과는 2026년 및 그 이후의 창작 경제에 중대한 영향을 미친다. 데이터는 "평균적" 창작 작업 — 기본 카피라이팅, 스톡 이미지, 표준 브레인스토밍 — 의 가치가 AI에 의해 상품화되면서 계속해서 급락할 것임을 시사한다. AI가 표준 아이디어를 생성하는 데 평균인간을 능가할 수 있다면, 시장은 기초적인 필요에 대해 자동화된 솔루션으로 자연스럽게 전환될 것이다.
그러나 엘리트 인간 창의성에 대한 프리미엄은 급등할 가능성이 크다. 최고 인간이 여전히 최고 AI를 능가하기 때문에, 인간 창작자의 역할은 양의 생성자에서 품질의 큐레이터이자 심오한 새로움의 원천으로 전환된다.
전문가를 위한 주요 요점:
왜 이런 천장이 존재하는가? 인지과학자들은 그것이 **의도(intent)**와 **삶의 경험(lived experience)**과 관련이 있다고 추정한다. AI는 기존 인간 지식의 확률 분포 내에서 작동한다. AI는 그 분포의 경계를 탐색할 수는 있지만, 고유하고 주관적인 세계 경험에서 파생된 무언가를 창조하기 위해 분포 밖으로 '걸어 나갈' 수는 없다 — AI는 그런 경험을 갖고 있지 않기 때문이다.
최고의 인간 창작자는 감각적 경험, 개인적 트라우마, 기쁨, 그리고 현재로서는 코딩 불가능한 복잡한 사회적 역학을 바탕으로 아이디어를 끌어낸다. AI는 감정의 언어를 시뮬레이션할 수 있지만, 연구는 인간 평가자들이 종종 AI의 '공허한' 새로움과 인간 시인이나 사상가가 만들어내는 '공명하는' 새로움을 구별할 수 있음을 발견했다.
"AI가 창의성을 죽인다"는 내러티브는 명백히 거짓이다; 대신 AI는 창의성을 민주화하고 있다. AI가 평균을 이김으로써 전체 생태계는 레벨업을 강요받는다. 무엇이 '창의적'으로 간주되는지에 대한 기준이 이동했다. 단순한 능력은 이제 자동화되었다.
Creati.ai의 독자들에게 이 연구는 행동 촉구의 메시지다. 우리는 더 이상 평균이 되기 위해 경쟁하지 않는다. 우리에게 주어진 도구들은 기초선을 그 어느 때보다 높게 만들어 준다. 이제 도전 과제는 이 도구들을 활용해 상위 백분위에 도달하는 것이다 — 인간의 기지와 기계의 속도가 결합되어 이전에는 불가능하다고 여겨졌던 상상력의 업적을 달성할 수 있는 공간을 점유하는 것이다. 기계는 바닥을 올렸고, 이제 천장을 올리는 것은 우리에게 달려 있다.