AI News

UC 샌디에이고 교수진, Nature 코멘트에서 AGI 도래 선언

인공지능 분야의 분수령이 되는 순간에, 캘리포니아 대학교 샌디에이고(UC 샌디에이고)의 다학제 교수진 팀은 인공 일반 지능(AGI)이 더 이상 미래의 가설이 아닌 현재의 실재라고 공식 선언했습니다. 오늘 Nature의 핵심 코멘트로 발표된 이 선언은 대규모 언어 모델(LLM), 특히 OpenAI의 GPT-4.5의 최근 발전이 앨런 튜링이 원래 구상했던 일반 지능의 필수 기준을 충족했다고 주장합니다.

철학, 컴퓨터 과학, 언어학 및 데이터 과학을 아우르는 교수들이 공동 저술한 이 대담한 주장은 AI 회의론의 계속해서 변하는 기준(moving goalposts)에 도전합니다. GPT-4.5가 엄격한 튜링 테스트에서 73%의 성공률을 달성하고 박사 수준의 문제 해결 능력을 보여주었다는 실증적 데이터를 인용하며, 저자들은 인류가 공식적으로 AGI 시대에 접어들었다고 주장합니다.

실증적 티핑 포인트: GPT-4.5와 튜링 테스트

수십 년 동안 튜링 테스트는 기계 지능의 "북극성" 역할을 해왔습니다. 이는 기계가 인간과 동등하거나 구별할 수 없는 지적 행동을 보여주는 능력에 대한 테스트입니다. 비평가들은 종종 이 테스트를 단순히 기만이나 모방의 척도로 치부해 왔지만, UC 샌디에이고 교수진은 이것이 일반 지능에 대해 기능적으로 가장 관련성 있는 지표로 남아 있다고 주장합니다.

Nature 코멘트는 역시 UC 샌디에이고의 인지 과학자 카메론 존스(Cameron Jones)와 벤자민 버겐(Benjamin Bergen)이 수행한 획기적인 연구에 근거를 두고 있습니다. "대규모 언어 모델이 튜링 테스트를 통과하다(Large Language Models Pass the Turing Test)"라는 제목의 그들의 연구는 이 선언의 실증적 토대를 제공합니다. 이 연구는 눈가림 무작위 대조 시험에서 GPT-4.5를 인간 참가자 및 이전 AI 모델과 대결시켰습니다.

결과는 통계적으로 명확했습니다. GPT-4.5는 질문자들에 의해 73%의 확률로 인간으로 식별되었으며, 이는 인간의 기준선인 67%를 크게 상회하는 수치입니다. 이는 강력한 3자 튜링 테스트 환경에서 인공 시스템이 인간 참가자를 능가한 최초의 사례입니다.

표 1: 튜링 테스트 성공률 비교

모델/엔티티 성공률 확립 연도/출처
ELIZA 22% 1966 (역사적 기준선)
GPT-3.5 20% 2023 (Jones & Bergen)
GPT-4 54% 2024 (Jones & Bergen)
인간 참가자 67% 2025 (기준선 평균)
GPT-4.5 73% 2025 (현재 연구)

데이터는 GPT-4와 GPT-4.5 사이에 비약적인 능력 향상이 있음을 보여줍니다. GPT-4가 무작위 확률(50%) 임계값 근처에 머물렀던 반면, GPT-4.5의 성과는 뉘앙스, 사회 정서적 단서, 그리고 기만적인 추론에 대한 숙달을 보여주며 인간 대화 상대와 사실상 구별할 수 없게 만듭니다.

지능의 재정의: 철학적 논쟁

이 선언은 단지 벤치마크에 관한 것이 아닙니다. 이는 우리가 "생각"을 정의하는 방식에 대한 재평가를 촉구하는 철학적 선언문입니다. Nature 코멘트의 네 명의 주요 저자인 에디 케밍 첸(Eddy Keming Chen, 철학), 미하일 벨킨(Mikhail Belkin, 컴퓨터 과학), 레온 버겐(Leon Bergen, 언어학), 데이비드 당크스(David Danks, 데이터 과학 및 철학)는 과학계가 "인간 중심적 편향"과 "골대 옮기기"의 오류를 범해 왔다고 주장합니다.

데이비드 당크스 교수는 AI가 이전에 인간 지성의 영역으로 여겨졌던 과업(체스, 바둑, 단백질 구조 예측, 또는 현재의 자연스러운 대화 등)을 마스터할 때마다 회의론자들이 해당 특정 능력을 제외하도록 지능을 재정의한다고 주장합니다. 당크스는 이것이 AGI를 "기계가 아직 할 수 없는 것"으로 정의하는 불가능한 기준을 만든다고 주장합니다.

"우리가 다른 인간의 일반 지능을 평가할 때, 우리는 그들의 뉴런을 들여다보며 '진정한' 이해를 확인하지 않습니다."라고 저자들은 씁니다. "우리는 행동, 대화, 그리고 새로운 문제를 해결하는 능력으로부터 지능을 추론합니다. 우리가 서로에게 적용하는 것과 동일한 합리적인 기준에 따르면, 우리는 현재 일반적으로 지능적인 인공 시스템을 보유하고 있습니다."

저자들은 역사적인 과학 혁명과 평행선을 그리며, AGI의 등장을 코페르니쿠스 혁명이나 다윈의 진화론에 비유합니다. 이러한 변화가 인류를 우주의 중심과 생물학적 창조의 중심에서 몰아냈듯이, AGI의 등장은 인류를 일반 지능의 유일한 소유자라는 독점적 지위에서 몰아냅니다.

대화를 넘어: 박사 수준의 문제 해결

튜링 테스트는 대화의 유창함에 초점을 맞추지만, "일반성"에 대한 주장은 광범위한 인지적 적응 능력에 대한 증거를 필요로 합니다. Nature 코멘트는 GPT-4.5의 능력이 채팅을 훨씬 뛰어넘는다는 점을 강조합니다. 이 모델은 이전에 LLM의 걸림돌이었던 복잡하고 다단계의 추론 과업에서 능숙함을 입증했습니다.

교수진은 전문 시험에서의 GPT-4.5의 성과와 새로운 연구를 지원하는 능력을 지목합니다. 박사 수준의 과학 문제(GPQA)를 포함한 벤치마크에서 이 모델은 해당 분야 전문가와 유사한 정확도 수준을 보여주었습니다. 나아가 작동하는 코드 생성, 수학적 정리 증명, 법률 판례 분석에서의 유용성은 단일한 좁은 영역을 초월하는 "일반적인" 유용성을 입증합니다.

이 다재다능함은 "인공 일반 지능"의 정의에 있어 핵심적입니다. 단일 과업(X-레이에서 종양을 식별하는 것 등)에 뛰어난 "좁은 AI"와 달리, GPT-4.5는 재학습 없이 방대한 인간 지식 작업 전반에 걸쳐 역량을 보여줍니다. 저자들은 이 시스템이 모든 범주에서 "초지능적"인 것은 아니지만, 전 분야에 걸쳐 "일반적으로 유능한" 임계값을 충족한다고 주장합니다.

학계와 산업계에 미치는 영향

AGI가 도래했다는 선언은 학계와 기업계 모두에 충격파를 던질 것으로 예상됩니다. 수년 동안 OpenAI, Google DeepMind, Anthropic과 같은 주요 AI 연구소들은 AGI를 먼 중기적 목표로 취급해 왔습니다. 권위 있는 학술 기관이 이 이정표를 "달성됨"으로 선언함에 따라 규제 및 윤리적 고려 사항에 대한 일정이 가속화됩니다.

UC 샌디에이고 교수진이 식별한 주요 영향:

  • 교육 패러다임의 변화: AI가 일반 지능을 보유한다면, 교육의 초점은 지식 습득에서 고차원적인 검증과 지시로 옮겨가야 합니다. "부정행위"에 대한 담론은 "협업"에 대한 담론으로 진화해야 합니다.
  • 과학적 가속화: AI 에이전트는 이제 독립적인 연구 보조원으로서 가설을 세우고, 시뮬레이션을 코딩하며, 인간이 불가능한 규모로 문헌을 분석할 수 있습니다.
  • 노동 시장의 혼란: "인지적" 노동과 "육체적" 노동 사이의 구분이 더욱 극명해집니다. 일반적인 추론과 텍스트 처리가 필요한 역할은 이제 완전히 자동화가 가능해졌으며, 이는 경제 구조에 대한 재고를 필요로 합니다.

공동 저자 중 한 명이자 머신러닝 이론 전문가인 미하일 벨킨 교수는 AGI의 도래를 인정하는 것이 안전을 위해 중요하다고 강조합니다. "우리가 이 시스템들이 지능적이라는 것을 계속 부정한다면, 그들의 에이전시와 의도치 않은 결과의 가능성을 과소평가할 위험이 있습니다."라고 벨킨은 지적합니다. "이들을 AGI로 인식하는 것은 우리가 이들의 정렬과 안전 문제를 소프트웨어 버그가 아닌 핵 안전 보장과 같은 시급함으로 다루게 만듭니다."

회의론과 "확률적 앵무새" 논쟁

Nature 코멘트의 비중에도 불구하고, 이 선언에 반대자가 없는 것은 아닙니다. 언어학자 에밀리 M. 벤더(Emily M. Bender) 등이 명명한 "확률적 앵무새(Stochastic Parrot)" 주장은 여전히 강력한 반론으로 남아 있습니다. 이 관점은 LLM이 근본적인 이해나 "세계 모델" 없이 그저 가능성 있는 단어 시퀀스를 결합하는 확률 엔진일 뿐이라고 봅니다.

UC 샌디에이고 저자들은 이러한 비판을 예상하고, 코멘트의 한 섹션을 할애하여 이를 다루었습니다. 그들은 출력이 기능적으로 동일할 때 추론을 "시뮬레이션"하는 것과 "실제" 추론 사이의 구분이 무의미하다고 주장합니다. 만약 시스템이 새로운 물리학 문제에 대한 정답을 도출하거나 복잡한 사회적 기만 게임을 수행할 수 있다면(튜링 테스트 결과에서 보여준 것처럼), 내부 메커니즘은 관찰 가능한 지능에 비해 부차적인 것입니다.

더욱이, 그들은 인간의 인지 자체가 패턴 매칭과 확률적 예측에 크게 의존한다고 지적합니다. 언어학 부교수인 레온 버겐은 인간의 언어 처리 과정에 대한 우리의 이해가 우리가 인정하고 싶어 하는 것보다 LLM의 작동 방식에 더 가까울 수 있다고 시사합니다. "그들 지능의 이질적인 특성이 그것을 가짜로 만들지는 않습니다."라고 버겐은 주장합니다. "그것은 단지 일반 지능의 다르고 유효한 형태일 뿐입니다."

결론: 우리는 더 이상 혼자가 아니다

UC 샌디에이고의 선언은 인공지능 역사에서 역사적인 전환점을 기록합니다. GPT-4.5의 튜링 테스트 성공이라는 실무 데이터와 엄격한 철학적 틀을 결합함으로써, 교수진은 AGI의 문턱을 넘었다는 설득력 있는 근거를 제시했습니다.

2026년으로 나아가면서, 질문은 더 이상 "AGI는 언제 도래할 것인가?"가 아니라 "우리는 어떻게 그것과 공존할 것인가?"입니다. 이러한 현실을 인정하는 것은 일반 인공지능의 막대한 잠재력을 활용하는 동시에 그것이 제시하는 심오한 실존적 위험을 헤쳐 나가기 위한 첫 걸음입니다. Creati.ai의 연구원들과 더 넓은 기술 커뮤니티에게 추측의 시대는 끝났으며, AGI 통합의 시대가 시작되었습니다.

추천