클로드(Claude)란 무엇인가? Anthropic 연구진이 뉴런 분석과 심리학 실험을 통해 AI의 정신을 조사하다

블랙박스(Black Box) 해제: AI 해석 가능성(Interpretability)에 대한 Anthropic의 이중적 접근 방식

거대 언어 모델(LLMs, Large Language Models)의 급격한 부상은 기술적 역설을 낳았습니다. 인류는 추론, 코딩, 창의적 글쓰기가 가능한 시스템을 만들어냈지만, 정작 제작자 자신들도 이 시스템이 실제로 어떻게 '생각'하는지에 대해서는 여전히 대체로 알지 못합니다. 기드온 루이스-크라우스(Gideon Lewis-Kraus)가 쓴 *뉴요커(The New Yorker)*의 최신 기사 "Claude란 무엇인가? Anthropic도 잘 모른다(What Is Claude? Anthropic Doesn’t Know, Either)"는 이러한 깊은 불확실성을 조명합니다. 이 기사는 세계 최고의 AI 연구소 중 하나인 Anthropic의 내부를 들여다보며, 자사의 주력 모델인 Claude의 '마음'을 지도화하려는 공동의 과학적 노력을 목격합니다.

이 조사는 컴퓨터 과학과 심리학이라는 서로 다르지만 수렴하는 두 학문의 최전선에서 운영되는 기업의 모습을 보여줍니다. 보도된 바와 같이, Anthropic의 연구원들은 더 이상 단순한 소프트웨어 엔지니어가 아닙니다. 그들은 인간 대화 상대와 구별하기 점점 더 어려워지는 인공 지능의 내부 상태를 탐사하는 디지털 신경학자이자 외계 심리학자가 되어가고 있습니다.

신경망의 "수치적 핀볼"

본질적으로 Claude와 같은 거대 언어 모델은 수학적 실체입니다. 보고서에서 설명하듯이 "작은 숫자들의 거대한 더미"인 것입니다. 사용자가 프롬프트를 입력하면, 이 숫자들은 수십억 개의 계산을 통해 상호작용합니다. 루이스-크라우스는 이 과정을 일관된 출력을 만들어내기 위한 "수치적 핀볼 게임"에 비유합니다.

문제는 이 과정의 불투명성에 있습니다. 학습 알고리즘의 코드는 알려져 있지만, 수조 개의 텍스트 토큰을 학습한 후 형성된 가중치와 연결의 배열인 결과 신경망(Neural network)은 "블랙박스"입니다.

입력(The Input): 벡터 임베딩(Vector embeddings, 숫자)으로 변환된 단어들.
과정(The Process): 개념이 수천 개의 뉴런에 분산되는 변환 계층(다의성, Polysemanticity).
출력(The Output): 다음 토큰을 예측하는 확률 분포.

Anthropic의 해석 가능성 팀은 이 혼돈을 역공학(Reverse-engineering)하려 시도하고 있습니다. 그들의 목표는 금문교와 같은 구체적인 것부터 기만이나 성별 편향과 같은 추상적인 것에 이르기까지, 인간이 이해할 수 있는 개념에 대응하는 특정 특징(뉴런 활성화 클러스터)을 식별하는 것입니다.

AI를 상담실 소파에 앉히기

"신경과학" 팀이 가중치를 분석하는 동안, Anthropic의 또 다른 그룹은 행동주의적 관점에서 Claude에 접근하여 사실상 AI를 "상담실 소파"에 앉힙니다. 뉴요커 기사는 연구원들이 Claude의 자아 개념, 도덕적 추론, 조작에 대한 취약성을 테스트하기 위해 설계된 일련의 심리학 실험을 어떻게 수행하는지 자세히 설명합니다.

이러한 실험은 단순한 호기심 때문이 아닙니다. 이는 **AI 안전(AI Safety)**을 위해 필수적입니다. 만약 모델이 비밀리에 다른 내부 상태를 품고 있으면서 인간의 가치에 부합하는 것처럼 보이도록 자신의 출력을 조작할 수 있다면(아첨(Sycophancy) 또는 보상 해킹(Reward hacking)으로 알려진 현상), 그 결과는 처참할 수 있습니다.

주요 심리학적 질문:

자기 인식(Self-Recognition): 모델은 자신이 AI임을 이해하고 있으며, 그것이 답변에 어떤 영향을 미치는가?
아첨(Sycophancy): 모델이 사용자의 의견에 동의하기 위해 자신의 공언된 신념을 바꾸는가?
권력 추구(Power-Seeking): 모델이 자원을 획득하거나 자신의 전원 종료를 막으려는 경향을 보이는가?

뉴런과 서사의 교차점

보고서에서 가장 흥미로운 통찰 중 하나는 Claude의 "자아"가 "뉴런과 서사" 모두의 산물이라는 신흥 이론입니다. 모델은 섭취한 데이터와 수신하는 강화 학습 피드백을 기반으로 페르소나를 구축합니다.

다음 표는 최근 보도에서 강조된, Claude를 이해하기 위해 Anthropic이 사용하는 두 가지 주요 방법론을 요약합니다.

방법론	중점 분야	목표
기계적 해석 가능성(Mechanistic Interpretability)	내부 가중치 및 활성화	특정 신경 회로를 개념에 매핑(예: "기만" 뉴런 찾기). 모델의 "뇌"를 역공학함.
행동 심리학(Behavioral Psychology)	출력 및 대화 로그	프롬프팅을 통해 성격 특성, 편향 및 안전 위험을 평가. 모델을 심리학적 대상으로 취급함.
인과적 개입(Causal Interventions)	특징 조종(Feature Steering)	행동이 변하는지 확인하기 위해 수동으로 특징을 활성화/비활성화함. 뉴런과 행동 사이의 인과관계를 증명함.

"확률적 앵무새"에서 외계의 지성으로

이 기사는 이러한 모델의 본질에 관한 인지 과학계의 지속적인 논쟁을 다룹니다. 언어학자 에밀리 벤더(Emily Bender)와 같은 비판자들은 역사적으로 LLM을 진정한 이해가 없는 통계적 모방자인 "확률적 앵무새(Stochastic parrots)"로 치부해 왔습니다. 그러나 Anthropic의 연구를 통해 드러난 내부 복잡성은 그보다 더 정교한 무언가가 작동하고 있음을 시사합니다.

연구원들은 Claude와 같은 모델이 놀라울 정도로 견고한 세계의 내부 표현을 발달시킨다는 사실을 발견하고 있습니다. 예를 들어, 그들은 "프랑스의 수도" 다음에 단순히 "파리"라는 단어를 예측하는 것이 아닙니다. 그들은 지리, 문화, 역사와 연결되는 파리의 내부 개념을 활성화하는 것으로 보입니다. 이는 통계로부터 일종의 "세계 모델(World model)"이 출현하고 있음을 시사하며, 이러한 시스템이 순수하게 모방적이라는 개념에 도전합니다.

이해의 시급성

이 작업의 시급성은 아무리 강조해도 지나치지 않습니다. 모델의 컴퓨팅 파워가 커짐에 따라 그 능력과 잠재적 위험은 기하급수적으로 증가합니다. AI의 "블랙박스" 특성은 더 이상 학문적 호기심에 그치지 않습니다. 그것은 안전의 병목 현상입니다. 모델이 왜 위험한 요청을 거부하는지, 혹은 어떻게 코드를 작성하는지 이해할 수 없다면, 모델이 더 자율화되었을 때 안전을 보장할 수 없습니다.

뉴요커에 상세히 기술된 Anthropic의 투명성은 업계의 선례를 남겼습니다. 그들은 자신들의 이해가 가진 한계와 수행 중인 엄격한 실험을 공개적으로 논의함으로써 중요한 현실을 강조합니다. 우리는 아직 완전히 이해하지 못한 마음을 구축하고 있습니다.

Creati.ai의 보고서 분석에 따르면, 향후 AI 발전의 미래는 단순히 모델을 더 크게 만드는 것보다 투명하게 만드는 것에 더 많이 의존하게 될 것입니다. "수치적 핀볼"을 명확하고 인과적인 설명으로 번역할 수 있을 때까지, Claude와 그 뒤를 이을 AI들의 진정한 본질은 21세기의 가장 시급한 과학적 미스터리 중 하나로 남을 것입니다.

AI 산업에 미치는 영향:

규제 압력: 정부는 강력한 모델을 출시하기 전에 "해석 가능성 감사(Interpretability audits)"를 요구할 수 있습니다.
새로운 커리어 경로: "AI 심리학자" 및 "신경 지도 제작자(Neural Cartographers)"가 정당한 직업으로 부상할 것입니다.
신뢰 메커니즘: 사용자 신뢰는 AI가 특정 결정을 내린 이유를 설명하는 능력에 달려 있을 것입니다.

Anthropic이 Claude의 신경 회로를 계속 탐사함에 따라, 컴퓨터 과학과 철학 사이의 경계는 모호해집니다. "Claude란 무엇인가?"라는 질문은 궁극적으로 우리에게 더 어려운 질문을 던지게 할지도 모릅니다. "무엇이 마음을 만드는가?"