OpenAI, Cerebras와 100억 달러 규모 AI 칩 계약 체결로 Nvidia 의존도 다각화

OpenAI, $10 Billion 규모의 Cerebras 파트너십으로 새로운 지평을 열다

OpenAI는 AI 칩 제조사 Cerebras Systems와 공식적으로 획기적인 합의를 체결하여 2028년까지 약 $10 Billion을 투입해 750메가와트의 컴퓨팅 파워를 배치하기로 약속했습니다. 이 전략적 조치는 OpenAI가 거의 전적으로 Nvidia에 의존하던 관행에서 크게 이탈한 것으로, 차세대 인공지능(artificial intelligence)을 위한 하드웨어를 확보하기 위한 보다 폭넓은 다각화 전략을 시사합니다.

이 계약은 2026년 1월 중순에 최종 확정되었으며, 현재까지 비GPU AI 가속기 분야에서 이루어진 최대 규모의 조달 계약 중 하나를 의미합니다. Cerebras의 웨이퍼 스케일(wafer-scale) 기술을 통합함으로써 OpenAI는 고급 "reasoning" 모델의 배치에서 발생하는 중요한 병목 현상인 추론(inference) 지연(latency)을 해결하려고 합니다. Nvidia의 GPU는 여전히 대규모 기초 모델(foundation models) 학습(training)의 업계 표준으로 남아 있지만, Cerebras의 아키텍처는 점점 더 복잡해지는 AI 에이전트가 요구하는 실시간 처리에 대하여 고유한 이점을 제공합니다.

전략적 전환: 공급망 다변화

수년간 AI 업계는 H100 및 Blackwell 시리즈 칩을 중심으로 한 "Nvidia-우선" 패러다임으로 운영되어 왔습니다. 그러나 기하급수적으로 증가하는 컴퓨트 수요와 공급망 제약, 급등하는 비용은 OpenAI로 하여금 다중 벤더 생태계를 육성하도록 압박했습니다.

Cerebras와의 이번 합의는 단발적 사건이 아니라 계산된 삼자(三者) 하드웨어 전략의 일부입니다. 이는 OpenAI의 기존 로드맵을 보완하며, 여기에는 Nvidia의 대규모 10기가와트 인프라 약속과 AMD와의 6기가와트 배치 파트너십이 포함됩니다. 하드웨어 의존도를 분산함으로써 OpenAI는 공급 부족에 대한 위험을 회피하는 동시에, 각 벤더의 특정 아키텍처적 강점을 전문 워크로드에 맞춰 활용하고자 합니다.

계약 구조 해부

$10 Billion 약속은 "용량 대 지분(capacity-for-equity)" 및 서비스 모델을 중심으로 구조화되어 있습니다. 단순히 하드웨어를 구매하는 대신, OpenAI는 Cerebras가 전용 데이터센터에서 시스템 배치를 관리하는 장기 계약을 체결했습니다. 구축은 단계적으로 이루어지며, 첫 번째 실질적 용량은 2026년 말에 가동을 시작하고 2028년까지 전체 750메가와트로 확대될 예정입니다.

결정적으로, 이 파트너십은 학습(training)이 아니라 실시간 모델 실행을 통해 응답을 생성하는 과정인 추론(inference)에 무게를 둡니다. OpenAI가 GPT-5의 학습에서 "reasoning" 모델(예: o-series)의 배치로 전환함에 따라, 추론의 비용과 속도는 핵심 요소가 되었습니다. 별도 칩 간의 느린 데이터 이동을 없애는 Cerebras의 아키텍처는 이들 "사고하는" 모델에 요구되는 초저지연을 이론적으로 제공할 수 있습니다.

기술 심층 분석: 웨이퍼 스케일의 장점

OpenAI가 도전자 브랜드에 $10 Billion을 걸 이유를 이해하려면 아키텍처의 근본적 차이를 봐야 합니다. 전통적인 GPU 클러스터는 케이블과 스위치로 연결된 수천 개의 작은 칩에 의존합니다. 데이터는 이 칩들 사이를 지속적으로 이동해야 하므로 모델 응답 시간을 지연시키는 페널티가 발생합니다.

Cerebras는 WSE-3(Wafer-Scale Engine)를 통해 과감한 접근을 취합니다. 실리콘 웨이퍼를 수백 개의 개별 칩으로 잘라내는 대신, Cerebras는 웨이퍼를 온전하게 유지하여 한 장의 큰 접시 크기 프로세서를 만듭니다.

WSE-3 vs. 전통적 아키텍처

WSE-3는 단일 덩어리의 강력한 장치입니다. 메모리와 연산을 동일한 실리콘 기판에 통합하여 전통적인 GPU 구성보다 훨씬 큰 대역폭을 제공합니다. 이를 통해 전체 모델(또는 그 거대한 레이어들)이 온칩에 상주할 수 있어, 이전에는 도달할 수 없던 속도로 "브레인 스케일" AI 모델을 실행할 수 있습니다.

핵심 기술적 차별점:

제로 카피 메모리(Zero-Copy Memory): 데이터가 외부 메모리와 프로세서 사이를 이동할 필요가 없어 지연을 급격히 줄입니다.
SRAM 우위: 이 칩은 44GB의 온칩 SRAM을 사용하며, 이는 GPU에서 사용되는 HBM보다 훨씬 빠릅니다.
인터커넥트 밀도: 코어들이 동일한 웨이퍼에 있기 때문에 코어 간 통신이 거의 즉시 이루어져 PCIe나 Ethernet 케이블의 병목을 우회합니다.

하드웨어 전쟁: 비교 분석

OpenAI의 하드웨어 포트폴리오는 이제 각기 다른 전략적 목적을 수행하는 세 주요 플레이어를 포함합니다. 다음 비교는 Cerebras가 Nvidia 및 AMD와 함께 더 넓은 생태계에서 어떤 역할을 하는지 강조합니다.

OpenAI의 하드웨어 파트너십 비교 분석

Vendor	Commitment Scale	Primary Workload Focus	Strategic Value Proposition
Nvidia	10 Gigawatts (GW) ~$100B Investment	학습 & 일반 추론 GPT-5와 Stargate의 중추.	입증된 생태계: CUDA 소프트웨어 스택의 우위와 대규모 학습 실행에 대한 확립된 신뢰성.
AMD	6 Gigawatts (GW)	비용 효율적 추론 중간급 모델 배치.	협상력 & 비용: 가격 협상에서 레버리지를 제공하고, 대량의 표준 워크로드에 대한 보조 공급을 제공합니다.
Cerebras	750 Megawatts (MW) ~$10B Deal	저지연 추론 추론 모델 및 에이전트.	속도: 응답 시간이 핵심 사용자 지표인 "사고" 모델에 대해 타의 추종을 불허하는 지연 성능.

시장적 영향

이번 거래는 반도체 시장에 충격을 주며, AI 하드웨어의 미래가 이질적(heterogeneous)일 것이라는 논제를 입증합니다. Cerebras에게 이번 합의는 회사 정체성을 바꿀 만한 승리입니다. 2024년 IPO 시도가 철회되고 단일 중동 고객(G42)에 대한 의존에 대한 회의가 있었던 이후, OpenAI의 지지는 Cerebras를 최상위 플레이어로 확실히 자리매김하게 합니다. 분석가들은 이 거래가 2026년 중반 Cerebras의 성공적인 IPO로 가는 길을 열어줄 것으로 기대합니다.

Nvidia에게 있어 750MW 거래는 10GW 파이프라인의 일부에 불과하지만, 고급 AI 컴퓨팅에 대한 독점에 균열을 일으킨 첫 조짐을 의미합니다. 이는 하이퍼스케일러들이 특정 추론 성능 개선을 위해 CUDA 요새를 우회할 의사가 있음을 보여주며—추론 시장은 결국 가치 측면에서 학습을 능가할 것으로 예상됩니다.

추론 경제로의 전환

AI 모델이 연구실에서 소비재로 이동함에 따라 경제적 초점은 "학습 비용"에서 "토큰당 비용"과 "토큰까지의 시간"으로 이동합니다. 몇 초 또는 몇 분을 '생각'한 뒤 답변하는 추론 모델은 상호작용 시점에 막대한 컴퓨트 자원을 요구합니다. Cerebras가 GPU 클러스터보다 더 빠르게 이러한 토큰을 제공할 수 있는 능력은 OpenAI가 가장 진보된 등급의 제품에 대한 사용자 경험을 개선하도록 해주며, 복잡한 즉시 분석을 필요로 하는 기업 이용자에게 더 높은 구독 등급을 정당화할 가능성이 있습니다.

향후 전망: Stargate로 가는 길

OpenAI의 로드맵은 가설적 $100B 슈퍼컴퓨터 프로젝트인 "Stargate"의 구축을 가리키고 있습니다. Nvidia가 Stargate의 핵심 학습 클러스터를 담당할 것으로 예상되지만, Cerebras의 포함은 해당 시설이 하이브리드 환경이 될 가능성을 시사합니다.

미래에는 AI 요청이 동적으로 라우팅되는 모습을 예상할 수 있습니다: 폭넓고 창의적인 질의는 Nvidia H200 클러스터로; 표준 처리에는 AMD MI450s로; 복잡하고 논리 중심의 추론 작업은 Cerebras WSE-3 노드로 향하게 될 것입니다. 이러한 "전문화된 컴퓨트" 접근법은 서로 다른 코어가 서로 다른 작업을 처리하는 CPU 시장의 진화를 반영하며, OpenAI가 와트당 및 달러당 효율을 극대화하도록 합니다.

지금 750MW의 전문화된 추론 전력을 확보함으로써 OpenAI는 차세대 추론 에이전트가 세상에 나올 때, 이들이 실시간으로 '생각'할 수 있는 인프라가 준비되어 있도록 보장하고 있습니다.