
지난 수년간 인공지능 혁명의 서사는 단일 하드웨어 공급업체인 Nvidia와 떼려야 뗄 수 없는 관계였다. H100과 곧 출시될 Blackwell GPU는 AI 영역의 통화처럼 여겨졌다—희소하고, 비싸며, 절대적으로 필수적이었다. 그러나 중요한 변화가 현재 판도를 재구성하고 있다. Creati.ai에서는 주요 클라우드 서비스 제공업체(CSP), 특히 Amazon과 Google이 단순한 고객에서 강력한 경쟁자로 전환하는 중대한 순간을 관찰하고 있다.
Amazon의 Trainium과 Google의 Tensor Processing Units (TPUs) 같은 커스텀 실리콘을 개발함으로써, 이 기술 대기업들은 Nvidia에 대한 의존도를 줄이는 것뿐만 아니라 수십억 달러의 수익을 창출하고 Anthropic과 같은 업계 리더들에게 실용적이고 고성능의 대안을 제공하고 있다. 이 진화는 이종(heterogeneous) 하드웨어 시대의 시작을 알리며, 오랫동안 AI 인프라 경제를 지배해온 'Nvidia tax'에 도전하고 있다.
Amazon Web Services(AWS)는 커스텀 실리콘 라인업을 통한 수직 통합 전략을 적극적으로 추진해왔다. 회사는 오랫동안 범용 컴퓨팅을 위한 Graviton 프로세서를 제공해왔지만, 최근에는 Trainium(학습)과 Inferentia(추론) 칩을 통한 AI 전용 가속에 초점을 크게 옮겼다.
Amazon의 하드웨어 전략을 가장 강력하게 검증해 준 사례는 Anthropic과의 심화된 파트너십이다. 세계 유수의 AI 연구소 중 하나인 Anthropic은 Claude 모델을 학습시키기 위해 막대한 컴퓨트 파워를 필요로 한다. 역사적으로 이는 수만 대의 Nvidia GPU를 필요로 했을 것이다. 그러나 AWS는 Trainium 칩을 강력한 대안으로 성공적으로 자리매김시켰다.
Anthropic은 현재 AWS Trainium 2 칩을 활용해 가장 큰 파운데이션 모델을 구축하고 있다. 이는 단순한 비용 절감 조치가 아니라 전략적 정렬이다. Trainium 2는 1세대 대비 최대 4배 빠른 학습 성능과 2배 향상된 에너지 효율을 제공하도록 설계되었다. 수백만 달러 규모의 학습 비용이 발생할 수 있는 Anthropic과 같은 기업에게, 커스텀 실리콘이 제공하는 효율성 향상은 곧바로 경쟁 우위로 연결된다.
이 변화가 재무에 미치는 영향은 심대하다. 워크로드를 자체 실리콘으로 이동시키면 Amazon은 그렇지 않았더라면 Nvidia로 흘러갔을 마진을 유지할 수 있다. 게다가 Amazon은 칩 개발을 수익 창출원으로 전환하고 있다. 보도에 따르면 AWS는 이제 자체 AI 칩에서 수십억 달러의 수익을 창출하고 있다. 이는 플라이휠 효과를 만든다: Trainium 사용으로 얻은 수익이 추가 연구개발을 자금 지원하고, 더 나은 칩을 만들며, 이는 다시 표준 GPU 인스턴스에서 고객을 더 많이 끌어오는 선순환을 낳는다.
Amazon이 최근 파트너십으로 파장을 일으키고 있는 반면, Google은 커스텀 AI 실리콘의 선구자였다. Google은 거의 10년 전 Tensor Processing Units(TPUs)을 도입했으며, 초기에는 Search와 Photos를 구동하기 위해 내부적으로 사용하다가 이후 현대의 생성형 AI (Generative AI)를 탄생시킨 혁신적인 Transformer 모델을 구동하는 데 활용됐다.
오늘날 Google의 TPUs는 Google Cloud 고객이 이용할 수 있는 견고한 플랫폼으로 성숙했다. 특히 여섯 번째 세대인 Trillium의 도입은 성능 면에서 거대한 도약을 의미한다. Google은 자사의 하드웨어가 세계에서 가장 부담이 큰 워크로드를 처리할 수 있음을 성공적으로 입증했다. 특히 Apple과 같은 대형 기업들이 자사의 AI 모델 구성 요소를 학습시키기 위해 Google의 TPU 인프라를 활용한 것으로 알려져, Google 커스텀 실리콘의 신뢰성과 규모를 보여준다.
Google의 강점은 실리콘뿐만 아니라 소프트웨어 스택에도 있다. Nvidia가 CUDA에 의존하는 반면, Google은 TPU와 JAX 사이에 깊은 통합을 구축했다. JAX는 고성능 수치 계산에 널리 사용되는 Python 라이브러리다. 이러한 소프트웨어-하드웨어 시너지는 범용 GPU에서 복제하기 어려운 최적화를 가능하게 한다. Google 생태계에 깊이 자리잡고 있는 개발자들에게는 TPU로의 전환이 종종 Nvidia 하드웨어가 그 높은 마크업으로 제공하는 것과 비교해 비용 대비 성능에서 이점을 가져온다.
Nvidia의 지배는 AI 공급망에 병목을 만들었다. 'Nvidia tax'—시장 선도 GPU에 지불되는 프리미엄—는 스타트업부터 하이퍼스케일러까지 모든 AI 기업의 마진을 압박한다. Amazon과 Google이 자체 칩을 개발하는 움직임은 세 가지 핵심 요인에 의해 촉발되었다:
경쟁 구도를 이해하려면 주요 기술 기업들이 제공하는 현재 제품을 업계 표준과 비교하는 것이 필수적이다.
표 1: AI 하드웨어 환경 비교
| Feature | Nvidia (H100/Blackwell) | AWS (Trainium 2/Inferentia) | Google (TPU v5p/Trillium) |
|---|---|---|---|
| Primary Architecture | General Purpose GPU | Custom ASIC (Application-Specific) | Custom ASIC (Tensor Processing) |
| Software Ecosystem | CUDA (Industry Standard) | AWS Neuron SDK | JAX / TensorFlow / XLA |
| Accessibility | Universal (All Clouds/On-prem) | AWS Exclusive | Google Cloud Exclusive |
| Key Advantage | Versatility & Developer Familiarity | Cost Efficiency for AWS Users | Performance/Watt for Massive Training |
| Primary Limitation | High Cost & Supply Constraints | Cloud Vendor Lock-in | steep learning curve outside Google ecosystem |
Trainium과 TPU의 인상적인 하드웨어 사양에도 불구하고, Nvidia는 거대한 방어 요새를 유지하고 있다: CUDA다. Compute Unified Device Architecture(CUDA)는 개발자가 GPU를 프로그래밍할 수 있게 해주는 소프트웨어 계층으로, 15년 넘게 업계 표준으로 자리잡아 왔다.
대부분의 오픈 소스 모델, 라이브러리, 연구 논문은 CUDA를 염두에 두고 작성되어 있다. Amazon과 Google이 Nvidia의 지배력을 진정으로 깨려면, 단지 빠른 칩을 만드는 것 이상의 일을 해야 한다; 소프트웨어 경험을 무결점에 가깝게 만들어야 한다.
AWS는 GPU에서 Trainium 인스턴스로 전환할 때 코드 변경을 최소화하도록 Neuron SDK에 대대적으로 투자하고 있다. 마찬가지로 Google은 모델의 이식성을 높이기 위해 XLA(Accelerated Linear Algebra) 컴파일러를 밀어붙이고 있다. 그러나 관성은 강력하다. 많은 엔지니어링 팀에게 검증된 Nvidia/CUDA의 안정성에서 클라우드 특정 칩으로 마이그레이션하는 위험은 여전히 상당한 장애물이다.
Amazon과 Google이 이룬 진전은 AI 하드웨어의 미래가 독점이 아니라 과점이 될 것임을 시사한다. Nvidia는 연구, 개발 및 크로스-클라우드 호환성의 금본위로 남을 가능성이 크다. 그러나 마진을 10%만 개선해도 수백만 달러가 되는 대규모 프로덕션 워크로드에서는 AWS와 Google의 커스텀 실리콘이 기본 선택이 될 것이다.
Creati.ai는 2026년을 "Inference Economics"의 해로 예상한다. 대규모 모델 학습에서 실행(추론)으로 초점이 이동함에 따라, 토큰당 비용이 가장 중요한 지표가 될 것이다. 이 영역에서는 Inferentia와 Google의 최신 TPU처럼 특화되고 저전력·고효율의 칩들이 전력 소모가 큰 Nvidia GPU보다 앞설 가능성이 높다.
칩 전쟁은 단순히 누가 가장 빠른 프로세서를 갖느냐의 문제가 아니다; 에너지 그리드에서 실리콘, 그리고 API 엔드포인트에 이르기까지 전체 스택을 누가 통제하느냐의 문제다. Amazon과 Google은 AI 혁명에서 단순히 공간을 임대하는 수준이 아니라, 그 기반을 구축하고 있음을 증명해 보였다.