메타, 수백만 개의 AI 칩을 위한 다년간 계약으로 NVIDIA 파트너십 확대

AI 인프라에 대한 역사적 협력 (A Historic Alignment on AI Infrastructure)

인공지능(Artificial Intelligence, AI)의 미래를 결정짓는 중요한 순간에, Meta Platforms와 NVIDIA는 수백만 개의 차세대 AI 가속기를 배치하기 위한 대규모 다년 파트너십 계약을 체결하며 오랜 협력 관계를 공고히 했습니다. 화요일에 Meta의 CEO 마크 저커버그(Mark Zuckerberg)와 NVIDIA의 CEO 젠슨 황(Jensen Huang)이 공동으로 발표한 이번 계약은 Meta가 세계 최대의 가속 컴퓨팅 소비자 중 하나로서의 입지를 확보하고, 범용 인공지능(Artificial General Intelligence, AGI)을 향한 공격적인 로드맵을 뒷받침하도록 합니다.

이 합의는 NVIDIA의 Blackwell 아키텍처의 현재 출시를 넘어선 포괄적인 공급망 전략을 개략적으로 설명합니다. 결정적으로, 이는 Meta에 2026년 말 광범위한 배포가 예정된 차세대 Rubin GPU 플랫폼에 대한 우선순위 접근권을 제공합니다. 이러한 인프라 확장은 Meta의 "Prometheus" 슈퍼클러스터에 전력을 공급하고 Llama 모델 제품군의 차기 버전 학습을 가속화하여, 이전에는 지속 불가능하다고 생각되었던 파라미터 수에 도달할 것으로 예상됩니다.

"우리는 세계에서 가장 진보된 AI 인프라를 구축하고 있습니다,"라고 저커버그는 발표 중에 밝혔습니다. "이 파트너십은 Meta가 오픈 소스 AI의 최전선에 머물 수 있도록 보장하며, 우리 연구원들과 글로벌 개발자 커뮤니티가 추론 및 기계 인지 분야의 가장 어려운 문제를 해결하는 데 필요한 컴퓨팅 성능을 제공합니다."

하드웨어 중추: Blackwell 및 Rubin

이 파트너십의 핵심은 NVIDIA의 최신 실리콘 혁신을 Meta의 하이퍼스케일 데이터 센터에 통합하는 것입니다. Meta는 수십만 개의 H100 및 Blackwell(B200) GPU를 계속 배치하고 있지만, 이번 계약은 Rubin 아키텍처로의 전환을 강력하게 강조합니다.

Rubin 시대의 도래

NVIDIA의 Rubin 플랫폼은 컴퓨팅 밀도와 전력 효율성 측면에서 세대적 도약을 의미하며, 이는 Meta의 2026년 1,350억 달러 규모 자본 지출 계획에 중요한 요소입니다. Rubin 아키텍처는 커스텀 Olympus 코어를 사용하는 Arm 기반 프로세서인 새로운 "Vera" CPU와 Rubin GPU가 결합된 형태입니다.

Meta에게 있어 Rubin으로의 전환은 전략적입니다. 이 플랫폼은 고대역폭 메모리 4(High Bandwidth Memory 4, HBM4)를 활용하여, 종종 조 단위 파라미터 모델의 학습을 제한하는 메모리 병목 현상을 크게 완화합니다. Vera CPU를 포함함으로써 처리 워크로드를 더욱 긴밀하게 결합할 수 있게 되어, 비디오, 텍스트 및 감각 데이터를 포함한 멀티모달 데이터셋에서 모델을 학습시키는 데 필요한 대규모 데이터 수집 파이프라인의 지연 시간을 줄여줍니다.

비교 분석: NVIDIA Blackwell 대 Rubin 아키텍처

다음 표는 현재의 Blackwell 배치에서 계약에 명시된 차세대 Rubin 인프라로의 기술적 진화를 보여줍니다.

기능	NVIDIA Blackwell 플랫폼	NVIDIA Rubin 플랫폼
아키텍처 노드	4NP (커스텀 4nm)	3nm (TSMC N3)
GPU 메모리 기술	HBM3e	HBM4
CPU 페어링	Grace CPU (Arm Neoverse)	Vera CPU (커스텀 Olympus 코어)
인터커넥트 속도	NVLink 5 (1.8 TB/s)	NVLink 6 (3.6 TB/s)
네트워킹 통합	InfiniBand / Ethernet	Spectrum-X 이더넷 최적화

Spectrum-X와 연결성 혁명

원시 컴퓨팅 파워가 헤드라인을 장식하고 있지만, 이번 파트너십은 네트워킹 인프라에도 동일한 비중을 두고 있습니다. Meta는 NVIDIA의 Spectrum-X 이더넷 네트워킹 플랫폼을 대규모로 배치하기로 약속했습니다. AI 클러스터가 수십만 개의 GPU를 포함하도록 성장함에 따라, 학습 중 서버 간에 이동하는 데이터인 "동서(east-west)" 트래픽이 주요 성능 병목 현상이 됩니다.

Spectrum-X는 이러한 AI 워크로드를 위해 특별히 설계되었습니다. 부하가 높은 상황에서 패킷 손실과 지연 시간 급증이 발생할 수 있는 기존 이더넷과 달리, Spectrum-X는 InfiniBand 기술에서 파생되었지만 표준 이더넷 환경에 맞게 조정된 적응형 라우팅 및 혼잡 제어 메커니즘을 활용합니다.

Meta에게 이것은 실용적인 선택입니다. Spectrum-X를 표준화함으로써, Meta는 이더넷 케이블링 및 스위칭의 편재성과 비용 효율성을 활용하는 동시에 대규모 모델의 동기식 학습에 필요한 낮은 지연 시간 성능을 달성할 수 있습니다. 이 네트워크 패브릭은 인디애나주 및 기타 전략적 위치에 있는 Meta의 새로운 데이터 센터를 위한 신경계 역할을 하여, 수백만 개의 칩이 응집력 있는 단일 슈퍼컴퓨터로 작동하도록 보장할 것입니다.

오픈 소스 AGI의 꿈에 연료를 공급하다

이러한 인프라 투자의 규모는 AI 개발에 대한 Meta의 철학적 입장과 직접적으로 관련이 있습니다. 프런티어 모델을 주로 폐쇄형으로 유지하는 OpenAI 및 Google과 같은 경쟁사와 달리, Meta는 Llama 시리즈를 통해 오픈 웨이트(open-weight) 전략을 옹호해 왔습니다.

Llama 4 및 후속 "Avocado" 세대 모델이 가시권에 들어옴에 따라 컴퓨팅 요구 사항은 기하급수적으로 늘어납니다. 최첨단 성능을 유지하면서 모델을 광범위하게 채택할 수 있을 만큼 효율적으로 유지하기 위해, Meta는 모델 크기에 비해 표준보다 훨씬 더 많은 토큰으로 모델을 학습시키는 "오버 트레이닝(over-training)"을 수행합니다. 이 접근 방식은 매우 강력한 소형 모델을 만들어내지만, 학습 단계에서 훨씬 더 많은 컴퓨팅 리소스를 필요로 합니다.

젠슨 황은 이러한 시너지를 강조하며, "Meta의 오픈 소스 접근 방식은 전체 AI 생태계를 위한 터보차저입니다. 수백만 개의 Rubin 및 Blackwell GPU를 인프라에 배치함으로써, 그들은 단순히 제품을 만드는 것이 아니라 모든 연구원과 스타트업이 혜택을 볼 수 있는 플랫폼을 구축하고 있습니다."라고 언급했습니다.

재정적 및 환경적 이해관계

이번 계약의 재정적 규모는 거대하며, 현재 기술 분야를 휩쓸고 있는 "군비 경쟁" 역학을 반영합니다. 분석가들은 하드웨어 조달 가치를 수백억 달러로 추정하며, 이는 NVIDIA의 데이터 센터 수익에 크게 기여할 것입니다. Meta에게 이는 우수한 인프라가 우수한 모델을 산출하고, 이것이 다시 Facebook, Instagram, WhatsApp 전반에서 사용자 참여와 광고 수익을 견인할 것이라는 큰 도박입니다.

하지만 이러한 배치는 특히 에너지 소비와 관련하여 과제를 안겨줍니다. Rubin "슈퍼칩"으로 가득 찬 랙의 전력 밀도는 현재의 공랭식 기술의 한계를 밀어붙일 것으로 예상됩니다. 결과적으로 Meta는 이러한 기가와트 규모의 시설을 지원하기 위해 액체 냉각 시스템과 재생 에너지 소싱에 대한 투자를 가속화하고 있습니다. 전 세계적으로 가장 전력 밀도가 높은 데이터 센터 중 하나가 될 인디애나 캠퍼스는 NVIDIA의 실리콘과 Meta의 독점적인 "Grand Teton" 서버 설계를 결합한 이 새로운 레퍼런스 아키텍처의 파일럿 사이트 역할을 할 것입니다.

2026년이 진행됨에 따라 업계에서는 이러한 대규모 실리콘 주입이 AGI 추구에 의해 약속된 획기적인 능력으로 전환될 수 있을지 예의주시할 것입니다.