OpenAI fecha acordo de US$10 bilhões em chips de IA com a Cerebras, diversificando além da Nvidia

OpenAI Abre Novo Caminho com Parceria de $10 Bilhões com a Cerebras Systems

OpenAI assinou oficialmente um acordo histórico com o fabricante de chips de IA Cerebras Systems, comprometendo aproximadamente $10 bilhões para implantar 750 megawatts de potência computacional até 2028. Essa movimentação estratégica marca uma mudança significativa em relação à dependência quase exclusiva da OpenAI na Nvidia, sinalizando uma estratégia mais ampla de diversificação projetada para garantir o hardware necessário para a próxima geração de inteligência artificial (artificial intelligence).

O acordo, finalizado em meados de janeiro de 2026, representa um dos maiores contratos de aquisição para aceleradores de IA não baseados em GPU até hoje. Ao integrar a tecnologia wafer-scale (wafer-scale technology) da Cerebras, a OpenAI pretende resolver um gargalo crítico na implantação de modelos avançados de "raciocínio" (reasoning models): a latência de inferência (inference latency). Enquanto as GPUs da Nvidia permanecem o padrão da indústria para o treinamento (training) de modelos massivos base (foundation models), a arquitetura da Cerebras oferece vantagens únicas para o processamento em tempo real exigido por agentes de IA cada vez mais complexos (AI agents).

A Mudança Estratégica: Diversificando a Cadeia de Suprimentos

Por anos, a indústria de IA operou sob um paradigma "Nvidia-first", com os chips das séries H100 e Blackwell servindo como a espinha dorsal do treinamento de modelos. No entanto, a demanda exponencial por computação — aliada a restrições na cadeia de suprimentos e custos crescentes — obrigou a OpenAI a cultivar um ecossistema com múltiplos fornecedores.

Este acordo com a Cerebras não é um evento isolado, mas parte de uma estratégia tripartite de hardware cuidadosamente calculada. Complementa o roadmap existente da OpenAI, que inclui um compromisso massivo de infraestrutura de 10 gigawatts da Nvidia e uma parceria de implantação de 6 gigawatts com a AMD. Ao fragmentar suas dependências de hardware, a OpenAI está efetivamente se protegendo contra faltas de fornecimento, ao mesmo tempo em que aproveita as forças arquitetônicas específicas de diferentes fornecedores para cargas de trabalho especializadas.

Desvendando a Estrutura do Acordo

O compromisso de $10 bilhões é estruturado em torno de um modelo "capacidade-por-participação" (capacity-for-equity) e de serviços. Em vez de simplesmente comprar hardware, a OpenAI celebrou um acordo de longo prazo no qual a Cerebras gerenciará a implantação de seus sistemas em data centers dedicados. O lançamento ocorrerá em fases, com a primeira capacidade substancial entrando em operação no final de 2026 e acelerando até atingir os 750 megawatts completos em 2028.

Crucialmente, essa parceria foca fortemente na inferência (inference) — o processo de execução de modelos ao vivo para gerar respostas — em vez do treinamento. À medida que a OpenAI faz a transição do treinamento do GPT-5 para a implantação de modelos de raciocínio (reasoning models), o custo e a velocidade da inferência tornaram-se primordiais. A arquitetura da Cerebras, que elimina o lento movimento de dados entre chips separados, teoricamente está posicionada para entregar a latência ultra-baixa necessária para esses modelos "pensantes".

Mergulho Técnico: A Vantagem Wafer-Scale

Para entender por que a OpenAI apostaria $10 bilhões em uma marca desafiadora, é preciso observar a diferença fundamental de arquitetura. Clusters tradicionais de GPU dependem de milhares de pequenos chips interconectados por cabos e switches. Os dados precisam viajar constantemente entre esses chips, criando penalidades de latência que retardam os tempos de resposta dos modelos.

A Cerebras adota uma abordagem radical com seu Wafer-Scale Engine (WSE-3). Em vez de cortar uma pastilha de silício em centenas de chips individuais, a Cerebras mantém a pastilha íntegra, criando um único processador do tamanho de um prato de jantar.

WSE-3 vs. Arquiteturas Tradicionais

O WSE-3 é uma potência monolítica. Ele integra memória e computação no mesmo substrato de silício, fornecendo largura de banda que eclipsa configurações tradicionais de GPU. Isso permite que todo o modelo (ou camadas massivas dele) resida no chip, possibilitando que modelos de IA "em escala cerebral" rodem a velocidades antes inatingíveis.

Diferenciais Técnicos Principais:

Memória Zero-Copy (Zero-Copy Memory): Os dados não precisam se mover entre memória externa e o processador, reduzindo drasticamente a latência.
Predomínio de SRAM: O chip utiliza 44GB de SRAM on-chip, que é ordens de magnitude mais rápido que o HBM (High Bandwidth Memory) usado em GPUs.
Densidade de Interconexão: Como os núcleos estão na mesma pastilha, a comunicação entre eles é quase instantânea, evitando os gargalos de PCIe ou cabos Ethernet.

As Guerras de Hardware: Uma Análise Comparativa

O portfólio de hardware da OpenAI agora inclui três grandes players, cada um servindo a um propósito estratégico distinto. A comparação a seguir destaca como a Cerebras se encaixa no ecossistema mais amplo ao lado da Nvidia e da AMD.

Comparative Analysis of OpenAI's Hardware Partnerships

Vendor	Commitment Scale	Primary Workload Focus	Strategic Value Proposition
Nvidia	10 Gigawatts (GW) ~$100B Investment	Training & General Inference The backbone of GPT-5 and Stargate.	Proven Ecosystem: CUDA software stack dominance and established reliability for massive training runs.
AMD	6 Gigawatts (GW)	Cost-Effective Inference Mid-tier model deployment.	Leverage & Cost: Provides leverage in pricing negotiations and a secondary supply for high-volume, standard workloads.
Cerebras	750 Megawatts (MW) ~$10B Deal	Low-Latency Inference Reasoning models & Agents.	Speed: Unmatched latency for "thinking" models where response time is the critical user metric.

Implicações de Mercado

Esse acordo provoca uma onda de choque no mercado de semicondutores, validando a tese de que o futuro do hardware de IA será heterogêneo. Para a Cerebras, trata-se de uma vitória definidora da empresa. Após uma tentativa de IPO retirada em 2024 e ceticismo quanto à sua dependência de um único cliente do Oriente Médio (G42), o endosso da OpenAI efetivamente consolida seu status como um jogador de primeira linha. Analistas esperam que esse acordo abra caminho para um IPO bem-sucedido da Cerebras em meados de 2026.

Para a Nvidia, embora o acordo de 750MW seja uma fração de seu pipeline de 10GW, ele representa a primeira fissura em seu monopólio sobre computação de ponta para IA. Demonstra que hyperscalers estão dispostos a contornar o fosso do CUDA para ganhos de desempenho específicos em inferência — um segmento de mercado que se espera vir a superar o treinamento em valor.

A Mudança para a Economia da Inferência

À medida que os modelos de IA saem dos laboratórios de pesquisa e seguem para produtos de consumo, o foco econômico muda do "custo para treinar" para o "custo por token" e "tempo até o token". Modelos de raciocínio (reasoning models), que podem "pensar" por segundos ou minutos antes de responder, exigem recursos computacionais massivos no momento da interação. A capacidade da Cerebras de entregar esses tokens mais rapidamente que um cluster de GPUs permite à OpenAI melhorar a experiência do usuário para seu nível mais avançado de produtos, potencialmente justificando níveis de assinatura mais altos para clientes empresariais que exigem análises complexas e instantâneas.

Perspectiva Futura: O Caminho para o Stargate

O roadmap da OpenAI aponta para a construção do "Stargate", um hipotético supercomputador de $100 bilhões. Enquanto a Nvidia deve alimentar os clusters principais de treinamento do Stargate, a inclusão da Cerebras sugere que a instalação provavelmente será um ambiente híbrido.

Podemos antecipar um futuro em que uma solicitação de IA seja roteada dinamicamente: consultas amplas e criativas podem ir para um cluster Nvidia H200; processamento padrão para AMD MI450s; e tarefas complexas e pesadas em lógica para nós Cerebras WSE-3. Essa abordagem de "computação especializada" espelha a evolução do mercado de CPUs, onde diferentes núcleos lidam com tarefas distintas, garantindo que a OpenAI maximize a eficiência por watt e por dólar.

Ao garantir 750MW de potência de inferência especializada agora, a OpenAI está assegurando que, quando seus agentes de raciocínio de próxima geração estiverem prontos para o mundo, a infraestrutura estará lá para permitir que eles pensem em tempo real.