
OpenAI assinou oficialmente um acordo histórico com o fabricante de chips de IA Cerebras Systems, comprometendo aproximadamente $10 bilhões para implantar 750 megawatts de potência computacional até 2028. Essa movimentação estratégica marca uma mudança significativa em relação à dependência quase exclusiva da OpenAI na Nvidia, sinalizando uma estratégia mais ampla de diversificação projetada para garantir o hardware necessário para a próxima geração de inteligência artificial (artificial intelligence).
O acordo, finalizado em meados de janeiro de 2026, representa um dos maiores contratos de aquisição para aceleradores de IA não baseados em GPU até hoje. Ao integrar a tecnologia wafer-scale (wafer-scale technology) da Cerebras, a OpenAI pretende resolver um gargalo crítico na implantação de modelos avançados de "raciocínio" (reasoning models): a latência de inferência (inference latency). Enquanto as GPUs da Nvidia permanecem o padrão da indústria para o treinamento (training) de modelos massivos base (foundation models), a arquitetura da Cerebras oferece vantagens únicas para o processamento em tempo real exigido por agentes de IA cada vez mais complexos (AI agents).
Por anos, a indústria de IA operou sob um paradigma "Nvidia-first", com os chips das séries H100 e Blackwell servindo como a espinha dorsal do treinamento de modelos. No entanto, a demanda exponencial por computação — aliada a restrições na cadeia de suprimentos e custos crescentes — obrigou a OpenAI a cultivar um ecossistema com múltiplos fornecedores.
Este acordo com a Cerebras não é um evento isolado, mas parte de uma estratégia tripartite de hardware cuidadosamente calculada. Complementa o roadmap existente da OpenAI, que inclui um compromisso massivo de infraestrutura de 10 gigawatts da Nvidia e uma parceria de implantação de 6 gigawatts com a AMD. Ao fragmentar suas dependências de hardware, a OpenAI está efetivamente se protegendo contra faltas de fornecimento, ao mesmo tempo em que aproveita as forças arquitetônicas específicas de diferentes fornecedores para cargas de trabalho especializadas.
O compromisso de $10 bilhões é estruturado em torno de um modelo "capacidade-por-participação" (capacity-for-equity) e de serviços. Em vez de simplesmente comprar hardware, a OpenAI celebrou um acordo de longo prazo no qual a Cerebras gerenciará a implantação de seus sistemas em data centers dedicados. O lançamento ocorrerá em fases, com a primeira capacidade substancial entrando em operação no final de 2026 e acelerando até atingir os 750 megawatts completos em 2028.
Crucialmente, essa parceria foca fortemente na inferência (inference) — o processo de execução de modelos ao vivo para gerar respostas — em vez do treinamento. À medida que a OpenAI faz a transição do treinamento do GPT-5 para a implantação de modelos de raciocínio (reasoning models), o custo e a velocidade da inferência tornaram-se primordiais. A arquitetura da Cerebras, que elimina o lento movimento de dados entre chips separados, teoricamente está posicionada para entregar a latência ultra-baixa necessária para esses modelos "pensantes".
Para entender por que a OpenAI apostaria $10 bilhões em uma marca desafiadora, é preciso observar a diferença fundamental de arquitetura. Clusters tradicionais de GPU dependem de milhares de pequenos chips interconectados por cabos e switches. Os dados precisam viajar constantemente entre esses chips, criando penalidades de latência que retardam os tempos de resposta dos modelos.
A Cerebras adota uma abordagem radical com seu Wafer-Scale Engine (WSE-3). Em vez de cortar uma pastilha de silício em centenas de chips individuais, a Cerebras mantém a pastilha íntegra, criando um único processador do tamanho de um prato de jantar.
O WSE-3 é uma potência monolítica. Ele integra memória e computação no mesmo substrato de silício, fornecendo largura de banda que eclipsa configurações tradicionais de GPU. Isso permite que todo o modelo (ou camadas massivas dele) resida no chip, possibilitando que modelos de IA "em escala cerebral" rodem a velocidades antes inatingíveis.
Diferenciais Técnicos Principais:
O portfólio de hardware da OpenAI agora inclui três grandes players, cada um servindo a um propósito estratégico distinto. A comparação a seguir destaca como a Cerebras se encaixa no ecossistema mais amplo ao lado da Nvidia e da AMD.
Comparative Analysis of OpenAI's Hardware Partnerships
| Vendor | Commitment Scale | Primary Workload Focus | Strategic Value Proposition |
|---|---|---|---|
| Nvidia | 10 Gigawatts (GW) ~$100B Investment |
Training & General Inference The backbone of GPT-5 and Stargate. |
Proven Ecosystem: CUDA software stack dominance and established reliability for massive training runs. |
| AMD | 6 Gigawatts (GW) | Cost-Effective Inference Mid-tier model deployment. |
Leverage & Cost: Provides leverage in pricing negotiations and a secondary supply for high-volume, standard workloads. |
| Cerebras | 750 Megawatts (MW) ~$10B Deal |
Low-Latency Inference Reasoning models & Agents. |
Speed: Unmatched latency for "thinking" models where response time is the critical user metric. |
Esse acordo provoca uma onda de choque no mercado de semicondutores, validando a tese de que o futuro do hardware de IA será heterogêneo. Para a Cerebras, trata-se de uma vitória definidora da empresa. Após uma tentativa de IPO retirada em 2024 e ceticismo quanto à sua dependência de um único cliente do Oriente Médio (G42), o endosso da OpenAI efetivamente consolida seu status como um jogador de primeira linha. Analistas esperam que esse acordo abra caminho para um IPO bem-sucedido da Cerebras em meados de 2026.
Para a Nvidia, embora o acordo de 750MW seja uma fração de seu pipeline de 10GW, ele representa a primeira fissura em seu monopólio sobre computação de ponta para IA. Demonstra que hyperscalers estão dispostos a contornar o fosso do CUDA para ganhos de desempenho específicos em inferência — um segmento de mercado que se espera vir a superar o treinamento em valor.
À medida que os modelos de IA saem dos laboratórios de pesquisa e seguem para produtos de consumo, o foco econômico muda do "custo para treinar" para o "custo por token" e "tempo até o token". Modelos de raciocínio (reasoning models), que podem "pensar" por segundos ou minutos antes de responder, exigem recursos computacionais massivos no momento da interação. A capacidade da Cerebras de entregar esses tokens mais rapidamente que um cluster de GPUs permite à OpenAI melhorar a experiência do usuário para seu nível mais avançado de produtos, potencialmente justificando níveis de assinatura mais altos para clientes empresariais que exigem análises complexas e instantâneas.
O roadmap da OpenAI aponta para a construção do "Stargate", um hipotético supercomputador de $100 bilhões. Enquanto a Nvidia deve alimentar os clusters principais de treinamento do Stargate, a inclusão da Cerebras sugere que a instalação provavelmente será um ambiente híbrido.
Podemos antecipar um futuro em que uma solicitação de IA seja roteada dinamicamente: consultas amplas e criativas podem ir para um cluster Nvidia H200; processamento padrão para AMD MI450s; e tarefas complexas e pesadas em lógica para nós Cerebras WSE-3. Essa abordagem de "computação especializada" espelha a evolução do mercado de CPUs, onde diferentes núcleos lidam com tarefas distintas, garantindo que a OpenAI maximize a eficiência por watt e por dólar.
Ao garantir 750MW de potência de inferência especializada agora, a OpenAI está assegurando que, quando seus agentes de raciocínio de próxima geração estiverem prontos para o mundo, a infraestrutura estará lá para permitir que eles pensem em tempo real.