
OpenAI hat offiziell eine wegweisende Vereinbarung mit dem KI-Chiphersteller Cerebras Systems unterzeichnet und verpflichtet sich zu rund $10 billion, um bis 2028 750 Megawatt Rechenleistung bereitzustellen. Dieser strategische Schritt stellt eine signifikante Abkehr von OpenAIs nahezu ausschließlicher Abhängigkeit von Nvidia dar und signalisiert eine breitere Diversifizierungsstrategie, die darauf abzielt, die für die nächste Generation künstlicher Intelligenz erforderliche Hardware zu sichern.
Der Deal, der Mitte Januar 2026 abgeschlossen wurde, stellt einen der größten Beschaffungsverträge für Nicht-GPU-KI-Beschleuniger bis heute dar. Durch die Integration von Cerebras’ Wafer-Scale-Technologie (wafer-scale technology) zielt OpenAI darauf ab, einen kritischen Engpass bei der Bereitstellung fortschrittlicher Reasoning-Modelle (reasoning models) zu adressieren: die Latenz bei der Inferenz. Während Nvidias GPUs weiterhin der Industriestandard für das Training großer Foundation-Modelle (foundation models) sind, bietet die Architektur von Cerebras einzigartige Vorteile für die Echtzeitverarbeitung, die immer komplexere KI-Agenten erfordern.
Jahrelang operierte die KI-Branche unter einem „Nvidia-first“-Paradigma, wobei die H100- und Blackwell-Serienchips das Rückgrat des Modelltrainings bildeten. Dennoch hat die exponentielle Nachfrage nach Rechenkapazität – zusammen mit Beschränkungen in der Lieferkette und stark steigenden Kosten – OpenAI dazu gedrängt, ein Multi-Anbieter-Ökosystem aufzubauen.
Diese Vereinbarung mit Cerebras ist kein isoliertes Ereignis, sondern Teil einer kalkulierten dreigleisigen Hardware-Strategie. Sie ergänzt OpenAIs bestehende Roadmap, die ein massives 10-Gigawatt-Infrastrukturcommitment von Nvidia und eine 6-Gigawatt-Deployment-Partnerschaft mit AMD umfasst. Durch die Fragmentierung seiner Hardware-Abhängigkeiten hedgt OpenAI effektiv gegen Lieferengpässe und nutzt gleichzeitig die spezifischen architektonischen Stärken verschiedener Anbieter für spezialisierte Workloads.
Die $10 billion-Verpflichtung ist um ein „Kapazität-gegen-Anteile (capacity-for-equity)“ und Service-Modell strukturiert. Anstatt einfach Hardware zu kaufen, ist OpenAI eine langfristige Vereinbarung eingegangen, bei der Cerebras die Bereitstellung seiner Systeme in dedizierten Rechenzentren verwalten wird. Die Einführung erfolgt in Phasen, wobei die erste nennenswerte Kapazität Ende 2026 online gehen und bis 2028 auf die vollen 750 Megawatt hochgefahren werden soll.
Wesentlich ist, dass diese Partnerschaft stark auf die Inferenz (Inferenz, inference) ausgerichtet ist – den Prozess, live Modelle auszuführen, um Antworten zu generieren – und nicht auf das Training. Während OpenAI vom Training von GPT-5 zum Einsatz von Reasoning-Modellen (reasoning models) wie der o-Serie übergeht, sind Kosten und Geschwindigkeit der Inferenz entscheidend geworden. Die Architektur von Cerebras, die die langsame Datenbewegung zwischen separaten Chips eliminiert, ist theoretisch in der Lage, die für diese „denkenden“ Modelle erforderliche extrem niedrige Latenz zu liefern.
Um zu verstehen, warum OpenAI $10 billion auf eine Herausforderermarke setzt, muss man den grundlegenden Unterschied in der Architektur betrachten. Traditionelle GPU-Cluster beruhen auf Tausenden kleiner Chips, die über Kabel und Switches miteinander verbunden sind. Daten müssen ständig zwischen diesen Chips hin- und herwandern, was Latenzstrafen schafft, die die Antwortzeiten von Modellen verlangsamen.
Cerebras verfolgt mit seinem Wafer-Scale Engine (WSE-3) einen radikalen Ansatz. Anstatt eine Siliziumscheibe in Hunderte einzelne Chips zu schneiden, behält Cerebras die Wafer intakt und schafft einen einzigen, teller-großen Prozessor.
Der WSE-3 ist eine monolithische Leistungsmaschine. Er integriert Speicher und Rechenleistung auf demselben Siliziumsubstrat und bietet eine Bandbreite, die traditionelle GPU-Setups in den Schatten stellt. Dadurch kann das gesamte Modell (oder massive Schichten davon) On-Chip residieren und „brain-scale“-KI-Modelle mit zuvor unerreichbaren Geschwindigkeiten ausführen.
Wesentliche technische Unterscheidungsmerkmale:
OpenAIs Hardware-Portfolio umfasst nun drei große Akteure, die jeweils einen eigenen strategischen Zweck erfüllen. Der folgende Vergleich zeigt, wie Cerebras in das breitere Ökosystem neben Nvidia und AMD passt.
Vergleichende Analyse von OpenAIs Hardware-Partnerschaften
| Vendor | Commitment Scale | Primary Workload Focus | Strategic Value Proposition |
|---|---|---|---|
| Nvidia | 10 Gigawatts (GW) ~$100B Investment |
Training & General Inference Das Rückgrat von GPT-5 und Stargate. |
Bewährtes Ökosystem: Dominanz des CUDA-Software-Stacks und etablierte Zuverlässigkeit für umfangreiche Trainingsläufe. |
| AMD | 6 Gigawatts (GW) | Kosteneffiziente Inferenz Bereitstellung von Modellen der Mittelklasse. |
Hebel & Kosten: Bietet Verhandlungsspielraum bei Preisen und eine sekundäre Versorgung für volumenstarke, standardisierte Workloads. |
| Cerebras | 750 Megawatt (MW) ~$10B Deal |
Niedrige Latenz-Inferenz Reasoning-Modelle (reasoning models) & Agents. |
Geschwindigkeit: Unübertroffene Latenz für „denkende“ Modelle, bei denen die Antwortzeit der entscheidende Nutzerkennwert ist. |
Dieser Deal sendet eine Schockwelle durch den Halbleitermarkt und bestätigt die These, dass die Zukunft der KI-Hardware heterogen sein wird. Für Cerebras ist dies ein unternehmensprägender Sieg. Nach einem zurückgezogenen IPO-Versuch im Jahr 2024 und Skepsis hinsichtlich seiner Abhängigkeit von einem einzelnen Kunden im Nahen Osten (G42) zementiert die Unterstützung durch OpenAI effektiv seinen Status als Spitzenakteur. Analysten erwarten, dass dieser Deal den Weg für einen erfolgreichen Cerebras-IPO Mitte 2026 ebnen wird.
Für Nvidia, obwohl der 750MW-Deal nur einen Bruchteil seiner 10GW-Pipeline darstellt, bedeutet er den ersten Riss in seinem Monopol über hochklassige KI-Rechenleistung. Er zeigt, dass Hyperscaler (hyperscalers) bereit sind, den CUDA-Graben für bestimmte Leistungsgewinne bei der Inferenz zu umgehen – ein Marktsegment, das voraussichtlich das Training in wirtschaftlicher Bedeutung übertreffen wird.
Während KI-Modelle von Forschungslaboren in Verbraucherprodukte übergehen, verlagert sich der wirtschaftliche Fokus vom „Cost to train“ hin zu „Cost per token“ und „Time to token“. Reasoning-Modelle, die vor einer Antwort möglicherweise Sekunden oder Minuten „nachdenken“, benötigen zum Zeitpunkt der Interaktion massive Rechenressourcen. Die Fähigkeit von Cerebras, diese Tokens schneller als ein GPU-Cluster zu liefern, ermöglicht es OpenAI, die Nutzererfahrung für die fortschrittlichste Produktstufe zu verbessern und potenziell höhere Abonnementstufen für Unternehmenskunden zu rechtfertigen, die sofortige komplexe Analysen benötigen.
OpenAIs Roadmap zielt auf den Bau von „Stargate“, einem hypothetischen $100 billion Supercomputer-Projekt. Während erwartet wird, dass Nvidia die Kern-Trainingscluster von Stargate antreiben wird, deutet die Einbeziehung von Cerebras darauf hin, dass die Anlage wahrscheinlich eine hybride Umgebung sein wird.
Wir können eine Zukunft erwarten, in der eine KI-Anfrage dynamisch geroutet wird: breite, kreative Anfragen könnten an einen Nvidia H200-Cluster gehen; Standardverarbeitung an AMD MI450s; und komplexe, logisch schwere Reasoning-Aufgaben an Cerebras-WSE-3-Knoten. Dieser Ansatz der „spezialisierten Rechenleistung“ spiegelt die Entwicklung des CPU-Marktes wider, bei der unterschiedliche Kerne unterschiedliche Aufgaben übernehmen und OpenAI so Effizienz pro Watt und pro Dollar maximiert.
Indem OpenAI jetzt 750MW spezialisierte Inferenzleistung sichert, stellt das Unternehmen sicher, dass die Infrastruktur vorhanden ist, damit seine nächststufigen Reasoning-Agenten in Echtzeit denken können, wenn sie für den Einsatz bereit sind.