OpenAI sichert sich einen 10‑Milliarden‑Dollar‑Deal für KI‑Chips mit Cerebras und diversifiziert über Nvidia hinaus

OpenAI erschließt neues Terrain mit $10 Billion Cerebras-Partnerschaft

OpenAI hat offiziell eine wegweisende Vereinbarung mit dem KI-Chiphersteller Cerebras Systems unterzeichnet und verpflichtet sich zu rund $10 billion, um bis 2028 750 Megawatt Rechenleistung bereitzustellen. Dieser strategische Schritt stellt eine signifikante Abkehr von OpenAIs nahezu ausschließlicher Abhängigkeit von Nvidia dar und signalisiert eine breitere Diversifizierungsstrategie, die darauf abzielt, die für die nächste Generation künstlicher Intelligenz erforderliche Hardware zu sichern.

Der Deal, der Mitte Januar 2026 abgeschlossen wurde, stellt einen der größten Beschaffungsverträge für Nicht-GPU-KI-Beschleuniger bis heute dar. Durch die Integration von Cerebras’ Wafer-Scale-Technologie (wafer-scale technology) zielt OpenAI darauf ab, einen kritischen Engpass bei der Bereitstellung fortschrittlicher Reasoning-Modelle (reasoning models) zu adressieren: die Latenz bei der Inferenz. Während Nvidias GPUs weiterhin der Industriestandard für das Training großer Foundation-Modelle (foundation models) sind, bietet die Architektur von Cerebras einzigartige Vorteile für die Echtzeitverarbeitung, die immer komplexere KI-Agenten erfordern.

Die strategische Kehrtwende: Diversifizierung der Lieferkette

Jahrelang operierte die KI-Branche unter einem „Nvidia-first“-Paradigma, wobei die H100- und Blackwell-Serienchips das Rückgrat des Modelltrainings bildeten. Dennoch hat die exponentielle Nachfrage nach Rechenkapazität – zusammen mit Beschränkungen in der Lieferkette und stark steigenden Kosten – OpenAI dazu gedrängt, ein Multi-Anbieter-Ökosystem aufzubauen.

Diese Vereinbarung mit Cerebras ist kein isoliertes Ereignis, sondern Teil einer kalkulierten dreigleisigen Hardware-Strategie. Sie ergänzt OpenAIs bestehende Roadmap, die ein massives 10-Gigawatt-Infrastrukturcommitment von Nvidia und eine 6-Gigawatt-Deployment-Partnerschaft mit AMD umfasst. Durch die Fragmentierung seiner Hardware-Abhängigkeiten hedgt OpenAI effektiv gegen Lieferengpässe und nutzt gleichzeitig die spezifischen architektonischen Stärken verschiedener Anbieter für spezialisierte Workloads.

Die Struktur des Deals im Detail

Die $10 billion-Verpflichtung ist um ein „Kapazität-gegen-Anteile (capacity-for-equity)“ und Service-Modell strukturiert. Anstatt einfach Hardware zu kaufen, ist OpenAI eine langfristige Vereinbarung eingegangen, bei der Cerebras die Bereitstellung seiner Systeme in dedizierten Rechenzentren verwalten wird. Die Einführung erfolgt in Phasen, wobei die erste nennenswerte Kapazität Ende 2026 online gehen und bis 2028 auf die vollen 750 Megawatt hochgefahren werden soll.

Wesentlich ist, dass diese Partnerschaft stark auf die Inferenz (Inferenz, inference) ausgerichtet ist – den Prozess, live Modelle auszuführen, um Antworten zu generieren – und nicht auf das Training. Während OpenAI vom Training von GPT-5 zum Einsatz von Reasoning-Modellen (reasoning models) wie der o-Serie übergeht, sind Kosten und Geschwindigkeit der Inferenz entscheidend geworden. Die Architektur von Cerebras, die die langsame Datenbewegung zwischen separaten Chips eliminiert, ist theoretisch in der Lage, die für diese „denkenden“ Modelle erforderliche extrem niedrige Latenz zu liefern.

Technischer Deep Dive: Der Wafer-Scale-Vorteil

Um zu verstehen, warum OpenAI $10 billion auf eine Herausforderermarke setzt, muss man den grundlegenden Unterschied in der Architektur betrachten. Traditionelle GPU-Cluster beruhen auf Tausenden kleiner Chips, die über Kabel und Switches miteinander verbunden sind. Daten müssen ständig zwischen diesen Chips hin- und herwandern, was Latenzstrafen schafft, die die Antwortzeiten von Modellen verlangsamen.

Cerebras verfolgt mit seinem Wafer-Scale Engine (WSE-3) einen radikalen Ansatz. Anstatt eine Siliziumscheibe in Hunderte einzelne Chips zu schneiden, behält Cerebras die Wafer intakt und schafft einen einzigen, teller-großen Prozessor.

WSE-3 vs. traditionelle Architekturen

Der WSE-3 ist eine monolithische Leistungsmaschine. Er integriert Speicher und Rechenleistung auf demselben Siliziumsubstrat und bietet eine Bandbreite, die traditionelle GPU-Setups in den Schatten stellt. Dadurch kann das gesamte Modell (oder massive Schichten davon) On-Chip residieren und „brain-scale“-KI-Modelle mit zuvor unerreichbaren Geschwindigkeiten ausführen.

Wesentliche technische Unterscheidungsmerkmale:

Zero-Copy Memory: Daten müssen nicht zwischen externem Speicher und dem Prozessor bewegt werden, was die Latenz drastisch reduziert.
SRAM-Dominanz: Der Chip nutzt 44GB On-Chip-SRAM, das um mehrere Größenordnungen schneller ist als das in GPUs verwendete HBM (High Bandwidth Memory).
Interconnect-Dichte: Da die Kerne auf demselben Wafer liegen, ist die Kommunikation zwischen ihnen nahezu unmittelbar und umgeht die Engpässe von PCIe- oder Ethernet-Kabeln.

Der Hardware-Kampf: Eine vergleichende Analyse

OpenAIs Hardware-Portfolio umfasst nun drei große Akteure, die jeweils einen eigenen strategischen Zweck erfüllen. Der folgende Vergleich zeigt, wie Cerebras in das breitere Ökosystem neben Nvidia und AMD passt.

Vergleichende Analyse von OpenAIs Hardware-Partnerschaften

Vendor	Commitment Scale	Primary Workload Focus	Strategic Value Proposition
Nvidia	10 Gigawatts (GW) ~$100B Investment	Training & General Inference Das Rückgrat von GPT-5 und Stargate.	Bewährtes Ökosystem: Dominanz des CUDA-Software-Stacks und etablierte Zuverlässigkeit für umfangreiche Trainingsläufe.
AMD	6 Gigawatts (GW)	Kosteneffiziente Inferenz Bereitstellung von Modellen der Mittelklasse.	Hebel & Kosten: Bietet Verhandlungsspielraum bei Preisen und eine sekundäre Versorgung für volumenstarke, standardisierte Workloads.
Cerebras	750 Megawatt (MW) ~$10B Deal	Niedrige Latenz-Inferenz Reasoning-Modelle (reasoning models) & Agents.	Geschwindigkeit: Unübertroffene Latenz für „denkende“ Modelle, bei denen die Antwortzeit der entscheidende Nutzerkennwert ist.

Marktimplikationen

Dieser Deal sendet eine Schockwelle durch den Halbleitermarkt und bestätigt die These, dass die Zukunft der KI-Hardware heterogen sein wird. Für Cerebras ist dies ein unternehmensprägender Sieg. Nach einem zurückgezogenen IPO-Versuch im Jahr 2024 und Skepsis hinsichtlich seiner Abhängigkeit von einem einzelnen Kunden im Nahen Osten (G42) zementiert die Unterstützung durch OpenAI effektiv seinen Status als Spitzenakteur. Analysten erwarten, dass dieser Deal den Weg für einen erfolgreichen Cerebras-IPO Mitte 2026 ebnen wird.

Für Nvidia, obwohl der 750MW-Deal nur einen Bruchteil seiner 10GW-Pipeline darstellt, bedeutet er den ersten Riss in seinem Monopol über hochklassige KI-Rechenleistung. Er zeigt, dass Hyperscaler (hyperscalers) bereit sind, den CUDA-Graben für bestimmte Leistungsgewinne bei der Inferenz zu umgehen – ein Marktsegment, das voraussichtlich das Training in wirtschaftlicher Bedeutung übertreffen wird.

Der Wandel zur Inferenz-Ökonomie

Während KI-Modelle von Forschungslaboren in Verbraucherprodukte übergehen, verlagert sich der wirtschaftliche Fokus vom „Cost to train“ hin zu „Cost per token“ und „Time to token“. Reasoning-Modelle, die vor einer Antwort möglicherweise Sekunden oder Minuten „nachdenken“, benötigen zum Zeitpunkt der Interaktion massive Rechenressourcen. Die Fähigkeit von Cerebras, diese Tokens schneller als ein GPU-Cluster zu liefern, ermöglicht es OpenAI, die Nutzererfahrung für die fortschrittlichste Produktstufe zu verbessern und potenziell höhere Abonnementstufen für Unternehmenskunden zu rechtfertigen, die sofortige komplexe Analysen benötigen.

Ausblick: Der Weg zu Stargate

OpenAIs Roadmap zielt auf den Bau von „Stargate“, einem hypothetischen $100 billion Supercomputer-Projekt. Während erwartet wird, dass Nvidia die Kern-Trainingscluster von Stargate antreiben wird, deutet die Einbeziehung von Cerebras darauf hin, dass die Anlage wahrscheinlich eine hybride Umgebung sein wird.

Wir können eine Zukunft erwarten, in der eine KI-Anfrage dynamisch geroutet wird: breite, kreative Anfragen könnten an einen Nvidia H200-Cluster gehen; Standardverarbeitung an AMD MI450s; und komplexe, logisch schwere Reasoning-Aufgaben an Cerebras-WSE-3-Knoten. Dieser Ansatz der „spezialisierten Rechenleistung“ spiegelt die Entwicklung des CPU-Marktes wider, bei der unterschiedliche Kerne unterschiedliche Aufgaben übernehmen und OpenAI so Effizienz pro Watt und pro Dollar maximiert.

Indem OpenAI jetzt 750MW spezialisierte Inferenzleistung sichert, stellt das Unternehmen sicher, dass die Infrastruktur vorhanden ist, damit seine nächststufigen Reasoning-Agenten in Echtzeit denken können, wenn sie für den Einsatz bereit sind.