Inferact, das vLLM kommerzialisiert, sichert sich 150 Mio. USD zur Stärkung der KI-Inferenz

Eine neue Ära für KI-Infrastruktur: Inferact sichert sich $150 Million zur Kommerzialisierung von vLLM

In einem wegweisenden Moment für die Landschaft der Infrastruktur für künstliche Intelligenz ist Inferact, das von den Entwicklern der weit verbreiteten Open-Source-Inferenz-Engine vLLM gegründete Startup, offiziell aus der Verschleierung getreten und hat eine massive $150 Millionen Seed-Finanzierungsrunde (Seed round) bekanntgegeben. Die Runde, die das junge Unternehmen mit beeindruckenden $800 Millionen bewertet, wurde von den Venture-Capital-Titanen Andreessen Horowitz (a16z) und Lightspeed Venture Partners gemeinsam angeführt.

Diese Finanzierung stellt eine der größten Seed-Runden in der Geschichte des Silicon Valley dar und signalisiert eine entschiedene Verschiebung des Investorenfokus von Modelltraining hin zum Modellbetrieb (Inference). Während sich Generative KI (Generative AI) von experimentellen Forschungslaboren in groß angelegte Produktionsumgebungen bewegt, steht die Branche vor einem neuen Engpass: den exorbitanten Kosten und Latenzen bei der Inferenz. Inferact will dieses Problem lösen, indem es die "universelle Inferenzschicht" für Unternehmen baut und die Verbreitung von vLLM nutzt, um zu standardisieren, wie KI-Modelle weltweit bereitgestellt werden.

Neben a16z und Lightspeed sind in dieser überzeichneten Runde Sequoia Capital, Altimeter Capital, Redpoint Ventures und ZhenFund beteiligt, womit eine Unterstützerkoalition entsteht, die die strategische Bedeutung der Inferenzschicht unterstreicht.

Das vLLM-Phänomen: Vom Berkeley-Labor zum Industriestandard

Um das Ausmaß dieser Finanzierung zu verstehen, muss man sich die Technologie anschauen, die Inferact zugrunde liegt. vLLM (Versatile Large Language Model) begann als Forschungsprojekt an der UC Berkeley und wurde von einem Team entwickelt, zu dem Simon Mo, Woosuk Kwon, Kaichao You und Roger Wang gehören. Ihr Ziel war es, eine kritische Ineffizienz zu beheben, wie große Sprachmodelle (LLMs) den Speicher während der Textgenerierung verwalten.

Der Durchbruch kam in Form von PagedAttention, einem Algorithmus, der von der Paging-Funktion virtuellen Speichers in Betriebssystemen inspiriert ist. Herkömmliche Attention-Mechanismen haben Probleme mit Speicherfragmentierung, was zu verschwendeten GPU-Ressourcen führt — ein Kardinalfehler in einer Zeit, in der H100-GPUs sowohl knapp als auch teuer sind. PagedAttention ermöglicht es vLLM, Attention-Keys und -Values in nicht zusammenhängenden Speicherblöcken zu verwalten und so den Durchsatz drastisch zu erhöhen.

Seit der Veröffentlichung als Open Source (Open Source) hat vLLM virale Akzeptanzwerte erreicht, die mit den frühen Tagen von Kubernetes oder Docker vergleichbar sind:

Schätzungsweise 400.000+ GPUs laufen weltweit gleichzeitig mit vLLM.
Über 2.000 Beitragende haben sich im GitHub-Projekt engagiert.
Übernahme durch große Tech-Akteure wie Meta, Google und Character.ai.

Inferact steht nun vor der Aufgabe, diese Open-Source-Bewegung zu betreuen und zugleich eine kommerzielle Plattform aufzubauen, auf die Unternehmen für geschäftskritische Anwendungen vertrauen können.

Finanzierung im Überblick

Die folgende Tabelle zeigt die wichtigsten Details von Inferacts historischer Seed-Runde.

Metric	Details	Context
Round Size	$150 Million	One of the largest seed rounds in AI history
Valuation	$800 Million	Reflects high demand for inference optimization
Lead Investors	Andreessen Horowitz (a16z), Lightspeed	Leading top-tier deep tech firms
Key Participants	Sequoia, Altimeter, Redpoint, ZhenFund	Broad ecosystem support
Core Technology	vLLM, PagedAttention	High-throughput inference engine
Leadership	Simon Mo, Woosuk Kwon, et al.	Original creators of vLLM

---|---|---|

Der Wandel vom Training zum Serving

Der Zeitpunkt von Inferacts Markteintritt fällt mit einem grundlegenden Übergang in der KI-Wirtschaft zusammen. In den letzten zwei Jahren wurden Kapitalausgaben von der Trainingsphase dominiert — dem Aufbau massiver Cluster zur Erstellung von Foundation Models wie GPT-4, Claude und Llama 3. Sobald diese Modelle jedoch in Produkte integriert werden, verschiebt sich das Kostenprofil stark in Richtung Inferenz.

Branchenanalysten haben dies als die „Durchsatz-Ära“ (Throughput Era) bezeichnet, in der die primäre Erfolgsmetrik nicht mehr nur die Modellqualität ist, sondern Tokens pro Sekunde pro Dollar (tokens per second per dollar). Den Betrieb eines Modells wie Llama-3-70B in großem Maßstab für Millionen von Nutzern erfordert enorme Rechenleistung. Ineffiziente Software-Stacks können zu Latenzspitzen und explodierenden Cloud-Kosten führen und damit die Unit Economics von KI-Anwendungen effektiv zerstören.

Partner von Andreessen Horowitz bemerkten in ihrer Investment-These, dass „Software wichtiger wird als Hardware.“ Einfach mehr NVIDIA H100s zu kaufen, ist keine tragfähige Strategie mehr, wenn der zugrunde liegende Software-Stack diese nur mit 30% Effizienz nutzt. Inferacts Wertversprechen besteht darin, die verbleibenden 70% Rechenpotenzial durch fortschrittliche Software-Optimierungen freizusetzen und so als Kraftmultiplikator für Hardware-Investitionen zu wirken.

Open Source kommerzialisieren: Die „Red Hat“-Strategie

Inferact folgt einem bewährten Pfad erfolgreicher kommerzieller Open-Source-Unternehmen (COSS) wie Databricks (Spark), Confluent (Kafka) und HashiCorp (Terraform). Das Unternehmen steht vor der klassischen Doppelaufgabe: einerseits eine florierende freie Community zu unterstützen, andererseits proprietären Mehrwert für zahlende Kunden zu schaffen.

Laut CEO Simon Mo konzentriert sich Inferacts kommerzielle Strategie auf Unternehmensqualität in Zuverlässigkeit und Skalierbarkeit. Während die Open-Source vLLM-Engine die rohe Antriebsleistung liefert, benötigen Unternehmen:

Managed Infrastructure: Automatisches Skalieren, Multi-Node-Orchestrierung und Fehlerwiederherstellung.
Security & Compliance: SOC2-Compliance, private Cloud-Deployments und sichere Modellverarbeitung.
Optimized Kernels: Proprietäre Optimierungen für spezifische Hardwarekonfigurationen über die allgemeine Open-Source-Unterstützung hinaus.
SLA Guarantees: Garantierter Durchsatz und Latenz für kritische Anwendungen.

Dieses Open-Core-Modell (Open Core) erlaubt es Inferact, vLLM als den Industriestandard — das "Linux der Inferenz" — zu erhalten, das gleichermaßen auf NVIDIA-, AMD- und Intel-Chips läuft, während gleichzeitig Wert von großen Organisationen abgeschöpft wird, die sich Ausfallzeiten oder unbeaufsichtigte Komplexität nicht leisten können.

Technischer Deep Dive: Warum PagedAttention wichtig ist

Das Geheimnis hinter vLLMs Dominanz und damit hinter Inferacts Bewertung ist PagedAttention. Beim standardmäßigen LLM-Serving wächst der Key-Value-Cache (KV-Cache), der das bisherige Gesprächsgedächtnis des Modells speichert, dynamisch. Traditionelle Systeme müssen zusammenhängende Speicherbereiche vorab reservieren, um dieses Wachstum zu bewältigen, was zu starker Fragmentierung führt. Es ist vergleichbar damit, einen 100-Sitzer-Bus für jeden Fahrgast zu reservieren, nur für den Fall, dass er 99 Freunde mitbringt.

PagedAttention löst dieses Problem, indem es den KV-Cache in kleinere Blöcke aufteilt, die in nicht zusammenhängenden Speicherbereichen abgelegt werden können. Die vLLM-Engine führt eine "Seitentabelle" (page table), um diese Blöcke zu verfolgen, ähnlich wie ein Betriebssystem den RAM verwaltet.

Technische Hauptvorteile:

Zero Waste: Speicherabfall durch Fragmentierung wird auf nahezu null reduziert (<4%).
Höhere Batch-Größen: Da der Speicher effizienter genutzt wird, kann die Engine mehr Anfragen zusammenfassen.
Durchsatzgewinne: In Benchmarks liefert vLLM konsequent 2x bis 4x höheren Durchsatz als Standard-HuggingFace-Transformers, ohne die Latenz zu beeinträchtigen.

Für ein Unternehmen, das jährlich $10 Millionen für Inferenz-Compute ausgibt, kann die Implementierung von vLLM theoretisch diese Kosten durch bessere Software-Auslastung auf $2,5–$5 Millionen senken. Diese direkte Kapitalrendite macht Inferact sowohl für Investoren als auch für Kunden äußerst attraktiv.

Strategische Implikationen für das KI-Ökosystem

Das Erscheinen von Inferact mit einem Kapitalpolster von $150 Millionen sendet Wellen durch das KI-Ökosystem.

Druck auf Cloud-Anbieter: Große Cloud-Anbieter (AWS, Azure, Google Cloud) und Anbieter von Model-APIs (Anyscale, Together AI, Fireworks) bauen oft eigene Inferenz-Stacks. Inferact bietet eine anbieterneutrale Alternative, die es Unternehmen erlaubt, ihren Inferenz-Stack in jeder Cloud zu betreiben.
Standardisierung: Die Fragmentierung von Inferenz-Engines (TensorRT-LLM, TGI, vLLM) ist für Entwickler eine Belastung gewesen. Inferacts Kapitalausstattung legt nahe, dass vLLM positioniert ist, die de-facto-Standard-API zu werden und so das Entwickelerlebnis zu vereinfachen.
Die "Software-Steuer": Während Hardware zur Commodity wird, verlagert sich die Werterfassung auf die Software-Schicht, die diese orchestriert. Inferact setzt darauf, dass das "Betriebssystem" für LLMs genauso viel wert sein wird wie die Chips, auf denen sie laufen.

Ausblick

Mit $150 Millionen frischem Kapital plant Inferact, sein Engineering-Team aggressiv auszubauen, mit besonderem Fokus auf Kernel-Hacker und Experten für verteilte Systeme. Das Unternehmen will außerdem seine Unterstützung für aufkommende Hardware-Architekturen vertiefen, um sicherzustellen, dass vLLM die vielseitigste Engine in einem Markt bleibt, der derzeit von NVIDIA dominiert wird.

Während die KI-Branche reift, wird die „langweilige“ Infrastrukturschicht — Bereitstellung, Skalierung und Optimierung — zunehmend die lukrativste. Inferact verkauft nicht nur Software; sie verkaufen die Spitzhacken für die nächste Phase des KI-Goldrausches: die Bereitstellung.

Für Unternehmen, die Schwierigkeiten haben, ihre GenAI-Piloten aufgrund von Kosten- oder Latenzproblemen in die Produktion zu überführen, bietet Inferact eine Rettungsleine. Für die Open-Source-Community verspricht die Finanzierung eine nachhaltige Weiterentwicklung von vLLM, die sicherstellt, dass es robust und auf dem neuesten Stand bleibt. Das Rennen um die Kontrolle der Inferenzschicht hat offiziell begonnen, und Inferact hat früh die Führung übernommen.