
In einem wegweisenden Moment für die Landschaft der Infrastruktur für künstliche Intelligenz ist Inferact, das von den Entwicklern der weit verbreiteten Open-Source-Inferenz-Engine vLLM gegründete Startup, offiziell aus der Verschleierung getreten und hat eine massive $150 Millionen Seed-Finanzierungsrunde (Seed round) bekanntgegeben. Die Runde, die das junge Unternehmen mit beeindruckenden $800 Millionen bewertet, wurde von den Venture-Capital-Titanen Andreessen Horowitz (a16z) und Lightspeed Venture Partners gemeinsam angeführt.
Diese Finanzierung stellt eine der größten Seed-Runden in der Geschichte des Silicon Valley dar und signalisiert eine entschiedene Verschiebung des Investorenfokus von Modelltraining hin zum Modellbetrieb (Inference). Während sich Generative KI (Generative AI) von experimentellen Forschungslaboren in groß angelegte Produktionsumgebungen bewegt, steht die Branche vor einem neuen Engpass: den exorbitanten Kosten und Latenzen bei der Inferenz. Inferact will dieses Problem lösen, indem es die "universelle Inferenzschicht" für Unternehmen baut und die Verbreitung von vLLM nutzt, um zu standardisieren, wie KI-Modelle weltweit bereitgestellt werden.
Neben a16z und Lightspeed sind in dieser überzeichneten Runde Sequoia Capital, Altimeter Capital, Redpoint Ventures und ZhenFund beteiligt, womit eine Unterstützerkoalition entsteht, die die strategische Bedeutung der Inferenzschicht unterstreicht.
Um das Ausmaß dieser Finanzierung zu verstehen, muss man sich die Technologie anschauen, die Inferact zugrunde liegt. vLLM (Versatile Large Language Model) begann als Forschungsprojekt an der UC Berkeley und wurde von einem Team entwickelt, zu dem Simon Mo, Woosuk Kwon, Kaichao You und Roger Wang gehören. Ihr Ziel war es, eine kritische Ineffizienz zu beheben, wie große Sprachmodelle (LLMs) den Speicher während der Textgenerierung verwalten.
Der Durchbruch kam in Form von PagedAttention, einem Algorithmus, der von der Paging-Funktion virtuellen Speichers in Betriebssystemen inspiriert ist. Herkömmliche Attention-Mechanismen haben Probleme mit Speicherfragmentierung, was zu verschwendeten GPU-Ressourcen führt — ein Kardinalfehler in einer Zeit, in der H100-GPUs sowohl knapp als auch teuer sind. PagedAttention ermöglicht es vLLM, Attention-Keys und -Values in nicht zusammenhängenden Speicherblöcken zu verwalten und so den Durchsatz drastisch zu erhöhen.
Seit der Veröffentlichung als Open Source (Open Source) hat vLLM virale Akzeptanzwerte erreicht, die mit den frühen Tagen von Kubernetes oder Docker vergleichbar sind:
Inferact steht nun vor der Aufgabe, diese Open-Source-Bewegung zu betreuen und zugleich eine kommerzielle Plattform aufzubauen, auf die Unternehmen für geschäftskritische Anwendungen vertrauen können.
Die folgende Tabelle zeigt die wichtigsten Details von Inferacts historischer Seed-Runde.
| Metric | Details | Context |
|---|---|---|
| Round Size | $150 Million | One of the largest seed rounds in AI history |
| Valuation | $800 Million | Reflects high demand for inference optimization |
| Lead Investors | Andreessen Horowitz (a16z), Lightspeed | Leading top-tier deep tech firms |
| Key Participants | Sequoia, Altimeter, Redpoint, ZhenFund | Broad ecosystem support |
| Core Technology | vLLM, PagedAttention | High-throughput inference engine |
| Leadership | Simon Mo, Woosuk Kwon, et al. | Original creators of vLLM |
---|---|---|
Der Zeitpunkt von Inferacts Markteintritt fällt mit einem grundlegenden Übergang in der KI-Wirtschaft zusammen. In den letzten zwei Jahren wurden Kapitalausgaben von der Trainingsphase dominiert — dem Aufbau massiver Cluster zur Erstellung von Foundation Models wie GPT-4, Claude und Llama 3. Sobald diese Modelle jedoch in Produkte integriert werden, verschiebt sich das Kostenprofil stark in Richtung Inferenz.
Branchenanalysten haben dies als die „Durchsatz-Ära“ (Throughput Era) bezeichnet, in der die primäre Erfolgsmetrik nicht mehr nur die Modellqualität ist, sondern Tokens pro Sekunde pro Dollar (tokens per second per dollar). Den Betrieb eines Modells wie Llama-3-70B in großem Maßstab für Millionen von Nutzern erfordert enorme Rechenleistung. Ineffiziente Software-Stacks können zu Latenzspitzen und explodierenden Cloud-Kosten führen und damit die Unit Economics von KI-Anwendungen effektiv zerstören.
Partner von Andreessen Horowitz bemerkten in ihrer Investment-These, dass „Software wichtiger wird als Hardware.“ Einfach mehr NVIDIA H100s zu kaufen, ist keine tragfähige Strategie mehr, wenn der zugrunde liegende Software-Stack diese nur mit 30% Effizienz nutzt. Inferacts Wertversprechen besteht darin, die verbleibenden 70% Rechenpotenzial durch fortschrittliche Software-Optimierungen freizusetzen und so als Kraftmultiplikator für Hardware-Investitionen zu wirken.
Inferact folgt einem bewährten Pfad erfolgreicher kommerzieller Open-Source-Unternehmen (COSS) wie Databricks (Spark), Confluent (Kafka) und HashiCorp (Terraform). Das Unternehmen steht vor der klassischen Doppelaufgabe: einerseits eine florierende freie Community zu unterstützen, andererseits proprietären Mehrwert für zahlende Kunden zu schaffen.
Laut CEO Simon Mo konzentriert sich Inferacts kommerzielle Strategie auf Unternehmensqualität in Zuverlässigkeit und Skalierbarkeit. Während die Open-Source vLLM-Engine die rohe Antriebsleistung liefert, benötigen Unternehmen:
Dieses Open-Core-Modell (Open Core) erlaubt es Inferact, vLLM als den Industriestandard — das "Linux der Inferenz" — zu erhalten, das gleichermaßen auf NVIDIA-, AMD- und Intel-Chips läuft, während gleichzeitig Wert von großen Organisationen abgeschöpft wird, die sich Ausfallzeiten oder unbeaufsichtigte Komplexität nicht leisten können.
Das Geheimnis hinter vLLMs Dominanz und damit hinter Inferacts Bewertung ist PagedAttention. Beim standardmäßigen LLM-Serving wächst der Key-Value-Cache (KV-Cache), der das bisherige Gesprächsgedächtnis des Modells speichert, dynamisch. Traditionelle Systeme müssen zusammenhängende Speicherbereiche vorab reservieren, um dieses Wachstum zu bewältigen, was zu starker Fragmentierung führt. Es ist vergleichbar damit, einen 100-Sitzer-Bus für jeden Fahrgast zu reservieren, nur für den Fall, dass er 99 Freunde mitbringt.
PagedAttention löst dieses Problem, indem es den KV-Cache in kleinere Blöcke aufteilt, die in nicht zusammenhängenden Speicherbereichen abgelegt werden können. Die vLLM-Engine führt eine "Seitentabelle" (page table), um diese Blöcke zu verfolgen, ähnlich wie ein Betriebssystem den RAM verwaltet.
Technische Hauptvorteile:
Für ein Unternehmen, das jährlich $10 Millionen für Inferenz-Compute ausgibt, kann die Implementierung von vLLM theoretisch diese Kosten durch bessere Software-Auslastung auf $2,5–$5 Millionen senken. Diese direkte Kapitalrendite macht Inferact sowohl für Investoren als auch für Kunden äußerst attraktiv.
Das Erscheinen von Inferact mit einem Kapitalpolster von $150 Millionen sendet Wellen durch das KI-Ökosystem.
Mit $150 Millionen frischem Kapital plant Inferact, sein Engineering-Team aggressiv auszubauen, mit besonderem Fokus auf Kernel-Hacker und Experten für verteilte Systeme. Das Unternehmen will außerdem seine Unterstützung für aufkommende Hardware-Architekturen vertiefen, um sicherzustellen, dass vLLM die vielseitigste Engine in einem Markt bleibt, der derzeit von NVIDIA dominiert wird.
Während die KI-Branche reift, wird die „langweilige“ Infrastrukturschicht — Bereitstellung, Skalierung und Optimierung — zunehmend die lukrativste. Inferact verkauft nicht nur Software; sie verkaufen die Spitzhacken für die nächste Phase des KI-Goldrausches: die Bereitstellung.
Für Unternehmen, die Schwierigkeiten haben, ihre GenAI-Piloten aufgrund von Kosten- oder Latenzproblemen in die Produktion zu überführen, bietet Inferact eine Rettungsleine. Für die Open-Source-Community verspricht die Finanzierung eine nachhaltige Weiterentwicklung von vLLM, die sicherstellt, dass es robust und auf dem neuesten Stand bleibt. Das Rennen um die Kontrolle der Inferenzschicht hat offiziell begonnen, und Inferact hat früh die Führung übernommen.