Inferact, commercialisant vLLM, lève 150 millions de dollars pour booster l'inférence IA

Une nouvelle ère pour l'infrastructure IA : Inferact sécurise 150 millions de dollars pour commercialiser vLLM

Dans un moment déterminant pour le paysage de l'infrastructure d'intelligence artificielle, Inferact, la startup fondée par les créateurs du moteur d'inférence open-source largement adopté vLLM (moteur d'inférence, inference engine), est officiellement sortie de la discrétion avec un immense tour d'amorçage de 150 millions de dollars. Ce tour, qui valorise la jeune entreprise à un impressionnant 800 millions de dollars, a été co-dirigé par les titans du capital-risque Andreessen Horowitz (a16z) et Lightspeed Venture Partners.

Ce financement représente l'un des plus importants tours d'amorçage de l'histoire de la Silicon Valley, signalant un changement décisif de l'attention des investisseurs, passant de l'entraînement de modèles au déploiement et à l'inférence des modèles. Alors que l'IA générative (Generative AI) passe des laboratoires de recherche expérimentale à la production à grande échelle, l'industrie est confrontée à un nouveau goulot d'étranglement : le coût exorbitant et la latence de l'inférence. Inferact vise à résoudre cela en construisant la « couche d'inférence universelle » pour l'entreprise, tirant parti de l'universalité de vLLM pour standardiser la manière dont les modèles d'IA sont déployés à travers le monde.

Aux côtés de a16z et Lightspeed dans ce tour sursouscrit se trouvent Sequoia Capital, Altimeter Capital, Redpoint Ventures et ZhenFund, créant une coalition de soutiens qui souligne l'importance stratégique de la couche d'inférence.

Le phénomène vLLM : du laboratoire de Berkeley au standard industriel

Pour comprendre l'ampleur de ce financement, il faut examiner la technologie qui soutient Inferact. vLLM (Versatile Large Language Model) a commencé comme un projet de recherche à UC Berkeley, développé par une équipe incluant Simon Mo, Woosuk Kwon, Kaichao You et Roger Wang. Leur objectif était de résoudre une inefficacité critique dans la manière dont les grands modèles de langage (LLM) gèrent la mémoire lors de la génération de texte.

La percée est venue sous la forme de PagedAttention, un algorithme inspiré par la pagination de la mémoire virtuelle dans les systèmes d'exploitation. Les mécanismes d'attention traditionnels peinent avec la fragmentation de la mémoire, entraînant du gaspillage de ressources GPU — un péché capital à une époque où les GPU H100 sont à la fois rares et coûteux. PagedAttention permet à vLLM de gérer les clés et valeurs d'attention dans des blocs mémoire non contigus, augmentant radicalement le débit.

Depuis sa sortie open-source, vLLM a atteint des métriques d'adoption virale qui rivalisent avec les premiers jours de Kubernetes ou Docker :

400 000+ GPU sont estimés exécuter vLLM simultanément dans le monde.
Plus de 2 000 contributeurs ont participé au projet sur GitHub.
Adoption par des acteurs tech majeurs dont Meta, Google, et Character.ai.

Inferact a maintenant la mission de gérer ce phénomène open-source tout en construisant une plateforme commerciale sur laquelle les entreprises peuvent compter pour des applications critiques.

Financement en un coup d'œil

Le tableau suivant décrit les éléments clés du tour d'amorçage historique d'Inferact.

Metric	Details	Context
Round Size	$150 Million	One of the largest seed rounds in AI history
Valuation	$800 Million	Reflects high demand for inference optimization
Lead Investors	Andreessen Horowitz (a16z), Lightspeed	Leading top-tier deep tech firms
Key Participants	Sequoia, Altimeter, Redpoint, ZhenFund	Broad ecosystem support
Core Technology	vLLM, PagedAttention	High-throughput inference engine
Leadership	Simon Mo, Woosuk Kwon, et al.	Original creators of vLLM

---|---|---|

Le passage de l'entraînement au serving

Le lancement d'Inferact coïncide avec une transition fondamentale dans l'économie de l'IA. Depuis deux ans, les dépenses en capital ont été dominées par l'entraînement — la construction de clusters massifs pour créer des modèles de base comme GPT-4, Claude et Llama 3. Cependant, à mesure que ces modèles sont déployés dans des produits, le profil des coûts se déplace fortement vers l'inférence (inference).

Les analystes de l'industrie ont baptisé cela « l'ère du débit » ("Throughput Era"), où la métrique principale de succès n'est plus seulement la qualité du modèle, mais les tokens par seconde et par dollar. Exécuter un modèle comme Llama-3-70B à grande échelle pour des millions d'utilisateurs nécessite une puissance de calcul immense. Des piles logicielles inefficaces peuvent provoquer des pics de latence et des factures cloud astronomiques, tuant effectivement l'économie unitaire des applications d'IA.

Les partenaires d'Andreessen Horowitz ont noté dans leur thèse d'investissement que « le logiciel devient plus critique que le matériel. » Acheter simplement plus de NVIDIA H100 n'est plus une stratégie viable si la pile logicielle sous-jacente les utilise à seulement 30 % d'efficacité. La proposition de valeur d'Inferact est de débloquer les 70 % restants du potentiel de calcul via des optimisations logicielles avancées, agissant ainsi comme un multiplicateur de force pour les investissements matériels.

Commercialiser l'open source : la stratégie « Red Hat »

Inferact suit une voie bien connue des entreprises commerciales open-source (COSS) à succès comme Databricks (Spark), Confluent (Kafka) et HashiCorp (Terraform). L'entreprise fait face au classique double défi : soutenir une communauté libre et florissante tout en bâtissant une valeur propriétaire pour les clients payants.

Selon le CEO Simon Mo, la stratégie commerciale d'Inferact se concentre sur la fiabilité et l'évolutivité de niveau entreprise. Alors que le moteur open-source vLLM fournit la puissance brute, les entreprises exigent :

Infrastructure gérée : mise à l'échelle automatisée, orchestration multi-nœuds et récupération en cas de panne.
Sécurité et conformité : conformité SOC2, déploiements en cloud privé et gestion sécurisée des modèles.
Kernels optimisés : optimisations propriétaires pour des configurations matérielles spécifiques au-delà du support open-source général.
Garantie SLA : débit et latence assurés pour les applications critiques.

Ce modèle "Open Core" (Open Core) permet à Inferact de maintenir vLLM comme le « Linux de l'inférence » (Linux of Inference) — fonctionnant sur les puces NVIDIA, AMD et Intel — tout en capturant la valeur auprès des grandes organisations qui ne peuvent pas se permettre des temps d'arrêt ou une complexité non gérée.

Plongée technique : pourquoi PagedAttention est important

La sauce secrète derrière la domination de vLLM, et par extension la valorisation d'Inferact, est PagedAttention. Dans le serving standard des LLM, le cache Key-Value (KV) — qui stocke la mémoire de la conversation jusqu'à présent — croît dynamiquement. Les systèmes traditionnels doivent pré-allouer des blocs mémoire contigus pour gérer cette croissance, entraînant une fragmentation sévère. C'est comparable à réserver un bus de 100 sièges pour chaque passager au cas où il amènerait 99 amis.

PagedAttention résout cela en divisant le cache KV en blocs plus petits qui peuvent être stockés dans des espaces mémoire non contigus. Le moteur vLLM maintient une « table des pages » pour suivre ces blocs, tout comme un système d'exploitation gère la RAM.

Principaux avantages techniques :

Aucune perte : le gaspillage de mémoire dû à la fragmentation est réduit à presque zéro (<4%).
Tailles de batch supérieures : parce que la mémoire est utilisée plus efficacement, le moteur peut regrouper davantage de requêtes.
Gains de débit : dans les benchmarks, vLLM offre systématiquement un débit 2x à 4x supérieur à celui des HuggingFace Transformers standard, sans compromettre la latence.

Pour une entreprise dépensant 10 millions de dollars par an en calcul pour l'inférence, implémenter vLLM peut théoriquement réduire cette facture à 2,5–5 millions de dollars simplement grâce à une meilleure utilisation logicielle. Ce ROI direct est ce qui rend Inferact si attractif pour les investisseurs et les clients.

Implications stratégiques pour l'écosystème IA

L'arrivée d'Inferact avec une cagnotte de 150 millions de dollars envoie des ondes dans l'écosystème IA.

Pression sur les fournisseurs cloud : Les grands fournisseurs cloud (AWS, Azure, Google Cloud) et les fournisseurs d'API de modèles (Anyscale, Together AI, Fireworks) construisent souvent leurs propres piles d'inférence. Inferact offre une alternative neutre vis-à-vis des fournisseurs qui permet aux entreprises de posséder leur pile d'inférence sur n'importe quel cloud.
Standardisation : La fragmentation des moteurs d'inférence (TensorRT-LLM, TGI, vLLM) a été un casse-tête pour les développeurs. La capitalisation d'Inferact suggère que vLLM est positionné pour devenir l'API de facto, simplifiant l'expérience développeur.
La « taxe logicielle » : À mesure que le matériel se banalise, la capture de valeur se déplace vers la couche logicielle qui l'orchestration. Inferact parie que le « système d'exploitation » pour les LLM vaudra autant que les puces sur lesquelles ils tournent.

Perspectives

Avec 150 millions de dollars de capital frais, Inferact prévoit d'étendre agressivement son équipe d'ingénierie, ciblant spécifiquement des kernel hackers et des experts en systèmes distribués. L'entreprise vise également à approfondir son support pour les architectures matérielles émergentes, garantissant que vLLM reste le moteur le plus polyvalent sur un marché actuellement dominé par NVIDIA.

À mesure que l'industrie de l'IA mûrit, la couche d'infrastructure « ennuyeuse » — servir, mettre à l'échelle et optimiser — devient la plus lucrative. Inferact ne vend pas seulement un logiciel ; ils vendent les pioches pour la prochaine phase de la ruée vers l'or de l'IA : le déploiement.

Pour les entreprises peinant à faire passer leurs pilotes GenAI en production en raison des coûts ou de la latence, Inferact offre une bouée de sauvetage. Pour la communauté open-source, le financement promet un développement soutenu de vLLM, garantissant qu'il reste robuste et à la pointe. La course pour posséder la couche d'inférence a officiellement commencé, et Inferact a pris une avance précoce et dominante.