Inferact, que comercializa vLLM, recauda 150 millones de dólares para impulsar la inferencia de IA

A New Era for AI Infrastructure: Inferact Secures $150 Million to Commercialize vLLM

En un momento definitorio para el panorama de la infraestructura de inteligencia artificial, Inferact, la startup fundada por los creadores del ampliamente adoptado motor de inferencia de código abierto vLLM (open-source), ha salido oficialmente del sigilo con una gigantesca ronda semilla de $150 millones (Seed round). La ronda, que valora a la naciente compañía en unos impresionantes $800 millones, fue co-liderada por los titanes de capital riesgo Andreessen Horowitz (a16z) y Lightspeed Venture Partners.

Esta financiación representa una de las mayores rondas semilla en la historia de Silicon Valley, señalando un cambio decisivo en el enfoque de los inversores desde el entrenamiento de modelos hacia el servicio de modelos. A medida que la IA generativa (IA generativa (Generative AI)) pasa de los laboratorios de investigación experimentales a la producción a gran escala, la industria se enfrenta a un nuevo cuello de botella: el coste y la latencia exorbitantes de la inferencia. Inferact pretende resolver esto construyendo la "capa universal de inferencia" para la empresa, aprovechando la ubicuidad de vLLM para estandarizar cómo se despliegan los modelos de IA en todo el mundo.

Uniéndose a a16z y Lightspeed en esta sobresuscrita ronda están Sequoia Capital, Altimeter Capital, Redpoint Ventures, y ZhenFund, creando una coalición de patrocinadores que subraya la importancia estratégica de la capa de inferencia.

The vLLM Phenomenon: From Berkeley Lab to Industry Standard

Para entender la magnitud de esta financiación, hay que mirar la tecnología que sustenta a Inferact. vLLM (Versatile Large Language Model) comenzó como un proyecto de investigación en UC Berkeley, desarrollado por un equipo que incluye a Simon Mo, Woosuk Kwon, Kaichao You, y Roger Wang. Su objetivo era abordar una ineficiencia crítica en cómo los Modelos de Lenguaje a Gran Escala (Large Language Models, LLMs) gestionan la memoria durante la generación de texto.

El avance llegó en forma de PagedAttention, un algoritmo inspirado en el paginado de memoria virtual en los sistemas operativos. Los mecanismos de atención tradicionales luchan con la fragmentación de la memoria, lo que conduce a recursos de GPU desperdiciados—un pecado capital en una era donde las GPUs H100 son tanto escasas como caras. PagedAttention permite que vLLM gestione las claves y valores de atención en bloques de memoria no contiguos, aumentando drásticamente el rendimiento.

Desde su liberación como código abierto, vLLM ha alcanzado métricas de adopción viral que rivalizan con los primeros días de Kubernetes o Docker:

Se estima que más de 400,000 GPUs están ejecutando vLLM de forma concurrente en todo el mundo.
Más de 2,000 contribuyentes han participado en el proyecto en GitHub.
Adopción por parte de grandes actores tecnológicos, incluyendo Meta, Google, y Character.ai.

Ahora Inferact tiene la tarea de custodiar este fenómeno de código abierto mientras construye una plataforma comercial en la que las empresas puedan confiar para aplicaciones críticas.

Funding at a Glance

La siguiente tabla describe los detalles clave de la histórica ronda semilla de Inferact.

Metric	Details	Context
Round Size	$150 Million	One of the largest seed rounds in AI history
Valuation	$800 Million	Reflects high demand for inference optimization
Lead Investors	Andreessen Horowitz (a16z), Lightspeed	Leading top-tier deep tech firms
Key Participants	Sequoia, Altimeter, Redpoint, ZhenFund	Broad ecosystem support
Core Technology	vLLM, PagedAttention	High-throughput inference engine
Leadership	Simon Mo, Woosuk Kwon, et al.	Original creators of vLLM

---|---|---|

The Shift from Training to Serving

El lanzamiento de Inferact coincide con una transición fundamental en la economía de la IA. Durante los últimos dos años, el gasto de capital ha estado dominado por el entrenamiento—construir clústeres masivos para crear modelos fundacionales como GPT-4, Claude y Llama 3. Sin embargo, a medida que estos modelos se despliegan en productos, el perfil de costes se desplaza fuertemente hacia la inferencia.

Los analistas de la industria han denominado esto la "Era del Rendimiento" (Throughput Era), donde la métrica principal de éxito ya no es solo la calidad del modelo, sino tokens por segundo por dólar. Ejecutar un modelo como Llama-3-70B a escala para millones de usuarios requiere una potencia de cómputo inmensa. Las pilas de software ineficientes pueden provocar picos de latencia y facturas de nube desorbitadas, matando efectivamente la economía unitaria de las aplicaciones de IA.

Los socios de Andreessen Horowitz señalaron en su tesis de inversión que "el software se está volviendo más crítico que el hardware." Simplemente comprar más NVIDIA H100 ya no es una estrategia viable si la pila de software subyacente las utiliza solo al 30% de eficiencia. La propuesta de valor de Inferact es desbloquear el 70% restante del potencial de cómputo mediante optimizaciones avanzadas de software, actuando efectivamente como un multiplicador de fuerza para las inversiones en hardware.

Commercializing Open Source: The "Red Hat" Strategy

Inferact sigue un camino ya transitado por compañías exitosas de código abierto comercial (COSS) como Databricks (Spark), Confluent (Kafka) y HashiCorp (Terraform). La compañía enfrenta el clásico desafío dual: apoyar una comunidad libre y próspera mientras construye valor propietario para clientes que pagan.

Según el CEO Simon Mo, la estrategia comercial de Inferact se centra en la fiabilidad y escalabilidad de nivel empresarial. Mientras que el motor vLLM de código abierto proporciona la potencia bruta, las empresas requieren:

Infraestructura Gestionada: escalado automatizado, orquestación multinodo y recuperación ante fallos.
Seguridad y Cumplimiento: cumplimiento SOC2, despliegues en nube privada y manejo seguro de modelos.
Kernels Optimizados: optimizaciones propietarias para configuraciones de hardware específicas más allá del soporte general de código abierto.
Garantías SLA: rendimiento y latencia asegurados para aplicaciones críticas.

Este modelo "Open Core" (modelo "Open Core" (Open Core)) permite a Inferact mantener a vLLM como el estándar de la industria, el "Linux de la inferencia" (Linux of Inference), compatible con chips de NVIDIA, AMD e Intel por igual, mientras captura valor de grandes organizaciones que no pueden permitirse tiempos de inactividad o la complejidad no gestionada.

Technical Deep Dive: Why PagedAttention Matters

La salsa secreta detrás del dominio de vLLM, y por extensión de la valoración de Inferact, es PagedAttention. En el servicio estándar de LLM, la caché Key-Value (KV) —que almacena la memoria del modelo sobre la conversación hasta el momento— crece dinámicamente. Los sistemas tradicionales deben preasignar bloques de memoria contiguos para manejar este crecimiento, lo que conduce a una fragmentación severa. Es como reservar un autobús de 100 plazas para cada pasajero por si acaso trae 99 amigos.

PagedAttention lo resuelve dividiendo la caché KV en bloques más pequeños que pueden almacenarse en espacios de memoria no contiguos. El motor vLLM mantiene una "tabla de páginas" para rastrear estos bloques, tal como un sistema operativo gestiona la RAM.

Beneficios Técnicos Clave:

Desperdicio Cero: El desperdicio de memoria debido a la fragmentación se reduce a casi cero (<4%).
Tamaños de Lote Mayores: Debido a un uso más eficiente de la memoria, el motor puede agrupar más solicitudes.
Ganancias de Rendimiento: En benchmarks, vLLM ofrece consistentemente 2x a 4x mayor throughput que los Transformers estándar de HuggingFace, sin comprometer la latencia.

Para una empresa que gasta $10 millones anuales en cómputo de inferencia, implementar vLLM puede reducir teóricamente esa factura a $2.5-$5 millones simplemente mediante una mejor utilización del software. Este ROI directo es lo que hace a Inferact una propuesta tan atractiva para inversores y clientes por igual.

Strategic Implications for the AI Ecosystem

La llegada de Inferact con un fondo de guerra de $150 millones envía ondas por el ecosistema de IA.

Presión sobre los proveedores de nube: Los principales proveedores de nube (AWS, Azure, Google Cloud) y los proveedores de APIs de modelos (Anyscale, Together AI, Fireworks) a menudo construyen sus propias pilas de inferencia. Inferact ofrece una alternativa neutra al proveedor que permite a las empresas poseer su pila de inferencia en cualquier nube.
Estandarización: La fragmentación de motores de inferencia (TensorRT-LLM, TGI, vLLM) ha sido un dolor de cabeza para los desarrolladores. La capitalización de Inferact sugiere que vLLM está posicionado para convertirse en la API de facto, simplificando la experiencia del desarrollador.
El "Impuesto del Software": A medida que el hardware se vuelve una mercancía, la captura de valor se desplaza a la capa de software que lo orquesta. Inferact apuesta a que el "sistema operativo" para LLMs será tan valioso como los chips sobre los que se ejecuta.

Looking Ahead

Con $150 millones en capital fresco, Inferact planea expandir agresivamente su equipo de ingeniería, apuntando específicamente a hackers de kernel y expertos en sistemas distribuidos. La compañía también pretende profundizar su soporte para arquitecturas de hardware emergentes, asegurando que vLLM siga siendo el motor más versátil en un mercado actualmente dominado por NVIDIA.

A medida que la industria de la IA madura, la capa "aburrida" de infraestructura—servir, escalar y optimizar—se está volviendo la más lucrativa. Inferact no solo vende software; vende las herramientas para la próxima fase de la fiebre del oro de la IA: el despliegue.

Para las empresas que luchan por llevar sus pilotos de IA generativa (IA generativa (Generative AI)) a producción debido a costes o problemas de latencia, Inferact ofrece una tabla de salvación. Para la comunidad de código abierto, la financiación promete un desarrollo sostenido de vLLM, asegurando que siga siendo robusto y de vanguardia. La carrera por poseer la capa de inferencia ha comenzado oficialmente, y Inferact ha tomado una ventaja temprana y contundente.