Inferact, comercializando o vLLM, levanta US$150 milhões para impulsionar a inferência de IA

Uma Nova Era para a Infraestrutura de IA: Inferact garante $150 Million para comercializar vLLM

Em um momento definidor para o panorama da infraestrutura de inteligência artificial, Inferact, a startup fundada pelos criadores do amplamente adotado motor de inferência open-source vLLM, saiu oficialmente do modo stealth com uma maciça rodada Seed de $150 million (Seed round). A rodada, que avalia a empresa nascente em impressionantes $800 million, foi co-liderada pelos titãs de capital de risco Andreessen Horowitz (a16z) e Lightspeed Venture Partners.

Esse financiamento representa uma das maiores rodadas seed da história do Vale do Silício, sinalizando uma mudança decisiva no foco dos investidores do treinamento de modelos para o serving (implantação) de modelos. À medida que a Inteligência Artificial Generativa (Generative AI) passa de laboratórios de pesquisa experimentais para produção em grande escala, a indústria enfrenta um novo gargalo: o custo exorbitante e a latência da inferência. A Inferact pretende resolver isso construindo a "camada universal de inferência" para empresas, aproveitando a ubiquidade do vLLM para padronizar como modelos de IA são implantados ao redor do globo.

Juntando-se a a16z e Lightspeed nesta rodada superinscrita estão Sequoia Capital, Altimeter Capital, Redpoint Ventures, e ZhenFund, criando uma coalizão de investidores que sublinha a importância estratégica da camada de inferência.

O Fenômeno vLLM: Do Laboratório de Berkeley ao Padrão da Indústria

Para entender a magnitude desse financiamento, é preciso olhar para a tecnologia que sustenta a Inferact. vLLM (Versatile Large Language Model) começou como um projeto de pesquisa na UC Berkeley, desenvolvido por uma equipe que inclui Simon Mo, Woosuk Kwon, Kaichao You, e Roger Wang. O objetivo deles era resolver uma ineficiência crítica em como os Large Language Models (LLMs) gerenciam memória durante a geração de texto.

O avanço veio na forma do PagedAttention, um algoritmo inspirado no paging de memória virtual em sistemas operacionais. Mecanismos de atenção tradicionais lutam com fragmentação de memória, levando ao desperdício de recursos de GPU — um pecado capital em uma era em que GPUs H100 são escassas e caras. O PagedAttention permite que o vLLM gerencie chaves e valores de atenção em blocos de memória não contíguos, aumentando drasticamente a taxa de transferência.

Desde seu lançamento open-source, o vLLM alcançou métricas de adoção viral que rivalizam com os primeiros dias do Kubernetes ou do Docker:

400,000+ GPUs estima-se que estejam executando vLLM simultaneamente em todo o mundo.
Mais de 2,000 contribuidores se envolveram com o projeto no GitHub.
Adoção por grandes players de tecnologia, incluindo Meta, Google, e Character.ai.

A Inferact agora tem a responsabilidade de zelar por esse fenômeno open-source enquanto constrói uma plataforma comercial na qual empresas possam confiar para aplicações críticas.

Funding at a Glance

The following table outlines the key details of Inferact's historic seed round.

Metric	Details	Context
Round Size	$150 Million	One of the largest seed rounds in AI history
Valuation	$800 Million	Reflects high demand for inference optimization
Lead Investors	Andreessen Horowitz (a16z), Lightspeed	Leading top-tier deep tech firms
Key Participants	Sequoia, Altimeter, Redpoint, ZhenFund	Broad ecosystem support
Core Technology	vLLM, PagedAttention	High-throughput inference engine
Leadership	Simon Mo, Woosuk Kwon, et al.	Original creators of vLLM

---|---|---|

A Mudança do Treinamento para o Serving

O lançamento da Inferact coincide com uma transição fundamental na economia da IA. Nos últimos dois anos, os gastos de capital foram dominados pelo treinamento — construir clusters massivos para criar modelos de base como GPT-4, Claude e Llama 3. No entanto, à medida que esses modelos são implantados em produtos, o perfil de custos muda fortemente em direção à inferência.

Analistas da indústria apelidaram isso de Era do Throughput (Throughput Era), onde a métrica principal de sucesso não é mais apenas a qualidade do modelo, mas tokens por segundo por dólar. Rodar um modelo como Llama-3-70B em escala para milhões de usuários requer imensa potência computacional. Pilhas de software ineficientes podem resultar em picos de latência e contas de nuvem astronômicas, efetivamente destruindo a economia unitária de aplicações de IA.

Parceiros da Andreessen Horowitz observaram em sua tese de investimento que "software está se tornando mais crítico do que hardware." Simplesmente comprar mais NVIDIA H100s já não é uma estratégia viável se a pilha de software subjacente as utiliza a apenas 30% de eficiência. A proposta de valor da Inferact é desbloquear os 70% restantes do potencial computacional por meio de otimizações avançadas de software, atuando efetivamente como um multiplicador de força para investimentos em hardware.

Comercializando o Open Source: A Estratégia "Open Core"

A Inferact segue um caminho bem trilhado de empresas comerciais baseadas em open-source bem-sucedidas (COSS) como Databricks (Spark), Confluent (Kafka) e HashiCorp (Terraform). A empresa enfrenta o desafio clássico duplo: suportar uma comunidade gratuita próspera enquanto constrói valor proprietário para clientes pagantes.

Segundo o CEO Simon Mo, a estratégia comercial da Inferact foca em confiabilidade e escalabilidade em nível empresarial. Enquanto o motor open-source vLLM fornece a potência bruta do motor, as empresas exigem:

Infraestrutura Gerenciada: escalonamento automatizado, orquestração multi-nó e recuperação de falhas.
Segurança & Conformidade: conformidade SOC2, implantações em nuvem privada e manuseio seguro de modelos.
Kernels Otimizados: otimizações proprietárias para configurações de hardware específicas além do suporte geral open-source.
Garantias de SLA: vazão e latência asseguradas para aplicações críticas.

Esse modelo "Open Core" (Open Core) permite à Inferact manter o vLLM como o padrão da indústria — o "Linux da Inferência" (Linux of Inference) — executando em chips NVIDIA, AMD e Intel igualmente, enquanto captura valor de grandes organizações que não podem arcar com downtime ou complexidade não gerenciada.

Mergulho Técnico: Por que o PagedAttention Importa

A receita secreta por trás do domínio do vLLM, e por extensão da avaliação da Inferact, é o PagedAttention. No serving padrão de LLMs, o cache Key-Value (KV) — que armazena a memória da conversa até o momento — cresce dinamicamente. Sistemas tradicionais precisam pré-alocar blocos de memória contíguos para lidar com esse crescimento, levando a uma fragmentação severa. É como reservar um ônibus de 100 lugares para cada passageiro, caso ele traga 99 amigos.

O PagedAttention resolve isso quebrando o cache KV em blocos menores que podem ser armazenados em espaços de memória não contíguos. O motor vLLM mantém uma "tabela de páginas" para rastrear esses blocos, assim como um sistema operacional gerencia a RAM.

Benefícios Técnicos Chave:

Desperdício Zero: O desperdício de memória devido à fragmentação é reduzido a quase zero (<4%).
Tamanhos de Batch Maiores: Como a memória é usada de forma mais eficiente, o motor pode agrupar mais requisições.
Ganho de Throughput: Em benchmarks, o vLLM entrega consistentemente 2x a 4x maior throughput do que Transformers padrão do HuggingFace, sem comprometer a latência.

Para uma empresa que gasta $10 million anualmente em compute de inferência, implementar vLLM pode, teoricamente, reduzir essa conta para $2.5-$5 million simplesmente por melhor utilização de software. Esse ROI direto é o que torna a Inferact uma proposta tão atraente para investidores e clientes.

Implicações Estratégicas para o Ecossistema de IA

A chegada da Inferact com um caixa de guerra de $150 million envia ondas pelo ecossistema de IA.

Pressão sobre Provedores de Nuvem: Grandes provedores de nuvem (AWS, Azure, Google Cloud) e provedores de API de modelos (Anyscale, Together AI, Fireworks) frequentemente constroem suas próprias pilhas de inferência. A Inferact oferece uma alternativa vendor-neutral que permite às empresas possuírem sua pilha de inferência em qualquer nuvem.
Padronização: A fragmentação de motores de inferência (TensorRT-LLM, TGI, vLLM) tem sido uma dor de cabeça para desenvolvedores. A capitalização da Inferact sugere que o vLLM está posicionado para se tornar a API de fato padrão, simplificando a experiência do desenvolvedor.
A "Taxa do Software": À medida que o hardware se torna comoditizado, a captura de valor migra para a camada de software que o orquestra. A Inferact aposta que o "sistema operacional" para LLMs será tão valioso quanto os chips em que eles rodam.

Olhando para a Frente

Com $150 million em capital fresco, a Inferact planeja expandir agressivamente sua equipe de engenharia, especificamente mirando hackers de kernel e especialistas em sistemas distribuídos. A empresa também visa aprofundar seu suporte para arquiteturas de hardware emergentes, garantindo que o vLLM permaneça o motor mais versátil em um mercado atualmente dominado pela NVIDIA.

À medida que a indústria de IA amadurece, a camada "chata" de infraestrutura — servir, escalar e otimizar — está se tornando a mais lucrativa. A Inferact não está apenas vendendo software; eles estão vendendo as picaretas para a próxima fase da corrida do ouro da IA: implantação.

Para empresas que lutam para transformar seus pilotos de Inteligência Artificial Generativa em produção devido a custos ou preocupações com latência, a Inferact oferece um salva-vidas. Para a comunidade open-source, o financiamento promete desenvolvimento sustentado do vLLM, garantindo que ele permaneça robusto e de ponta. A corrida para possuir a camada de inferência começou oficialmente, e a Inferact tomou uma liderança inicial e dominante.