Inferact, коммерциализирующая vLLM, привлекла $150 млн для ускорения инференса ИИ

A New Era for AI Infrastructure: Inferact Secures $150 Million to Commercialize vLLM

В поворотный момент для инфраструктуры искусственного интеллекта Inferact, стартап, основанный создателями широко используемого открытого движка инференса vLLM, официально вышел из режима тайной разработки с масштабным раундом Seed на $150 миллионов. Раунд, который оценивает молодую компанию в впечатляющие $800 миллионов, был сопровожден венчурными гигантами Andreessen Horowitz (a16z) и Lightspeed Venture Partners.

Это финансирование является одним из крупнейших seed-раундов в истории Силиконовой долины и сигнализирует о решительном смещении внимания инвесторов с обучения моделей на их развертывание. По мере того как генеративный ИИ (Generative AI) внедряется из экспериментальных исследовательских лабораторий в масштабное производство, отрасль сталкивается с новым узким местом: чрезвычайно высокими затратами и задержками при инференсе. Inferact стремится решить эту проблему, создавая «универсальный уровень инференса» для предприятий, используя повсеместность vLLM для стандартизации способов развертывания моделей ИИ по всему миру.

К сопредседателям a16z и Lightspeed в этом переподписанном раунде присоединились Sequoia Capital, Altimeter Capital, Redpoint Ventures и ZhenFund, сформировав коалицию инвесторов, подчеркивающую стратегическую важность уровня инференса.

The vLLM Phenomenon: From Berkeley Lab to Industry Standard

Чтобы оценить масштабы этого финансирования, нужно понять технологию, лежащую в основе Inferact. vLLM (Versatile Large Language Model) начался как исследовательский проект в UC Berkeley, разработанный командой, в которую входили Simon Mo, Woosuk Kwon, Kaichao You и Roger Wang. Их цель заключалась в решении критической неэффективности в управлении памятью при генерации текста моделями больших языков (Large Language Models, LLMs).

Прорыв состоял в алгоритме PagedAttention, вдохновлённом переключением страниц виртуальной памяти в операционных системах. Традиционные механизмы внимания испытывают трудности с фрагментацией памяти, что приводит к потере ресурсов GPU — смертный грех в эпоху, когда GPU H100 одновременно дефицитны и дороги. PagedAttention позволяет vLLM управлять ключами и значениями внимания в непрерывных фрагментах памяти, что резко увеличивает пропускную способность.

С момента открытия исходного кода vLLM достиг вирусного уровня принятия, сравнимого с ранними днями Kubernetes или Docker:

По оценкам, 400 000+ GPU одновременно запускают vLLM по всему миру.
Более 2 000 участников внесли вклад в проект на GitHub.
Принятие крупными технологическими игроками, включая Meta, Google и Character.ai.

Теперь перед Inferact стоит задача кураторства этого открытого феномена, одновременно создавая коммерческую платформу, на которую предприятия смогут полагаться для критически важных приложений.

Funding at a Glance

Ниже приведена таблица с ключевыми деталями исторического seed-раунда Inferact.

Metric	Details	Context
Round Size	$150 Million	One of the largest seed rounds in AI history
Valuation	$800 Million	Reflects high demand for inference optimization
Lead Investors	Andreessen Horowitz (a16z), Lightspeed	Leading top-tier deep tech firms
Key Participants	Sequoia, Altimeter, Redpoint, ZhenFund	Broad ecosystem support
Core Technology	vLLM, PagedAttention	High-throughput inference engine
Leadership	Simon Mo, Woosuk Kwon, et al.	Original creators of vLLM

---|---|---|

The Shift from Training to Serving

Время запуска Inferact совпадает с фундаментальным переходом в экономике ИИ. В последние два года капитальные расходы преимущественно шли на обучение — создание массивных кластеров для разработки фундаментальных моделей вроде GPT-4, Claude и Llama 3. Однако по мере внедрения этих моделей в продукты профиль затрат смещается в сторону инференса.

Аналитики отрасли окрестили это «Эпохой пропускной способности» (Throughput Era), где основным показателем успеха становится уже не только качество модели, а «токенов в секунду на доллар». Запуск модели вроде Llama-3-70B в масштабе для миллионов пользователей требует огромных вычислительных ресурсов. Неефективные программные стеки могут привести к всплескам задержки и взрывному росту облачных счетов, что фактически убивает экономику единицы приложения ИИ.

Партнёры Andreessen Horowitz отметили в своей инвестиционной тезисе, что «программное обеспечение становится важнее аппаратного обеспечения». Простая покупка дополнительных NVIDIA H100 уже не является жизнеспособной стратегией, если базовый программный стек использует их лишь на 30% эффективности. Ценностное предложение Inferact — разблокировать оставшиеся 70% вычислительного потенциала за счёт продвинутой оптимизации ПО, фактически выступая мультипликатором для аппаратных инвестиций.

Commercializing Open Source: The "Red Hat" Strategy

Inferact следует проторённому пути успешных коммерческих компаний с открытым исходным кодом (COSS), таких как Databricks (Spark), Confluent (Kafka) и HashiCorp (Terraform). Компания сталкивается с классической двойственной задачей: поддерживать процветающее бесплатное сообщество и одновременно создавать проприетарную ценность для платящих клиентов.

По словам CEO Simon Mo, коммерческая стратегия Inferact фокусируется на надежности и масштабируемости корпоративного уровня. В то время как открытый движок vLLM обеспечивает базовую вычислительную мощность, предприятия требуют:

Управляемая инфраструктура: автоматическое масштабирование, оркестрация многомашинных развертываний и восстановление после сбоев.
Безопасность и комплаенс: соответствие SOC2, частные облачные развертывания и безопасная обработка моделей.
Оптимизированные ядра: проприетарные оптимизации для конкретных конфигураций аппаратного обеспечения сверх общей поддержки в открытом коде.
Гарантии SLA: гарантированная пропускная способность и задержка для критических приложений.

Эта модель «Open Core» (Open Core) позволяет Inferact поддерживать vLLM как отраслевой стандарт, «Linux для инференса» (Linux of Inference) — работающий на чипах NVIDIA, AMD и Intel — и в то же время извлекать ценность из крупных организаций, которые не могут позволить себе простои или неконтролируемую сложность.

Technical Deep Dive: Why PagedAttention Matters

Секретный ингредиент доминирования vLLM и, следовательно, оценивания Inferact — это PagedAttention. В стандартном обслуживании LLM кеш ключ-значение (KV cache), который хранит память модели о текущем диалоге, растёт динамически. Традиционные системы вынуждены предварительно выделять смежные блоки памяти для обработки этого роста, что приводит к серьёзной фрагментации. Это похоже на бронирование 100-местного автобуса для каждого пассажира на случай, если он приведёт 99 друзей.

PagedAttention решает эту проблему, разбивая кеш KV на меньшие блоки, которые можно хранить в несмежных областях памяти. Движок vLLM поддерживает «таблицу страниц» для отслеживания этих блоков, подобно тому, как операционная система управляет ОЗУ.

Ключевые технические преимущества:

Нулевая трата: потеря памяти из-за фрагментации сокращается почти до нуля (<4%).
Более крупные батчи: благодаря более эффективному использованию памяти движок может объединять больше запросов в один батч.
Рост пропускной способности: в бенчмарках vLLM постоянно показывает 2x–4x более высокую пропускную способность, чем стандартные HuggingFace Transformers, без ухудшения задержки.

Для компании, которая тратит $10 миллионов в год на вычисления для инференса, внедрение vLLM теоретически может сократить этот счёт до $2.5–5 миллионов просто за счёт лучшего использования ПО. Именно такая прямая окупаемость делает Inferact столь привлекательным предложением для инвесторов и клиентов.

Strategic Implications for the AI Ecosystem

Появление Inferact с $150 миллионами в резерве вызывает волну изменений в экосистеме ИИ.

Давление на облачных провайдеров: крупные облачные провайдеры (AWS, Azure, Google Cloud) и поставщики API моделей (Anyscale, Together AI, Fireworks) часто строят собственные стеки инференса. Inferact предлагает нейтральную по поставщикам альтернативу, которая позволяет компаниям владеть своим стеком инференса в любом облаке.
Стандартизация: фрагментация движков инференса (TensorRT-LLM, TGI, vLLM) была головной болью для разработчиков. Капитализация Inferact предполагает, что vLLM позиционируется как де-факто стандартный API, упрощая опыт разработчиков.
«Налог на ПО»: по мере того как аппаратное обеспечение становится товаром, захват ценности смещается в слой программного обеспечения, который им управляет. Inferact делает ставку на то, что «операционная система» для LLM будет столь же ценна, как и чипы, на которых они работают.

Looking Ahead

Имея $150 миллионов нового капитала, Inferact планирует агрессивно расширять свою инженерную команду, в частности привлекая специалистов по ядрам (kernel hackers) и экспертов по распределённым системам. Компания также намерена углубить поддержку новых аппаратных архитектур, обеспечивая vLLM статус самого универсального движка на рынке, который в настоящее время доминирует NVIDIA.

По мере взросления индустрии ИИ «скучный» уровень инфраструктуры — обслуживание, масштабирование и оптимизация — становится самым доходным. Inferact продаёт не просто софт; они продают кирки для следующей фазы «золотой лихорадки» ИИ: развертывание.

Для предприятий, испытывающих трудности с переводом своих пилотных проектов по генеративному ИИ в продакшн из‑за затрат или задержек, Inferact предлагает спасательный круг. Для сообщества с открытым исходным кодом это финансирование обещает устойчивое развитие vLLM, обеспечивая его надёжность и передовость. Гонка за контроль над уровнем инференса официально началась, и Inferact занял раннее и уверенное лидерство.