
В поворотный момент для инфраструктуры искусственного интеллекта Inferact, стартап, основанный создателями широко используемого открытого движка инференса vLLM, официально вышел из режима тайной разработки с масштабным раундом Seed на $150 миллионов. Раунд, который оценивает молодую компанию в впечатляющие $800 миллионов, был сопровожден венчурными гигантами Andreessen Horowitz (a16z) и Lightspeed Venture Partners.
Это финансирование является одним из крупнейших seed-раундов в истории Силиконовой долины и сигнализирует о решительном смещении внимания инвесторов с обучения моделей на их развертывание. По мере того как генеративный ИИ (Generative AI) внедряется из экспериментальных исследовательских лабораторий в масштабное производство, отрасль сталкивается с новым узким местом: чрезвычайно высокими затратами и задержками при инференсе. Inferact стремится решить эту проблему, создавая «универсальный уровень инференса» для предприятий, используя повсеместность vLLM для стандартизации способов развертывания моделей ИИ по всему миру.
К сопредседателям a16z и Lightspeed в этом переподписанном раунде присоединились Sequoia Capital, Altimeter Capital, Redpoint Ventures и ZhenFund, сформировав коалицию инвесторов, подчеркивающую стратегическую важность уровня инференса.
Чтобы оценить масштабы этого финансирования, нужно понять технологию, лежащую в основе Inferact. vLLM (Versatile Large Language Model) начался как исследовательский проект в UC Berkeley, разработанный командой, в которую входили Simon Mo, Woosuk Kwon, Kaichao You и Roger Wang. Их цель заключалась в решении критической неэффективности в управлении памятью при генерации текста моделями больших языков (Large Language Models, LLMs).
Прорыв состоял в алгоритме PagedAttention, вдохновлённом переключением страниц виртуальной памяти в операционных системах. Традиционные механизмы внимания испытывают трудности с фрагментацией памяти, что приводит к потере ресурсов GPU — смертный грех в эпоху, когда GPU H100 одновременно дефицитны и дороги. PagedAttention позволяет vLLM управлять ключами и значениями внимания в непрерывных фрагментах памяти, что резко увеличивает пропускную способность.
С момента открытия исходного кода vLLM достиг вирусного уровня принятия, сравнимого с ранними днями Kubernetes или Docker:
Теперь перед Inferact стоит задача кураторства этого открытого феномена, одновременно создавая коммерческую платформу, на которую предприятия смогут полагаться для критически важных приложений.
Ниже приведена таблица с ключевыми деталями исторического seed-раунда Inferact.
| Metric | Details | Context |
|---|---|---|
| Round Size | $150 Million | One of the largest seed rounds in AI history |
| Valuation | $800 Million | Reflects high demand for inference optimization |
| Lead Investors | Andreessen Horowitz (a16z), Lightspeed | Leading top-tier deep tech firms |
| Key Participants | Sequoia, Altimeter, Redpoint, ZhenFund | Broad ecosystem support |
| Core Technology | vLLM, PagedAttention | High-throughput inference engine |
| Leadership | Simon Mo, Woosuk Kwon, et al. | Original creators of vLLM |
---|---|---|
Время запуска Inferact совпадает с фундаментальным переходом в экономике ИИ. В последние два года капитальные расходы преимущественно шли на обучение — создание массивных кластеров для разработки фундаментальных моделей вроде GPT-4, Claude и Llama 3. Однако по мере внедрения этих моделей в продукты профиль затрат смещается в сторону инференса.
Аналитики отрасли окрестили это «Эпохой пропускной способности» (Throughput Era), где основным показателем успеха становится уже не только качество модели, а «токенов в секунду на доллар». Запуск модели вроде Llama-3-70B в масштабе для миллионов пользователей требует огромных вычислительных ресурсов. Неефективные программные стеки могут привести к всплескам задержки и взрывному росту облачных счетов, что фактически убивает экономику единицы приложения ИИ.
Партнёры Andreessen Horowitz отметили в своей инвестиционной тезисе, что «программное обеспечение становится важнее аппаратного обеспечения». Простая покупка дополнительных NVIDIA H100 уже не является жизнеспособной стратегией, если базовый программный стек использует их лишь на 30% эффективности. Ценностное предложение Inferact — разблокировать оставшиеся 70% вычислительного потенциала за счёт продвинутой оптимизации ПО, фактически выступая мультипликатором для аппаратных инвестиций.
Inferact следует проторённому пути успешных коммерческих компаний с открытым исходным кодом (COSS), таких как Databricks (Spark), Confluent (Kafka) и HashiCorp (Terraform). Компания сталкивается с классической двойственной задачей: поддерживать процветающее бесплатное сообщество и одновременно создавать проприетарную ценность для платящих клиентов.
По словам CEO Simon Mo, коммерческая стратегия Inferact фокусируется на надежности и масштабируемости корпоративного уровня. В то время как открытый движок vLLM обеспечивает базовую вычислительную мощность, предприятия требуют:
Эта модель «Open Core» (Open Core) позволяет Inferact поддерживать vLLM как отраслевой стандарт, «Linux для инференса» (Linux of Inference) — работающий на чипах NVIDIA, AMD и Intel — и в то же время извлекать ценность из крупных организаций, которые не могут позволить себе простои или неконтролируемую сложность.
Секретный ингредиент доминирования vLLM и, следовательно, оценивания Inferact — это PagedAttention. В стандартном обслуживании LLM кеш ключ-значение (KV cache), который хранит память модели о текущем диалоге, растёт динамически. Традиционные системы вынуждены предварительно выделять смежные блоки памяти для обработки этого роста, что приводит к серьёзной фрагментации. Это похоже на бронирование 100-местного автобуса для каждого пассажира на случай, если он приведёт 99 друзей.
PagedAttention решает эту проблему, разбивая кеш KV на меньшие блоки, которые можно хранить в несмежных областях памяти. Движок vLLM поддерживает «таблицу страниц» для отслеживания этих блоков, подобно тому, как операционная система управляет ОЗУ.
Ключевые технические преимущества:
Для компании, которая тратит $10 миллионов в год на вычисления для инференса, внедрение vLLM теоретически может сократить этот счёт до $2.5–5 миллионов просто за счёт лучшего использования ПО. Именно такая прямая окупаемость делает Inferact столь привлекательным предложением для инвесторов и клиентов.
Появление Inferact с $150 миллионами в резерве вызывает волну изменений в экосистеме ИИ.
Имея $150 миллионов нового капитала, Inferact планирует агрессивно расширять свою инженерную команду, в частности привлекая специалистов по ядрам (kernel hackers) и экспертов по распределённым системам. Компания также намерена углубить поддержку новых аппаратных архитектур, обеспечивая vLLM статус самого универсального движка на рынке, который в настоящее время доминирует NVIDIA.
По мере взросления индустрии ИИ «скучный» уровень инфраструктуры — обслуживание, масштабирование и оптимизация — становится самым доходным. Inferact продаёт не просто софт; они продают кирки для следующей фазы «золотой лихорадки» ИИ: развертывание.
Для предприятий, испытывающих трудности с переводом своих пилотных проектов по генеративному ИИ в продакшн из‑за затрат или задержек, Inferact предлагает спасательный круг. Для сообщества с открытым исходным кодом это финансирование обещает устойчивое развитие vLLM, обеспечивая его надёжность и передовость. Гонка за контроль над уровнем инференса официально началась, и Inferact занял раннее и уверенное лидерство.