
在人工智慧基礎設施領域的一個決定性時刻,Inferact——由廣泛採用的開源推理引擎 vLLM 的創建者所創立的初創公司——已正式從隱匿狀態公開,完成了規模龐大的 $150 million Seed round。此次融資將該新創公司估值推至令人印象深刻的 $800 million,由風險資本巨頭 Andreessen Horowitz (a16z) 與 Lightspeed Venture Partners 共同領投。
這筆資金是矽谷史上最大型的種子輪之一,意味著投資人焦點正果斷地從模型訓練轉向模型服務。隨著生成式AI(Generative AI)從實驗性研究室走向大規模生產,產業正面臨新的瓶頸:推理的高昂成本與延遲。Inferact 的目標是透過構建企業級的「通用推理層」,利用 vLLM 的普及度來標準化全球 AI 模型的部署方式,以解決這一問題。
在這輪超額認購的融資中,除了 a16z 與 Lightspeed,還有 Sequoia Capital、Altimeter Capital、Redpoint Ventures 與 ZhenFund 的參與,組成了一個突顯推理層戰略重要性的投資聯盟。
要理解這筆資金的重要性,必須回溯支撐 Inferact 的核心技術。vLLM(Versatile Large Language Model)起源於 UC Berkeley 的研究專案,由包括 Simon Mo、Woosuk Kwon、Kaichao You 與 Roger Wang 在內的團隊開發。他們的目標是解決大型語言模型(LLMs)在文本生成過程中管理記憶體時的一個關鍵低效率問題。
突破來自於名為 PagedAttention 的演算法,靈感源自於作業系統中的虛擬記憶體分頁。傳統的 attention 機制在記憶體碎片化方面表現不佳,導致 GPU 資源浪費——在 H100 GPU 既稀缺又昂貴的時代,這是致命缺點。PagedAttention 允許 vLLM 在非連續的記憶體區塊中管理 attention 的 keys 與 values,從而大幅提高吞吐量。
自從開源釋出以來,vLLM 的採用率迅速擴張,其成長速度可與 Kubernetes 或 Docker 的早期時期相媲美:
Inferact 現在肩負起這個開源現象的管理責任,同時構建企業可倚賴的商業平台以支援關鍵任務應用。
下表概述了 Inferact 歷史性種子輪的關鍵細節。
| Metric | Details | Context |
|---|---|---|
| Round Size | $150 Million | One of the largest seed rounds in AI history |
| Valuation | $800 Million | Reflects high demand for inference optimization |
| Lead Investors | Andreessen Horowitz (a16z), Lightspeed | Leading top-tier deep tech firms |
| Key Participants | Sequoia, Altimeter, Redpoint, ZhenFund | Broad ecosystem support |
| Core Technology | vLLM, PagedAttention | High-throughput inference engine |
| Leadership | Simon Mo, Woosuk Kwon, et al. | Original creators of vLLM |
---|---|---|
Inferact 的推出時機正值 AI 經濟的一次根本性轉變。過去兩年,資本支出主要集中在「訓練」——建立龐大的叢集以創建像 GPT-4、Claude 與 Llama 3 這類基礎模型。然而,當這些模型被部署到產品中時,成本結構顯著地向「推理」傾斜。
產業分析師將此稱為吞吐量時代(Throughput Era),在這個時代,衡量成功的主要指標不再單純是模型品質,而是「每美元每秒處理的 tokens 數」。要在數百萬使用者規模下運行像 Llama-3-70B 這類模型,需要巨大的計算能力。低效率的軟體棧會導致延遲激增與雲端費用暴漲,實質上扼殺 AI 應用的單位經濟。
Andreessen Horowitz 的合夥人在其投資論述中指出:「軟體變得比硬體更關鍵。」如果底層軟體堆疊只以 30% 的效率使用 NVIDIA H100,那單純購買更多 H100 已不再是可行策略。Inferact 的價值主張是透過先進的軟體優化,解鎖剩餘 70% 的計算潛力,實質上成為硬體投資的倍增器。
Inferact 採取了成功商業開源公司(COSS)常見的路徑,例如 Databricks(Spark)、Confluent(Kafka)與 HashiCorp(Terraform)。公司面臨經典的雙重挑戰:一方面支持蓬勃發展的免費社群,另一方面為付費客戶建立專有價值。
根據執行長 Simon Mo 的說法,Inferact 的商業策略聚焦於企業級的可靠性與可擴展性。雖然開源的 vLLM 引擎提供原始的運算動力,但企業需要:
這種開放核心(Open Core)模型允許 Inferact 將 vLLM 維持為業界標準的「推理領域的 Linux(Linux of Inference)」,能在 NVIDIA、AMD 與 Intel 等晶片上運行,同時從無法承受停機或未管理複雜性的龐大組織中捕捉價值。
支撐 vLLM 優勢、進而影響 Inferact 估值的關鍵技術,是 PagedAttention。在標準的 LLM 服務中,Key-Value(KV)快取——儲存模型迄今對話記憶的機制——會動態增長。傳統系統必須預先配置連續的記憶體區塊來處理這種增長,導致嚴重的碎片化。這類似於為每位乘客都預訂一輛 100 座位的巴士,以防他們帶來 99 個朋友。
PagedAttention 透過將 KV 快取拆分為較小的區塊並儲存在非連續的記憶體空間中來解決此問題。vLLM 引擎維護一張「分頁表」來追蹤這些區塊,正如作業系統管理 RAM 一樣。
主要技術優勢包括:
對於一年在推理運算上花費 1,000 萬美元的公司,透過更好的軟體利用率,實施 vLLM 理論上可將費用降至 250 萬至 500 萬美元。這種直接的投資回報率正是使 Inferact 對投資人與客戶都具有吸引力的原因。
Inferact 憑藉 1.5 億美元的資金到位,已在 AI 生態系掀起漣漪。
有了 1.5 億美元的新資本,Inferact 計畫積極擴展其工程團隊,尤其鎖定核心內核(kernel)開發者與分散式系統專家。公司也打算深化對新興硬體架構的支援,確保 vLLM 在目前由 NVIDIA 主導的市場中仍然是最通用的引擎。
隨著 AI 產業走向成熟,那些「看似無聊」的基礎設施層——服務、擴展與優化——正成為最有利可圖的領域。Inferact 不只是賣軟體;他們賣的是下一波 AI 採金熱中的工具:部署(deployment)的鑽具。
對於因成本或延遲問題難以將生成式 AI(Generative AI)試點移至生產環境的企業,Inferact 提供了一條救生索。對於開源社群,這筆資金承諾了 vLLM 的持續開發,確保其保持穩健且走在技術前沿。爭奪推理層主導權的競賽已正式開打,而 Inferact 已取得早期且顯著的領先地位。