AI News

AI 基礎設施的新時代:Inferact 獲得 $150 Million 以商業化 vLLM

在人工智慧基礎設施領域的一個決定性時刻,Inferact——由廣泛採用的開源推理引擎 vLLM 的創建者所創立的初創公司——已正式從隱匿狀態公開,完成了規模龐大的 $150 million Seed round。此次融資將該新創公司估值推至令人印象深刻的 $800 million,由風險資本巨頭 Andreessen Horowitz (a16z)Lightspeed Venture Partners 共同領投。

這筆資金是矽谷史上最大型的種子輪之一,意味著投資人焦點正果斷地從模型訓練轉向模型服務。隨著生成式AI(Generative AI)從實驗性研究室走向大規模生產,產業正面臨新的瓶頸:推理的高昂成本與延遲。Inferact 的目標是透過構建企業級的「通用推理層」,利用 vLLM 的普及度來標準化全球 AI 模型的部署方式,以解決這一問題。

在這輪超額認購的融資中,除了 a16z 與 Lightspeed,還有 Sequoia CapitalAltimeter CapitalRedpoint VenturesZhenFund 的參與,組成了一個突顯推理層戰略重要性的投資聯盟。

The vLLM Phenomenon: From Berkeley Lab to Industry Standard

要理解這筆資金的重要性,必須回溯支撐 Inferact 的核心技術。vLLM(Versatile Large Language Model)起源於 UC Berkeley 的研究專案,由包括 Simon MoWoosuk KwonKaichao YouRoger Wang 在內的團隊開發。他們的目標是解決大型語言模型(LLMs)在文本生成過程中管理記憶體時的一個關鍵低效率問題。

突破來自於名為 PagedAttention 的演算法,靈感源自於作業系統中的虛擬記憶體分頁。傳統的 attention 機制在記憶體碎片化方面表現不佳,導致 GPU 資源浪費——在 H100 GPU 既稀缺又昂貴的時代,這是致命缺點。PagedAttention 允許 vLLM 在非連續的記憶體區塊中管理 attention 的 keys 與 values,從而大幅提高吞吐量。

自從開源釋出以來,vLLM 的採用率迅速擴張,其成長速度可與 Kubernetes 或 Docker 的早期時期相媲美:

  • 估計有 400,000+ GPUs 同時在全球運行 vLLM。
  • 超過 2,000 contributors 在 GitHub 上參與該專案。
  • 包括 Meta、Google、和 Character.ai 等主要科技廠商的採用。

Inferact 現在肩負起這個開源現象的管理責任,同時構建企業可倚賴的商業平台以支援關鍵任務應用。

Funding at a Glance

下表概述了 Inferact 歷史性種子輪的關鍵細節。

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

從訓練轉向服務的變革

Inferact 的推出時機正值 AI 經濟的一次根本性轉變。過去兩年,資本支出主要集中在「訓練」——建立龐大的叢集以創建像 GPT-4、Claude 與 Llama 3 這類基礎模型。然而,當這些模型被部署到產品中時,成本結構顯著地向「推理」傾斜。

產業分析師將此稱為吞吐量時代(Throughput Era),在這個時代,衡量成功的主要指標不再單純是模型品質,而是「每美元每秒處理的 tokens 數」。要在數百萬使用者規模下運行像 Llama-3-70B 這類模型,需要巨大的計算能力。低效率的軟體棧會導致延遲激增與雲端費用暴漲,實質上扼殺 AI 應用的單位經濟。

Andreessen Horowitz 的合夥人在其投資論述中指出:「軟體變得比硬體更關鍵。」如果底層軟體堆疊只以 30% 的效率使用 NVIDIA H100,那單純購買更多 H100 已不再是可行策略。Inferact 的價值主張是透過先進的軟體優化,解鎖剩餘 70% 的計算潛力,實質上成為硬體投資的倍增器。

商業化開源:「Open Core」策略

Inferact 採取了成功商業開源公司(COSS)常見的路徑,例如 Databricks(Spark)、Confluent(Kafka)與 HashiCorp(Terraform)。公司面臨經典的雙重挑戰:一方面支持蓬勃發展的免費社群,另一方面為付費客戶建立專有價值。

根據執行長 Simon Mo 的說法,Inferact 的商業策略聚焦於企業級的可靠性與可擴展性。雖然開源的 vLLM 引擎提供原始的運算動力,但企業需要:

  • Managed Infrastructure: 自動擴容、多節點協調與故障恢復。
  • Security & Compliance: SOC2 合規、私有雲部署與安全的模型處理流程。
  • Optimized Kernels: 針對特定硬體配置的專有優化,超越一般開源支援。
  • SLA Guarantees: 為關鍵應用提供保證的吞吐量與延遲指標。

這種開放核心(Open Core)模型允許 Inferact 將 vLLM 維持為業界標準的「推理領域的 Linux(Linux of Inference)」,能在 NVIDIA、AMD 與 Intel 等晶片上運行,同時從無法承受停機或未管理複雜性的龐大組織中捕捉價值。

技術深入解析:為何 PagedAttention 至關重要

支撐 vLLM 優勢、進而影響 Inferact 估值的關鍵技術,是 PagedAttention。在標準的 LLM 服務中,Key-Value(KV)快取——儲存模型迄今對話記憶的機制——會動態增長。傳統系統必須預先配置連續的記憶體區塊來處理這種增長,導致嚴重的碎片化。這類似於為每位乘客都預訂一輛 100 座位的巴士,以防他們帶來 99 個朋友。

PagedAttention 透過將 KV 快取拆分為較小的區塊並儲存在非連續的記憶體空間中來解決此問題。vLLM 引擎維護一張「分頁表」來追蹤這些區塊,正如作業系統管理 RAM 一樣。

主要技術優勢包括:

  • Zero Waste: 由於碎片化而造成的記憶體浪費降到接近零(<4%)。
  • 更高的批次大小: 因為記憶體使用更有效率,引擎能夠將更多請求批次合併處理。
  • 吞吐量提升: 在基準測試中,vLLM 持續提供比標準 HuggingFace Transformers 高 2x 到 4x 的吞吐量,同時不犧牲延遲。

對於一年在推理運算上花費 1,000 萬美元的公司,透過更好的軟體利用率,實施 vLLM 理論上可將費用降至 250 萬至 500 萬美元。這種直接的投資回報率正是使 Inferact 對投資人與客戶都具有吸引力的原因。

對 AI 生態系的戰略影響

Inferact 憑藉 1.5 億美元的資金到位,已在 AI 生態系掀起漣漪。

  1. 對雲端供應商的壓力:主要雲端供應商(AWS、Azure、Google Cloud)與模型 API 提供商(Anyscale、Together AI、Fireworks)常自行構建推理堆疊。Inferact 提供了一個廠商中立的替代方案,使公司能在任何雲端上自有其推理堆疊。
  2. 標準化:推理引擎的碎片化(TensorRT-LLM、TGI、vLLM)一直是開發者的頭痛問題。Inferact 的資本化顯示 vLLM 有望成為事實上的標準 API,簡化開發者體驗。
  3. 「軟體稅」:隨著硬體商品化,價值捕捉轉向協調硬體的軟體層。Inferact 押注於 LLM 的「作業系統」將與其運行之晶片一樣具有價值。

展望未來

有了 1.5 億美元的新資本,Inferact 計畫積極擴展其工程團隊,尤其鎖定核心內核(kernel)開發者與分散式系統專家。公司也打算深化對新興硬體架構的支援,確保 vLLM 在目前由 NVIDIA 主導的市場中仍然是最通用的引擎。

隨著 AI 產業走向成熟,那些「看似無聊」的基礎設施層——服務、擴展與優化——正成為最有利可圖的領域。Inferact 不只是賣軟體;他們賣的是下一波 AI 採金熱中的工具:部署(deployment)的鑽具。

對於因成本或延遲問題難以將生成式 AI(Generative AI)試點移至生產環境的企業,Inferact 提供了一條救生索。對於開源社群,這筆資金承諾了 vLLM 的持續開發,確保其保持穩健且走在技術前沿。爭奪推理層主導權的競賽已正式開打,而 Inferact 已取得早期且顯著的領先地位。

精選