AI News

語音 AI 基礎設施獨角獸(Voice AI Infrastructure Unicorn):LiveKit 募得 1 億美元,估值達 10 億美元

LiveKit,這家為下一代即時人工智慧提供開源基礎設施的供應商,已正式躋身科技獨角獸行列。這家總部位於舊金山的公司於週四宣布,已在 C 輪融資中募得 1 億美元,使其估值達到 10 億美元。這筆重大資金注入凸顯了 LiveKit 在蓬勃發展的 AI 堆疊中所扮演的重要角色,特別是作為 OpenAI 的 ChatGPT Advanced Voice Mode 背後的主要引擎。

本輪由以支持跨世代科技變革著稱的 Index Ventures 領投,既有投資者 Altimeter Capital、Redpoint Ventures 與 Hanabi Capital 續投。此次融資距離公司 B 輪還不到一年,突顯了其在對能即時看、聽、說的多模態 AI 代理人需求爆發下的積極成長軌跡。

「我們預期 2026 年將是語音 AI 廣泛部署於全球數千個使用情境的一年,」LiveKit 共同創辦人兼執行長 Russ d’Sa 表示。這筆資金將用於擴展 LiveKit 的全球「Real-time Cloud」網路,並進一步開發其 Agents API,一個旨在簡化低延遲 AI 互動所需複雜協調的框架。

The OpenAI Partnership: Validating the Infrastructure

LiveKit 快速崛起的核心在於其與 OpenAI 的策略性夥伴關係。雖然生成式 AI(Generative AI)主要集中在基於文字的大型語言模型(LLMs)上,技術前沿已轉向多模態能力——特別是語音與視訊。LiveKit 的技術是 ChatGPT Voice Mode 的支柱,負責那些使得與 AI 對話感覺自然、人性化所需的細緻毫秒級資料傳輸。

在有 LiveKit 之前,開發者試圖建立即時語音機器人時,常被迫拼湊各種分散的服務:語音轉文字(STT)、LLM 推理與文字轉語音(TTS)各自不同的 API,並以標準的 HTTP 或 WebSocket 協定包裹。這種「拼補式」方法常導致 2–3 秒或更高的延遲——在對話中這等於漫長的停頓,會造成尷尬的間斷與打斷。

LiveKit 透過將視訊會議的標準協定 WebRTC 改造成一個為 AI 最佳化的資料傳輸層來解決此問題。藉由直接在使用者裝置與 AI 模型之間管理音訊串流,LiveKit 將延遲降低到 300 毫秒以下,這是人腦感知互動為「即時」所需的門檻。

Index Ventures 的投資者 Sahir Azam 在一份聲明中指出,LiveKit 正在建立「AI 堆疊中最重要的基礎設施層之一」,實質上成為連接 AI 模型與物理世界的神經系統。

Inside the Technology: The "Nervous System" for AI Agents

LiveKit 的平台不僅僅是一個視訊通話 SDK;它是一個構建「有狀態」AI 代理人的完整環境。與傳統無狀態(在 HTTP 請求間遺忘上下文)的聊天機器人不同,語音代理人必須維持持續連線,以處理中斷、背景噪音與輪替講話的邏輯。

公司的 Agents API 允許開發者以程式碼而非設定來構建這些複雜的工作流程。它協調不同模型供應者之間的資料流——例如用於轉錄的 Deepgram、用於智慧的 OpenAI 或 Anthropic、以及用於語音合成的 Cartesia 或 ElevenLabs——同時由 LiveKit 處理網路部分。

Key Technical Differentiators

  • Ultra-Low Latency: 為機器對機器與機器對人類音訊路由特別優化的全球邊緣網路。
  • Multimodal Native: 支援同時處理音訊、視訊與資料通道,使代理人能在說話的同時透過相機輸入「看見」。
  • End-to-End Orchestration: 處理「voice activity detection」(VAD)的複雜邏輯,確保當使用者打斷時 AI 能立即停止講話——這是自然對話的特徵。

Competitive Landscape: Specialized Infra vs. Legacy Telecom

LiveKit 的崛起打亂了長期由傳統通訊平台即服務(CPaaS)供應商如 Twilio 與以視訊為中心的 SDK 如 Agora 主導的市場。雖然這些既有業者在連接人與人方面表現出色,但它們並未為與人類溝通的 AI 模型所需的高吞吐、低延遲需求而設計。

下表說明了 LiveKit 相較於即時領域傳統競爭者的定位:

功能 LiveKit Agora Twilio
主要焦點 AI Agent Infrastructure Live Video/Audio Streaming Telephony & Messaging
架構 WebRTC for AI (Data + Media) Proprietary Real-Time Network SIP / PSTN / HTTP
開源核心 是(Apache 2.0) 否(Closed Source) 否(Closed Source)
AI 編排 原生 Agents Framework 合作夥伴整合 合作夥伴整合
延遲目標 <300ms(Conversational) <400ms(Broadcasting) Variable(Telephony standards)
開發者模式 Self-hostable or Cloud Cloud Only Cloud Only

LiveKit 的開源策略對其採用率扮演了關鍵角色。藉由允許工程師檢視程式碼並為測試自我部署整個堆疊,他們建立了一個超過 200,000 名使用者的開發者社群。這種「自下而上」的採用模式類似於其他基礎設施巨頭如 Vercel 或 MongoDB,使得專有解決方案難以突破其護城河。

Expanding Client Roster: From Startups to Enterprise

雖然 OpenAI 是最引人注目的客戶,LiveKit 的應用遠超出消費者聊天機器人。該技術目前已被多家企業大廠部署,包括:

  • Tesla: 使用 LiveKit 進行即時診斷與潛在車內語音助理功能。
  • Salesforce: 將即時語音能力整合到其 Service Cloud 與 Agentforce 平台。
  • xAI: 利用該基礎設施支援 Grok 的多模態能力。
  • Spotify: 嘗試語音驅動的導航與 AI DJ 功能。

「今天,大型企業正在評估並構建語音代理人以自動化工作流程、改善客戶體驗並開啟新的營收,」d’Sa 在伴隨此一融資公告的部落格文章中寫道。他強調,雖然許多使用案例仍處於概念驗證階段,但轉向生產環境的速度正在加快。金融服務業正利用語音生物識別進行身份驗證,醫療提供者則在讓代理人在病患與真人醫師對話前先行進行分流。

Future Roadmap: The Era of "Warm" Computing

有了 1 億美元的新資本,LiveKit 計劃擴充工程團隊並擴展其實體基礎設施佈局。產品路線圖中的一大部分專注於視覺能力。隨著像 GPT-4o 與 Gemini 1.5 Pro 這類模型變得越來越擅長處理視訊串流,LiveKit 目標成為將相機影像傳送給 LLMs 進行即時分析的標準管線。

想像一位現場維修技術員戴著智慧眼鏡,能與一個「看得到」故障機械的 AI 代理人交談,該代理人透過技術員的鏡頭辨識並在抬頭顯示器上標示出正確需更換的零件。這需要超越單純音訊的頻寬與同步能力,而 LiveKit 正在定位自己以掌握這條管線。

此外,公司也在投入邊緣運算。為了省去每一個可能的毫秒延遲,LiveKit 正將其媒體伺服器部署得更靠近終端使用者與模型推理中心,從而減少資料封包的「往返」時間。

Creati.ai Insight: Infrastructure is the New Gold

從 Creati.ai 的角度看,LiveKit 的 10 億美元估值表示生成式AI(Generative AI)市場正走向成熟。最初的炒作周期重點放在基礎模型本身(如 OpenAI、Anthropic、Google)。現在,焦點轉向「賦能層」——那些讓企業實際能在這些模型之上構建可靠產品的工具與基礎設施。

LiveKit 正確地識別出,AI 採用的瓶頸不再是智慧本身,而是「互動」。如果一個 AI 很聰明但回應需 3 秒,那它在客服場景中幾乎無法使用。透過解決延遲與協調的問題,LiveKit 所販售的不僅是軟體;他們在販售 AI 代理人生態系統的可行性。

隨著我們進入 2026 年,我們預期這一層將出現整合。能提供從使用者口語到模型「大腦」再回到人類的無縫端到端管線的公司,將獲得龐大價值。LiveKit 以其開源根基與與產業領導者 OpenAI 的深度整合,目前處於定義人機溝通未來十年方式的領先位置。

精選