
為了在快速演進的語音 AI(voice AI)領域取得主導地位,Google DeepMind 已與總部位於舊金山、以其具情緒智能語音介面聞名的初創公司 Hume AI 達成一項策略性授權協議。該交易於 2026 年 1 月 22 日完成,Hume AI 的執行長與創辦人 Alan Cowen 連同一批頂尖工程師一併加入 Google DeepMind。
這項備受矚目的「人才收購(acqui-hire)」標誌著 Google 在其 Gemini 模型策略上的重大轉變,不僅重視人工智慧的準確性,也重視其感知與回應人類情緒的能力。隨著語音成為消費者 AI 的主要介面,整合 Hume 的共情語音介面(Empathic Voice Interface,EVI)技術有望把 Gemini 從知識豐富的助理轉變為富有同理心的夥伴。
Google 與 Hume AI 之間的安排反映了一種在科技業日益增長的趨勢,稱為「人才加授權(talent-plus-license)」交易。Google 並非傳統上收購整家公司,而是選擇聘用負責 Hume 重大突破技術的核心領導與工程人才。
協議的關鍵要素包括:
此結構讓 Google 能夠繞過通常與全面合併相關的即時反托拉斯障礙,儘管聯邦貿易委員會(FTC)已表示會對此類非傳統的市場勢力整合進行加強審查。
多年來,大型語言模型(large language models,LLMs)在處理文字與邏輯方面表現出色,但在抓取人類溝通的細微差別—語氣、音調、停頓與重音—方面一直較為薄弱。Hume AI 的差異在於,他們以大量人類互動資料訓練模型,以偵測「情緒韻律(emotional prosody)」。
藉由引進 Cowen 與其團隊,Google 旨在解決現有 AI 語音助理的「機械感」。雖然 OpenAI 的 GPT-4o 推出延遲更低、更自然節奏的 Advanced Voice Mode,但 Hume 的技術更進一步,分析使用者說話的「方式」來判斷其潛在情緒——例如使用者是感到挫折、興奮、諷刺或苦惱。
將這些能力整合到 Gemini 中可能帶來:
取得 Hume AI 人才使 Google 在與 OpenAI 與 Anthropic 的對抗中,直接爭奪終極對話介面。隨著多模態(multimodal)能力成為標準,決勝關鍵已不再僅是智商(IQ),而是情緒智商(EQ)。
下表概述此舉如何將 Google 的 Gemini 與主要競爭對手以及 Hume AI 的獨立能力進行定位比較。
| Feature | Gemini (Post-Deal Projection) | OpenAI (GPT-4o) | Hume AI (Standalone) |
|---|---|---|---|
| Core Philosophy | 多模態智慧+情緒深度(Multimodal Intelligence + Emotional Depth) | 一般性智慧與低延遲(General Intelligence & Low Latency) | 純粹情緒智慧(EQ)(Pure Emotional Intelligence (EQ)) |
| Voice Capability | 具情境感知且能回應情緒的音訊 | 即時、具表情、可被打斷 | 專門的「共情語音介面」(Empathic Voice Interface,EVI) |
| Emotion Detection | 透過 Hume 的專用層進行原生整合 | 透過廣泛的多模態訓練進行一般化偵測 | 可精細偵測 53 種以上的情緒狀態 |
| Primary Use Case | 通用助理(搜尋、Workspace、行動裝置) | 一般生產力與創意對話 | 供開發者構建具同理心應用的 API |
| Deployment Model | 整合進 Android/Pixel 生態系統 | 整合進 ChatGPT 與 API | 企業級 API 與授權 |
儘管失去創辦人,Hume AI 似乎仍具備持續成長的條件。「人才轉移」模式讓新創公司保有其智慧財產,並從先前的募資回合保留了可觀的戰備金(總計 $74 million)。在 Andrew Ettinger 的領導下,公司計畫加倍投入其企業 API 業務,服務需要專門情緒分析工具且不想綁定「大型科技」生態的醫療、治療與客服領域。
在公告發佈後的聲明中,Ettinger 強調公司前景穩健:"語音將成為 AI 的主要介面⋯⋯我們認為在「有用性」方面仍有大量改進機會(there's a huge amount of opportunity for improvement [in helpfulness])。"
Google 與 Hume 的交易凸顯了 2026 年一個關鍵轉向:AI 的「人性化」。當模型在推理能力上接近平台期時,科技巨頭正將注意力轉向使用者體驗與介面摩擦。
然而,此舉並非沒有風險。隱私倡議者長期對「情感運算(affective computing)」提出疑慮——即電腦分析人類情緒的做法。Google 必須謹慎在這些倫理議題中航行,確保 Gemini 新增的情緒感知是透明且由使用者選擇啟用的。
對開發者與更廣泛的 AI 社群而言,這場整合意味著情緒智能正從利基研究主題,轉變為基礎模型的基本配備。有 DeepMind 現在掌舵情緒 AI,下一代的 Gemini 預期將不僅更聰明,也將更有人性。