
在一項重塑 2026 年競爭格局的果斷舉措中,Google 已宣布一系列高調收購與策略性投資,以強化其對抗 OpenAI 與 Microsoft 的布局。於 1 月 26 日,這家科技巨頭確認收購 Common Sense Machines (CSM),該公司是 3D 生成式AI(Generative AI)先驅,同時對 Hume AI 與總部位於東京的 Sakana AI 進行重大投資。
據包括《朝鮮日報》(Chosun Ilbo)在內的業界消息源報導,並由 LA Times 在大科技財報脈絡下分析,這種積極擴張策略顯示 Google 意圖不僅在文字生成上取勝,還要在空間運算、具同理心的語音介面與高效模型架構領域取得主導地位。隨著這些公告塵埃落定,產業正見證從單純擴大大型語言模型(LLM)規模,轉向專門化、多模態能力的轉向。
Google 的最新舉措看似針對補齊其 Gemini 生態系特定缺口,同時收購頂尖人才所做的精算布局。參與的三家公司—Common Sense Machines、Hume AI 與 Sakana AI—代表不同的創新向量:空間推理、情感智慧與演化式架構。
收購 Common Sense Machines (CSM) 或許是三筆交易中技術意義最為深遠的一樁。CSM 成立的目標是解決「世界模型」問題,其特色在於開發能將 2D 圖像與影片轉換為可用於遊戲的高保真 3D 資產的 AI。
多年來,從 2D 到 3D 的轉換一直是內容創作者、遊戲開發者與蓬勃發展的擴增實境(AR)產業的瓶頸。CSM 的專有「Cube」技術允許使用者上傳單張照片,數分鐘內取得完整貼圖與綁定的 3D 網格。將這項技術內部化後,Google 很可能會把 3D 轉換(3D conversion) 能力直接整合進其創作工具套件,並可能整合到 Gemini 模型本身。
此收購解決了一個關鍵的競爭劣勢。雖然 OpenAI 在影片生成上展現實力,但高品質 3D 資產生成仍是尚未被單一勢力完全掌控的前沿領域。整合 CSM 的「Common Sense」推理引擎—其在物理與幾何理解上優於標準擴散模型—可能革新 Google Maps、YouTube 與 Android XR 的運作方式。
在 CSM 處理物理世界的同時,Google 對 Hume AI 的投資瞄準心理層面。Hume AI 專長於「具同理心的語音介面(Empathic Voice Interfaces)」(EVI),該技術旨在透過測量與回應語音與面部表情中的情緒訊號來優化人類福祉。
Hume 的 EVI 被廣泛視為首個具備真正情緒辨識(情緒辨識(emotion recognition))的對話式 AI。不同於將語音轉寫為文字再處理意義的標準語音助理,Hume 的模型會分析語音的韻律—語調、節奏與音色。這使得 AI 能夠偵測出諷刺、遲疑、興奮或痛苦等情緒,從而實現更自然且更細緻的互動。
透過支持 Hume AI,Google 很可能在升級 Google Assistant 與 Gemini Advanced 語音模式的對話能力上下注。隨著使用者逐漸習慣與 AI 代理以語音互動,對具情感共鳴互動的需求已急速上升。這項投資可確保 Google 在從交易式聊天機器人轉型為關係型 AI 代理的浪潮中維持領先地位。
本次公告的第三根支柱涉及 Sakana AI,這是一家由前 Google 研究員 David Ha 與 Llion Jones 在東京創立的初創公司。值得注意的是,Jones 是開創 Transformer 架構的經典論文 "Attention Is All You Need" 的共同作者之一。
Sakana AI 因其「演化式模型合併(Evolutionary Model Merge)」方法而受到注目,該技術能自動化地結合基礎模型以創造更高效、專門化的系統。Sakana 並非單純訓練越來越大的模型,而是運用自然啟發的演算法來演化模型架構。
投資 Sakana AI 對 Google 有雙重意義:
為理解這些不同實體如何融入 Google 更廣泛的策略,我們可以分析其核心能力與預期整合點。
Table: Strategic Breakdown of Google's January 2026 Moves
| Company Name | Core Technology | Strategic Integration Potential | Primary Competitor Counter |
|---|---|---|---|
| Common Sense Machines | 生成式 3D 世界模型(Generative 3D World Models) | YouTube Create、Gemini 3D、Android XR | NVIDIA (Omniverse)、OpenAI (Point-E) |
| Hume AI | 具同理心的語音介面(Empathic Voice Interfaces, EVI) | Google Assistant、Customer Service Cloud | OpenAI (Advanced Voice Mode)、Hume (Independent) |
| Sakana AI | 演化式模型合併(Evolutionary Model Merging) | 高效能邊緣 AI、日語市場搜尋 | SoftBank AI、本地化 LLMs |
這些舉措的時機至關重要。如 LA Times 所指出,大型科技公司財報正面臨嚴密檢視,投資者要求證明投入數十億美元於人工智慧(人工智慧(Artificial Intelligence))基礎建設的資金正在帶來回報。Google 的母公司 Alphabet 面臨壓力,必須展示其不僅在對 OpenAI 做出反應,而且在積極塑造下一代 AI 實用性。
透過收購像 CSM 的 3D 工具與 Hume 的情緒引擎等有形技術,Google 正從理論研究轉向可商品化的功能。市場的反應既謹慎又樂觀,市場參與者認為這些並非「acqui-hire」,而是具策略性的資產收購。
此外,透過 Sakana AI 擴展至日本市場突顯了 AI 競賽的地緣政治面向。隨著資料主權成為熱門議題,投資組合中擁有像 Sakana 這樣的在地代表,能讓 Google 更有效地應對亞洲的監管複雜性。
對 Creati.ai 的讀者—開發者、創作者與研究人員—來說,這些收購預示著可用工具的重大轉變。
Google 同步發布關於 Common Sense Machines、Hume AI 與 Sakana AI 的公告,標誌著「聊天機器人時代」的終結與「代理式時代」的開始。一個有效的 AI 代理必須理解物理世界(CSM)、理解使用者的情緒狀態(Hume),並能在多樣環境中高效運作(Sakana)。
當 OpenAI 繼續推動原始模型規模的邊界時,Google 正在打造一個複合有機體—一個能以 3D 觀看、以同理心傾聽且能高效演化的系統。對於 生成式AI(Generative AI) 領域來說,2026 年以一個明確訊息開場:未來屬於那些能將多種模態整合成具人本中心體驗者。