AI News

DeepSeek 發起對 Google 的直接挑戰,計劃推出多模態人工智慧(multimodal AI)搜尋引擎

在全球人工智慧(AI)領域正發生重大變化,總部位於杭州的 AI 新創公司 DeepSeek 正積極轉向搜尋引擎市場。近期的職缺公告與策略性動作顯示,公司正在開發一款可處理文字、圖片與音訊的多語言(multilingual)、多模態人工智慧搜尋引擎。此一發展標誌著對既有產業巨頭如 Google 與 OpenAI 的直接競爭升級。

此項計畫利用 DeepSeek 在高效率模型訓練與開源貢獻方面快速攀升的聲譽。透過鎖定可處理截圖與語音指令等複雜輸入的「手機優先」(phone-first)搜尋體驗,DeepSeek 正定位為顛覆傳統以關鍵字為基礎的搜尋範式的勢力。

策略性徵才熱潮揭露野心

今年一月,DeepSeek 發布了一系列職缺,為其產品路線圖提供了清楚的窗口。與先前著重於一般大型語言模型(large language model,LLM)研究的徵才活動不同,這些新職缺特別針對搜尋基礎設施與自治式代理(autonomous agent)開發。

公司正在尋找「搜尋演算法工程師」與具備「持續代理人(persistent agents)」專長的全端開發人員。職缺說明描繪了一個能以最低人力監督運作的系統,暗示其目標超越簡單的聊天機器人,朝完全自主的助理邁進。徵才資料中列出的主要職責包括:

  • 多語言查詢支援: 構建一個能原生理解並處理數十種語言查詢的引擎。
  • 多模態整合: 開發管線以處理非文字輸入,特別為行動場景優化,讓使用者可透過截圖或語音片段進行搜尋。
  • 代理基礎設施: 建立可承載「持續代理人」的平臺,讓其能執行長期任務,例如從網路蒐集資訊以回答複雜問題。

這次徵才行動與公司更宏觀的策略相符,目的是將其應用擴展到程式碼協助工具與聊天介面之外,進入目前由 Alphabet Inc. 旗下的 Google 主導的高利潤資訊檢索領域。

技術支柱:Janus-Pro 與 DeepSeek-R1

DeepSeek 對挑戰矽谷巨頭的信心來自於其在模型架構上的最新突破。有兩項核心技術似乎構成這個新搜尋引擎的基礎:以推理為導向的 DeepSeek-R1,以及多模態的 Janus-Pro

DeepSeek-R1 因以遠低於訓練成本的代價匹敵美國頂級模型而登上頭條;而 Janus-Pro 則很可能成為視覺與音訊搜尋功能的核心引擎。Janus-Pro 最近發布,是一個統一的多模態模型,將視覺編碼與生成解耦。這項架構創新使模型能以高精度「看」與「理解」影像,同時保有回應性地生成文字或影像的能力。

DeepSeek 主要架構比較

模型名稱 主要功能 主要架構特徵 目標應用
DeepSeek-R1 推理與邏輯 專家混合(Mixture-of-Experts,MoE) 複雜查詢解決與資料分析
Janus-Pro 多模態理解 視覺編碼解耦 影像/音訊搜尋與內容生成
DeepSeek-V3 一般語言任務 高效訓練協定 作為多語言文字處理的基礎層

在基準測試中,Janus-Pro 據報在特定生成與理解指標上超越了如 DALL-E 3 等競爭對手。若將此能力整合到搜尋引擎中,DeepSeek 可能允許使用者上傳一張壞掉家電的照片並詢問:「我要怎麼修好這個?」—AI 將能辨識型號、檢索使用手冊,並以一個流暢的互動摘要維修步驟。

超越關鍵字:自治代理的崛起

工作說明中包含「持續代理人」顯示 DeepSeek 希望超越現有世代的 AI 搜尋工具。現行的 AI 搜尋工具常扮演摘要者——閱讀頂端結果並綜合出一個答案。DeepSeek 的願景似乎是發展能在網路上導航、執行動作並在長時間內維持上下文的代理人。

「具代理能力的」搜尋引擎不僅檢索連結;它會完成任務。例如,與其搜尋「機票價格」,不如指示一個持續代理人「在接下來一個月監控飛往東京的航班,若價格低於 $800 就下單」。此能力需要穩健的基礎設施以防止「幻覺」(hallucinations)並確保可靠執行;DeepSeek 正透過聘請評估框架與訓練資料可靠性方面的專家來應對這項挑戰。

以成本效率顛覆市場

DeepSeek 最大的優勢之一在於其成本結構。該公司令人震驚地透露,其 V3 模型的訓練成本約為 $6 million,與估計需 $100 million 才能訓練 OpenAI 的 GPT-4 形成鮮明對比。

這種效率使 DeepSeek 能以顯著較低的 API 成本提供服務,進而激烈壓低競爭對手的價格。如果這種低成本模式應用在搜尋上,可能促成 AI API 市場的價格戰,讓先進的搜尋能力為更廣泛的開發者與企業所能及。

「手機優先」策略也利用了 Google 防禦的一個潛在弱點。雖然 Google 在網路搜尋上佔據主導,但向在行動裝置上以 AI 為原生(AI-native)、多模態互動的過渡仍處於初期階段。透過為截圖查詢與語音(行動使用者的自然行為)進行優化,DeepSeek 試圖捕捉下一代的搜尋行為。

結論

DeepSeek 進軍 AI 搜尋不僅僅是一次實驗;這是經過計畫的擴張,背後有專業的徵才與如 Janus-Pro 等已驗證的模型架構佐證。透過將高效率的推理模型與先進的多模態理解相結合,公司正在打造一個直接與 Google 與 OpenAI 核心商業模式競爭的平台。隨著這些技術的成熟,「搜尋」的定義將從一列藍色連結演變為與智慧代理進行的動態多模態對話。

精選