AI News

Google 以 Gemini 3 Deep Think 升級重新定義科學人工智慧(Scientific AI)

在人工智慧領域的一次重大飛躍中,Google 宣布對其 Gemini 3 Deep Think 模型進行重大升級,將其定位為處理複雜科學推理和先進工程挑戰的首選工具。此更新於 2026 年 2 月 12 日發布,標誌著該模型從高性能的大型語言模型(Large Language Model, LLM)轉型為專業的「推理引擎(Reasoning Engine)」,其能力足以在專業領域與人類專家抗衡。

此次升級的首要成就,是在**人類最後測驗(Humanity's Last Exam, HLE)**中獲得了驚人的 48.4% 評分。該基準測試專為檢驗 AI 的學術和推理能力而設計,被認為是最嚴苛的終極測試。這一得分代表了對以往前沿模型(包括 Gemini 3 Pro 及其競爭對手)的決定性領先,標誌著一個新時代的到來:AI 代理現在可以可靠地解決需要深度、多步邏輯演繹的問題,而無需依賴外部工具。

對於 Creati.ai 的讀者來說,這一發展預示著開發者和研究人員與 AI 互動方式的轉變。我們正在超越「提問並祈禱(prompt and pray)」的時代,進入協作發現的新紀元,像 Deep Think 這樣的模型將作為經過驗證的研究助手,能夠處理混亂的數據集並識別隱晦的理論缺陷。

「系統 2」(System 2)優勢:推理重於檢索

Gemini 3 Deep Think 升級的核心區別在於其對「系統 2」思考過程的依賴。與根據統計概率預測下一個標記(Token)的標準 LLM(系統 1)不同,Deep Think 採用了深思熟慮的迭代推理過程。這使得模型在給出答案之前能夠「暫停」並評估多條邏輯路徑,模擬人類科學家所使用的緩慢、分析性的思考過程。

根據 Google DeepMind 的說法,這種架構是與活躍的科學家合作微調的,旨在解決「棘手」問題——即那些缺乏明確指導方針或單一正確解決方案的問題。在實際應用中,這意味著該模型在數據不完整或存在噪聲的環境中表現卓越,而這正是現實世界工程和實驗科學中常見的挫折。

核心架構能力:

  • 自我修正(Self-Correction): 在推理階段識別自身思維鏈中邏輯謬誤的能力。
  • 跨領域綜合(Cross-Domain Synthesis): 成功將理論物理學原理與實際工程約束相結合。
  • 視覺推理(Visual Reasoning): 將抽象的 2D 草圖轉換為可用於製造的複雜、物理上可行的 3D 模型。

衡量前所未有的突破

要理解此次發布的重要性,必須查看硬性指標。AI 社群長期以來一直面臨「基準測試飽和」的困境,模型能迅速精通 MMLU 等測試。Humanity's Last Exam (HLE) 的創立正是為了應對這一點,它彙整了數學、人文和自然科學領域中最困難的問題。

Gemini 3 Deep Think 在 HLE 上的表現,輔以在 ARC-AGI-2(一項通用智能和新穎模式識別測試)以及 Codeforces(一個競賽編程平台)上的破紀錄得分,顯得相得益彰。

下表總結了 Gemini 3 Deep Think 與本世代其他領向前沿模型的性能對比:

表:前沿基準測試性能對比

指標/基準測試|Gemini 3 Deep Think (升級版)|Gemini 3 Pro|主要競爭對手 (預計為 GPT-5 Pro)
---|---|----
人類最後測驗 (HLE)|48.4%|37.5%|~31.6%
ARC-AGI-2 (推理)|84.6%|~70%|N/A
Codeforces 評分 (Elo)|3455|~2900|~2800
國際物理奧林匹亞 (Intl. Physics Olympiad)|金牌水準|銀牌水準|N/A
國際化學奧林匹亞 (Intl. Chemistry Olympiad)|金牌水準|銅牌水準|N/A
CMT-Benchmark (物理)|50.5%|N/A|N/A

註:得分代表不使用外部工具的情況下的「pass@1」準確度,除非另有說明。競爭對手得分基於截至 2026 年 2 月可獲得的最新公開基準測試。

ARC-AGI-2 的 84.6% 得分對於開發者來說尤其值得注意。該基準測試由 ARC Prize Foundation 驗證,旨在測試 AI 適應其訓練數據中從未見過的全新任務的能力,有效地衡量了「流體智能(Fluid Intelligence)」而非記憶知識。

金牌與理論突破

除了標準化測試外,Google 還根據人類學術成就的最高標準驗證了該模型。升級後的 Deep Think 在 2025 International Physics Olympiad(國際物理奧林匹亞)和國際化學奧林匹亞的筆試部分均達到了金牌水準表現

這不僅僅是解決教科書上的問題。Google 強調了內部案例研究,在這些研究中,模型展現了在先進理論物理學方面的熟練程度,具體在 CMT-Benchmark 上獲得了 50.5% 的得分。這表明該模型可用於假設新的材料特性或驗證複雜的量子力學計算。

在一個展示的應用案例中,研究人員使用 Deep Think 來優化半導體晶體生長。該模型分析了歷史實驗數據,識別出先前被人類研究人員忽略的細微環境變量,並提出了一種改良的生長週期,從而實現了更高的純度產量。

從草圖到現實:實際工程

對於工程界而言,最切實的更新是 Deep Think 的多模態工程能力。Google 展示了一個工作流程,用戶上傳了一張機械零件的粗略手繪草圖。Deep Think 分析了圖紙,推斷出預期的物理約束和承載要求,並生成了一個精確的、可 3D 列印的文件。

這種「從草圖到產品(Sketch-to-Product)」的流水線展示了模型彌合抽象構思(創意)與物理約束(邏輯)之間鸿溝的能力。它要求 AI 不僅要理解圖紙「看起來」像什麼,還要理解物件在現實世界中必須如何「運作」。

可用性與企業整合

Google 正採取雙層方法部署此次升級,同時針對個人專業用戶和企業開發者。

  1. Google AI Ultra 訂閱者: 新的 Deep Think 模式即刻可在 Gemini 應用程式中使用。用戶可以針對需要高強度邏輯處理的查詢切換「Deep Think」選項。
  2. Gemini API (早期存取): Google 首次透過 API 向選定的企業和科學機構開放 Deep Think。對於構建第三方應用程式的 Creati.ai 讀者來說,這是一項至關重要的進展,因為它允許將這種「推理引擎」整合到自定義工作流程中——例如自動化代碼審查機器人或製藥研發流水線。

對 AI 生態系統的影響

升級版 Gemini 3 Deep Think 的發布強化了 2026 年的一個日益增長的趨勢:AI 模型分化為「快速、對話式代理」和「緩慢、深度推理者」。雖然前者(如 Gemini 3 Flash)專注於延遲和用戶體驗,但像 Deep Think 這樣的模型正在開闢作為非同步問題解決者的利基市場。

對於開發者而言,這需要架構上的改變。應用程式可能很快就會依賴「管理員-執行者(manager-worker)」模式,其中快速模型處理用戶交互,並將複雜、高風險的任務委託給 Deep Think。

隨著我們在 Creati.ai 進一步測試該模型,問題仍然存在:這些推理能力將如何轉化為開放式的創意任務?雖然基準測試側重於 STEM 領域,但在人類最後測驗中獲得 48.4% 分數所需的邏輯能力,暗示了一種細微差別的水平,這也可能徹底改變敘事結構和複雜內容的生成。

我們將持續關注 Gemini 3 Deep Think 觸及廣大開發者社群時的表現。目前,「金牌」標準已經確立。

精選
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
VoxDeck
引領視覺革命的AI簡報製作工具
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
EaseMate AI
一站式 AI 助理,將聊天、寫作、學習輔助、圖片創作與影片生成整合於同一個基於瀏覽器的平台。
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
InstantChapters
即時生成吸引人的書籍章節。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
Claude API
Claude API for Everyone
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。

Google 升級 Gemini 3 Deep Think,具備金牌級科學推理能力

Google 推出對 Gemini 3 Deep Think 的重大升級,在「人類最後考試」中取得 48.4% 的成績,並在國際奧林匹亞挑戰中達到金牌級表現。