Google 發布具突破性科學推理能力的 Gemini 3 Deep Think
Google 為科學與工程升級 Gemini 3 Deep Think。在 ARC-AGI-2 上達到 84.6%,在競賽程式設計中 Elo 為 3455。
Google 為科學與工程升級 Gemini 3 Deep Think。在 ARC-AGI-2 上達到 84.6%,在競賽程式設計中 Elo 為 3455。
Gemini Deep Think 在解決博士級數學問題方面取得突破性表現,並使多個領域的自主研究成為可能。
Google 發布 DialogLab,一個開源框架,用於撰寫、模擬及測試超越一對一互動的多人與 AI 的對話。
DeepMind 的 Aletheia AI 透過解決 13 個聲名遠播且極為困難的 Erdős 問題取得突破,展現了在高階數學研究中前所未有的 AI 與人類合作。
MIT Technology Review 發表了對 METR 有爭議的時間地平線圖的深入分析,該圖表被 AI 的樂觀者與悲觀者廣泛誤解。該圖顯示了 AI 模型隨時間完成任務能力的提升,導致一些人認為 AI 的烏托邦或末日即將來臨。文章釐清了數據的真正含義,並回應了關於 AI 能力衡量與進展軌跡的常見誤解。
OpenAI 面臨高階員工離職,因公司優先快速改進 ChatGPT,而非像 Sora 與 DALL-E 等長期的 AI 研究專案。
CSET 報告揭示,AI 公司正在使用系統加速研發,並檢視其對創新、安全與治理的影響。
新興的世界模型技術旨在透過讓機器更好地理解空間與時間,解決人工智慧的一致性問題。
Humans& 是由 Anthropic、xAI 和 Google 的前研究人員創立的新 AI 新創公司,在種子輪募得 4.8 億美元,並在 Nvidia 與 Jeff Bezos 的支持下達成 48 億美元估值。
研究人員開發了一種名為 Riff-Diff 的新 AI 方法,徹底改變了酵素設計,為工業和醫療應用創造出高效且穩定的生物催化劑。研究成果已發表於期刊 Nature。
DeepMind 的 Demis Hassabis、Anthropic 的 Dario Amodei 與 AI 先驅 Yann LeCun 對於通用人工智慧(AGI)是否可達成提出互異看法,LeCun 主張僅靠大型語言模型無法達到人類水準的智慧。
一項大型研究顯示,像 GPT-4 這類的 AI 現在能在創造力測試中超越一般人,但最具想像力的人類仍然保有顯著優勢,突顯出目前 AI 能力的明顯上限。