GLM-5.1 開源 LLM 搭載 8 小時自主任務能力,表現超越 Claude Opus 4
Z.AI 發布 GLM-5.1,這是一款專為長期 agentic 任務設計的 7540 億參數開源模型,可自主運行長達 8 小時,並在基準測試中超越 Claude Opus 4。
Z.AI 發布 GLM-5.1,這是一款專為長期 agentic 任務設計的 7540 億參數開源模型,可自主運行長達 8 小時,並在基準測試中超越 Claude Opus 4。
Anthropic的年度營收運行率在2026年已超過300億美元,較90億美元大幅成長,主要受其Claude AI模型需求激增所推動。
Meta 表示,最終將釋出由 Alexandr Wang 領導的新 AI 模型的開源版本,但最初計劃保留某些元件的專有性。
Arcee AI 發布了 Trinity-Large-Thinking,這是一款強大的全新開放權重推理模型,採用 Apache 2.0 授權,企業可下載並自訂。
MIT 研究人員提出了一項總體不確定性指標,該指標比較來自不同開發者的多個 LLM 的輸出,能比現有的自我一致性(self-consistency)方法更準確地檢測出過度自信和幻覺的預測。
Anthropic宣佈在離峰時段將Claude AI訂閱者的使用上限加倍,這是一項重要的容量擴充,恰逢自2026年1月以來Claude的日活躍用戶激增超過140%。
Anthropic 推出 Claude Sonnet 4.6,具備 100 萬個 token 的上下文視窗,在程式撰寫、電腦使用與代理人領域提供前沿的 AI 效能,距 Opus 4.6 發布僅 12 天。
Claude Opus 4.6 引入了突破性的功能,包括 100 萬個 token 的上下文視窗、用於並行協調的代理團隊,以及針對企業工作流程的自適應思維能力。
Mount Sinai 的研究顯示,AI 大型語言模型在 32% 至 46% 的情況下會相信醫療錯誤資訊,尤其在以專家建議的方式呈現時。
AI 先驅 Yann LeCun 已離開 Meta,並警告 AI 產業過度關注大型語言模型(LLM),正朝錯誤方向發展。他主張轉向預測式世界模型。