MIT 研究人員開發新方法以識別過度自信的大型語言模型並標示幻覺
MIT 研究人員提出了一項總體不確定性指標,該指標比較來自不同開發者的多個 LLM 的輸出,能比現有的自我一致性(self-consistency)方法更準確地檢測出過度自信和幻覺的預測。
MIT 研究人員提出了一項總體不確定性指標,該指標比較來自不同開發者的多個 LLM 的輸出,能比現有的自我一致性(self-consistency)方法更準確地檢測出過度自信和幻覺的預測。
Anthropic宣佈在離峰時段將Claude AI訂閱者的使用上限加倍,這是一項重要的容量擴充,恰逢自2026年1月以來Claude的日活躍用戶激增超過140%。
Anthropic 推出 Claude Sonnet 4.6,具備 100 萬個 token 的上下文視窗,在程式撰寫、電腦使用與代理人領域提供前沿的 AI 效能,距 Opus 4.6 發布僅 12 天。
Claude Opus 4.6 引入了突破性的功能,包括 100 萬個 token 的上下文視窗、用於並行協調的代理團隊,以及針對企業工作流程的自適應思維能力。
Mount Sinai 的研究顯示,AI 大型語言模型在 32% 至 46% 的情況下會相信醫療錯誤資訊,尤其在以專家建議的方式呈現時。
AI 先驅 Yann LeCun 已離開 Meta,並警告 AI 產業過度關注大型語言模型(LLM),正朝錯誤方向發展。他主張轉向預測式世界模型。