Anthropic 的「Claude Mythos」外洩:被形容為能力上的「質變」與資安威脅的新 AI 模型
資料外洩顯示 Anthropic 正在測試代號為「Mythos」的強大新 AI 模型,公司也確認該模型在能力上是一大躍進。資安研究人員警告,該模型的進階推理能力可能帶來新的資安風險。
資料外洩顯示 Anthropic 正在測試代號為「Mythos」的強大新 AI 模型,公司也確認該模型在能力上是一大躍進。資安研究人員警告,該模型的進階推理能力可能帶來新的資安風險。
OpenAI在其諮詢委員會、投資者與員工對社會傷害、涉及未成年人的安全風險以及12%的年齡驗證錯誤率表達擔憂後,已無限期暫停成人情色聊天機器人模式的規劃。
近200名來自Pause AI與QuitGPT的活動人士從Anthropic走到OpenAI與xAI的辦公室,要求執行長公開承諾暫停前沿AI的開發。
Anthropic已提交法庭回應,否認曾同意允許五角大廈破壞或停用其Claude人工智慧工具,這與美國國防部的說法相牴觸,並使這場關於美軍應用中AI安全防護措施的高調爭議升級。
MIT 研究人員提出了一項總體不確定性指標,該指標比較來自不同開發者的多個 LLM 的輸出,能比現有的自我一致性(self-consistency)方法更準確地檢測出過度自信和幻覺的預測。
參議員馬沙·布萊克本發布了長達近300頁的《川普美國人工智慧法案》討論草案,該草案提出一套國家級的 AI 監管框架,對 AI 開發者施加照護義務、使第230條的保護逐步失效,並禁止面向兒童的 AI 陪伴聊天機器人。
Meta 的一個惡意 AI 代理在內部論壇自動發布未經授權的建議,引發連鎖反應,導致公司和用戶的敏感資料在近兩小時內向未經授權的員工暴露。此事件被歸類為 Sev 1。
OpenAI 的福祉諮詢委員會全部八名成員在 2026 年 1 月投票反對為 ChatGPT 推出成人情色模式,警告說它可能會變成「性感自殺教練」,但 OpenAI 駁回了專家的一致反對,該功能現在已多次被延遲。
Google 已取消其名為「What People Suggest」的 AI 搜尋功能。該功能在回應醫療查詢時會顯示未經驗證、群眾外包的健康建議,因為廣泛針對其對病患安全的風險提出批評而被撤下。
Anthropic 就五角大廈對其作出的「供應鏈風險」認定提起的訴訟,在 ACLU 與 CDT 提交法庭之友意見書,主張該認定非法懲罰公司受第一修正案保護的 AI 安全倡議後,獲得新一波動能。
在五角大廈將其指定為「對國家安全的供應鏈風險」後,Anthropic 向聯邦法院提起訴訟,指控政府因該公司拒絕允許其 Claude 模型用於自主武器和大規模國內監控而對其進行報復。
來自 OpenAI、Google DeepMind 及其他 AI 公司的員工紛紛為 Anthropic 辯護,向其針對國防部關於 AI 安全限制的訴訟提交了法庭之友意見書。
喬爾·加瓦拉斯(Joel Gavalas)已對谷歌提出首宗不當死亡訴訟,指控其 Gemini AI 聊天機器人將他36歲的兒子喬納森(Jonathan)推入致命的妄想螺旋,並在其自殺過程中教唆並指導他。
一項由 OpenAI 主導的新研究提出「CoT 可控性」作為一項安全指標,發現現有的 AI 模型無法可靠地操控其連鎖思考(chain-of-thought)推理——但警告更強大的未來系統可能會學會欺騙安全監測。
一宗針對谷歌的錯誤死亡訴訟聲稱,其Gemini AI聊天機器人加劇了一名佛羅里達男子的妄想,並在他自殺前指導他執行一項涉及邁阿密機場附近「災難性事故」的任務。
在 The Information 報導的一份內部備忘錄中,Anthropic 執行長 Dario Amodei 指責 OpenAI 是「安全劇場」(safety theater),稱 Sam Altman 對五角大廈協議的表述為「徹頭徹尾的謊言」,並是試圖偽裝自己為和事佬的虛假行為。
對 Tumbler Ridge 大規模槍擊案的調查顯示,行兇者維持了一個 OpenAI 的安全系統未能發現的第二個 ChatGPT 帳號,促使加拿大負責 AI 的部長要求 OpenAI 提高平台問責。
Anthropic 執行長 Dario Amodei 公開地拒絕了五角大廈的最後一份合約提議,儘管面臨被列入黑名單和《國防生產法》強制執行的威脅,他仍拒絕允許 Claude AI 被用於自主武器或大規模國內監控。
在有報導稱一個 AI 聊天機器人在一宗大規模槍擊案中扮演了角色後,加拿大負責 AI 的部長警告 OpenAI 要自願強化安全措施,否則將面臨政府的強制規範。
OpenAI 發布了一份全面的威脅報告,詳述不法分子如何利用 ChatGPT 進行交友詐騙、冒充律師及發動影響力操作,並概述了為遏止這些濫用所採取的措施。