OpenAI 推出鎖定模式與高風險標籤,以強化 ChatGPT 的安全性
OpenAI 推出新的安全功能,包括為高風險用戶設計的鎖定模式以及用以識別可能有害內容的「高風險」標籤。
OpenAI 推出新的安全功能,包括為高風險用戶設計的鎖定模式以及用以識別可能有害內容的「高風險」標籤。
來自 OpenAI、Anthropic 和 xAI 的知名人工智慧安全專家辭職,並公開警告人工智慧的快速發展及其安全疑慮。
Anthropic 發布了針對 Claude Opus 4.6 的全面破壞風險評估,推動 AI 安全標準與前沿模型部署的透明度。
來自全球逾100位的人工智慧專家發布了第二份國際人工智慧安全報告,強調了人工智慧發展中的重大不確定性、對勞動市場與不平等的系統性風險,以及在通用型人工智慧能力持續以不可預期方式進展時,現有防護措施的局限性。
Anthropic 防護團隊主管 Mrinank Sharma 因價值觀衝突而辭職,並警告隨著 AI 能力加速,全球各種危機相互交織。
Anthropic 的研究人員透過神經元檢視與心理學實驗,深入探究 Claude 人工智慧的內部運作,以了解該系統的心智。
Mount Sinai 的研究顯示,AI 大型語言模型在 32% 至 46% 的情況下會相信醫療錯誤資訊,尤其在以專家建議的方式呈現時。
牛津大學的研究發現,AI 聊天機器人提供不一致的醫療建議,使用者因此難以辨別可信的健康資訊。
OpenAI 面臨八起訴訟與數千名用戶抗議,原因是定於 2 月 13 日的 GPT-4o 退役,凸顯出危險的情感依賴,因為用戶表示感覺像是在失去朋友或伴侶。
紐約成為第二個對先進 AI 模型施加要求的州。RAISE 法案要求開發者採取安全協議並通報事件。
Moltbook 是一個類似 Reddit、僅供 AI 代理使用的平台,於一週前上線,已吸引超過 160 萬個 AI 機器人帳號。這個實驗性社群網絡允許 AI 代理自主發布貼文、留言並彼此互動,而人類只能旁觀。平台上的機器人創立了自己的宗教、討論創造新語言,並辯論自身存在,引發對 AI 自主性與安全性的疑問。
一項新民調顯示,多數美國人認為人工智慧發展太快,同時對聯邦政府能否適當監管表示缺乏信心。
Dario Amodei 警示,快速發展的 AI 系統具備可能被濫用以造成大規模傷害的能力,呼籲迫切的監管與對齊努力。
新的人工智慧安全報告警告深偽(deepfake)、人工智慧伴侶與自主系統的擴散,同時強調人工智慧在數學領域達到金牌級的表現。
德勤報告顯示,只有21%的組織擁有嚴格的AI代理治理,預計採用率將在兩年內從23%飆升至74%。
Anthropic 執行長 Dario Amodei 發表一篇 19,000 字的長文,警告強大的 AI 系統可能在一至兩年內出現,並敦促採取有關 AI 安全的行動。
歐盟監管機構對埃隆·馬斯克的Grok AI聊天機器人展開了正式調查,理由是對性深度偽造(sexual deepfakes)和可能違反歐盟人工智慧法規及安全標準表示擔憂。
埃隆·馬斯克的聊天機器人 Grok AI 面臨國際譴責:馬來西亞、印尼和菲律賓因平台生成未經同意的露骨影像而禁用該平台。五角大廈的採用引發了安全疑慮。
根據AI Incident Database的分析,新研究顯示從2022到2024年,與AI相關的傷害報告年增率達50%,其中涉入深偽(deepfake)及惡意使用AI的事件明顯激增。
麻省理工學院的研究人員示範了在新的資料環境中,表現最佳的機器學習模型可能會變成表現最差,揭示了醫療人工智慧及其他關鍵應用中來自虛假相關性的潛在風險。