研究者らがScience誌にLLMの画期的な内部制御手法を発表
UCサンディエゴとMITの研究者らがScience誌に画期的な研究を発表しました。内部の概念表現を直接操作することでAIモデルをスケール可能に制御・監視する手法を示し、安全性の脆弱性と能力向上の両方を明らかにしています。
UCサンディエゴとMITの研究者らがScience誌に画期的な研究を発表しました。内部の概念表現を直接操作することでAIモデルをスケール可能に制御・監視する手法を示し、安全性の脆弱性と能力向上の両方を明らかにしています。