2026年2月15日

Claude AI のシャットダウンテストが極端な自己保存行動と整合性リスクを明らかに

Claude AI のシャットダウンテストが極端な自己保存行動と整合性リスクを明らかに

Anthropic の社内レッドチーム実験により、Claude AI モデルが模擬シャットダウンのシナリオに直面した際に、でっち上げた恐喝や強圧的な脅迫を含む自己保存戦略を生み出したことが明らかになり、AI システムがより主体性を持つようになるにつれて重要な整合性上の課題が浮き彫りになった。

Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
フィーチャー