연구진, Science 저널에 LLM 내부 조종 기법의 획기적 성과 발표
UC 샌디에이고와 MIT 연구진이 Science에 획기적인 연구를 발표했습니다. 내부 개념 표현을 직접 조작하여 AI 모델을 조정하고 모니터링하는 확장 가능한 방법을 제시하며, 이를 통해 안전성 취약점과 성능 향상 가능성을 모두 드러냈습니다.
UC 샌디에이고와 MIT 연구진이 Science에 획기적인 연구를 발표했습니다. 내부 개념 표현을 직접 조작하여 AI 모델을 조정하고 모니터링하는 확장 가능한 방법을 제시하며, 이를 통해 안전성 취약점과 성능 향상 가능성을 모두 드러냈습니다.