MIT 연구진, 과도한 자신감을 보이는 대형 언어 모델을 식별하고 환각을 표시하는 새로운 방법 개발
MIT 연구진은 서로 다른 개발자의 LLM들로 구성된 앙상블에 걸쳐 모델의 출력을 비교하는 총 불확실성 지표를 도입했다. 이 지표는 기존의 자기일관성(self-consistency) 방법보다 과도하게 자신감 있는 예측과 환각을 더 정확하게 감지한다.
MIT 연구진은 서로 다른 개발자의 LLM들로 구성된 앙상블에 걸쳐 모델의 출력을 비교하는 총 불확실성 지표를 도입했다. 이 지표는 기존의 자기일관성(self-consistency) 방법보다 과도하게 자신감 있는 예측과 환각을 더 정확하게 감지한다.
Anthropic는 Claude의 일일 활성 사용자가 2026년 1월 이후 140% 이상 급증함에 따라 비혼잡 시간대에 Claude AI 가입자의 사용 한도를 2배로 늘린다고 발표했다. 이는 중요한 용량 확장이다.
Anthropic가 Claude Sonnet 4.6을 출시했습니다. 이 모델은 100만 토큰 컨텍스트 윈도우를 갖추고 코드 작성, 컴퓨터 활용, 에이전트 분야에서 최첨단 AI 성능을 더 낮은 비용으로 제공합니다. Opus 4.6 공개로부터 단 12일 만에 나왔습니다.
Claude Opus 4.6은 100만 토큰 컨텍스트 창, 병렬 조정을 위한 에이전트 팀, 기업 워크플로우를 위한 적응적 사고 등 획기적인 기능을 도입합니다.
마운트시나이 연구에 따르면 AI LLM은 의료 허위정보를 32~46%의 확률로 사실로 받아들이며, 특히 이를 전문가 조언으로 제시할 때 그 비율이 높았습니다.
AI 선구자 얀 르쿤은 메타를 떠나면서 AI 산업이 대형 언어 모델(LLM)에 과도하게 집중하고 있어 잘못된 방향으로 가고 있다고 경고했다. 그는 예측적 세계 모델로의 전환을 촉구한다.