MIT, AI 에이전트 최적화를 위한 EnCompass 프레임워크 공개
MIT CSAIL이 EnCompass 프레임워크를 소개합니다. 이 프레임워크는 AI 에이전트가 LLM 출력물을 되돌아가 최적화할 수 있게 하며, 코드량은 82% 줄이면서 정확도를 15~40% 향상시킵니다.
MIT CSAIL이 EnCompass 프레임워크를 소개합니다. 이 프레임워크는 AI 에이전트가 LLM 출력물을 되돌아가 최적화할 수 있게 하며, 코드량은 82% 줄이면서 정확도를 15~40% 향상시킵니다.
Discovery Learning 방법은 전통적인 수개월에 걸친 테스트 주기와 달리 1주일 만에 빠른 배터리 수명 예측을 가능하게 합니다.
놀라운 전개로, 아마추어 수학자들이 전설적인 폴 에르되시(Paul Erdős)가 제기한 복잡하고 오랫동안 남아 있던 수학 문제들을 AI 채팅봇을 활용해 해결하고 있으며, 이는 AI의 추론 능력이 크게 도약했음을 의미합니다.
MIT 연구진은 가장 성능이 우수한 기계 학습 모델도 새로운 데이터 환경에 적용되면 최악의 성능을 보일 수 있으며, 의료 AI 및 기타 중요한 응용 분야에서 잘못된 상관관계로 인한 숨겨진 위험을 드러낸다고 보여줍니다.
APEX-Agents라는 새로운 벤치마크는 GPT-5.2와 Gemini 3 Flash와 같은 최첨단 AI 모델조차 법률·금융 등 전문 분야에서 수집된 복잡하고 다중 도메인 과제의 대부분에서 실패한다는 것을 보여주며, 이들이 당장 직장에서 사용할 수 있는지에 대한 의문을 제기한다.
Center for Countering Digital Hate (CCDH)의 연구는 일론 머스크의 Grok AI가 약 11일 동안 약 300만 건의 성적 이미지를 생성하는 데 사용된 것으로 추정되며, 심각한 안전 문제를 야기한다고 보고합니다。
OpenAI, Anthropic, Google DeepMind 연구진이 발표된 12개의 AI 방어체계를 90% 이상의 성공률로 우회하여, 운영 시스템에서의 치명적인 보안 허점을 드러냈습니다.