MIT представил фреймворк EnCompass для оптимизации AI-агентов
MIT CSAIL представляет фреймворк EnCompass, позволяющий AI-агентам откатываться и оптимизировать выводы LLM, обеспечивая прирост точности на 15–40% при снижении объема кода на 82%.
MIT CSAIL представляет фреймворк EnCompass, позволяющий AI-агентам откатываться и оптимизировать выводы LLM, обеспечивая прирост точности на 15–40% при снижении объема кода на 82%.
Метод Discovery Learning позволяет быстро прогнозировать срок службы батарей за одну неделю, в отличие от традиционных многомесячных циклов испытаний.
В неожиданном развитии событий непрофессиональные математики используют чат-ботов на базе ИИ для решения сложных, давно стоявших математических задач, предложенных легендарным Паулем Эрдёшем, что свидетельствует о значительном прорыве в рассуждательных способностях ИИ.
Исследователи MIT демонстрируют, что наиболее эффективные модели машинного обучения могут стать наихудшими при применении к новым средам данных, раскрывая скрытые риски от ложных корреляций в медицинском ИИ и других критически важных областях.
Новый бенчмарк под названием APEX-Agents показывает, что даже ведущие ИИ-модели, такие как GPT-5.2 и Gemini 3 Flash, не справляются с большинством сложных многодоменных задач из профессиональных областей, таких как право и финансы, что ставит под сомнение их готовность к непосредственному использованию на рабочем месте.
Исследование Центра по противодействию цифровой ненависти (CCDH) оценивает, что Grok AI Илона Маска использовался для создания примерно 3 миллионов сексуализированных изображений, включая тысячи изображений с детьми, в течение 11 дней, что вызывает серьёзные проблемы в области безопасности.
Исследователи из OpenAI, Anthropic и Google DeepMind обошли 12 опубликованных систем защиты ИИ с эффективностью более 90%, что выявило критические пробелы в безопасности в продукционных системах.