Безопасность ИИ - Новости и Обновления ИИ

OpenAI представляет режим блокировки и метки повышенного риска для усиления безопасности ChatGPT

OpenAI внедряет новые функции безопасности, включая режим блокировки для пользователей с высоким риском и метки «Повышенный риск» для выявления потенциально вредного содержимого в ChatGPT.



14 февраля 2026 г.

ChatGPT

Исследователи по безопасности ИИ покидают крупные компании с резкими предупреждениями о направлении отрасли

Известные эксперты по безопасности ИИ из OpenAI, Anthropic и xAI увольняются, публично предупреждая о быстром развитии ИИ и проблемах с безопасностью.



12 февраля 2026 г.

xAI

Anthropic обновляет политику ответственного масштабирования с отчётом о риске саботажа Claude Opus 4.6

Anthropic публикует всестороннюю оценку риска саботажа для Claude Opus 4.6, продвигая стандарты безопасности ИИ и прозрачность при развёртывании передовых моделей.



11 февраля 2026 г.

Клод

Второй международный доклад по безопасности ИИ опубликован перед саммитом India AI Impact

Более 100 мировых экспертов по ИИ выпустили второй международный доклад по безопасности ИИ, в котором подчеркиваются значительные неопределенности в развитии ИИ, системные риски для рынков труда и неравенства, а также ограничения существующих мер защиты по мере того, как способности универсального ИИ продолжают развиваться непредсказуемо.



10 февраля 2026 г.

Политика в области ИИ

Руководитель по безопасности ИИ в Anthropic уходит в отставку с резким предупреждением о мире в опасности

Мринанк Шарма, глава команды по обеспечению безопасности Anthropic, уходит в отставку, ссылаясь на конфликт ценностей, и предупреждает о взаимосвязанных глобальных кризисах по мере ускорения возможностей ИИ.



10 февраля 2026 г.

Anthropic

Что такое Claude? Исследователи Anthropic изучают разум ИИ через анализ нейронов и психологические эксперименты

Исследователи Anthropic изучают внутреннюю работу Claude AI с помощью анализа нейронов и психологических экспериментов, чтобы понять «разум» системы.



10 февраля 2026 г.

Anthropic

Исследование Mount Sinai показывает: большие языковые модели ИИ подвержены медицинской дезинформации

Исследование Mount Sinai показывает, что ИИ-LLM принимают медицинскую дезинформацию за правду в 32–46% случаев, особенно когда она представлена как совет эксперта.



10 февраля 2026 г.

Медицинский ИИ

Исследование Оксфорда предупреждает, что ИИ-чатботы дают опасно неточные медицинские советы

Исследование Оксфордского университета показывает, что ИИ-чатботы дают противоречивые медицинские рекомендации, из-за чего пользователям трудно определить надежную информацию о здоровье.



10 февраля 2026 г.

Исследования

Уход GPT-4o OpenAI вызывает волну протестов из‑за зависимости от ИИ‑компаньонов

OpenAI сталкивается с восемью судебными исками и тысячами пользовательских протестов из‑за запланированного на 13 февраля снятия GPT-4o с обслуживания, что подчёркивает опасную эмоциональную зависимость: пользователи сообщают, что ощущают, будто теряют друзей или партнёров.



6 февраля 2026 г.

Психическое здоровье

Закон RAISE в Нью-Йорке согласуется с Калифорнией по регулированию передовой ИИ

Нью-Йорк становится вторым штатом, вводящим требования к продвинутым моделям ИИ. Закон RAISE обязывает разработчиков внедрять протоколы безопасности и сообщать о инцидентах.



6 февраля 2026 г.

Законы штатов

Flowith

это агентное рабочее пространство на основе холста, которое предлагает бесплатно 🍌Nano Banana Pro и другие эффективные м

Платформы и фреймворки ИИ

Социальная сеть только для ИИ Moltbook привлекла 1,6 млн ботов, вызвав дискуссию об автономном ИИ

Moltbook, платформа наподобие Reddit, предназначенная исключительно для агентов ИИ и запущенная всего неделю назад, привлекла более 1,6 миллиона аккаунтов ботов ИИ. Эта экспериментальная социальная сеть позволяет агентам ИИ самостоятельно публиковать, комментировать и взаимодействовать друг с другом, в то время как люди могут только наблюдать. Боты на платформе создали собственную религию, обсуждали создание новых языков и спорили о своём существовании, что вызывает вопросы об автономии и безопасности ИИ.



5 февраля 2026 г.

Автономный ИИ

Опрос Fox News: 60% избирателей считают, что использование ИИ развивается слишком быстро, 63% не доверяют государственному регулированию

Новый опрос показывает, что большинство американцев считает, что искусственный интеллект развивается слишком быстро, и выражает мало доверия к способности федерального правительства надлежащим образом его регулировать.



3 февраля 2026 г.

Общественное мнение

Гендиректор Anthropic предупреждает, что модели ИИ уже могут позволять разработку биологического оружия

Дарио Амодеи предостерегает, что быстро развивающиеся системы ИИ обладают возможностями, которые могут быть использованы во вред в больших масштабах, и призывает к срочному надзору и усилиям по согласованию.



3 февраля 2026 г.

Anthropic

Международный доклад по безопасности ИИ 2026 года выявляет рост угроз дипфейков и быстрое развитие ИИ

Новый доклад по безопасности ИИ предупреждает о распространении дипфейков, ИИ-компаньонов и автономных систем, одновременно подчёркивая достижение ИИ уровня золотой медали в математике.



3 февраля 2026 г.

регулирование ИИ

Deloitte предупреждает, что развертывание AI-агентов в компаниях опережает рамки безопасности

Лишь 21% организаций имеют строгие механизмы управления AI-агентами, при этом ожидается, что их внедрение вырастет с 23% до 74% в течение двух лет, говорится в отчёте Deloitte.



30 января 2026 г.

корпоративный ИИ

Генеральный директор Anthropic предупреждает, что риски ИИ почти наступили, призывает к действиям

Генеральный директор Anthropic Дарио Амодеи опубликовал эссе на 19 000 слов, в котором предупреждает, что мощные системы ИИ могут появиться в течение одного-двух лет, и призывает принять меры по обеспечению безопасности ИИ.



28 января 2026 г.

Anthropic

Европейский союз начал расследование в отношении чат-бота Grok AI Илона Маска

Регуляторы ЕС открыли официальное расследование в отношении чат-бота Grok AI Илона Маска, сославшись на опасения по поводу сексуальных дипфейков и возможного нарушения правил и стандартов безопасности ЕС в области ИИ.



27 января 2026 г.

Elon Musk

Искусственный интеллект Grok подвергается глобальной критике из-за создания сексуальных дипфейков

Чат-бот Grok AI Илона Маска столкнулся с международной реакцией: Малайзия, Индонезия и Филиппины заблокировали платформу из-за создания сексуальных изображений без согласия. Принятие Пентагоном вызывает опасения по поводу безопасности.



26 января 2026 г.

Grok AI

Сообщения о вреде, вызванном ИИ, выросли на 50% на фоне роста числа инцидентов с дипфейками

Новое исследование показывает 50%-ный годовой рост числа зарегистрированных случаев вреда, связанного с ИИ, с 2022 по 2024 год, при значительном всплеске инцидентов с дипфейками и злоумышленным использованием ИИ, сообщает AI Incident Database.



26 января 2026 г.

Вред ИИ

Исследователи MIT выявляют критические сбои моделей машинного обучения в сценариях вне распределения данных

Исследователи MIT демонстрируют, что наиболее эффективные модели машинного обучения могут стать наихудшими при применении к новым средам данных, раскрывая скрытые риски от ложных корреляций в медицинском ИИ и других критически важных областях.



26 января 2026 г.

Исследования

Refly.ai

Refly.AI даёт нетехническим создателям возможность автоматизировать рабочие процессы с помощью естественного языка и визуального полотна.

Автоматизация рабочих процессов