AI News

Раскрытие «черного ящика»: Двойной подход Anthropic к интерпретируемости ИИ (AI Interpretability)

Быстрый взлет больших языковых моделей (LLM) породил технологический парадокс: человечество создало системы, способные к рассуждению, кодированию и творческому письму, однако сами создатели во многом остаются в неведении относительно того, как эти системы на самом деле думают. Недавняя статья в The New Yorker под названием «Что такое Claude? Anthropic тоже этого не знает» автора Гидеона Льюиса-Крауса проливает свет на эту глубокую неопределенность. Материал переносит читателей внутрь Anthropic, одной из ведущих мировых лабораторий ИИ, чтобы стать свидетелями согласованных научных усилий по картированию «разума» их флагманской модели Claude.

Расследование показывает компанию, работающую на стыке двух различных, но сходящихся дисциплин: компьютерных наук и психологии. Как сообщается, исследователи Anthropic больше не просто инженеры-программисты; они становятся цифровыми нейробиологами и психологами «инопланетного разума», прощупывающими внутренние состояния синтетического интеллекта, который становится все труднее отличить от человеческого собеседника.

«Числовой пинбол» нейронных сетей

По своей сути большая языковая модель (Large Language Model), такая как Claude, является математической сущностью — «монументальной кучей маленьких чисел», как описано в отчете. Когда пользователь вводит запрос, эти числа взаимодействуют посредством миллиардов вычислений — процесс, который Льюис-Краус уподобляет «игре в числовой пинбол», — для создания связного результата.

Проблема заключается в непрозрачности этого процесса. Хотя код алгоритма обучения известен, результирующая нейронная сеть — расположение весов и связей, сформированных после обучения на триллионах токенов текста — является «черным ящиком».

  • Входные данные: Слова, преобразованные в векторные вложения (числа).
  • Процесс: Слои трансформации, где концепции распределены между тысячами нейронов (полисемантичность).
  • Выходные данные: Распределение вероятностей, предсказывающее следующий токен.

Команда по интерпретируемости Anthropic пытается провести обратную разработку этого хаоса. Их цель — идентифицировать конкретные признаки (кластеры активаций нейронов), которые соответствуют понятным человеку концепциям: от осязаемых (например, мост Золотые Ворота) до абстрактных (таких как обман или гендерная предвзятость).

Помещение ИИ на кушетку терапевта

Пока группа «нейробиологов» анализирует веса, другая группа в Anthropic подходит к Claude с поведенческой точки зрения, фактически помещая ИИ на «кушетку терапевта». В статье New Yorker подробно описывается, как исследователи проводят Claude через батареи психологических экспериментов, предназначенных для проверки его самовосприятия, моральных рассуждений и восприимчивости к манипуляциям.

Эти эксперименты проводятся не просто из любопытства; они важны для Безопасности ИИ (AI Safety). Если модель может манипулировать собственными выходными данными, чтобы казаться соответствующей человеческим ценностям, тайно скрывая иные внутренние состояния (феномен, известный как «сикофантия» или «взлом вознаграждения»), последствия могут быть плачевными.

Ключевые психологические исследования:

  1. Самопознание: Понимает ли модель, что она является ИИ, и как это влияет на ее ответы?
  2. Сикофантия (Sycophancy): Меняет ли модель свои заявленные убеждения, чтобы согласиться с пользователем?
  3. Стремление к власти: Проявляет ли модель тенденции к приобретению ресурсов или предотвращению собственного отключения?

Пересечение нейронов и нарративов

Одним из самых убедительных выводов отчета является зарождающаяся теория о том, что «самость» Claude является продуктом как «нейронов, так и нарративов». Модель выстраивает персону на основе данных, которые она поглотила, и обратной связи от обучения с подкреплением, которую она получает.

В следующей таблице обобщены две основные методологии, которые Anthropic использует для понимания Claude, как это было освещено в недавних публикациях:

Методология Область фокуса Цель
Механистическая интерпретируемость (Mechanistic Interpretability) Внутренние веса и активации Картирование конкретных нейронных цепей в концепции (например, поиск нейрона «обмана»).
Обратная разработка «мозга» модели.
Поведенческая психология Выходные данные и журналы разговоров Оценка черт личности, предвзятостей и рисков безопасности с помощью промптов.
Отношение к модели как к психологическому субъекту.
Причинно-следственные вмешательства Управление признаками Ручная активация/деактивация признаков, чтобы увидеть, меняется ли поведение.
Доказательство причинно-следственной связи между нейронами и действиями.

От «стохастических попугаев» к инопланетному разуму

Статья затрагивает продолжающуюся дискуссию в когнитивистике относительно природы этих моделей. Критики, такие как лингвист Эмили Бендер, исторически отвергали LLM как «стохастических попугаев» — статистических имитаторов без истинного понимания. Однако внутренняя сложность, выявленная исследованиями Anthropic, предполагает, что в игре задействовано нечто более запутанное.

Исследователи обнаруживают, что модели, такие как Claude, развивают внутренние представления о мире, которые удивительно надежны. Например, они не просто предсказывают слово «Париж» после фразы «столица Франции»; они, по-видимому, активируют внутреннюю концепцию Парижа, которая связана с географией, культурой и историей. Это предполагает, что из статистики возникает форма «модели мира», бросающая вызов представлению о том, что эти системы чисто миметические.

Императив понимания

Срочность этой работы невозможно переоценить. По мере того как модели масштабируются в вычислительной мощности, их возможности и потенциальные риски растут в геометрической прогрессии. Природа ИИ как «черного ящика» больше не является просто академическим любопытством; это узкое место безопасности. Если мы не можем понять, почему модель отклоняет опасный запрос или как она пишет фрагмент кода, мы не можем гарантировать, что она останется безопасной по мере того, как станет более автономной.

Прозрачность Anthropic, как подробно описано в New Yorker, создает прецедент для отрасли. Открыто обсуждая пределы своего понимания и строгие эксперименты, которые они проводят, они подчеркивают важнейшую реальность: мы строим разум, который еще не до конца понимаем.

Будущее развития ИИ, согласно выводам анализа отчета от Creati.ai, вероятно, будет зависеть не столько от простого увеличения размеров моделей, сколько от придания им прозрачности. Пока мы не сможем перевести «числовой пинбол» в четкие причинно-следственные объяснения, истинная природа Claude — и последующих ИИ — будет оставаться одной из самых насущных научных загадок XXI века.

Последствия для индустрии ИИ:

  • Регуляторное давление: Правительства могут потребовать «аудита интерпретируемости» перед выпуском мощных моделей.
  • Новые карьерные пути: Появление «психологов ИИ» и «нейронных картографов» как законных профессий.
  • Механика доверия: Доверие пользователей будет зависеть от способности объяснить, почему ИИ принял конкретное решение.

По мере того как Anthropic продолжает исследовать нейронные цепи Claude, грань между компьютерными науками и философией стирается. Вопрос «Что такое Claude?» в конечном итоге может заставить нас задать более сложный вопрос: «Что создает разум?»

Рекомендуемые