AI News

Новая эра для ИИ: David Silver покидает DeepMind, чтобы работать над «Ineffable» сверхинтеллектом

В коренным образом меняющемся ландшафте искусственного интеллекта Дэвид Сильвер, ведущий научный сотрудник, стоявший за AlphaGo, и ключевая фигура Google DeepMind, объявил о своём уходе для запуска нового независимого проекта — Ineffable Intelligence. Этот шаг, подтверждённый в пятницу, стал очередным заметным уходом из крупной технологической компании и свидетельствует о растущем повороте отрасли от Генеративного ИИ (Generative AI) к поиску автономного, целенаправленного сверхинтеллекта.

Сильвер, в широких кругах считающийся «отцом AlphaGo», проработал в DeepMind более десяти лет, где его работа над усиленном обучением (Reinforcement Learning) (RL) фундаментально изменила траекторию развития области. Его новый стартап стремится обойти текущую отраслевую одержимость Большими языковыми моделями (Large Language Models, LLMs), делая ставку вместо этого на философию «Alberta School»: агент, обучающийся через взаимодействие и награду, — единственный жизнеспособный путь к истинному Искусственному общему интеллекту (Artificial General Intelligence) (AGI).

Пределы языка и восхождение Ineffable Intelligence

Название новой лаборатории Сильвера, Ineffable Intelligence, представляет собой прямой философский вызов статус-кво. В то время как текущий бум ИИ движим системами, которые овладевают человеческим языком — вероятностно предсказывая следующее слово в последовательности — тезис Сильвера утверждает, что самые критические аспекты интеллекта «невыразимы» и их нельзя полностью зафиксировать только с помощью языка.

«Язык — это сжатие опыта, а не сам опыт», — заявил Сильвер на брифинге после объявления. «Чтобы достичь сверхинтеллекта, мы должны строить агентов, которые учатся с нуля через пробу, ошибку и открытие, подобно тому, как это сделал AlphaZero. Мы выходим за рамки эпохи статичных наборов данных и вступаем в эпоху бесконечного опыта».

Стартап намерен сосредоточиться исключительно на агентах усиленного обучения (RL), способных к многозадачному планированию на дальнюю перспективу и новым научным открытиям, а не на чат-ботах или генеративных медиа. Это согласуется со знаменитой работой Сильвера 2021 года, Reward is Enough, в которой утверждалось, что максимизация награды достаточна для объяснения появления всего интеллектуального поведения.

Расхождение путей: тренд «neolab»

Уход Сильвера является частью более широкой феноменальной волны «neolab», когда ведущие исследователи покидают объединённые корпоративные лаборатории, чтобы основать гибкие стартапы с чёткой миссией. Эта тенденция отражает фрагментацию в сообществе ИИ относительно того, какой путь вперед является наилучшим. В то время как такие компании, как OpenAI и Google, фокусируются на масштабировании трансформеров, исследователи вроде Сильвера (и бывший главный учёный OpenAI Ilya Sutskever) делают ставку на альтернативные архитектуры.

Ineffable Intelligence присоединяется к растущему числу элитных исследовательских лабораторий, появляющихся в Лондоне и Сан-Франциско, с целью решения проблем рассуждения и надёжности, которые в настоящее время тормозят большие языковые модели.

Table: The Strategic Divide in Modern AI Development

Feature Generative AI (LLMs) Reinforcement Learning (RL)
Core Objective Predict the next token in a sequence Maximize cumulative future reward
Learning Source Static datasets (internet text/images) Dynamic interaction with environments
Capabilities Summarization, translation, content creation Planning, strategy, novel discovery
Limitations Hallucinations, lack of true grounding High computational cost for simulation
Primary Goal Human-mimicry Superhuman optimization

Влияние «Alberta School»

Подход David Silver глубоко укоренён в «Alberta School» ИИ и находится под влиянием его наставника, Richard Sutton. Эта школа мыслей отдаёт приоритет «вычислительно масштабируемым» методам, которые не полагаются на данные, размеченные людьми.

Во время своей работы в Google DeepMind Сильвер применил эти принципы при создании AlphaGo, который потряс мир в 2016 году, победив чемпиона мира Lee Sedol, а затем AlphaZero и MuZero, которые овладели шахматами, сёги и го без обучения на человеческих партиях. Ожидается, что Ineffable Intelligence будет переносить алгоритмы планирования в стиле MuZero в реальные области, такие как материаловедение, математика и робототехника, где доступна обратная связь «истина на месте».

Последствия для отрасли

Формирование Ineffable Intelligence предполагает, что следующий рубеж в борьбе за превосходство в ИИ будет определяться не тем, у кого самый большой текстовый корпус, а тем, кто сможет построить наиболее эффективные среды для обучения агентов.

  • Переход к мышлению «Система 2» (System 2): В то время как большие языковые модели превосходны в мышлении «Система 1» (быстрые, интуитивные ответы), подход Сильвера нацелен на мышление «Система 2» (медленное, обдуманное рассуждение и поиск), которое важно для решения сложных инженерных или медицинских задач.
  • Решение проблемы дефицита данных: По мере того как отрасль предупреждает о возможном исчерпании высококачественных текстовых данных человека для обучения моделей, агенты усиленного обучения предлагают решение: они сами генерируют данные через самоигру и симуляции, теоретически позволяя бесконечное масштабирование.
  • Миграция талантов: Ожидается, что репутация Сильвера привлечёт значительное число специалистов по усиленному обучению из крупных лабораторий, что потенциально может спровоцировать войну за таланты среди исследователей, умеющих в теорию принятия решений и системы управления.

Заключение

Уход Дэвида Сильвера означает не просто кадровое изменение; это декларация намерений относительно будущего области. Делая ставку на Ineffable Intelligence, Сильвер полагает, что путь к сверхинтеллекту лежит не в прочтении всего интернета, а в переживании мира — смоделированного или реального — и в обучении управлять им шаг за шагом через награды. По мере того как цикл хайпа вокруг ИИ взрослеет, отрасль будет внимательно наблюдать, сумеет ли усиленное обучение предоставить те способности к рассуждению, которые языковые модели обещали, но ещё полностью не достигли.

Рекомендуемые