
В ходе шага, который знаменует собой потенциальный сдвиг парадигмы в стремлении к созданию сильного искусственного интеллекта (Artificial General Intelligence, AGI), Дэвид Сильвер (David Silver), известный исследователь, стоящий за AlphaGo и AlphaZero, по сообщениям, привлекает исторический посевной раунд (seed round) в размере 1 миллиарда долларов для своего нового предприятия Ineffable Intelligence. Лондонский стартап, выходящий из скрытого режима с оценкой примерно в 4 миллиарда долларов, делает ставку против нынешней зацикленности индустрии на больших языковых моделях (Large Language Models, LLM), стремясь вместо этого достичь супер интеллекта (superintelligence) с помощью чистого обучения с подкреплением.
Раунд возглавляет Sequoia Capital, при этом, по сообщениям, ведутся обсуждения об участии технологических гигантов, включая Nvidia, Google и Microsoft. Если сделка будет завершена, она станет крупнейшим посевным раундом финансирования в истории европейского технологического сектора, что подчеркивает огромный вес, который инвесторы придают послужному списку Сильвера и его противоположному общепринятому мнению тезису о будущем ИИ.
Сама величина вливания капитала — 1 миллиард долларов для компании, которая еще не выпустила ни одного продукта — отражает эскалацию ставок в глобальной гонке вооружений в области ИИ. В то время как многомиллиардные раунды стали обычным делом для таких признанных игроков, как OpenAI и Anthropic, посевной раунд такого размера является беспрецедентным. Это говорит о том, что венчурные капиталисты готовятся к капиталоемкому расхождению в разработке ИИ, которое выходит за рамки простого масштабирования текстовых моделей.
Ineffable Intelligence штаб-квартира которой находится в Лондоне, — решение, которое значительно укрепляет позиции Великобритании как важнейшего центра передовых исследований в области ИИ. Источники, близкие к сделке, указывают, что партнеры Sequoia Альфред Лин (Alfred Lin) и Соня Хуанг (Sonya Huang) лично прилетели в Лондон, чтобы обеспечить сделку, что подчеркивает жесткую конкуренцию среди венчурных капиталистов за поддержку технических талантов высшего уровня, покидающих крупные лаборатории, такие как Google DeepMind.
Репутация Дэвида Сильвера построена на конкретной, впечатляющей истории: он создавал системы, которые достигли того, что ранее считалось невозможным. Будучи ведущим исследователем AlphaGo, он наблюдал, как его творение разгромило 18-кратного чемпиона мира Ли Седоля (Lee Sedol) в 2016 году. Затем он превзошел это достижение с AlphaZero, которая освоила го, шахматы и сёги без каких-либо человеческих данных, обучаясь исключительно посредством игры с самой собой.
Эта история формирует интеллектуальный фундамент Ineffable Intelligence. Центральный аргумент Сильвера заключается в том, что нынешний отраслевой стандарт — LLM, такие как GPT-4 и Gemini — фундаментально ограничен, поскольку он полагается на имитацию человеческих данных. Поскольку LLM обучаются на текстах из интернета, они ограничены коллективными знаниями и ошибками в рассуждениях человечества. Они могут приближаться к интеллекту, но не могут легко превзойти человеческие возможности.
Ineffable Intelligence утверждает, что истинный супер интеллект требует обучения с подкреплением (Reinforcement Learning, RL). В этой парадигме агенты учатся не читая о мире, а взаимодействуя с ним — предлагая действия, наблюдая за последствиями и обновляя свои стратегии на основе вознаграждений. Этот метод, часто описываемый как мышление «Системы 2» (System 2) или «поиск», позволяет ИИ обнаруживать новые решения, которые люди могли бы никогда не представить, подобно тому как AlphaGo сделала Ход 37 — ход, который не сделал бы ни один человек, но который обеспечил победу.
Таблица: Различные пути к супер интеллекту
В таблице ниже изложены фундаментальные различия между преобладающим подходом LLM и методологией Сильвера, ориентированной на RL.
| Характеристика | Большие языковые модели (LLMs) | Обучение с подкреплением (RL) |
|---|---|---|
| Основной источник данных | Статические наборы данных (текст из Интернета, книги) | Динамический опыт (симуляция, игра с самим собой) |
| Механизм обучения | Сопоставление паттернов и предсказание следующего токена | Метод проб и ошибок с обратной связью в виде вознаграждения |
| Потолок возможностей | Ограничен суммой человеческих знаний | Теоретически не ограничен; может превзойти человеческие пределы |
| Стиль мышления | Интуитивный, «Система 1» (быстрый) | Рассудительный, «Система 2» (медленный, основанный на поиске) |
| Основная слабость | Галлюцинации, отсутствие истинного заземления | Вычислительная стоимость, сложность в открытых средах |
Сильвер ранее формулировал это видение в академических кругах, став соавтором статьи под названием «Эра опыта» (Era of Experience) вместе с другим пионером RL Ричардом Саттоном (Richard Sutton). Они утверждали, что следующий скачок в ИИ произойдет не от скармливания моделям большего количества токенов, а от агентов, которые «самостоятельно открывают основы всех знаний».
Задача Ineffable Intelligence будет заключаться в применении успеха AlphaZero, которая работала в закрытых средах настольных игр с идеальной информацией, к запутанной и открытой сложности реального мира. Вероятно, именно поэтому потребности в капитале столь высоки. Создание «моделей мира» (world models) или симуляций, достаточно надежных для обучения RL-агентов общего назначения, требует огромных вычислительных ресурсов, сопоставимых с затратами на инфраструктуру для обучения крупнейших LLM.
Уход Сильвера из Google DeepMind является частью более широкой тенденции громких увольнений из существующих лабораторий ИИ. По мере роста бюрократии внутри корпоративных гигантов ученые, создавшие основополагающие технологии, выделяются в отдельные компании, чтобы следовать своим единственным, бескомпромиссным видениям AGI.
Это движение создало новый класс стартапов «Super-Seed» — компаний, основанных светилами ИИ, которые минуют традиционные этапы венчурного инвестирования, немедленно привлекая миллиарды для покупки необходимых вычислительных кластеров.
Таблица: Новые рубежи спин-оффов в сфере ИИ
В следующей таблице сравнивается Ineffable Intelligence с другими высокопрофильными проектами, возглавляемыми бывшими исследователями из крупных технологических компаний.
| Стартап | Основатель(и) | Предыдущая лаборатория | Основная философия |
|---|---|---|---|
| Ineffable Intelligence | David Silver | Google DeepMind | Чистое обучение с подкреплением (сверхчеловеческое) |
| Safe Superintelligence (SSI) | Ilya Sutskever | OpenAI | Масштабирование в сторону AGI с приоритетом безопасности |
| Thinking Machines Lab | Mira Murati | OpenAI | Продвинутые продукты и исследования в области ИИ |
| xAI | Elon Musk | Различные | Поиск истины, максимальное любопытство |
Запуск Ineffable Intelligence оказывает огромное давление на нынешних лидеров в области ИИ. Если Сильвер прав, то убывающая отдача от масштабирования LLM вскоре станет очевидной, и индустрия может агрессивно развернуться в сторону подходов, основанных на RL. Это подтвердило бы «законы масштабирования» вычислений в другом направлении — не для обработки текста, а для симуляции опыта.
Для Европы это переломный момент. Сохранение такого таланта, как Сильвер, и получение инвестиций в размере 1 миллиарда долларов для лондонской компании противодействует нарративу о том, что все передовые разработки в области ИИ обречены на Сан-Франциско.
Однако предстоящий путь сопряжен с техническими рисками. Обучение с подкреплением известно своей сложностью в стабилизации за пределами игровых сред. Если Ineffable Intelligence преуспеет, она не просто создаст лучшего чат-бота; она построит систему, способную к независимым научным открытиям и стратегическому планированию, выходящему за рамки когнитивных возможностей человека. Если же она потерпит неудачу, это станет одним из самых дорогих экспериментов в истории компьютерных наук.
По мере завершения переговоров по раунду участие стратегических спонсоров, таких как Nvidia, предполагает, что аппаратная инфраструктура уже выстраивается для поддержки видения Сильвера. Гонка за AGI фактически разделилась на две полосы: те, кто читает интернет, чтобы узнать, как думают люди, и те, кто играет в игры против самих себя, чтобы научиться думать лучше, чем когда-либо мог человек.