Эпоха искусственного интеллекта развивается стремительными темпами, и одним из ключевых факторов, определяющих успешность современных моделей, становится масштабирование вычислительных ресурсов. Традиционно развитие ИИ было построено вокруг масштабирования параметров и объёмов обучающих данных, что позволило достичь поразительных результатов в понимании и генерации языка, изображений и даже управления действиями. Однако, в последние годы на смену парадигме масштабирования во время обучения приходит новая — масштабирование вычислений во время тестирования, или test-time compute scaling. Именно этим вопросом всерьёз занялся выдающийся исследователь Ноам Браун, лидер в области многопользовательских систем и игрового ИИ, который делится своими взглядами и достижениями в данной области. Масштабирование вычислений во время тестирования знаменует собой новую эру, где модели не просто обладают фиксированной мощностью, но способны использовать значительно больше ресурсов в процессе решения конкретной задачи.
Можно представить, что вместо однократного быстрого ответа, модель способна «думать» часы, дни и даже недели, детально анализируя сложные взаимосвязи и нюансы. Для человека, естественно, это сродни глубокому размышлению, а для искусственного интеллекта — принципиально новая ступень развития. Такая перспективная технология стала возможна после появления мощных предобученных моделей, таких как GPT-4, которые обеспечили фундамент для развития систем рассуждений второго типа — которые настаивали на том, что «думать долго и тщательно» более эффективно, чем просто иметь огромный объем знаний. Ключевым инсайтом, который подчеркивает Ноам Браун, является то, что способность модели к эффективным рассуждениям (System 2) тесно связана с уровнем её базовых интуитивных способностей (System 1). Без мощного базового интеллекта долгие вычислительные процессы не дают существенного улучшения качества решений.
Таким образом, не имеет смысла ожидать от слабой модели прорыва с помощью нагромождения вычислений, аналогично тому, как голубь не научится шахматам эффективно, сколько бы времени он ни размышлял. В этом же ключе Стоит отметить вклад Ильи Суцкевера и команды OpenAI, которые благодаря проекту с кодовым именем GPT-Zero начали активно экспериментировать с расширением возможностей во время и после обучения моделей. Несмотря на изначальный скептицизм в научном сообществе, именно в этот период зародилась новая парадигма, которая сегодня лежит в основе многих современных прорывов. Ноам отмечает, что первоначально многие считали масштабирование вычислительной мощности во время тестирования дорогостоящим и малоперспективным подходом, но сейчас это признана необходимостью для достижения истинного искусственного интеллекта, способного к глубокой рефлексии и адаптации. Второй важный аспект — это влияние рассуждающих моделей на вопросы безопасности и управляемости ИИ.
Современные дискуссии в сообществе ИИ активно уделяют внимание тому, насколько можно контролировать поведение систем, избегая нежелательных последствий. Ноам Браун приводит пример Cicero, системы, созданной для игры в Diplomacy, которая демонстрирует высокий уровень контроля благодаря предопределенным действиям и прозрачной логике взаимодействия с людьми. Такой подход создает впечатление «явной» модели, где искусственный интеллект не выходит за рамки ожидаемого поведения, что особенно важно в условиях растущей ответственности разработчиков за влияние ИИ на общество. Однако не менее важным выступает утверждение, что подобные системы рассуждений успешно применяются не только в областях с четко формализованной наградой, например, в математике или кодировании, но и в более субъективных и непроверяемых по стандартным метрикам задачах, таких как генерирование глубинных аналитических отчётов в исследовательских областях. Глубокое исследование (Deep Research), которое применяет ИИ к оценке научной и технической информации, служит ярким подтверждением наличия способности у моделей работать в неопределённых и сложных для строгой оценки сферах.
Помимо этого, опыт Ноама в области многопользовательских систем и агентных цивилизаций раскрывает новую перспективу: сегодня ИИ находится на аналогичной стадии развития, на которой когда-то были первобытные люди. Современные искусственные агенты единичны, с ограниченными возможностями, подобно “первобытным”. Но если объединить миллиарды таких агентов — дать им возможности сотрудничать и соревноваться на протяжении длительного времени, получится нечто аналогичное цивилизации, которая со временем совершенствуется, изобретая новые технологии и открывая горизонты. Такое коллективное взаимодействие возможно посредством масштабирования вычислительных ресурсов и создания сложных мультиагентных систем. Ноам подчеркивает, что современное направление исследований отличается от прежних попыток преодолеть проблемы мультиагентных систем, которые, по его мнению, часто опирались на эвристические методы и не учитывали уроки «горького опыта» (Bitter Lesson) развития ИИ — ключевого вывода, что масштабируемые методы и прямое обучение побеждают сложные правила и формализованные подходы.
Новое поколение моделей достигает «типа разума», известного как теория разума — способность воспринимать других агентов как самостоятельных субъектов с целями и намерениями. При увеличении мощности моделей эта способность возникает автоматически, не требуя специальных реализаций или явного кодирования другой агентности в окружающей среде. Это знаменует собой фундаментальный сдвиг в понимании взаимодействия искусственных интеллектов с мирами и другими агентами. При этом важной темой остается вопрос о самообучении через самопарные игры (self-play). Опыт игр, таких как AlphaGo и AlphaZero, демонстрирует, что моделям существенно помогает возможность играть против самих себя и совершенствоваться, приближаясь к оптимальным стратегиям.
Но Ноам обращает внимание, что такие игры являются примером двухигровых с нулевой суммой, где алгоритмы сходятся к равновесию оптимальной стратегии. В более сложных взаимодействиях, характерных для реальных многопользовательских систем — с кооперацией и конкуренцией одновременно — простое применение self-play не дает аналогичного результата, поскольку оптимальная стратегия не всегда сводится к минимаксной. Это накладывает новые требования к формированию целей обучения и поиску баланса между адаптацией и защитой от эксплуатации. Важным моментом являются и проблемы с вычислительными расходами при масштабировании времени размышлений моделей. Чем длиннее модели «думают», тем больше ресурсов и времени требуется, что ставит ограничения на скорость разработки, обратную связь и эффективность экспериментов.
Кроме того, в некоторых областях, таких как разработка лекарств, реальные временные рамки могут составлять недели и месяцы, что требует новых подходов к параллелизации и валидации результатов. Помимо теоретических и алгоритмических трудностей, Ноам делится конкретными наблюдениями из своей работы с языковыми моделями и инструментами типа Codex и Windsurf. Он подчеркивает, что для многих задач сегодня отлично подходят reasoning-модели, которые помогают не только генерировать код и искать информацию, но и выполнять более сложные аналитические задачи. Аналогично, он прогнозирует расширение сферы применения ИИ на широкий спектр удаленной работы, включая роль виртуальных ассистентов, где ИИ может сочетать высокую оперативность и выверенное соответствие ожиданиям пользователя. Интересно, что такой подход помогает сместить фокус с отдельных высокоспециализированных задач на формирование истинно универсальных агентов, способных не только манипулировать информацией, но и взаимодействовать, кооперироваться и конкурировать в средах с разными правилами и сложной динамикой.
Это открывает двери к формированию новых многоагентных цивилизаций ИИ, которые будут расти и развиваться подобно человеческому обществу, но с неимоверно большей скоростью и масштабом. Тем не менее, остаётся немало вызовов. С одной стороны — технические ограничения в плане вычислительных мощностей и стенки стоимости, с другой — методологические и этические вопросы, связанные с выбором целей и стратегий развития ИИ. Вопросы безопасности, управляемости и согласования интересов между пользователями, обществом и ИИ становятся исключительно актуальными. Ноам подчеркивает, что успех в этой области зависит не только от технологий, но и от умения мыслить стратегически, делать долгосрочные прогнозы и работать над формированием благоприятного будущего.