Модели рассуждений, такие как инновационная серия OpenAI o3, занимаются решением сложных задач, требующих логического мышления, анализа и умозаключений. За период менее года они смогли произвести впечатляющий прорыв в своих возможностях, быстро улучшая результаты на разнообразных сложных бенчмарках по математике, программированию и другим областям. Однако возникает справедливый вопрос: насколько далеко можно масштабировать такие модели, используя существующие подходы и вычислительные мощности? Основным направлением в развитии этих моделей является обучение с использованием подкрепления, когда системе дают обратную связь на выполненные задачи, что позволяет улучшать её способность рассуждать. Такая стадия обучения проводится после предварительного обучения на огромных объёмах данных, и именно она считается ключевой для формирования высокоуровневых навыков рассуждения. Исторически масштаб вычислительных ресурсов всегда был важнейшим фактором прогресса в ИИ.
В частности для моделей рассуждения, скорость наращивания используемого вычислительного объёма впечатляет. Примером служит скачок от модели o1 к o3 — увеличение объёма вычислений для обучения при использовании подкрепления произошло в 10 раз всего за четыре месяца. Если подобные темпы роста продолжатся, то вплоть до ближайшего года масштаб вычислений для обучения рассуждению достигнет максимально возможного уровня для нынешних технологий. Но что это означает для роста способности моделей? К сожалению, ускоренное увеличение вычислительных ресурсов необязательно будет бесконечным. Экспериментальное и теоретическое понимание показывает, что вскоре темпы расширения подобных вычислений замедлятся и приблизятся к общему росту вычислительных мощностей — примерно 4 раза в год.
Следовательно, усовершенствования в возможностях рассуждения могут значительно замедлиться после достижения этой точки насыщения. Неполнота данных от крупнейших разработчиков, в том числе OpenAI, затрудняет точную оценку масштабов вычислительных затрат на обучение моделей рассуждений. Известно, что OpenAI озвучила данные о том, что o3 потребовал примерно в 10 раз больше вычислительной мощности на обучение с подкреплением, чем o1. По оценкам исследователей, аналогичные модели вроде DeepSeek-R1 обучались на примерно 6е23 FLOP, что соотносится с вложениями около миллиона долларов. С другой стороны, разные компании используют разнообразные стратегии обучения.
Некоторые модели, например Nvidia Llama-Nemotron Ultra и Microsoft Phi-4-reasoning, проходили менее интенсивное обучение с подкреплением, а большую часть работы выполняла подготовка в форме супервизированного fine-tuning на синтетических данных. Это означает, что сложно сравнивать вычислительные затраты на разных этапах, учитывая разнообразие подходов и типов данных. Опыт показывает и говорит о том, что затраты на обучение моделей рассуждений всё ещё не достигли масштабов самых больших тренировочных запусков в истории ИИ. Тем не менее, разрыв с этими пиковыми значениями составляет всего несколько порядков величины, что позволяет предполагать, что рост вычислительных ресурсов для моделей рассуждений может ещё продолжаться в обозримом будущем. Как это сказывается на прогрессе в ИИ? С одной стороны, если вычислительные ресурсы, выделяемые на модели рассуждений, всё ещё сравнительно малы по сравнению с общим потенциалом, то, вероятно, можно ожидать быстрых улучшений в короткие сроки при дальнейших увеличениях масштабов обучения.
Показательным является пример o3, который не только получил 10-кратное увеличение вычислений относительно o1, но и показал значительный скачок в решении сложных задач, включая математику и программирование. Кроме того, масштабируемость моделей рассуждений пока не регулируется надёжными законами обучения, как это происходит с моделями предобучения. Тем не менее, графики производительности моделей демонстрируют куда более линейный, практически логарифмический рост с увеличением объёма вычислений. Это делает вероятным ещё несколько этапов быстрого прогресса, если вычислительные мощности будут масштабироваться. Однако, есть весомые ограничения.
Масштабирование вычислений не является единственным препятствием. Нарастают вопросы, связанные с загрузкой подходящих учебных данных. Обучение с подкреплением требует нового набора сложных и разнообразных задач, а их исчерпаемость ставит под сомнение возможность продолжения эффективного масштабирования. Кроме того, способность моделей хорошо рассуждать вне строго формализованных областей, например в более абстрактных и неоднозначных сферах знаний, пока вызывает сомнения. Дополнительный аспект — высокая стоимость экспериментов.
Разработчики вынуждены запускать многочисленные параллельные исследования, тестируя разные типы задач, методы оценки и алгоритмы, что значительно увеличивает суммарные расходы и время создания моделей. В итоге общие затраты на разработку могут превышать напрямую измеримый расчет обучающих процедур. Несмотря на это, есть основания полагать, что инженеры и исследователи ещё недостаточно реализовали весь потенциал новых парадигм обучения моделей рассуждений. Известные эксперты в индустрии, включая Dario Amodei из Anthropic и сотрудников OpenAI, уверены в том, что быстрое масштабирование возможно и будет инициировать существенный рост возможностей. Ведущие компании сфокусированы на том, чтобы преодолеть узкие места, связанные с качеством данных, методами оценки и эффективностью вычислений.