Появление GPT-3 стало переломным моментом в развитии искусственного интеллекта, продемонстрировав, что увеличение масштабов языковых моделей открывает новые горизонты для задач с минимальной подготовкой и без узкой настройки. До GPT-3 процесс совершенствования моделей включал предварительное обучение на широких текстовых данных с последующей адаптацией к конкретным задачам, что хоть и дало впечатляющие результаты, имело ряд ограничений. Современное обучение с подкреплением (RL) находится в подобной точке развития, и все признаки указывают на то, что ему предстоит пережить свою GPT-3 эпоху, когда масштаб и универсальность станут важнейшими факторами успеха. Текущие методы RL зачастую опираются на предварительное обучение и затем на тщательную донастройку в строго специализированных и узких средах. Это ведет к слабой обобщаемости – модели отлично работают в тестируемых условиях, но быстро теряют эффективность в новых, непривычных ситуациях.
Чтобы преодолеть эти ограничения, исследователи предлагают сдвинуть фокус на масштабное обучение в тысячи разнообразных сред одновременно. Такой подход позволит создавать модели с мощными способностями к быстрому адаптированию и решению новых, ранее не встречавшихся задач, подобно тому, как GPT-3 демонстрирует эффективность на широком круге языковых тестов без дополнительной тренировки. Однако реализация этой идеи сопряжена с огромными техническими и экономическими вызовами. Существующие RL-наборы данных в сравнении с объемами языка для GPT-3 выглядят скромно. К примеру, DeepSeek-R1, один из современных проектов, обучался на 600 тысячах математических задач, что эквивалентно примерно шести годам непрерывной человеческой работы при средней длительности каждой задачи в пять минут.
Для сравнения: создание корпуса данных GPT-3 потребовало бы десятки тысяч лет работы людей, пишущих тексты в стандартном темпе. Приближаясь к концепции, что выделение необходимого ресурса для RL выполнения задач на уровне GPT-3 займет порядка десяти тысяч человеческих лет, становится очевидна масштабность предстоящей трансформации. Требуемые вычислительные мощности также колоссальны. Уже сейчас DeepSeek-R1 задействовал порядка 6e23 FLOP, что соответствует шести годам напряженного времени выполнения задач. Масштабирование обучения до 6e26 FLOP предполагает порядка шести тысяч лет, а с учетом необходимости вариативности и разнообразия задач итоговая оценка пребывает в районе десяти тысяч лет.
Эти показатели сопоставимы с крупными проектами человеческой деятельности, такими как разработка Windows Server 2008, GTA V или Red Hat Linux 7.1, каждый из которых оценивается в аналогичной шкале затрат человеческого времени. Несмотря на огромный масштаб, с экономической точки зрения расширение RL до таких уровней оказывается рациональным. Основной статьей расходов является именно вычислительная мощность, и здесь масштабирование позволяет получить значительный прирост эффективности без пропорционального роста затрат. Ключевой вопрос — построение и масштабирование самих обучающих сред, которые должны быть как можно более разнообразными и совместимыми с автоматической оценкой результатов.
Существующие платформы и подходы пока не позволяют создать настолько масштабные, разнообразные и качественные среды для обучения. Решением может стать новая парадигма, названная авторами «репликационным обучением». Суть её заключается в том, что искусственный интеллект обучается воспроизводить уже существующие программные продукты или их части, основываясь на детальных спецификациях и эталонных реализациях. Подобная задача позволяет приводить к чёткой и объективной оценке качества — либо сгенерированный продукт ведет себя идентично эталону, либо нет. Репликационные задачи могут начинаться с простых командных утилит, реализующих алгоритмы хеширования или шифрования, и постепенно усложняться до воспроизведения сложных веб-сайтов, профессионального ПО или игр.
Важным аспектом является то, что такие задачи требуют точного понимания сложных инструкций, безошибочного выполнения, умения обнаруживать и исправлять собственные ошибки, а также способности сохранять высокое качество на протяжении большого количества итераций — аналогично людским проектам продолжительностью несколько месяцев. Такое обучение формирует навыки, с которыми современные ИИ-системы испытывают трудности: устойчивость к ошибкам, стойкость к недочетам и стремление к безупречному решению, а не к формально работоспособному, но далеко не идеальному. Репликационное обучение создаёт искусственный аналог огромного и разнообразного корпуса задач, подобно тому, как Интернет объединил миллиарды документов для языковых моделей. Преимуществом является возможность оперативно создавать бессчетное множество новых обучающих примеров на основе существующих программных артефактов. Тем не менее, у этого подхода есть недостатки.
Поскольку задания на точное воспроизведение программного обеспечения не отражают типичные повседневные задачи разработчиков, некоторый разрыв с реальными сценариями работы ИТ-специалистов остается. Также написание комплексных и эффективных тестов для проверки соответствия результатов требует значительных усилий. Несмотря на эти сложности, именно репликационное обучение может стать ключом к масштабированию RL-сред до необходимых размеров и обеспечению по-настоящему широкой, обобщённой производительности моделей. Этот шаг станет великолепным мостом к искусственному интеллекту, способному самостоятельно решать сложные программные задачи и проекты от начала до конца. Важно понимать, что это не финал пути — достижение полной автоматизации труда с помощью подобных подходов маловероятно.