Обучение с подкреплением (RL) уже давно зарекомендовало себя как мощный подход для создания интеллектуальных систем, способных принимать решения в сложных средах. Однако в последние годы наблюдается популяризация метода Supervised Fine-Tuning (SFT), который, несмотря на свою простоту и наглядность, имеет ряд серьезных ограничений, влияющих на эффективность обучения агентов. Особенно это становится заметно, когда применяются некорректные или подкрепляющие неправильные действия примеры, что парадоксально может улучшать качество моделей, что кажется нелогичным при классическом понимании обучения. В данной статье мы подробно разберем, почему SFT является плохим RL-подходом, какие трудности с этим связаны и как можно качественно улучшить обучение, опираясь на принципы традиционного обучения с подкреплением и использование истинной функции вознаграждения. Метод SFT изначально представляет собой процесс имитационного обучения, где задача сводится к обучению модели-школьника повторять поведение модели-преподавателя путем аппроксимации распределения вероятностей действий учителя.
Обычно речь идет о минимизации дивергенции Кульбака–Лейблера между распределениями учителя и ученика, что сводится к максимизации логарифма вероятности действий учителя. Такой подход кажется интуитивно правильным и простым, но он пренебрегает важным аспектом – реальной ценностью каждого действия с точки зрения задачи, которую решает агент. Данные учителя воспринимаются как правильные и желательные, но на деле в них могут присутствовать ошибки или неоптимальное поведение, которые не учитываются при обучении. Интересный феномен, обнаруженный в последних исследованиях, состоит в том, что обучение на большем количестве неправильных примеров иногда улучшает обобщающую способность модели по сравнению с обучением только на положительных примерах. Это затрудняет традиционные представления о том, что должно обучать агент – исключительно корректные образцы поведения.
Такой парадокс вселяет в исследователей сомнения о корректности базовых постулатов SFT и побуждает рассматривать альтернативные подходы. Важно понять, что SFT на самом деле является частным случаем обучения с подкреплением, где отсутствует прямая работа с функцией вознаграждения. При классическом обучении с подкреплением агент обновляет политику с целью максимизации ожидаемого вознаграждения, учитывая свое текущее поведение и выборы. В случае SFT алгоритм имитирует действия учителя, не сопоставляя их с истинным вознаграждением, что порождает искажения и невозможность корректировать поведение агента в зависимости от его собственных результатов. Одним из ключевых элементов RL является использование функции вознаграждения, которая информирует алгоритм о ценности каждого действия или траектории.
В SFT предполагается, что все примеры учителя — идеальны и имеют максимальное вознаграждение (обычно равное 1), что далеко от реальности. Иногда демонстрации могут быть подопечными или вовсе включать ошибки, и тогда обучение без учета этих нюансов приводит к недостаткам. Следовательно, улучшение обучения возможно только при интеграции истинных значений вознаграждения в процесс оптимизации. Математически SFT пытается минимизировать KL-дивергенцию от распределения учителя к распределению ученика. В то же время оптимизация RL ориентирована на максимизацию ожидания вознаграждения по текущей политике.
При этом важно делать корректные поправки через весовые коэффициенты важности, которые позволяют учитывать разницу между распределениями учителя и ученика, а сами вознаграждения должны отражать фактическую пользу выбранных действий. В классическом SFT этот подход игнорируется, что ограничивает вероятность успешного обучения и ухудшает способность адаптироваться. Практическое решение, предлагаемое в современных исследованиях, заключается в комбинировании преимуществ SFT и классического RL. Для этого рекомендуется использовать воспроизведение (replay buffer) с демонстрациями, включая рассредоточенные и даже не оптимальные примеры поведения учителя, а также генерировать примеры на основе текущей политики ученика. Затем обучение проводится с помощью методов градиентного повышения с учётом преимуществ (advantage), позволяя модели учиться повторять ошибки, когда она сама плохо действует, и игнорировать их, когда достигает лучшего результата, чем учитель.
Такой гибридный подход позволяет значительно повысить эффективность и надежность обучения. Таким образом, критически важным является понимание того, что просто копировать поведение учителя без учета истинного вознаграждения и текущей производительности модели – путь к застою и ошибкам. Необходимо встраивать принципы RL прямо в процесс обучения, что позволит более эффективно использовать даже плохие примеры и направлять модель к оптимальному поведению. Нельзя не отметить, что интеграция обратной связи с реальными метриками и использованием специализированных техник, таких как оптимизация с использованием advantages, importance sampling и другие модернизации policy gradient методов, делают обучение более устойчивым и осмысленным. Это особенно важно в условиях, когда доступ к идеальным демонстрациям ограничен или они вообще недоступны, а данные содержат неочевидные ошибки или шум.
 
     
    