Крипто-кошельки Стартапы и венчурный капитал

Почему SFT — плохой подход к обучению с подкреплением и как его улучшить

Крипто-кошельки Стартапы и венчурный капитал
SFT Is Bad RL

Обзор проблем метода SFT в обучении с подкреплением и практические рекомендации по улучшению качества моделей с использованием истинной функции вознаграждения и продвинутых методов RL.

Обучение с подкреплением (RL) уже давно зарекомендовало себя как мощный подход для создания интеллектуальных систем, способных принимать решения в сложных средах. Однако в последние годы наблюдается популяризация метода Supervised Fine-Tuning (SFT), который, несмотря на свою простоту и наглядность, имеет ряд серьезных ограничений, влияющих на эффективность обучения агентов. Особенно это становится заметно, когда применяются некорректные или подкрепляющие неправильные действия примеры, что парадоксально может улучшать качество моделей, что кажется нелогичным при классическом понимании обучения. В данной статье мы подробно разберем, почему SFT является плохим RL-подходом, какие трудности с этим связаны и как можно качественно улучшить обучение, опираясь на принципы традиционного обучения с подкреплением и использование истинной функции вознаграждения. Метод SFT изначально представляет собой процесс имитационного обучения, где задача сводится к обучению модели-школьника повторять поведение модели-преподавателя путем аппроксимации распределения вероятностей действий учителя.

Обычно речь идет о минимизации дивергенции Кульбака–Лейблера между распределениями учителя и ученика, что сводится к максимизации логарифма вероятности действий учителя. Такой подход кажется интуитивно правильным и простым, но он пренебрегает важным аспектом – реальной ценностью каждого действия с точки зрения задачи, которую решает агент. Данные учителя воспринимаются как правильные и желательные, но на деле в них могут присутствовать ошибки или неоптимальное поведение, которые не учитываются при обучении. Интересный феномен, обнаруженный в последних исследованиях, состоит в том, что обучение на большем количестве неправильных примеров иногда улучшает обобщающую способность модели по сравнению с обучением только на положительных примерах. Это затрудняет традиционные представления о том, что должно обучать агент – исключительно корректные образцы поведения.

Такой парадокс вселяет в исследователей сомнения о корректности базовых постулатов SFT и побуждает рассматривать альтернативные подходы. Важно понять, что SFT на самом деле является частным случаем обучения с подкреплением, где отсутствует прямая работа с функцией вознаграждения. При классическом обучении с подкреплением агент обновляет политику с целью максимизации ожидаемого вознаграждения, учитывая свое текущее поведение и выборы. В случае SFT алгоритм имитирует действия учителя, не сопоставляя их с истинным вознаграждением, что порождает искажения и невозможность корректировать поведение агента в зависимости от его собственных результатов. Одним из ключевых элементов RL является использование функции вознаграждения, которая информирует алгоритм о ценности каждого действия или траектории.

В SFT предполагается, что все примеры учителя — идеальны и имеют максимальное вознаграждение (обычно равное 1), что далеко от реальности. Иногда демонстрации могут быть подопечными или вовсе включать ошибки, и тогда обучение без учета этих нюансов приводит к недостаткам. Следовательно, улучшение обучения возможно только при интеграции истинных значений вознаграждения в процесс оптимизации. Математически SFT пытается минимизировать KL-дивергенцию от распределения учителя к распределению ученика. В то же время оптимизация RL ориентирована на максимизацию ожидания вознаграждения по текущей политике.

При этом важно делать корректные поправки через весовые коэффициенты важности, которые позволяют учитывать разницу между распределениями учителя и ученика, а сами вознаграждения должны отражать фактическую пользу выбранных действий. В классическом SFT этот подход игнорируется, что ограничивает вероятность успешного обучения и ухудшает способность адаптироваться. Практическое решение, предлагаемое в современных исследованиях, заключается в комбинировании преимуществ SFT и классического RL. Для этого рекомендуется использовать воспроизведение (replay buffer) с демонстрациями, включая рассредоточенные и даже не оптимальные примеры поведения учителя, а также генерировать примеры на основе текущей политики ученика. Затем обучение проводится с помощью методов градиентного повышения с учётом преимуществ (advantage), позволяя модели учиться повторять ошибки, когда она сама плохо действует, и игнорировать их, когда достигает лучшего результата, чем учитель.

Такой гибридный подход позволяет значительно повысить эффективность и надежность обучения. Таким образом, критически важным является понимание того, что просто копировать поведение учителя без учета истинного вознаграждения и текущей производительности модели – путь к застою и ошибкам. Необходимо встраивать принципы RL прямо в процесс обучения, что позволит более эффективно использовать даже плохие примеры и направлять модель к оптимальному поведению. Нельзя не отметить, что интеграция обратной связи с реальными метриками и использованием специализированных техник, таких как оптимизация с использованием advantages, importance sampling и другие модернизации policy gradient методов, делают обучение более устойчивым и осмысленным. Это особенно важно в условиях, когда доступ к идеальным демонстрациям ограничен или они вообще недоступны, а данные содержат неочевидные ошибки или шум.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Metaflow: Build, Manage and Deploy AI/ML Systems
Суббота, 25 Октябрь 2025 Metaflow: Современный инструмент для создания, управления и развёртывания AI и ML систем

Обзор возможностей Metaflow — гибкой и мощной платформы, призванной облегчить разработку, масштабирование и внедрение систем искусственного интеллекта и машинного обучения в промышленной среде для команд любого масштаба.

Manual vs. CNC machining as an analogy for manual vs. AI coding
Суббота, 25 Октябрь 2025 Ручная обработка против ЧПУ: уроки для программирования с ИИ

Исследование параллелей между развитием машиностроения и программирования, раскрывающее, как переход от ручной обработки к ЧПУ отражает трансформацию кода с помощью искусственного интеллекта.

Eswin Computing EBC77 RISC-V SBC to Support Ubuntu Linux
Суббота, 25 Октябрь 2025 ESWIN Computing EBC77 на основе RISC-V с поддержкой Ubuntu Linux: новый взгляд на одноплатные компьютеры

Обзор инновационной одноплатной вычислительной системы EBC77 от ESWIN Computing, оснащенной RISC-V процессором и поддержкой Ubuntu 24. 04 LTS.

 SOL news update: Will multi-exchange liquid staking trigger rally to $185?
Суббота, 25 Октябрь 2025 Обновление по SOL: сможет ли мультибиржевой ликвидный стейкинг разогнать цену до $185?

Развитие мультибиржевого ликвидного стейкинга на платформе Solana открывает новые перспективы для роста цены SOL. Институциональный интерес и технический анализ рынка указывают на возможный прорыв на уровне сопротивления $185, формируя благоприятные условия для инвесторов и трейдеров.

Google's quantum chip sparks Bitcoin security debate - FXStreet
Суббота, 25 Октябрь 2025 Квантовый чип Google вызвал дебаты о безопасности Биткоина

Разработка квантового чипа Willow от компании Google вызвала активные обсуждения в криптовалютном сообществе о возможных угрозах безопасности Биткоина. Несмотря на впечатляющие достижения квантовых технологий, эксперты утверждают, что настоящая угроза для криптовалют еще далека, благодаря подготовке разработчиков и внедрению новых защитных решений.

Inflation accelerated in June as the Fed weighs the impact of tariffs in rate cut timing
Суббота, 25 Октябрь 2025 Ускорение инфляции в июне и влияние тарифов на решения ФРС по снижению ставок

Инфляция в июне ускорилась, создав дополнительные сложности для Федеральной резервной системы США при принятии решений о снижении процентных ставок. Рост тарифов стал значимым фактором, а последующие меры ФРС влияют на финансовые рынки и экономику страны.

U.S. June CPI Rose an In Line 0.3%; Core Rate Slightly Better Than Hoped at 0.2%
Суббота, 25 Октябрь 2025 Июньский индекс потребительских цен в США: рост на 0,3% и перспективы снижения ставок ФРС

В июне потребительский индекс цен (CPI) в США вырос на 0,3%, соответствуя прогнозам экспертов. Основной показатель инфляции далёк от резких скачков, что может поспособствовать решению Федеральной резервной системы о снижении процентных ставок осенью.