В последние годы искусственный интеллект стремительно развивается, и с каждым годом модели становятся всё более крупными и сложными. Это приводит к высоким затратам на их обучение и эксплуатацию, что ограничивает возможности использования таких технологий за пределами крупных корпораций. Однако существует метод, который позволяет одновременно сохранять эффективность AI-моделей и снижать их размер и стоимость — дистилляция знаний, или knowledge distillation. Дистилляция представляет собой процесс, при котором большая, сложная и ресурсоёмкая модель, называемая «учителем», используется для обучения более компактной и быстрой «студентской» модели. Главная идея заключается в том, чтобы не просто воспроизводить конечные решения учителя, а передавать студенту гораздо более глубокую информацию о вероятностях и особенностях выводов, которые учитель делает по данным.
Это помогает студенту учиться быстрее и точнее, чем если бы он обучался на обычных ярлыках данных. Концепция дистилляции возникла в 2015 году благодаря исследователям Google, включая знаменитого гуру искусственного интеллекта Джеффри Хинтона. В то время в научной среде часто использовали ансамбли моделей — несколько отдельных моделей, объединённых для повышения качества предсказаний. Хотя ансамбли демонстрировали высокую точность, их применение было крайне затратным, поскольку запускалось сразу несколько моделей одновременно. Исследователи задумались — можно ли перенести тот интеллектуальный потенциал, который есть у ансамбля, в один компактный и лёгкий AI? Так родилась идея дистилляции.
Отличительной особенностью дистилляции стало использование так называемых «мягких меток». В отличие от традиционного обучения с жёсткими категориями и однозначными ответами, учитель-модель выдаёт вероятностное распределение — насколько каждое из возможных решений вероятно по мнению модели. Например, в задаче классификации изображений учитель может определить, что объект на картинке с вероятностью 40% — это собака, 30% — лиса, и лишь 5% — автомобиль. Для студента такие данные — настоящая кладезь дополнительной информации, из которой он может вывести более тонкие зависимости и быстрее обучиться понимать сходства и различия между классами. Преимущества дистилляции очевидны.
Она позволяет существенно уменьшить размер модели, сохранив при этом большую часть её качества. Меньшая модель требует меньше вычислительных ресурсов, что позволяет запускать AI на менее мощном оборудовании, снижая затраты на энергию и аппаратное обеспечение. Для бизнеса это значит возможность выполнять сложные задачи машинного обучения быстрее и дешевле. Помимо экономии, дистилляция способствует доступности искусственного интеллекта. Не каждое предприятие может позволить себе тратить миллионы долларов на оборудование и обучение огромных сетей.
Компактные модели, созданные с помощью дистилляции, открывают двери в мир AI для малого и среднего бизнеса, образовательных учреждений и исследователей с ограниченным бюджетом. В индустрии разработчики крупнейших компаний уже много лет применяют эту технологию. Яркий пример — трансформер BERT, разработанный Google для обработки естественного языка. Изначально BERT был очень большим и требовал значительных вычислительных мощностей. Но благодаря дистилляции была создана версия DistilBERT, которая в два раза легче и почти не уступает оригиналу по качеству.
DistilBERT быстро завоевал популярность и сейчас широко используется как в коммерческих, так и в исследовательских целях. Большой вклад в развитие дистилляции вносит и научное сообщество, которое постоянно расширяет границы возможностей метода. Так, недавно лаборатория NovaSky Университета Калифорнии обнаружила, что дистилляция хорошо подходит для обучения моделей с цепочкой мыслительных шагов — chain-of-thought reasoning. Такие модели особенно полезны для решения сложных задач, требующих многопроходного анализа и рассуждений. Уменьшенная модель Sky-T1, стоившая менее 450 долларов для обучения, показала результаты, сравнимые с крупными аналогами, что напоминает о высоком потенциале дистилляции даже в самых инновационных областях AI.
Однако дистилляция не менее важна и с этической стороны. Появление возможности создавать эффективные маленькие модели на основе больших помогает демократизировать доступ к AI-технологиям. Это снижает барьеры для новых игроков на рынке, стимулирует инновации и конкуренцию. Вместе с тем, учёные подчёркивают, что использование дистилляции должно происходить с соблюдением прав интеллектуальной собственности и прозрачности моделей, чтобы избежать неправомерного копирования или скрытого извлечения данных. Метод дистилляции постоянно совершенствуется.