Машинное обучение и искусственный интеллект стремительно меняют наш мир, и интеграция этих технологий в повседневную жизнь становится все более заметной. За последние пять лет, с начала моего докторантурного исследования, я наблюдал масштабные трансформации в этой области, которые не только изменили научный ландшафт, но и сформировали новые подходы к проектированию систем, нацеленных на потребности пользователей. Эти наблюдения и знания я хочу поделиться, чтобы помочь будущим исследователям и практикам лучше понять тенденции и вызовы в создании пользовательско-ориентированных ML-систем. Когда я начинал свою PhD-программу в 2020 году, искусственный интеллект был преимущественно ограничен узкими областями, такими как распознавание изображений или рекомендательные системы, используемые крупными корпорациями и исследовательскими центрами. Сегодня же, в 2025 году, AI интегрируется практически во все аспекты повседневной жизни и работы, взаимодействуя с людьми через различные среды – текст, звук, изображения, видео и даже физические действия.
Такой сдвиг потребовал переосмысления архитектуры машинного обучения, где баланс между удобством пользователя и эффективностью серверной стороны выходит на первый план. Текущая и будущая динамика AI предполагает развитие новых форм взаимодействия. Ключевые направления — это off-body и on-body AI. Off-body AI включает физические роботы и виртуальных агентов, которые способны автономно выполнять сложные задачи, планировать и принимать решения в различных сферах. Примером может служить робот с развитым зрением и манипуляторами, который взаимодействует с окружением по устным командам.
С другой стороны, on-body AI реализован в носимых устройствах как дополненная и виртуальная реальность, выступая своего рода невидимым помощником, который изучает поведение пользователя и контекст, предлагая своевременную и релевантную поддержку. Реализация таких продвинутых систем требует сочетания новейших технологий – мощных моделей естественного языка, мульти-модальных восприятий, методов обучения с подкреплением для принятия решений и точных систем управления роботами. Эти технологии не только прокладывают путь к глубокой интеграции AI в повседневность, но и формируют основу для исследования и разработки следующего поколения ML-систем. В процессе работы над диссертацией я отметил несколько ключевых принципов, которые могут направлять исследования и разработки в ML-системах. Во-первых, важно понимать, что инновации в этой области проходят концептуальные стадии, начиная с фундаментальных исследований для создания новых приложений и систем (0→1), затем переходя к практическому совершенствованию, которое обеспечивает масштабируемость и стабильность (1→2), и, наконец, достигая уровня оптимизации с акцентом на эффективность и экономию ресурсов (2→∞).
Каждая из этих фаз предъявляет разные требования, и успешный прогресс требует понимания их особенностей и условий, в которых они лучше всего реализуются. Первый этап – это, как правило, академические исследования, где предстоит выявить уникальные системные потребности для новых ML-приложений. Примеры таких исследований включают разработку новых инструментов и методологий, которые открывают новые горизонты для использования AI. Второй этап тесно связан с прикладными улучшениями и сотрудничеством с индустрией, где акцент смещается к созданию масштабируемых и надежных систем, способных работать в реальных условиях. Последний этап, чаще всего принадлежащий промышленности, направлен на агрессивную оптимизацию и снижение издержек, чтобы обеспечить массовое внедрение технологий.
При проектировании пользовательско-ориентированных систем особое внимание следует уделять параметрам качества опыта (Quality of Experience, QoE), особенно в современных мульти-модальных приложениях. Помимо традиционных показателей системной производительности, таких как скорость обработки и пропускная способность, сегодня необходимо учитывать восприятие и удовлетворенность пользователя на уровне различных медиумов – текста, звука, видео и изображений. Формирование метрик QoE для разнообразных типов контента и условий использования требует скрупулезного учёта как технических характеристик, так и требований конечных пользователей. Современные ML-системы также должны обладать гибкостью для адаптации QoE под индивидуальные предпочтения пользователей, контекст задачи и уровень их опыта. Подобная адаптация должна опираться на продвинутые алгоритмы динамического управления ресурсами и интеллектуального планирования, что позволит на лету перераспределять вычислительные мощности и обеспечивать оптимальный баланс между качеством интерактивности и экономичностью.
Сложность современных задач, связанных с генеративными моделями, приводит к переменной и часто непредсказуемой нагрузке на вычислительные ресурсы. Для on-body AI в периоды пассивного наблюдения потребление ресурсов минимально, но при получении сложных запросов оно резко возрастает. Эта динамика требует разработки специализированных механик распределения и управления ресурсами с учётом специфики различных моделей и мультимодальных компонентов, включая стратегии распределения задач между локальными и облачными вычислениями. Одной из перспективных областей является синхронизация качества пользовательского опыта между разными модальностями – визуальной, аудиальной и физической. Для примера, робот-помощник должен одновременно визуально анализировать окружающую среду, взаимодействовать голосом и физически манипулировать предметами, обеспечивая согласованность и плавность взаимодействия.
Это требует создания инновационных алгоритмов планирования и согласования работы мульти-модальных компонентов системы. Новые возможности открывает применение автономных AI-агентов, способных самостоятельно проектировать, оптимизировать и адаптировать ML-системы. Такие агенты могут максимизировать производительность за счет выбора оптимальных конфигураций обучения и ресурсов, непрерывно улучшая процессы посредством автоматического тестирования и анализа результативности. Для успешного внедрения этих подходов необходимо развитие фундаментальных моделей с глубоким пониманием системных аспектов и создание обучающих наборов, отражающих полный цикл исследования и экспериментов. Дальнейшим развитием станут агентные AI-системы нового поколения, способные осуществлять сложные многозадачные процессы, управлять разнообразными ресурсами и функционировать в изменяющихся окружениях с обучением на протяжении всего жизненного цикла.
Для поддержки таких систем потребуется разработка новых архитектур и инструментов, предоставляющих удобные абстракции для организации сложных рабочих процессов, управления параллелизмом и устойчивостью к сбоям. Реализация идей самосовершенствующихся систем с механизмами обучения на основе подкрепления позволит агентам не только адаптироваться, но и развивать новые стратегии взаимодействия и управления ресурсами. Это требует серьёзных усовершенствований в алгоритмах и системах распределенного обучения, оптимизации использования вычислительных мощностей и эффективного хранения и обработки накопленного опыта. Подводя итог, путь от основных исследований к внедрению универсальных, эффективных и пользовательско-ориентированных ML-систем – это многогранный процесс, объединяющий инновации в моделях, системных архитектурах и инженерии. Создание следующих поколений AI, глубоко интегрированных в нашу жизнь, требует не только технологических прорывов, но и внимательного изучения потребностей пользователей, обеспечение высококачественного опыта в различных средах и формирование гибких и адаптивных систем.
Опыт последних лет доказывает, что только комплексный подход с постоянным инновационным поиском позволит раскрыть полный потенциал машинного обучения и искусственного интеллекта, формируя будущее, где технологии будут служить реальным нуждам каждого человека.