Искусственный интеллект в последние пятнадцать лет переживает настоящий бум, а в последние пятилетие мы стали свидетелями поистине впечатляющих достижений, которые порой выглядят почти неизбежными. Однако, несмотря на видимый прогресс, многие специалисты утверждают, что в области ИИ практически нет по-настоящему новых идей. Вместо этого за каждым значительным улучшением стоит появление новых массивов данных, которые позволяют по-новому взглянуть на старые методы и принципы. В основе многих крупных прорывов ИИ лежат не столько революционные алгоритмы, сколько новые источники информации, которые удалось собрать и эффективно использовать. Взгляд на главные этапы развития крупных языковых моделей (LLM) подчеркивает, что ключ к успеху состоит в доступе к уникальным и масштабным данным, которые и формируют базис для обучения и совершенствования моделей.
Знаковым событием в компьютерном зрении стал триумф модели AlexNet в 2012 году, которая смогла выиграть крупное соревнование благодаря использованию огромного набора данных ImageNet. Этот эпизод продемонстрировал, как наличие большого объема качественно размеченных изображений может привести к скачку в производительности нейросетевых моделей, даже если архитектуры при этом оставались относительно простыми. Следующим этапом стало появление архитектуры трансформеров в 2017 году, способных эффективно обрабатывать огромные массивы текстовых данных из интернета. Это решение позволило создать такие модели, как BERT и GPT, которые обучались на масштабных корпусов текстов, тем самым расширив границы языкового понимания и генерации. Важную роль в развитии чатботов сыграл метод обучения с подкреплением от человеческих оценок (RLHF), который впервые получили широкое признание с публикацией исследований от OpenAI в 2022 году.
Он позволил учесть человеческие предпочтения и улучшить качество генерируемых ответов, что также требует наличия обширных данных с оценками и обратной связью. Наконец, в 2024 году появились модели, способные к сложным рассуждениям, что стало возможным благодаря новым данным, предоставляемым так называемыми «верификаторами» — программами и инструментами, которые помогают проверять и корректировать выходные данные моделей, обеспечивая более глубокую обратную связь и контроль. Анализ этих ключевых этапов показывает, что инновации в архитектурах и алгоритмах далеко не всегда являются главным фактором успеха. Если углубиться в историю, многие фундаментальные методы, которые мы сегодня применяем в обучении ИИ, были известны еще в 1990-х и даже 1940-х годах. Так, метод обучения с подкреплением или известный способ минимизации кросс-энтропии появились задолго до сегодняшних масштабов и амбиций искусственного интеллекта.
Значит ли это, что наши технологии стоят на месте? Вовсе нет. Их эффективность и возможности растут благодаря доступности новых массивов данных, которые меняют представления о том, что возможно. Именно данные определяют верхнюю границу обучения и способностей системы. Эксперименты, в которых различные архитектуры обучались на одних и тех же данных, показали, что при одинаковых объемах и качестве информации разница в производительности моделей может быть минимальной. Это подтверждает идею, что данные важнее, чем тонкие настройки архитектур или методы оптимизации.
В современном мире накоплены огромные объемы информации, но ключом к следующему прорыву в области ИИ станет освоение еще неиспользованных и нестандартных источников. Одним из наиболее перспективных направлений является обучение на видео, учитывая, что ежедневно на платформы вроде YouTube загружается сотни часов новых роликов. Видео содержит не только текстовую информацию, но и интонации, невербальные сигналы, детали, связанные с физикой и культурой, которые очень сложно извлечь из простого текста. Однако работа с видео требует значительных вычислительных ресурсов и новых алгоритмов для обработки такого объема и типа данных. Следующим потенциальным источником данных могут стать данные с роботизированных систем — сенсоров, камер и иных датчиков, устанавливаемых на автономных устройствах.
Такое окружение позволит собирать разнообразную информацию о реальном мире в динамике и обучать ИИ моделям, которые будут ориентироваться в сложных физических и социальных условиях. При этом сбор, обработка и интеграция этих потоков сложна, и требует новых подходов. Кроме того, исследования показывают, что без качественных и больших данных даже самые современные архитектуры не смогут проявить свой потенциал. Именно поэтому компании и исследовательские организации принимают стратегическое решение фокусироваться не столько на изобретениях новых алгоритмов, сколько на поиске, обработке и расширении датасетов, которые могут открыть новые горизонты. Несмотря на кажущуюся парадоксальность, отказ от гонки за инновационными архитектурами и концентрация на данных не умаляет значимости технического прогресса.
Модернизация моделей с точки зрения оптимизации, распределения вычислительных нагрузок и грамотного использования ресурсов продолжает совершенствоваться. Это позволяет сделать обучение и вывод еще быстрее, доступнее и дешевле, что в свою очередь расширяет круг создателей и пользователей искусственного интеллекта. Эта децентрализованная научная деятельность, где результаты активно публикуются и обсуждаются в открытом доступе, ускоряет рост индустрии. Несмотря на постепенное замедление крупных прорывов, постоянный рост способности систем показывать более тонкие и разнообразные навыки сохраняет оптимизм. Тем не менее, разочарования в том, что новые модели лишь слегка превосходят своих предшественников, подчеркивают важность неверного понимания истинного источника прогресса.
Разные исследователи, включая ведущих экспертов, отмечают, что следующая эпоха развития ИИ напрямую зависит от того, какие данные мы сумеем собрать и использовать. Новые идеи могут лишь улучшить наши методы, но фундаментальный сдвиг произойдет лишь тогда, когда мы получим доступ к ранее недоступным или неудовлетворительно используемым источникам информации. Прогресс в будущем может быть связан с освоением мультимодальных данных, объединяющих текст, видео, аудио, сенсорные данные и даже взаимодействие с реальным миром через роботов. Это позволит вывести искусственный интеллект на новый уровень понимания и взаимодействия с окружающей средой. Таким образом, перспективы сфокусированы на расширение горизонтов данных и качественную их интеграцию, а не на поиск радикально новых алгоритмов.
Если мы хотим идти вперед, стоит уделять больше внимания сбору и систематизации новых данных, а уже затем применять проверенные временем технологии для их освоения и использования во благо общества.