В последние годы технологии генерации изображений с помощью искусственного интеллекта сделали огромные шаги вперед. Многие знают о таких методах, как диффузионные модели и авторегрессивные трансформеры, на основе которых работают известные системы, например, Stable Diffusion или GPT-4o от OpenAI. Однако Apple Research привлекла внимание всего мира к забытому, но не утраченному потенциалу другого подхода — нормализующим потокам. В двух недавно опубликованных научных работах инженеры Apple показали, как можно использовать этот метод вместе с трансформерами для создания новых, высококачественных моделей генерации изображений, которые могут стать прорывом для мобильных устройств и не только. Нормализующие потоки представляют собой тип моделей, который учится преобразовывать реальные изображения в структуированный шум и наоборот — строить изображения из этого шума.
В отличие от популярной диффузии, где вероятность сгенерированного образа вычисляется приближенно или не вычисляется вовсе, нормализующие потоки позволяют вычислять точную вероятность каждого изображения. Это важное преимущество для тех задач, где необходимо понимать, насколько вероятен каждый полученный результат, что усиливает статистическую интерпретируемость модели. Исторически нормализующие потоки применялись в генерации изображений, но как правило результаты получались менее четкими и детальными по сравнению с современными диффузионными и авторегрессивными моделями. Поэтому они почти перестали использоваться для подобных целей. Тем не менее Apple взялась за эту технику с новыми идеями и предложила обновлённые архитектуры.
Первая из них получила название TarFlow — Transformer AutoRegressive Flow. Основная идея заключалась в замене устаревших слоев нормализующих потоков на блоки трансформеров, которые доказали свою эффективность в обработке последовательностей и изображений. TarFlow делит изображение на небольшие фрагменты или патчи, а затем генерирует их последовательно, используя концепцию авторегресса, известную по моделям, подобным GPT. Важное отличие TarFlow заключается в том, что модель генерирует значения пикселей напрямую, без преобразования в дискретные токены. Это позволяет избежать потери качества, характерной для моделей, работающих с токенизированными изображениями.
Несмотря на интересный подход, TarFlow имел ограничения при генерации изображений высокого разрешения. Apple ответила на эти сложности второй моделью, названной STARFlow — Scalable Transformer AutoRegressive Flow. В этой версии генерация происходит не в пространстве пикселей, а в скрытом латентном пространстве, представляющем собой сжатое и более компактное представление изображения. Затем полученный сжатый образ расширяется декодером до полноценного высокого разрешения. Данный подход отлично решает проблему масштабирования: модель не нуждается в предсказании миллионов пикселей напрямую, вместо этого сосредотачивается на построении общей структуры изображения, а детали и текстуры восстанавливаются на этапе декодирования.
Кроме того, STARFlow получила гибкую интеграцию с языковыми моделями. Вместо разработки собственного текстового энкодера Apple предложила использовать уже существующие лёгкие языковые модели, такие как Gemma от Google, что позволяет эффективно обрабатывать текстовые запросы пользователей для генерации изображений. Этот подход особенно хорош для мобильных устройств, где ресурсы ограничены. В отличие от OpenAI, которая также движется дальше диффузионных моделей со своим GPT-4o, стратегия Apple направлена на оптимизацию под мобильные платформы, устройства с ограниченной мощностью и возможностью работы офлайн. OpenAI преобразует изображения в последовательности токенов и генерирует их по одному символу, что требует большой вычислительной мощности и сложной инфраструктуры дата-центров.
В свою очередь Apple при помощи нормализующих потоков и трансформеров позволяет создавать качественные изображения с низкой задержкой и меньшим энергопотреблением, что даёт преимущество для использования в смартфонах и планшетах. Эксперименты с TarFlow и STARFlow показывают, что нормализующие потоки, объединённые с современными архитектурами трансформеров, способны генерировать изображения различного разрешения с высоким уровнем детализации и разнообразия. Это открывает новые возможности для приложений дополненной реальности, мобильной фотографии, творческого контента и пользовательских интерфейсов, где требуются быстрые и качественные генеративные модели. Помимо технических аспектов, подход Apple демонстрирует философию компании — создавать технологии, которые полезны и доступны каждому пользователю, а не только тем, кто располагает промышленными вычислительными мощностями. Использование нормализующих потоков с латентными представлениями и интеграцией компактных языковых моделей позволяет создавать на мобильных устройствах инструменты генерации изображений, которые ранее казались возможными лишь в условиях серверных ферм.
Подводя итоги, исследовательская работа Apple не только возвращает в тренды забытый метод нормализующих потоков, но и актуализирует его при помощи трансформеров и латентного представления данных. Это позволяет получить эффективные модели, способные работать в реальном времени на мобильных устройствах, обеспечивая качественную генерацию изображений. В будущем можно ожидать появления новых креативных приложений, которые сделают процесс создания картинок и визуального контента более доступным, удобным и полезным. Развитие таких технологий также стимулирует конкуренцию на рынке ИИ-генерации, что приводит к появлению более разнообразных и мощных инструментов как для профессионалов, так и для широкой аудитории. Возрождение нормализующих потоков в исполнении Apple — важный этап в эволюции искусственного интеллекта, указывающий на новые пути решения сложных задач генерации и обработки изображений с высоким качеством и эффективностью.
Следя за инновациями Apple и другими игроками индустрии, можно уверенно сказать, что будущее искусственного интеллекта в создании визуального контента обещает быть ярким, разнообразным и доступным для широкого круга пользователей.