Интервью с лидерами отрасли

Как Apple возрождает забытые AI-технологии для генерации изображений будущего

Интервью с лидерами отрасли
Apple Research unearthed forgotten AI technique and using it to generate images

Исследования Apple в области искусственного интеллекта открывают новые горизонты генерации изображений с помощью забытых ранее методов нормализующих потоков, интегрируя их с современными трансформерами и создавая уникальные модели для мобильных устройств.

В последние годы технологии генерации изображений с помощью искусственного интеллекта сделали огромные шаги вперед. Многие знают о таких методах, как диффузионные модели и авторегрессивные трансформеры, на основе которых работают известные системы, например, Stable Diffusion или GPT-4o от OpenAI. Однако Apple Research привлекла внимание всего мира к забытому, но не утраченному потенциалу другого подхода — нормализующим потокам. В двух недавно опубликованных научных работах инженеры Apple показали, как можно использовать этот метод вместе с трансформерами для создания новых, высококачественных моделей генерации изображений, которые могут стать прорывом для мобильных устройств и не только. Нормализующие потоки представляют собой тип моделей, который учится преобразовывать реальные изображения в структуированный шум и наоборот — строить изображения из этого шума.

В отличие от популярной диффузии, где вероятность сгенерированного образа вычисляется приближенно или не вычисляется вовсе, нормализующие потоки позволяют вычислять точную вероятность каждого изображения. Это важное преимущество для тех задач, где необходимо понимать, насколько вероятен каждый полученный результат, что усиливает статистическую интерпретируемость модели. Исторически нормализующие потоки применялись в генерации изображений, но как правило результаты получались менее четкими и детальными по сравнению с современными диффузионными и авторегрессивными моделями. Поэтому они почти перестали использоваться для подобных целей. Тем не менее Apple взялась за эту технику с новыми идеями и предложила обновлённые архитектуры.

Первая из них получила название TarFlow — Transformer AutoRegressive Flow. Основная идея заключалась в замене устаревших слоев нормализующих потоков на блоки трансформеров, которые доказали свою эффективность в обработке последовательностей и изображений. TarFlow делит изображение на небольшие фрагменты или патчи, а затем генерирует их последовательно, используя концепцию авторегресса, известную по моделям, подобным GPT. Важное отличие TarFlow заключается в том, что модель генерирует значения пикселей напрямую, без преобразования в дискретные токены. Это позволяет избежать потери качества, характерной для моделей, работающих с токенизированными изображениями.

 

Несмотря на интересный подход, TarFlow имел ограничения при генерации изображений высокого разрешения. Apple ответила на эти сложности второй моделью, названной STARFlow — Scalable Transformer AutoRegressive Flow. В этой версии генерация происходит не в пространстве пикселей, а в скрытом латентном пространстве, представляющем собой сжатое и более компактное представление изображения. Затем полученный сжатый образ расширяется декодером до полноценного высокого разрешения. Данный подход отлично решает проблему масштабирования: модель не нуждается в предсказании миллионов пикселей напрямую, вместо этого сосредотачивается на построении общей структуры изображения, а детали и текстуры восстанавливаются на этапе декодирования.

 

Кроме того, STARFlow получила гибкую интеграцию с языковыми моделями. Вместо разработки собственного текстового энкодера Apple предложила использовать уже существующие лёгкие языковые модели, такие как Gemma от Google, что позволяет эффективно обрабатывать текстовые запросы пользователей для генерации изображений. Этот подход особенно хорош для мобильных устройств, где ресурсы ограничены. В отличие от OpenAI, которая также движется дальше диффузионных моделей со своим GPT-4o, стратегия Apple направлена на оптимизацию под мобильные платформы, устройства с ограниченной мощностью и возможностью работы офлайн. OpenAI преобразует изображения в последовательности токенов и генерирует их по одному символу, что требует большой вычислительной мощности и сложной инфраструктуры дата-центров.

 

В свою очередь Apple при помощи нормализующих потоков и трансформеров позволяет создавать качественные изображения с низкой задержкой и меньшим энергопотреблением, что даёт преимущество для использования в смартфонах и планшетах. Эксперименты с TarFlow и STARFlow показывают, что нормализующие потоки, объединённые с современными архитектурами трансформеров, способны генерировать изображения различного разрешения с высоким уровнем детализации и разнообразия. Это открывает новые возможности для приложений дополненной реальности, мобильной фотографии, творческого контента и пользовательских интерфейсов, где требуются быстрые и качественные генеративные модели. Помимо технических аспектов, подход Apple демонстрирует философию компании — создавать технологии, которые полезны и доступны каждому пользователю, а не только тем, кто располагает промышленными вычислительными мощностями. Использование нормализующих потоков с латентными представлениями и интеграцией компактных языковых моделей позволяет создавать на мобильных устройствах инструменты генерации изображений, которые ранее казались возможными лишь в условиях серверных ферм.

Подводя итоги, исследовательская работа Apple не только возвращает в тренды забытый метод нормализующих потоков, но и актуализирует его при помощи трансформеров и латентного представления данных. Это позволяет получить эффективные модели, способные работать в реальном времени на мобильных устройствах, обеспечивая качественную генерацию изображений. В будущем можно ожидать появления новых креативных приложений, которые сделают процесс создания картинок и визуального контента более доступным, удобным и полезным. Развитие таких технологий также стимулирует конкуренцию на рынке ИИ-генерации, что приводит к появлению более разнообразных и мощных инструментов как для профессионалов, так и для широкой аудитории. Возрождение нормализующих потоков в исполнении Apple — важный этап в эволюции искусственного интеллекта, указывающий на новые пути решения сложных задач генерации и обработки изображений с высоким качеством и эффективностью.

Следя за инновациями Apple и другими игроками индустрии, можно уверенно сказать, что будущее искусственного интеллекта в создании визуального контента обещает быть ярким, разнообразным и доступным для широкого круга пользователей.

Автоматическая торговля на криптовалютных биржах

Далее
Why do animals have such different lifespans? [video]
Четверг, 18 Сентябрь 2025 Почему у животных такие разные продолжительности жизни и что на это влияет

Исследование факторов, влияющих на продолжительность жизни животных, раскрывает удивительное разнообразие биологических механизмов и адаптаций, объясняющих, почему виды живут так по-разному.

Into the Unwritten Dawn
Четверг, 18 Сентябрь 2025 Путь в Неписанный Рассвет: Оптимизм и Технологии в Формировании Будущего

Исследование современных вызовов и возможностей будущего через призму технологий, этики и культуры, раскрывающее концепцию протооптии как альтернативу дистопии и утопии, и показывающее реальные примеры позитивных изменений в мире.

True Costs of Misinformation – The Global Spread of Misinformation Laws
Четверг, 18 Сентябрь 2025 Истинная цена дезинформации: глобальное распространение законов против фейковых новостей

Раскрытие причин и последствий распространения законов о борьбе с дезинформацией в мире, а также анализ их влияния на свободу слова и информационное пространство.

Brazil and China megarailway raises deforestation warnings in the Amazon
Четверг, 18 Сентябрь 2025 Мегарельсовая дорога Бразилии и Китая: угроза вырубки Амазонки и экологические вызовы

В июне 2025 года обсуждения между правительствами Бразилии и Китая вызвали обеспокоенность экологов из-за планов строительства масштабной железнодорожной линии через Амазонку. Новый транспортный коридор может изменить ландшафт региона, ускорить вырубку лесов и повлиять на биоразнообразие, став вызовом для сохранения крупнейшего тропического леса в мире.

Elon Musk's Lawyers Claim He 'Does Not Use a Computer'
Четверг, 18 Сентябрь 2025 Искусство работы без компьютера: заявление адвокатов Илона Маска

Рассмотрение спорного заявления адвокатов Илона Маска о том, что он якобы не использует компьютер, на фоне судебного процесса с OpenAI, и анализ активного использования Маском технологий в повседневной жизни и работе.

Bootstrapping Remote MCP: Discover New AI apps using Remote MCP
Четверг, 18 Сентябрь 2025 Осваиваем Remote MCP: как открывать новые AI-приложения с помощью Remote MCP

Подробное руководство по использованию Remote MCP для поиска и интеграции новых AI-приложений. Разбираемся в возможностях Remote MCP серверов, примерах использования и перспективах развития технологий для автоматизации и улучшения взаимодействия с искусственным интеллектом.

Show HN: I made an open-source alternative of computer-use for windows
Четверг, 18 Сентябрь 2025 Windows-Use: Открытый инструмент для автоматизации работы на Windows с помощью ИИ

Подробное знакомство с Windows-Use — новой открытой разработкой для автоматизации задач на Windows с помощью искусственного интеллекта. Узнайте, как этот инструмент упрощает взаимодействие и управление компьютером через естественный язык и открывает новые возможности для пользователей и разработчиков.