Майнинг и стейкинг Крипто-кошельки

Создание текст-в-изображение модели с нуля: открытый подход и инновации в ИИ

Майнинг и стейкинг Крипто-кошельки
We're training a text-to-image model from scratch and open-sourcing it

Подробный обзор процесса разработки и обучения текст-в-изображение модели с нуля. Раскрываются ключевые технические решения, использованные методы и планы по открытию исходного кода для сообщества разработчиков и исследователей.

В современном мире искусственный интеллект стремительно развивается, открывая новые горизонты в различных сферах жизни и бизнеса. Одним из наиболее впечатляющих направлений является создание систем, способных преобразовывать текстовые описания в полноценные изображения. Эта технология, известная как текст-в-изображение генерация, находит применение в креативной индустрии, маркетинге, дизайне, образовании и других областях. В конце 2025 года компания Photoroom объявила о старте разработки собственного текст-в-изображение модели, построенной с нуля, и о планах сделать её полностью открытой для сообщества исследователей и разработчиков. В данной статье мы рассмотрим, что представляет собой этот проект, какие технологии и методы были использованы, и почему открытый подход к созданию ИИ-моделей становится особенно актуальным сегодня.

Начало пути: мотивация и основные цели Идея создания модели с нуля возникла из стремления получить инструмент, который будет не только мощным и эффективным, но и открытым и легким для адаптации. В настоящее время на рынке существует множество моделей генерации изображений из текста, как коммерческих, так и открытых. Однако многие из них представляют собой сложные в обучении и адаптации системы с закрытым исходным кодом или ограничениями по лицензии. В Photoroom поставили себе задачу создать модель, которая будет удобна для обучения и дообучения, будет пользоваться передовыми технологиями, но при этом останется легковесной для быстрой интеграции и адаптации. Открытость проекта - одна из ключевых ценностей.

Компания решила опубликовать не только веса модели, но и полный набор инструментов, сценариев, обучающие данные и подробную документацию. Это позволит сообществу не только использовать модель, но и внести свой вклад в её улучшение, а также повторить и расширить исследования. К тому же подробное документирование этапов разработки, успехов и неудач способствует инновациям и ускоряет развитие отрасли в целом. Архитектура и используемые технологии Для разработки модели команда исследователей провела серию экспериментов с архитектурными подходами, которых становится всё больше в области генеративного ИИ. Среди изученных архитектур - DiT, UViT, MMDiT и их модификации, включая собственный вариант под названием Mirage.

 

Эти варианты базируются на трансформерах, которые доказали свою эффективность в задачах обработки и генерации изображений. Команда также уделила особое внимание выбору функций потерь, которые помогают модели обучаться лучше и быстрее. Среди выбранных в экспериментах методов выделяются REPA, основанный на представлениях DINOv2 и DINOv3, а также контрастивный flow matching. Не менее важным элементом в pipeline является вариационный автокодировщик (VAE), который помогает переводить сложные изображения в компактное латентное пространство и обратно, повышая качество и скорость генерации. Для پروژه были интегрированы несколько VAEs, включая Flux и DC-AE.

 

Текстовые выражения преобразуются в векторы признаков с помощью современных эмбеддеров, таких как GemmaT5, что позволяет модели эффективно воспринимать семантику запроса и точно воспроизводить её в изображении. Важным аспектом стала оптимизация процесса обучения. В проекте применяются новейшие методы, включая Uniform ROPE для позиционных кодировок, стратегию Immiscible для ускорения диффузионного обучения и дистилляцию с помощью метода LADD, что сокращает количество шагов генерации без потери качества. Для оптимизации нейросеть применяется инновационный оптимизатор Muon. Кроме того, команда уделяет внимание точности вычислений и плавному обновлению параметров с помощью экспоненциального скользящего среднего (EMA).

 

Технические детали и результаты обучения На момент публикации первых результатов команда обучила модель Mirage с 1.2 миллиардами параметров на разрешении 256×256 пикселей. Обучение заняло менее 9 дней на 64 GPU H200, что свидетельствует о высокой эффективности выбранных методов. Модель обучалась около 1.4 миллиона шагов с использованием подхода REPA с фичами DINOv2, VAE Flux и текстовым эмбеддером GemmaT5.

Особенностью данного этапа стало применение дистилляции с LADD, что позволило снизить количество шагов генерации до четырёх, улучшая скорость вывода изображений и их качество. Для оценки процесса обучения использовались метрики валидации, которые демонстрировали стабилизацию и улучшение результатов по мере отключения некоторых обучающих методов после достижения начальной сходимости. Демонстрация прогресса модели с нуля до финального чекпоинта представлена в виде анимаций, где видно постепенное улучшение качества изображений, лучшее понимание текстовых запросов и увеличение детализации объектов. Это наглядно демонстрирует потенциал архитектуры и обучающих техник, используемых командой. Планируемые этапы развития и перспективы проекта Разработка модели не завершена.

Важным этапом стало начало обучения на разрешении 512×512 пикселей с использованием VAEs Flux и DC-AE, что позволит создавать более детализированные изображения. Продолжается работа по предпочтительному выравниванию модели с применением методов контролируемого тонкого дообучения и оптимизации прямой предпочтительной политики (DPO). Это позволит создавать генерации, лучше соответствующие запросам и пользовательским предпочтениям. Всё это сопровождается подготовкой первого публичного релиза модели, совместимой с популярной библиотекой Diffusers на Hugging Face. Помимо самого релиза, команда обещает обширную документацию и подробное исследование с абляционным анализом всех используемых методов, что делает проект ценным ресурсом для исследователей и разработчиков по всему миру.

Открытое сообщество и возможности для сотрудничества Особое внимание уделяется формированию сообщества вокруг проекта. Для этого создан Discord-сервер, где специалисты и энтузиасты могут общаться напрямую с командой, получать оперативные обновления и обсуждать идеи. Photoroom открыты к сотрудничеству и приглашает разработчиков, исследователей и заинтересованных лиц принять участие в развитии проекта. Обратная связь и внешние вклады рассматриваются с большим интересом, что говорит о настрое на транспарентность и командную работу. Заключение Разработка текст-в-изображение модели с нуля - это сложный и технически насыщенный процесс, требующий глубоких знаний, ресурсов и нестандартных подходов.

Photoroom демонстрируют важный пример открытого и инновационного подхода, который не только улучшает доступность передовых технологий, но и ускоряет развитие всей области генеративного искусственного интеллекта. Публикация кода, моделей и исследований на доступных платформах создаёт благоприятную среду для новых открытий и реализации идей в широком спектре приложений. Следящие за ИИ и разработчики уже могут присоединиться к сообществу проекта, изучать материалы, вносить предложения и ждать новых выпусков. В ближайшем будущем ожидается появление моделей более высокого разрешения, улучшенных алгоритмов обучения и новых функций для генерации изображений, основанных на естественном языке. Таким образом, инициатива Photoroom - это важный шаг к демократизации и развитию технологий искусственного интеллекта, который позволит многим компаниям и специалистам в области визуального контента использовать передовые инструменты для воплощения своих идей и создания уникальных продуктов.

.

Автоматическая торговля на криптовалютных биржах

Далее
I wrote 162k lines of code in the past 24 days
Четверг, 01 Январь 2026 Как я написал 162 тысяч строк кода за 24 дня: секреты продуктивности и эффективной работы разработчика

История невероятной продуктивности и советы по организации рабочего процесса, которые помогут разработчикам достигать выдающихся результатов без выгорания и потери качества. .

Glycol, Far UVC, and CFM Measurement at BIDA
Четверг, 01 Январь 2026 Как гликоль, дальний УФ-С свет и измерение CFM помогают улучшить качество воздуха на мероприятиях BIDA

Изучение использования технологий гликоля и дальнего УФ-С излучения совместно с точным измерением объема вентиляции (CFM) на примере контртанцевального мероприятия BIDA для повышения безопасности и снижения риска распространения инфекций в помещениях с большим скоплением людей. .

Cracking Securam ProLogic L02, used on 8 popular brands of high security safes [video]
Четверг, 01 Январь 2026 Взлом Securam ProLogic L02: Разбор уязвимостей в восьми популярных брендах высокозащищённых сейфов

Изучение методов взлома системы Securam ProLogic L02, применяемой в восьми известных брендах высокозащищённых сейфов, раскрывает важные аспекты безопасности и подчеркивает необходимость повышения защиты современных устройств. .

Andy Jassy, Satya Nadella, among 43% of CEOs' staff say they deserve a PIP
Четверг, 01 Январь 2026 Почему 43% сотрудников считают, что заслуживают план улучшения показателей (PIP): взгляд изнутри на лидеров, таких как Энди Джасси и Сатья Наделла

Исследование показывает, что почти половина сотрудников высокопоставленных руководителей, включая Энди Джасси и Сатью Наделлу, считают, что заслуживают план улучшения показателей (PIP). Раскрываем причины этого феномена и как он влияет на корпоративную культуру и управление талантами.

Ask HN: What do you recommend for test observability?
Четверг, 01 Январь 2026 Эффективные решения для наблюдаемости тестов: как выявлять нестабильные тесты и повышать качество CI

Обзор современных подходов и инструментов для наблюдаемости тестов в системах непрерывной интеграции. Рассмотрены методики выявления нестабильных тестов, интеграция с различными тестовыми фреймворками и преимущества использования управляемых сервисов для анализа результатов тестирования.

I'm reading more books (and faster)
Четверг, 01 Январь 2026 Как читать больше книг и увеличивать скорость чтения: эффективные методы и советы

Узнайте, как с помощью современных технологий и полезных привычек можно значительно увеличить количество прочитанных книг и ускорить процесс чтения. Практические рекомендации и личный опыт помогут вам сделать чтение более продуктивным и увлекательным.

Klotski
Четверг, 01 Январь 2026 Клотски: История, Правила и Современные Стратегии Решения Головоломки

Обзор классической китайской головоломки Клотски, её исторических корней, правил игры и эффективных методов решения, который поможет лучше понять её особенности и преимущества для развития логического мышления. .