В современном мире искусственного интеллекта генерация изображений стремительно эволюционирует, привлекая внимание не только исследователей, но и профессионалов творческих индустрий. Недавно Krea и Black Forest Labs объединили усилия, чтобы представить открытую версию весов FLUX.1 Krea. Это модель, которая обещает изменить подход к созданию цифрового искусства, сочетая великолепное эстетическое качество и максимальную управляемость результата. В отличие от большинства существующих генеративных моделей, FLUX.
1 Krea разработана с акцентом на определённый художественный стиль, что позволяет получить изображения без характерных изъянов, свойственных AI, и максимально приближённые к натуральным и выразительным художественным работам.Одной из важных проблем, с которой сталкиваются сегодня многие модели, является так называемый «AI look» — узнаваемый стиль, который проявляется в размытых фонах, ненатуральной текстуре кожи, примитивных композициях и общему отсутствию живости изображений. Этот визуальный отпечаток стал чем-то вроде подписи искусственного интеллекта, но часто воспринимается как нежелательный эффект, снижающий реалистичность и художественную ценность получаемых картин. Создатели FLUX.1 Krea изначально поставили перед собой цель избавиться от этой особенности и создать инструмент, который бы «не выглядел как AI».
Для достижения этой задачи потребовался комплексный и инновационный подход к обучению модели.Разработка FLUX.1 Krea условно разделяется на два этапа: предварительное обучение и дообучение (посттренировка). Во время предварительного обучения главной задачей была максимизация разнообразия выходных данных и построение глубокого «понимания» визуального мира — от предметов и стилей до ракурсов и текстур. Для этого использовалась обширная многообразная база данных с высоким охватом различных категорий изображений.
Важно отметить, что на этой стадии модель даже обучалась на изображениях низкого качества, чтобы иметь представление о том, как выглядят нежелательные паттерны и дефекты. Это, в свою очередь, сильно помогало в дальнейшем управлении генерацией и снижении ошибок путем использования негативных подсказок. Однако предварительная тренировка — это лишь полдела. Именно на этапе посттренировки начинается точечное корректирование и «отсечение» нежелательных аспектов распределения изображений. Модель перестраивается таким образом, чтобы отдавать приоритет эстетически ценной и стилистически выверенной генерации, постепенно сводя к минимуму вероятность появления дефектов и шаблонных артефактов.
Ключевым моментом для создания FLUX.1 Krea стало сотрудничество с Black Forest Labs, которые предоставили начальный необработанный базовый вес — flux-dev-raw. Это не посттренированная модель, лишённая налёта «искусственного» стиля и готовая к дальнейшей кастомизации. Преимущество такого «сырого» основания заключается в обширном охвате различных визуальных стилей без слишком сильной предвзятости, что даёт возможность направленно формировать именно тот художественный стиль, который считают оптимальным разработчики.Сам процесс посттренировки FLUX.
1 Krea реализовался в несколько этапов, начиная с контролируемой дообучения (Supervised Finetuning), где использовался тщательно отобранный набор изображений, которые идеально соответствовали пожеланиям разработчиков по стилю, композиции и общей атмосфере. Важной частью этого этапа стала интеграция синтетических образцов, полученных предыдущей версией модели Krea-1, что позволило добиться стабильности и постоянства в качестве выходных изображений. Особенность метода заключалась в применении кастомного лосса, позволяющего непосредственную оптимизацию на основе управляющего сигнала с использованием classifier-free guidance.После улучшения качества изображения с помощью контрольного поднастройки моделировалась дальнейшая адаптация с применением Reinforcement Learning from Human Feedback (RLHF) — подхода, который позволил задействовать человеческие оценки и предпочтения для тонкой подгонки модели. Для этого применили собственную методику TPO, заметно повысившую выразительность художественного стиля и стилистическую согласованность результатов.
RLHF помог не только улучшить визуальное качество, но и сделать результаты более предсказуемыми и адаптированными под вкусы специалистов творческих областей.Создатели FLUX.1 Krea обнаружили, что важнее не количество данных, а их качество и соответствие стилю. Хорошо подобранный, небольшого размера датасет позволяет избежать проблем с переобучением и излишней размытостью предпочтений. В то же время использование «глобальных» пользовательских предпочтений привело бы к типичным дефектам — например, к симметричным, слишком упрощённым композициям, мягким и размытым текстурам, а также к обобщенному «AI look».
Поэтому модель была обучена на чётко направленных и единых по стилистике предпочтениях, приближая итоговую генерацию к единому художественному направлению. Такой подход значительно снижает необходимость в дополнительных усилиях пользователя по добавлению многочисленных модификаторов и уточняющих слов в запросах, сохраняя при этом высокое качество без вмешательства.Выход на открытый рынок весов FLUX.1 Krea создаёт большие возможности для сообщества. Модель совместима с большими экосистемами и предлагает гибкие инструменты для интеграции в существующие творческие процессы.
Открытый релиз даёт возможность исследователям и разработчикам создавать собственные наработки и расширения, что с большой вероятностью приведёт к быстрому прогрессу в области генерации изображений с высоким художественным уровнем. Разработчики Krea видят это как первый шаг к созданию действительно персонализированных инструментов, которые могут адаптироваться под индивидуальные предпочтения, позволяя авторам создавать максимально уникальные и выразительные изображения.Потенциал FLUX.1 Krea связан не только с эстетикой, но и с возможностями дальнейшего расширения доменов генерации. В будущем планируется охват более широкого спектра визуальных направлений, что позволит пользователям не только смешивать стили, но и создавать гибридные произведения с уникальными особенностями композиции и световоздействия.
Исследования в области генеративного искусства с применением методов персонализации могут стать следующим крупным прорывом, значительно расширяя творческие горизонты и улучшая взаимодействие между человеком и AI.Одним из ключевых аспектов, выделяющих FLUX.1 Krea, является осознанный подход к борьбе с укоренившимися биасами в данных. Часть используемых ранее моделей оценки эстетики показала склонность к чрезмерному акценту на женских образах, мягким текстурам и ярким светам, что напрямую влияло на результаты. FLUX.
1 Krea стремится к более нейтральной и разнообразной эстетике, опираясь на тщательно отобранные и проверенные наборы данных, а также высококачественный человеческий фидбек.Важной составляющей успеха стала и тесная работа команды, включая специалистов по инфраструктуре, обработке данных и самой архитектуре моделей. Такой междисциплинарный подход позволил реализовать сложные алгоритмы оптимизации и тонкой настройки, что сложно представить без совместных усилий. Сотрудничество с Black Forest Labs, предоставивших оригинальную базовую модель, сыграло решающую роль в достижении поставленных целей.Для пользователей и разработчиков это открытие — возможность получить доступ к весам объёмом 22 ГБ, размещённым на платформе Hugging Face, а также к исходному коду и инструментам на GitHub.
Это не только расширяет возможности для применения и адаптации модели, но и поддерживает открытую научную и инженерную коммуникацию, стимулируя развитие сообщества. Разработка FLUX.1 Krea подтверждает важность прозрачности и совместного труда в эпоху генеративного ИИ.В итоге, FLUX.1 Krea открывает новую страницу в развитии генеративных моделей изображения с чётким стилевым направлением и исключительным качеством.
Проект демонстрирует, как баланс между разнообразием и фокусированием на эстетике, подкреплённый продуманной постобработкой и контролем человеческими предпочтениями, может породить мощный инструмент для художников, дизайнеров и пользователей по всему миру. Открытая модель служит прекрасной основой для творчества и научных изысканий, вдохновляя создание оригинального визуального контента и позволяя реализовать самые смелые творческие задумки без компромиссов по качеству и стилю.