Создание анимационного видео — процесс творческий и порой сложный, особенно если речь идёт о работе с детьми. Однако именно такой опыт может стать не только полезным, но и невероятно увлекательным. Мой недавний эксперимент с дочерью семь лет по созданию минутного анимационного ролика с помощью современных генеративных AI-инструментов подтвердил это. За неполные 20 часов мы превратили простую фотографию в увлекательное и живое видео, обогатив наше семейное время и получив ценные знания о технологиях будущего. В этом материале я поделюсь подробностями нашего подхода, используемыми инструментами и тем, какие выводы можно сделать из подобного опыта.
Современные технологии искусственного интеллекта радуют стремительным развитием, и то, что ещё полгода назад казалось фантастикой, сегодня становится рутинной повседневностью. Примером таких новинок стало использование генеративного AI для анимации видео из отдельных изображений. Мы взяли за основу один снимок дочери в костюме тигра с розовым юккатой и применили несколько передовых моделей и расширений, чтобы превратить статичное изображение в настоящую короткометражку с переходами и движением. Главной задачей было сохранить максимально естественный и интересный визуальный стиль, вдохновлённый любимой дочерней игрой Minecraft. Именно поэтому в качестве нарратива и визуального дизайна мы выбрали пиксельную эстетику и окружающий мир, напоминающий блоковую природу оригинальной игры.
Процесс создания анимации начался с разработки сценария и раскадровки, для которой я использовал инструмент Flux Kontext. Этот сервис позволил редактировать изображения, в том числе вносить крупные изменения и при этом сохранять узнаваемость главного персонажа. Благодаря мощности Flux Kontext, раскадровка — важнейший этап любого видеопроекта — занял всего около часа, что оказалось значительно быстрее от ожидаемого. Каждая сцена получилась насыщенной и отражала задуманный сюжет, где персонаж взаимодействует с окружающим Minecraft-миром. Далее наступила самая трудоёмкая стадия — построение рабочего процесса производства видео с нуля.
Моя основная цель заключалась в создании автоматизированного workflow под ComfyUI с использованием мощной нейросети Wan Video, специализирующейся на генерации коротких роликов из заданных изображений и текстовых подсказок. В основе модели лежит механизм, который принимает первый и последний кадры анимации вместе с описанием происходящего между ними и генерирует плавное и логичное видео. Немаловажным моментом стало использование ускоряющих технологий. Wan Video традиционно работает медленно, поэтому для увеличения скорости применялась технология Self Forcing и специально подготовленные LORA-модели. Эти подходы позволили сократить время рендеринга в пять раз, что критично при необходимости частого просмотра и корректировки превью.
Однако столкнулись мы и с техническими сложностями. К сожалению, модель FLF2V-14B, на которой мы остановились изначально, оказалась несовместима с LORA-ускорением Self Forcing. Это заставило меня задуматься о переходе на другие модели, такие как I2V-14B с VACE-контролем, которые по отзывам пользователей более оптимальны и лучше поддерживают ускорение. Параллельно пришлось экспериментировать с языковыми версиями промтов и дополнительными технологиями, чтобы найти подход, при котором визуальный результат согласовывался с поставленной задачей. Ключевую роль в создании содержательного и интересного видео сыграл генератор динамичных подсказок на основе больших языковых моделей (LLM).
Используя схему, предложенную исследователем Дэвидом Сноу, мы описывали первый и последний кадр, а затем обучали LLM генерировать подробные и творческие указания для промежуточных сцен. Этот метод дал возможность получать анимации с яркими переходами, уникальными эффектами и живыми движениями персонажа, что значительно превзошло ожидаемые результаты. Особого внимания заслуживает выбор конечного LLM. Я испробовал несколько свежих моделей, включая DeepSeek и Qwen, однако остановился на DeepSeek-R1-Distill-Llama-70B, который сочетается с хорошей скоростью отклика и качеством сгенерированных подсказок. Эта модель позволила креативно обыгрывать сюжетные переходы, добавляя необычные визуальные детали, например, трансформацию тигра в набор игральных карт или появление птицы, воплощающей потерянные крылья.
Несмотря на всю технологическую базу, проект сохранил семейный дух. Вовлечение дочери в творческий процесс поддерживалось постоянным обсуждением сюжета, тестированием различных визуальных эффектов и просмотром промежуточных результатов. Это не только сблизило нас, но и дало ребёнку первый опыт взаимодействия с инструментами искусственного интеллекта, что важно в современном мире. Финальный результат, хоть и далёк от профессиональной анимации Голливуда, впечатляет своей скоростью и комплексностью создания – весь ролик длиной в одну минуту был выполнен на базе всего одной фотографии и нескольких ключевых текстовых команд. Такой подход открывает возможности для быстрого прототипирования видео, обучения и творчества как для профессионалов, так и для новичков со всей семьёй.
Из опыта реализации проекта хотелось бы выделить несколько ценных уроков. Во-первых, ускорение рендеринга с помощью Self Forcing — важный шаг для оптимизации времени и ресурсов, который рекомендован к внедрению в подобные workflow. Во-вторых, выбор совместимых моделей и акцент на тех, которые поддерживают нужные технологии — залог успешной работы без лишних багов и сбоев. Наконец, задействование мощных языковых моделей для генерации динамичных и уникальных подсказок ускоряет процесс креативного наполнения роликов и даёт более живые и интересные результаты. Думаю, что подобный эксперимент показывает, как генеративный искусственный интеллект меняет творческие индустрии и бытовое восприятие анимации.
Вместе с детьми можно создавать оригинальные проекты, которые одновременно развивают технические навыки, давая простор воображению и принося удовольствие всему семейству. Очень надеюсь, что в скором времени появятся более доступные и простые в использовании инструменты для создания коротких AI-видео, а открытие весов Flux Kontext принесёт ещё больше возможностей для качественного редактирования изображений и сохранения стилистики персонажей. Технологии не стоят на месте, и их плодотворное применение становится вдохновляющим примером того, как искусственный интеллект может сделать творчество более доступным и захватывающим даже для самых юных пользователей. В конечном итоге, работа над нашим минутным AI-мультфильмом стала настоящим путешествием в удивительный мир современных генеративных систем и ярким примером, как семья может использовать передовые технологии для совместного творчества и получения новых впечатлений.