Формат AVIF (AV1 Image File Format) стремительно набирает популярность в мире веб-графики благодаря выдающемуся балансу между качеством изображения и степенью сжатия. Этот формат обеспечивает невероятно высокое визуальное качество при относительно небольшом размере файлов, что делает его привлекательным выбором для разработчиков и дизайнеров, стремящихся оптимизировать загрузку страниц без потери детализации. Однако долгие годы открытые AVIF-кодировщики сталкивались с проблемами, связанными с нестабильностью сжатия, неудобством использования и недостаточной эффективностью. Эти трудности коренятся в особенностях разработки видеоэнкодеров, которые, как правило, ориентированы на последовательности кадров, нежели на неподвижные изображения. В отличие от видео, неподвижные изображения требуют особых методов обработки, адаптированных под их уникальную природу и задачи.
Одним из ведущих экспертов в области компрессии, кто внес значительный вклад в усовершенствование AVIF в рамках открытых проектов, стал Джанни Розато — основатель компании Halide Compression. Его многолетняя практика в разработке видеоэнкодеров, включая работу над проектом SVT-AV1 при поддержке Meta и сотрудничество с командой, стоящей за dav1d, позволили ему определить ключевые области улучшений для AVIF, ориентированных именно на фотографии и неподвижные картинки. Перспектива перейти от видео-ориентированных решений к ориентированным на изображения стала знаковым моментом в развитии AVIF. Ведущие браузеры и платформы всё активнее используют AVIF, но до недавнего времени кодировщики работали в рамках инструментов, изначально рассчитанных на видео, что сказывалось на качестве конечных результатов и скорости обработки. В центре внимания Джанни и его команды оказался проект SVT-AV1-PSY, направленный на создание адаптированного кодера с улучшенным с точки зрения восприятия качеством, который бы учитывал особенности неподвижных кадров.
Основной задачей стала оптимизация процесса так называемой все-внутренней (all-intra) кодировки, ключевой для эффективного сжатия одиночных изображений. В рамках этого подхода был разработан специальный режим Tune Still Picture, который оптимизирует компрессию для неподвижных изображений, не ориентируясь на межкадровую корреляцию. Tune Still Picture базируется на нескольких сложных технических решениях, среди которых важное место занимает применение квантизационной матрицы с масштабированием. В отличие от равномерных методов сжатия, использование матриц с разным уровнем квантования для частотных компонентов позволяет добиться более тонкой настройки компрессии, учитывая характер восприятия человеком низких и высоких частот. При этом анализ проводился с помощью эталонного набора изображений CID22 и метрики качества SSIMULACRA2, что гарантировало максимально объективную оценку результатов.
Еще одним важным элементом стала тонкая настройка фильтра снятия блокирования (deblocking loop filter). Поскольку AVIF разделевает изображения на блоки, возникают артефакты на границах этих блоков. Контроль резкости фильтра позволяет сбалансировать сглаживание переходов между блоками и сохранение четких контуров, что критично именно для фотоконтента. Для неподвижных изображений оптимальные уровни резкости фильтра отличаются от применимых в видео, что требует отдельной калибровки. Технология вариационной адаптивной квантования (VAQ) также была существенно доработана.
VAQ позволяет эффективно перераспределять битрейт, увеличивая качество в областях с низкой вариативностью и снижая его в менее значимых участках, что улучшает как восприятие, так и метрики качества. Группа Halide Compression предложила индивидуальные кривые масштабирования для фотоизображений, что позволило повысить качество в пределах требуемого размера файла. Особое внимание уделялось и алгоритмам распознавания экранного контента, таких как текст, скриншоты или цифровые рисунки — видов визуальных данных, значительно отличающихся от фотоконтента по структуре. Для правильного использования специальных режимов AV1, например Intra Block Copy и палитрового режима, необходимо точное классифицирование контента. Благодаря новым методам обнаружения и маркировки экранного контента удалось повысить эффективность сжатия таких изображений, что раньше было проблемой для классических форматов, например JPEG.
Параметр лямбда в алгоритмах оптимизации соотношения битрейта и качества (rate-distortion optimization) получил новую схему регулировки, адаптированную под особенности сжатия неподвижных изображений. Это позволило сбалансировать приоритеты минимального искажения и минимального размера файла более гибко и соответствующе качеству. Итогом внедрения данных методов стала экономия битрейта до 15% по сравнению с традиционными настройками, при этом качество изображения оставалось на высоком уровне, что подтверждалось тестами на известных наборах фотографий, в частности Kodak True Color. Эти улучшения также повысили стабильность и предсказуемость работы кодера, сделав его более удобным для интеграции в различные проекты. Технологии, разработанные в рамках SVT-AV1-PSY, постепенно вливаются в официальные реализации, такие как энкодер libaom от Google, где они представлены в виде режима tune iq.
Несмотря на успехи, существует ряд вызовов и для будущего развития. В частности, сохранились проблемы с консистентностью сжатия и производительностью при использовании стандартных настроек libaom, а также высокие требования к вычислительным ресурсам при быстром кодировании. Кроме того, поддержка и развитие сообществом таких кодеков, несмотря на очевидную пользу, зачастую сталкиваются с ограничениями из-за отсутствия финансирования и коммерческих заказчиков, заинтересованных в высококачественном сжатии неподвижных изображений. В компании Halide Compression решается задача создания устойчивой бизнес-модели вокруг профессиональных решений для сжатия изображений, предлагая комплекс высокоэффективных кодеров и консалтинговых услуг. Это подчеркивает значимость создания экосистемы с ориентиром на изображения, а не только на видео.
Кроме того, проект Iris-WebP демонстрирует перспективы значительного повышения эффективности сжатия с прицелом на реальные нужды веб-разработчиков и бизнеса. В будущем ожидается появление AV2 — нового поколения кодека, который может стать значительным шагом вперед для сжатия неподвижных изображений в вебе, предлагая еще лучшие возможности как с точки зрения качества, так и скорости кодирования. Однако для полноценного успеха требуется тесная интеграция инновационных алгоритмов с нуждами индустрии и сообщество разработчиков, готовое активно поддерживать и развивать решения. Таким образом, развитие AVIF в открытом исходном коде демонстрирует, как современные стандарты сжатия искусства адаптируются под уникальные задачи визуального контента Интернета. Успехи команд, таких как Halide Compression, показывают путь к тому, чтобы веб стал более быстрым, ярким и доступным без компромиссов по качеству.
Инвестиции в исследование, оптимизацию и внедрение новых подходов к кодированию неподвижных изображений — залог будущего, в котором каждый пользователь сможет наслаждаться четкой и насыщенной графикой при минимальных затратах трафика и ресурсов.