В последние годы модели визуального языка (VLM) становятся неотъемлемой частью технологий, способных объединять возможности компьютерного зрения и обработки естественного языка. Такие модели позволяют компьютерам не только распознавать и анализировать изображения, но и формулировать ответы и описания на основе визуальной информации. Они находят широкое применение в различных сферах, от помощи людям с ограничениями зрения до автоматизации управления интерфейсами, робототехники и игровых решений. Однако развитие VLM сталкивается с серьезной проблемой — балансом между точностью распознавания и скоростью обработки изображений. Во многом это связано с тем, что улучшение качества анализа требует использования изображений высокого разрешения, что значительно увеличивает вычислительные затраты и время отклика моделей.
Именно решение этой задачи легло в основу разработки FastVLM — новой, высокоэффективной модели визуального языка, которая сочетает в себе технологическую новизну и практическую производительность. Одной из главных особенностей FastVLM является внедрение гибридной архитектуры визуального кодера, ориентированной на работу с изображениями высокого разрешения. Эта архитектура, получившая название FastViTHD, совмещает в себе преимущества сверточных нейросетей и трансформеров, что позволяет эффективно выделять информативные визуальные признаки, одновременно снижая количество обрабатываемых токенов. Важно отметить, что FastViTHD создает на 4 раза меньше визуальных токенов по сравнению с предыдущими решениями на основе FastViT и на 16 раз меньше, чем классические ViT-L/14 при обработке изображений с разрешением 336 пикселей. Такой существенный спад числа токенов позволяет значительно ускорить этап предварительной обработки визуальной информации и снизить нагрузку на языковую модель (LLM), с которой визуальный кодер взаимодействует.
Исследования, проведённые командой разработчиков, показали, что традиционные модели сталкиваются с проблемой, когда по мере увеличения разрешения изображений время до генерации первого токена (TTFT) заметно возрастает. Это происходит по двум причинам: во-первых, усложняется и затягивается процесс кодирования визуальных данных, во-вторых, увеличивается число визуальных токенов, что замедляет процесс подготовки данных для языковой модели. FastVLM успешно устраняет эти узкие места, предлагая архитектурные инновации и эффективные алгоритмы предобработки. При сравнительном анализе различных архитектур визуальных кодеров, включая ViT-L/14, SigLIP-SO400, ConvNeXT и FastViT, FastViT проявил себя как наиболее сбалансированное решение по соотношению точности и скорости обработки. Однако при помощи дополнительной настройки и масштабирования FastViTHD показал еще более высокую эффективность при работе с высокими разрешениями, оставаясь при этом производительным и быстрым.
Более того, FastVLM демонстрирует превосходство над другими методами оптимизации, такими как сложные алгоритмы слияния и сокращения визуальных токенов, которые применялись ранее для уменьшения времени на обработку. FastVLM обеспечивает более высокую точность при меньшем числе токенов и проще в развертывании, что делает его особенно привлекательным для промышленного применения. Возросшая точность важна, особенно для задач, требующих глубокого понимания визуального контекста, таких как распознавание текстов в документах, анализ пользовательских интерфейсов и ответы на вопросы, основанные на содержимом изображений. К примеру, повышение разрешения изображения значительно влияет на правильность ответов модели, что ярко иллюстрируется примерами с распознаванием дорожных знаков. Помимо внутренней архитектурной оптимизации, FastVLM исследует и интегрирует подходы с динамическим тиклированием (dynamic tiling), при котором изображение разбивается на меньшие части, которые обрабатываются отдельно, а потом объединяются в единую визуальную репрезентацию.
Такая методика особенно полезна при работе с очень большими изображениями и позволяет балансировать между точностью и временем отклика. Результаты исследований показывают, что FastVLM без динамического тиклирования уже обеспечивает оптимальное соотношение эффективности и точности на большинстве промежуточных разрешений, однако на самых высоких он выигрывает, если комбинируется с AnyRes — одной из передовых систем динамического разбиения изображений. Важным достижением FastVLM является возможность работы на устройствах с ограниченными вычислительными ресурсами, включая современные смартфоны и ноутбуки. Быстрая и точная обработка изображений в реальном времени обеспечивает новые перспективы для развития приложений с поддержкой искусственного интеллекта непосредственно на конечных устройствах. Для демонстрации этого потенциала создано специальное мобильное приложение для iOS и macOS, которое функционирует на базе редакции FastVLM с 0.
5 миллиардами параметров. Оно демонстрирует время отклика, близкое к реальному, на примере задач визуального понимания, что подчеркивает практическую применимость решения. Комплексное тестирование и сравнительные анализы FastVLM с существующими моделями визуального языка показали значительное превосходство новой разработки. По скорости FastVLM опережает близкие по размеру модели Llava-OneVision более чем в 80 раз, SmolVLM — более чем в 5 раз, а Cambrian-1 — в 20 раз, при этом не уступая им в точности, а часто и превосходя по показателям. Такой высокий уровень производительности достигается благодаря тщательно проработанной архитектуре, оптимизации процессов подачи визуальных данных и простой интеграции с существующими языковыми моделями.
FastVLM не только способствует ускорению вычислений, но и упрощает архитектуру VLM, устраняя необходимость внедрять дополнительные сложные методы обработки токенов. Это паритетная победа с точки зрения инженеринга и практического использования. В итоге технология FastVLM становится значимым шагом в развитии моделей визуальных языков, позволяя реализовать амбициозные задачи, значительно повысить качество и скорость взаимодействия с изображениями высокого разрешения, а также расширить область использования таких моделей на мобильных и встроенных устройствах. Сочетая передовые исследования в области гибридных визуальных архитектур и прагматичный подход к оптимизации, FastVLM меняет представление о том, каким может быть следующий этап развития VLM. В обозримом будущем эта технология обещает ускорить прогресс во многих сферах, включая доступность, робототехнику, автоматическую обработку интерфейсов и сложный анализ визуальной информации.
Использование FastVLM в сочетании с моделями на базе MobileCLIP2 и иными современными решениями открывает новые горизонты для мультизадачного и мультимодального взаимодействия с миром, делая его более понятным, эффективным и доступным для машинного интеллекта и его пользователей.