В мире искусственного интеллекта постоянно происходят революционные изменения, и последние инновации в мобильных технологиях не исключение. Одним из самых ярких прорывов стала модель Gemma 3n – разработка, представляющая собой новый стандарт для on-device AI, способный работать с мультимодальными данными и обеспечивать высокий уровень производительности на устройствах с ограниченными ресурсами. Gemma 3n не просто очередная языковая модель – это комплексное решение, открывающее перед разработчиками новые возможности и позволяющее создавать продвинутые приложения, которые работают непосредственно на устройстве без необходимости подключения к облаку. Первый релиз семейства Gemma появился в начале прошлого года и уже за это время приобрел огромную популярность, собрав более 160 миллионов загрузок и став основой для создания множества специализированных моделей, направленных на защиту, медицину и другие сферы. Разработчиками Gemma 3n была учтена обратная связь от сообщества, что позволило создать мобильную архитектуру, идеально подходящую для практического применения и легкой интеграции с популярными инструментами.
Одной из ключевых инноваций стала нативная поддержка мультимодальности: модель может обрабатывать тексты, изображения, аудио и видео, а также генерировать текстовые ответы. Такой подход радикально расширяет спектр возможных приложений – от систем распознавания речи и перевода до сложных визуальных анализов и интерактивных мультимедийных решений. Важнейшей особенностью Gemma 3n выступает оптимизация под on-device использование. Модель доступна в двух вариантах по размеру параметров — E2B и E4B — что соответствует эффективным параметрам 2 и 4 миллиарда, несмотря на то, что общий объем параметров составляет 5 и 8 миллиардов соответственно. Такой компромисс достигается благодаря архитектурным инновациям, которые позволяют работать с меньшим объемом памяти — около 2 гигабайт для меньшей модели и 3 гигабайт для более мощной.
Благодаря этому можно запускать Gemma 3n на обычных смартфонах и других мобильных устройствах без потери качества и функциональных возможностей. В основе модели лежит революционная архитектура MatFormer, или Матрешка-Трансформер. Она получила свое название благодаря концепции вложенных моделей, напоминающей русский сувенир. Старшая версия модели включает в себя младшие версии, которые могут функционировать автономно, что позволяет разработчикам использовать и настраивать модель под собственные нужды. При обучении большой изначальной версии одновременно оптимизируется и маленькая подмодель, что предоставляет гибкость: можно выбирать между максимальной производительностью или ускоренным временем отклика.
В дальнейшем планируется добавить функцию эластичного исполнения, позволяющую переключаться между моделями в реальном времени в зависимости от текущей задачи и загрузки устройства, чего пока ещё нет в релизе, но это открывает перспективы для динамичного управления ресурсами. Ещё одним значительным достижением является внедрение технологии Per-Layer Embeddings, которая существенно сокращает память, необходимую для хранения весов модели на графическом ускорителе. Благодаря ей, большая часть параметров модели может быть загружена и обрабатываться центральным процессором, освобождая ценные ресурсы VRAM. Это особенно важно для мобильных устройств, где аппаратные ограничения сильно влияют на комфорт использования AI. Новая технология позволяет использовать Gemma 3n, загружая в память ускорителя лишь ядро модели, сохраняя при этом высокое качество работы и минимизируя задержки.
Обработка длинных последовательностей данных — ещё один вызов в on-device AI. Gemma 3n справляется с этой задачей благодаря KV Cache Sharing, технологии, которая ускоряет этап предварительной обработки входных данных, зачастую называемый фазой prefill. Эта оптимизация даёт двукратное улучшение скорости обработки сложных и продолжительных запросов, что особенно полезно при работе с потоковыми аудио и видео, когда необходимо быстро реагировать на поступающую информацию. Параллельно с текстовым и визуальным пониманием, Gemma 3n показывает впечатляющие результаты в области звукового анализа. Новый аудиоэнкодер, созданный на базе Universal Speech Model, разделяет аудиосигнал на высокоточные токены, которые интегрируются в языковую модель.
Это открывает доступ к функциям автоматического распознавания речи и перевода аудио прямо на устройстве, без обязательного подключения к интернету. Особенно эффективна модель в переводе устной речи между английским, испанским, французским, итальянским и португальским языками. На сегодняшний день аудиоэнкодер обрабатывает отрезки длительностью до 30 секунд, но сама архитектура поддерживает потоковую обработку длительных аудио, что обещает дальнейшее развитие и появление новых сценариев применения. В визуальной части Gemma 3n использует новый, усовершенствованный энкодер MobileNet-V5-300M. Эта модель превосходит по производительности и эффективности предыдущие версии, поддерживая различные разрешения изображений от 256×256 до 768×768 пикселей, что позволяет оптимизировать баланс между качеством анализа и ресурсами устройства.
MobileNet-V5 хорошо подходит для задач реального времени, способна обрабатывать до 60 кадров в секунду на устройстве Google Pixel с Edge TPU, что открывает перспективы для использования в интерактивных видеоприложениях и прочих проектах, где нужна высокая скорость и точность. Основа нового визуального энкодера — усовершенствованные блоки MobileNet-V4, которые дополняются инновационной архитектурой в виде глубокой пирамиды и адаптером Multi-Scale Fusion, повышающим качество восприятия визуальных данных и эффективность при работе с мультимодальными задачами. По сравнению с базовой моделью SoViT в Gemma 3, MobileNet-V5 показала ускорение работы в 13 раз при квантизации и одновременно уменьшила размер модели почти в 2 раза, что значительно облегчает внедрение в мобильные решения. Для разработчиков Gemma 3n предоставляет богатые возможности. Модель интегрирована с популярными инструментами и платформами, включая Hugging Face Transformers, llama.
cpp, Google AI Edge Gallery, Ollama и многие другие. Это обеспечивает простоту использования, настройку и развертывание как на персональных устройствах, так и в облачных сервисах. Специально созданные утилиты, такие как MatFormer Lab, позволяют легко создавать кастомизированные версии модели. Благодаря широкому сообществу и партнерствам, а также программе Gemma 3n Impact Challenge с призовым фондом в 150 тысяч долларов, разработчики мотивируются создавать инновационные и социально значимые проекты, используя потенциал on-device AI. Для желающих быстро познакомиться с возможностями Gemma 3n предусмотрена возможность запуска модели через Google AI Studio, а также доступ к весам моделей на Hugging Face и Kaggle.