В эпоху стремительного развития искусственного интеллекта и повсеместного внедрения больших языковых моделей (Large Language Models, LLM) ключевым вызовом становится обеспечение их высокой производительности на мобильных устройствах при минимальном энергопотреблении. Современные смартфоны зачастую сталкиваются с ограничениями по мощности процессоров, отсутствием специализированных нейроморфных чипов и высокой тепловой нагрузкой. Российская и мировая индустрия высокотехнологичных решений активно ищет ответы на эти проблемы. Одним из перспективных проектов в данной сфере выступает Cactus — инновационный движок инференса, оптимизированный специально под смартфоны, ориентированный на энергоэффективность, совместимость и широкое распространение. Cactus позиционируется как современное решение для выполнения ИИ-задач на ARM-архитектуре, которая доминирует в мобильных процессорах, и может успешно конкурировать или дополнять такие инструменты, как Ollama, ориентированный в основном на мощные десктопные системы.
Роскошная нервная сеть теперь в вашем кармане — так можно кратко описать основную идею Cactus. Одной из основных характеристик проекта является ориентация на CPU и специализированные ARM ядра, при этом особое внимание уделяется минимизации энергопотребления и тепловыделения. Около 70% современных смартфонов не оснащены собственными нейропроцессорами (NPU), на которые оптимизированы многие популярные ИИ-платформы. Это означает, что вводимые вычисления приходится выполнять на центральном процессоре, что традиционно связано с высокими расходами энергии и, как следствие, сильным нагревом устройства. Cactus предлагает набор энергоэффективных ядров и оптимизированных вычислительных графов, благодаря которым такой запуск становится возможным без серьезных потерь в скорости и качестве.
Технология базируется на низкоуровневых SIMD-операциях для ARM CPU, что позволяет максимально эффективно использовать доступные ресурсы. Помимо этого, уже заложена перспектива поддерживать обработку на DSP, ISP и будущем NPU, что сделает движок пригодным как для бюджетных смартфонов, так и для флагманов с продвинутым аппаратным обеспечением. Важной особенностью Cactus является его универсальность и масштабируемость. Движок реализует единую безкопийную вычислительную граф-систему, что упрощает разработку и внедрение моделей, а также ускоряет выполнение инференса. Такой подход напоминает концепции, применяемые в JAX и других фреймворках для научных вычислений, однако адаптирован для мобильных ARM-процессоров.
Cactus предоставляет разработчикам удобные C API, позволяя интегрировать решения в мобильные приложения с минимальными усилиями. В качестве примера можно привести запуск моделей семейства Qwen — они уже успешно работают на многочисленных смартфонах с отдачей до 70 токенов в секунду для 600-миллионной версии модели. Скорость обработки существенно превышает привычные показатели в мобильной среде и реализуется при низком энергопотреблении. Сравнение энергопотребления демонстрирует превосходство Cactus в этой области. Например, на рядом популярных флагманских смартфонах процент сжигаемой батареи в минуту для задач инференса языковых моделей крайне мал, зачастую не превышая 0.
3-0.5%. То есть использование ИИ-моделей перестает быть недостатком с точки зрения автономности. Для сравнения, традиционные подходы на GPU либо вовсе невозможны на большинстве устройств, либо снижают время работы от батареи очень сильно. Еще один плюс решения — компактность моделей и вес форматов.
Cactus моделей сжат до 370-420 мегабайт в формате INT8, что значительно меньше по сравнению с распространенными форматами ONNX, TFLite или GGUF. Уменьшение размера не только экономит место на устройстве, но и ускоряет загрузку и инициализацию, что важно для мобильных приложений с быстрым откликом. Размер файлов имеет особое значение в условиях ограниченной памяти и пропускной способности мобильных каналов связи. Разработка и оптимизация Cactus ведется активно с открытым исходным кодом на GitHub, что позволяет привлекать сообщество разработчиков и AI-энтузиастов по всему миру. Исторически движок стартовал с поддержкой множества популярных моделей и форматов весов, а также предоставляет инструменты для конвертации весов из HuggingFace, что облегчает перенос обученных моделей в оптимизированный формат.
Сегодня Cactus не ограничен только языковыми моделями. Работают и модели embedding (встраивания текста), что открывает двери для создания поисковых систем, рекомендаций и анализа естественного языка на смартфонах. В планах разработчиков расширение поддержки мультимодальных моделей, таких как визуальные и аудио-модели (Whisper, SmolVLM), а также инструменты для автоматизированного портирования моделей из других сред, включая Torch и JAX. Это позволит сохранить выгоду при внедрении новых моделей ИИ без необходимости полной переработки окружения. Кроме того, Cactus готовится к интеграции с аппаратными ускорителями будущего — NPU, DSP и ISP.
Это позволит вывести производительность и энергоэффективность мобильных ИИ-приложений на принципиально новый уровень. В целом, Cactus можно охарактеризовать как комплексное решение для воспроизведения современных ИИ-моделей на смартфонах с разумным энергопотреблением и высокой производительностью. Движок успешно закрывает проблемы совместимости с большинством существующих ARM-устройств, обеспечивая плавность и скорость работы. Применение технологии открывает широкие возможности для разработчиков мобильных приложений, позволяя добавлять интеллектуальные функции, ранее доступные только на серверах или мощных ПК. Cactus уже используется в продакшене, обрабатывая сотни тысяч запросов еженедельно, что подтверждает его технологическую зрелость и востребованность.
Говоря о конкуренции, Cactus позиционируется как альтернатива или дополнение к таким решениям, как Ollama, которые традиционно работают на десктопах, а Cactus концентрируется на смартфонах. Другие популярные фреймворки вроде Llama.cpp и vLLM ориентированы на x86-архитектуру, что делает их менее эффективными для ARM-устройств. Поэтому Cactus заполняет важную нишу в мире мобильных ИИ-приложений. По мере расширения возможностей и оптимизации Cactus поможет разрабатывать интеллектуальные ассистенты, чат-боты, голосовые помощники и другие приложения, способные работать локально на смартфоне без необходимости постоянного подключения к облачному серверу.