В условиях стремительного развития искусственного интеллекта и широкого распространения больших языковых моделей (LLM), таких как ChatGPT и аналоги, возникает острая необходимость в точных, прозрачных и стандартизированных методах оценки производительности этих моделей на различных устройствах. На фоне этого вызова ведущая консорциум MLCommons выпустил новую версию своего тестового пакета MLPerf Client v1.0, что стало значимым шагом вперёд для рынка AI ПК и клиентских систем. MLPerf — это уже признанный индустриальный стандарт для тестирования производительности машинного обучения и искусственного интеллекта на разных площадках, от дата-центров до мобильных устройств. Однако раньше в центре внимания в основном были крупные серверные решения, а вопросы оценки LLM именно на пользовательских ПК и других клиентских устройствах не имели столь масштабного, системного подхода.
MLPerf Client v1.0 меняет это положение, предлагая единую, открыту и надёжную платформу для замеров, важную как для производителей оборудования, так и для разработчиков программного обеспечения и конечных пользователей. Одной из ключевых особенностей MLPerf Client v1.0 стало расширение набора поддерживаемых языковых моделей. В качестве стандартных тестируемых образцов теперь включены популярные и актуальные модели, такие как Llama 2 7B Chat, Llama 3.
1 8B Instruct и Phi 3.5 Mini Instruct. Эти модели охватывают разные размеры и задачи, представляя широкий спектр сценариев использования - от интерактивного общения до выполнения команд и инструкций. Более того, MLPerf Client ввёл экспериментальную поддержку модели Phi 4 Reasoning 14B, ориентированной на высокоуровневые рассуждения, что даёт возможность оценить перспективные технологии и подготовиться к будущим вызовам в области искусственного интеллекта. Важным нововведением стало расширение категорий используемых промтов — запросов, по которым происходит проверка моделей.
Теперь в число тестовых сценариев входят структурированные промты для анализа кода, что крайне актуально для разработчиков программного обеспечения, стремящихся оценить, насколько хорошо ИИ может понимать и генерировать сложный программный код. Дополнительно введены тесты по суммаризации на длинных контекстах, обрабатывающих до 4 000 и 8 000 токенов, что соответствует реальным задачам, с которыми сталкиваются продвинутые пользователи и профессионалы, работающие с большим объёмом текста. Поддержка аппаратного обеспечения и платформ также была значительно расширена. Теперь MLPerf Client v1.0 поддерживает сотрудничество AMD NPUs и GPU через ONNX Runtime и Ryzen AI SDK, улучшая производительность на платформах с процессорами AMD.
Аналогично Intel NPUs и GPU можно использовать с помощью OpenVINO, что ещё раз подчеркивает ориентацию на широчайший спектр устройств и решений. Важным аспектом является универсальная поддержка GPU от AMD, Intel и NVIDIA через ONNX Runtime GenAI с DirectML, что гарантирует совместимость и максимальную производительность на различных графических процессорах. Отдельно стоит отметить интеграцию с аппаратными средствами Qualcomm. Поддержка гибридной работы NPU и CPU с использованием Qualcomm Genie и QAIRT SDK значительно расширяет потенциал для производительных и энергоэффективных решений на базе мобильных и встроенных систем. Для пользователей Apple Mac добавлена поддержка через MLX и возможности llama.
cpp с Metal, что делает MLPerf Client кроссплатформенным инструментом, подходящим для самых разных устройств от Windows-ПК до ноутбуков и мобильных систем Apple. Помимо официальных вариантов, MLPerf Client предлагает экспериментальные пути ускорения. Работа с Microsoft Windows ML при помощи OpenVINO даёт дополнительные опции для Intel платформ, а қуникальная поддержка NVIDIA GPU через llama.cpp с CUDA позволяет гибко использовать вычислительные ресурсы на популярных графических картах. Поддержка Apple Metal с помощью llama.
cpp открывает путь к эффективным вычислениям на Mac GPU. Отдельно стоит выделить интерфейсы, доступные пользователям MLPerf Client v1.0. Помимо традиционной командной строки (CLI), ориентированной на автоматизацию и интеграцию в скрипты или масштабные тестирования, в пакете представлен полноценный графический интерфейс (GUI). Он обеспечивает удобство использования, делая процесс бенчмаркинга интуитивно понятным даже для непрофессионалов.
Пользователь получает в реальном времени отображение загрузки вычислительных ресурсов и памяти, возможность сравнения результатов нескольких тестов, а также экспорт данных в CSV для более глубокой офлайн-аналитики. Такой подход значительно повышает удобство и практическую ценность инструмента. Выпуск MLPerf Client v1.0 стал результатом тесного сотрудничества между ключевыми игроками отрасли: AMD, Intel, Microsoft, NVIDIA, Qualcomm и ведущими производителями ПК. Это свидетельствует о высокой значимости инициативы и стремлении индустрии к выработке единого, честного и адаптируемого стандарта.
Доступный для свободного скачивания с официального сайта mlcommons.org, MLPerf Client продолжит эволюционировать, учитывая новые модели, задачи и аппаратные инновации. Комментируя запуск, Рамеш Джалади, сопредседатель рабочей группы MLPerf Client в MLCommons, отметил, что новая версия бенчмарка предлагает надежный и нейтральный стандарт для измерения возможностей ИИ на потребительских системах. Он подчеркнул, что такие инструменты необходимы как OEM-производителям, так и поставщикам кремния, техническим рецензентам и конечным пользователям, желающим точно оценить возможности своих устройств. Таким образом, MLPerf Client v1.
0 устанавливает новую планку для тестирования производительности больших языковых моделей на ПК и клиентских устройствах. Этому способствует не только расширение поддерживаемого спектра моделей и сценариев, но и масштабная поддержка аппаратных платформ. Это важный шаг к более прозрачному, понятному и доступному миру AI, где каждый сможет на практике понять, как именно работает интеллектуальный функционал в конкретных условиях. Появление стандартизированных бенчмарков, таких как MLPerf Client, также способствует ускорению развития технологий и более быстрому внедрению инноваций в массы, облегчая задачу оценки и сравнения сложных систем. В итоге, это не только польза для индустрии и бизнеса, но и преимущество для пользователей, которые смогут выбирать и использовать AI-инструменты максимально эффективно.
MLCommons как консорциум продолжает укреплять свою репутацию ведущего координатора в мире машинного обучения, объединяя экспертов и разработчиков для улучшения качества и доступности искусственного интеллекта. Появление MLPerf Client v1.0 уверенно подтверждает стремление организации вести индустрию к открытому и справедливому анализу производительности ИИ в самых разных сегментах рынка.