Home Assistant стал одной из самых популярных платформ для умного дома, предоставляя пользователям широкие возможности по автоматизации и управлению устройствами. Одной из ключевых составляющих удобства взаимодействия с системой является голосовой ассистент, который постоянно развивается и совершенствуется. В июне 2025 года был опубликован важный релиз — Голосовая глава 10, которая привнесла существенные улучшения во множество аспектов голосовых технологий Open Voice. Эта веха знаменует собой переход к более быстрому, надежному и универсальному голосовому управлению, способному поддерживать широкий спектр языков и устройств. Цель проекта Open Voice — создание полностью открытой и доступной каждому платформы голосового ассистента, которая работает как с облачными сервисами, так и в локальном режиме, обеспечивая высокий уровень приватности и автономности.
«Голосовая глава 10» — это не просто очередное обновление, это приглашение к сообществу разработчиков и пользователей принять участие в развитии проекта, делая его лучше и адаптированнее под разные потребности. Одним из важных направлений стало интегрирование всех ключевых функций голосового ассистента в ESPHome — фирменную прошивку, лежащую в основе многих устройств с открытым исходным кодом. Теперь все необходимые компоненты, такие как поддержка запуска по ключевым словам (wake words), воспроизведение высококачественной музыки и управление объемом звука в случае уведомлений, интегрированы в единую платформу. Благодаря этому удалось значительно повысить производительность и уменьшить нагрузку на процессор. Для примера, на устройствах Voice Preview Edition проверка и декодирование нескольких аудиопотоков одновременно занимали более 70% ресурсов, а теперь этот показатель снижен почти вдвое, что открывает возможности для работы на более слабом оборудовании, например, таких как ATOM Echo.
Интересной новинкой стало публичное размещение проекта Voice Preview Edition с полным набором файлов для создания собственного голосового устройства — электрическая схема, макеты печатных плат и прошивки. Это позволяет энтузиастам и производителям создавать кастомизированные решения на основе исходных наработок. Можно добавить мощные динамики, датчики присутствия или даже дисплей с фирменным талисманом Nabu, что расширяет горизонты применения голосового ассистента и его возможностей. Большое внимание уделяется развитию технологии Speech-to-Phrase — локального распознавания речи, оптимизированного под ограниченный набор команд. Эта система отличается высокой скоростью работы на устройствах с ограниченными ресурсами, таких как Raspberry Pi и Home Assistant Green, и сохраняет приватность, так как все данные обрабатываются локально без отправки в облако.
Обновленная система позволяет более точно формировать предложения и учитывать особенности грамматики различных языков. Например, во французском языке правильное использование артиклей перед словами, начинающимися с гласных, значительно улучшает качество распознавания и снижает ошибки. Коллекция поддерживаемых языков расширилась до 21, включая такие редкие и национальные языки как баскский, монгольский, суахили и тайский. Это стало возможным благодаря сотрудничеству с сообществом и использованию открытых моделей от проекта Coqui STT. Хотя точность распознавания зависит от языка и железа, непрерывная работа над улучшением моделей и расширением базы команд обещает сделать ассистента еще более универсальным.
Не менее важным элементом экосистемы является текст-в-речь с озвучиванием Piper. Это локальное решение с естественным звучанием настраиваемых голосов получило поддержку новых языков и голосовых актёров. Теперь Piper охватывает 39 языков и диалектов, что значительно увеличивает количество пользователей, которые могут пользоваться голосовым ассистентом на родном языке без облачных сервисов. В Home Assistant голосовые команды запускают специальные действия — интенты, которые позволяют включать устройства, менять цвет освещения или управлять другими функциями. Обновленная система теперь чётко разделяет поддержку имен устройств и областей, что позволит легче выявлять и исправлять пробелы в переводах и адаптации под конкретный язык.
Большой прорыв произошел и в функциональности продолженного разговора. Теперь если ассистент использует крупные языковые модели (LLM), он способен поддерживать диалог с пользователем, задавая уточняющие вопросы и не требуя повторную активацию фразы «Ok Nabu». Появилась возможность автоматического запуска диалогов из сценариев и дашбордов, что открывает новые способы интеграции голосового помощника в домашнюю автоматизацию. Новым важным элементом стала функция поиска и воспроизведения медиафайлов. Голосовой ассистент научился воспринимать команды типа «Воспроизведи музыку в гостиной», что стало большим подспорьем для управления музыкальными коллекциями и мультирум-системами.
Интент поиска и воспроизведения доступен как для LLM-агентов, так и в виде статических фраз, что обеспечивает широкий охват языков и условий использования. В планах на будущее — реализация важнейших сценариев диалога с голосовым ассистентом. К числу таких задач относится подтверждение важных команд, например, разблокировки двери или включения сложных сценариев. Ассистент сможет запросить вербальное подтверждение от пользователя, что повысит безопасность использования. Также планируется развивать систему уточнения параметров — если команда была неполной, Assist задаст дополнительные вопросы, чтобы выполнить запрос максимально точно.
Кроме того, в разработке находятся расширенные возможности по созданию кастомных разговоров. Пользователи смогут самостоятельно создавать сценарии общения, которые запускаются по разным событиям, например, когда человек входит в комнату или начинает вечернюю рутину. Это позволит персонализировать взаимодействие с голосовым ассистентом до нового уровня. Голосовой ассистент Home Assistant вместе со всеми своими открытыми технологиями – это пример того, как открытый софт меняет рынок умных домов, делая голосовое управление доступным и удобным для каждого. Усовершенствования в главе 10 показывают серьезные шаги вперед в плане производительности, расширения языковой базы и качества взаимодействия с пользователем.
Эти достижения стали возможными благодаря активному участию сообщества, поддержке разработчиков и стремлению к прозрачности. Для тех, кто только начинает знакомиться с голосовыми технологиями Home Assistant, существует удобный мастер настройки, который учитывает доступность и качество поддержки конкретного языка. Это помогает сделать выбор между облачными и локальными решениями, исходя из возможностей оборудования и предпочтений по приватности. В итоге, десятой главой голосового проекта Open Voice заложена прочная основа для дальнейшего развития виртуальных ассистентов домашней автоматизации. Будущее за гибкими, безопасными и мультиязычными системами, которые будут понимать и поддерживать пользователей вне зависимости от языка и технических ограничений.
Голосовой ассистент Home Assistant становится все ближе к идеалу — настоящему помощнику, доступному каждому, кто хочет управлять своим домом ненавязчиво и эффективно.