В современном мире технологии синтеза речи играют важную роль в развитии цифрового взаимодействия между человеком и машиной. От голосовых ассистентов до систем автоматического озвучивания книг и сервисов трансляции разговоров — задача преобразования текста в речь (TTS) становится всё актуальнее. Одной из новейших и наиболее перспективных моделей, предлагающих уникальные возможности в этой сфере, является Kyutai 1.6B Streaming TTS. Несмотря на название, модель имеет 1.
8 миллиарда параметров и представляет собой значительно продвинутую разработку в области стримингового синтеза речи. Особенность этой технологии заключается в том, что она начинает генерировать аудио сразу при получении первых слов текста, обеспечивая минимальную задержку и, как следствие, максимально реалистичное и естественное звучание речи в режиме реального времени. Kyutai 1.6B Streaming TTS построена на архитектуре иерархического трансформера, которая сочетает в себе высокую производительность и гибкость. Она работает с токенизированным текстом и использует токены аудио, построенные на базе технологии Mimi, описанной в научной работе Moshi.
Частота кадров при генерации аудио составляет 12.5 Гц, при этом каждый аудио-кадр представлен 32 токенами. В процессе инференса есть возможность уменьшить количество токенов для ускорения генерации, что позволяет адаптировать модель под любые ресурсы и задачи. Модель состоит из двух основных компонентов: основной трансформер с 1 миллиардом параметров и так называемый «глубокий» трансформер с 600 миллионами параметров, который применяет частичное разделение весов, подобно другим современным системам, таким как Hibiki. Отличительной чертой Kyutai TTS является акустико-семантическая задержка, которая составляет 2 шага, что обеспечивает синхронность звука и текста с задержкой всего 1.
28 секунды благодаря сдвигу аудио на 16 шагов относительно текста. Такая работа придаёт синтезируемой речи плавность и естественность, которая ранее была сложнодостижима для большинства стриминговых систем синтеза речи. Важным преимуществом модели является возможность голосового управления через предварительно вычисленные эмбеддинги голосов, которые загружаются с помощью механизма кросс-аттенции. В репозитории tts-voices доступны несколько таких голосов, что позволяет эффективно применять Kyutai в диалоговых системах, обеспечивая разнообразие и адаптацию голоса под конкретные нужды пользователей. При этом разработчики акцентируют внимание на безопасности и этичности, ограничивая клонирование голосов только этими предустановленными эмбеддингами, исключая возможность свободного копирования любых голосов.
Технология стриминга в TTS — это особое достижение, которое делает Kyutai уникальной по сравнению с традиционными офлайн-моделями, формирующими аудиотрек только после обработки полного текста. Начинать говорить по мере получения текста крайне важно, например, в ситуациях живого общения, подкастах, радио или в системах онлайн-перевода. При этом качество и точность остаются на высоком уровне, что подтверждается числом пользователей и частотой загрузок модели. Обучение Kyutai 1.6B Streaming TTS проводилось на огромных объёмах данных — около 2.
5 миллионов часов открытого аудиоконтента, снабжённого автоматическими транскрипциями с использованием системы Whisper. Обучение происходило на современном аппаратном обеспечении Nvidia H100 с применением 32 графических процессоров, что говорит о масштабности и высоких вычислительных затратах проекта. После основного этапа предобучения была проведена дополнительная дистилляция с использованием техники Classifier Free Guidance для ускорения работы и улучшения качества вывода без необходимости увеличения размера пакета данных. Модель лицензирована на условиях Creative Commons BY 4.0 — это означает открытую доступность для исследователей, разработчиков и компаний, готовых внедрять современные технологии синтеза речи на базе Kyutai.
Обширная документация, репозитории на GitHub, примеры на Google Colab и предустановленные голоса позволяют быстро начать работу и интегрировать модель в реальные проекты. Кроме того, Kyutai 1.6B Streaming TTS показывает высокую производительность с точки зрения пропускной способности — способна генерировать речь с эффективностью, превышающей 75 разное количество аудио на единицу времени по сравнению с вычислительными затратами. Это делает её привлекательным решением для коммерческих сервисов, где необходимы скоростные ответы и высокая точность воспроизведения. Тем не менее, модель пока не запущена на сервисах инференса, что открывает перспективы для новых разработчиков и провайдеров, заинтересованных в предоставлении облачных TTS-услуг с поддержкой Kyutai.
В контексте защиты авторских прав и предотвращения нелегального копирования голосов, Kyutai отказывается от использования систем «водяных знаков» в звуке. Разработчики отмечают, что существующие на данный момент методы легко деактивируются при повторном кодировании аудио, а значит, не обеспечивают надёжной защиты. Вместо этого ориентируются на контроль доступа к эмбеддингам голосов, что является более надёжным и этически оправданным решением. Применение технологии Kyutai 1.6B Streaming TTS может быть многогранным.
Её ценность проявляется там, где важна быстрая реакция системы, естественное звучание и возможность работы с несколькими языками — в частности, английский и французский. Сферы использования варьируются от автоматизированных колл-центров и образовательных платформ до интерактивных помощников и трансформеров контента для соцсетей и стриминг-платформ. Разработка Kyutai стала возможной благодаря усилиям международной команды учёных и инженеров, объединивших опыт в области обработки естественного языка, машинного обучения и аудиотехнологий. Её успех демонстрирует, как сочетание теоретических исследований и мощного железа позволяет создавать инструменты, способные обеспечить качественное взаимодействие человек-компьютер на новом уровне. На сегодняшний день Kyutai 1.
6B Streaming TTS представляет собой одну из самых передовых разработок в области синтеза речи. Её архитектура и технические решения создают фундамент для появления ещё более гибких и точных систем, способных не только озвучивать текст, но и передавать эмоции, интонации и контекст в режиме реального времени. В будущем такие технологии могут стать стандартом в разнообразных приложениях — от медиаконтента и образования до виртуальной реальности и общения с искусственным интеллектом. Таким образом, Kyutai 1.6B Streaming TTS меняет представление о том, как может работать синтез речи.
Возможность генерации качественной аудиоречи в режиме стриминга открывает новые горизонты для разработчиков и бизнесов, повышая взаимодействие с пользователями и создавая более естественные голосовые интерфейсы. Благодаря открытому доступу и активному сообществу вокруг проекта можно ожидать дальнейшего развития и интеграции модели в самые разные области жизни и технологий, что делает Kyutai не просто инновацией, а значимой вехой в эволюции голосовых систем.