Наш новый LLM-based синтез речи
Краткое резюме
Разработан новый синтез речи GigaTTS на основе GigaChat 3b, отличающийся высокой естественностью звучания. Модель в 2–4 раза превосходит предыдущие разработки.
Мы разработали новую модель синтеза речи, которую назвали GigaTTS. В её основе лежит GigaChat 3b, аудиоадаптер, специальный токенизатор речи и массив данных объёмом 30 тысяч часов. При этом модель не использует диффузию.
Для создания GigaTTS была проведена значительная работа по обучению модели, настройке студии и подготовке обучающих данных. Результат превзошёл ожидания: новый синтез речи звучит очень естественно, почти как человек. Модель способна имитировать смех и выражать эмоции с различными нюансами.
По сравнению с предыдущими моделями наш новый синтез демонстрирует в 2–4 раза лучшие результаты, особенно в плане естественности звучания голоса.
В следующем материале мы представим детальный технический обзор, объясняющий, как нам удалось достичь такого высокого качества синтеза. Мы покажем примеры freespeech, а также специально разработанные голоса для операторов колл-центров. Кроме того, мы поделимся подробностями о том, как нам удалось реализовать синтез текста любой длины, функцию prompt following и технологию клонирования голосов.