Sonata нейронные голоса для NVDA

Это дополнение реализует драйвер синтезатора речи для NVDA, использующий нейронные модели TTS. Он поддерживает Piper.

Piper - это быстрая, локальная нейронная система преобразования текста в речь, которая отлично звучит и оптимизирована для устройств низкого класса, таких как Raspberry Pi.

Вы можете послушать образцы голоса Пайпера здесь: Piper voice samples.

Это дополнение использует Sonata: Кроссплатформенный движок Rust для нейронных TTS-моделей, который разрабатывается Мушаррафом Омером.

Установка

Загрузка дополнения

Вы можете найти пакет дополнения в разделе assets на странице релиза

Добавление голосов

Дополнение представляет собой просто драйвер, по умолчанию оно не содержит голосов. Вам необходимо загрузить и установить нужные голоса из менеджера голосов.

После установки дополнения и перезапуска NVDA, дополнение попросит вас загрузить и установить хотя бы один голос, и предложит открыть менеджер голосов.

Вы также можете открыть менеджер голосов из главного меню NVDA.

Обратите внимание, что мы рекомендуем выбирать голоса низкого или среднего качества для вашего целевого языка (языков), поскольку они обычно обеспечивают лучшую отзывчивость. Для повышения отзывчивости вы можете загрузить быстрый вариант голоса, заплатив за это несколько более низким качеством речи.

Вы также можете установить голоса из локальных архивов. Получив файл голоса, откройте менеджер голосов, на вкладке "Установленные" нажмите кнопку Установить из локального файла. Выберите файл голоса, подождите, пока он установится, и перезапустите NVDA, чтобы обновить список голосов.

Замечание о качестве голоса

Доступные на данный момент голоса обучены на основе свободно распространяемых наборов данных TTS, которые, как правило, имеют низкое качество (в основном это аудиокниги, находящиеся в открытом доступе, или записи исследовательского качества).

Кроме того, эти наборы данных не являются полными, поэтому некоторые голоса могут демонстрировать неправильное или странное произношение. Обе проблемы можно решить, если использовать для обучения более качественные наборы данных.

К счастью, разработчик Piper и некоторые разработчики из сообщества слепых и слабовидящих работают над обучением более качественных голосов.

Лицензия

Copyright(c) 2024, Мушарраф Омер. Это программное обеспечение лицензируется на условиях GNU GENERAL PUBLIC LICENSE Version 2 (GPL v2).