festival - フェスティバル TTS の品質を調整するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/8781806 2012-01-08T22:09:07.293

1999 次

私はフェスティバルの2.1リリースを使用しています。172Mボイスをインストールして使用できました

(voice_cmu_us_slt_arctic_clunits)

品質は大幅に改善されましたが、望ましいとは言えません。世代はまだ多くのデフォルトを使用していると思います。これをさらに調整することは可能ですか (たとえば、qwiki.com エンジンの品質に近づけることができますか)? 適切な組み合わせが必要であることを理解しています

しかし、すべての詳細を見つけるのは非常に困難です (進行は非常に遅い)。

ヒント、チュートリアル/ドキュメントへのリンク(古いバージョンですが、いくつかの理論の概要を提供します)、またはスキームのスニペットを歓迎します。

これまでのところ、アルゴリズム自体の調整には興味がないことに注意してください (例: sphinxを使用した音声モデルのトレーニング)。

音声を生成するには、次のようなコマンドを使用します

(SayText "This is a short introduction ...")

と

./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav

0 に答える 0