私はフェスティバルの2.1リリースを使用しています。172Mボイスをインストールして使用できました
(voice_cmu_us_slt_arctic_clunits)
品質は大幅に改善されましたが、望ましいとは言えません。世代はまだ多くのデフォルトを使用していると思います。これをさらに調整することは可能ですか (たとえば、qwiki.com エンジンの品質に近づけることができますか)? 適切な組み合わせが必要であることを理解しています
- 合成方法
- イントネーション/デュレーションの設定
- オーディオ出力パラメータ
- xx ?
しかし、すべての詳細を見つけるのは非常に困難です (進行は非常に遅い)。
ヒント、チュートリアル/ドキュメントへのリンク(古いバージョンですが、いくつかの理論の概要を提供します)、またはスキームのスニペットを歓迎します。
PS
これまでのところ、アルゴリズム自体の調整には興味がないことに注意してください (例: sphinxを使用した音声モデルのトレーニング)。
音声を生成するには、次のようなコマンドを使用します
(SayText "This is a short introduction ...")
と
./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav