2

私はフェスティバルの2.1リリースを使用しています。172Mボイスをインストールして使用できました

(voice_cmu_us_slt_arctic_clunits)

品質は大幅に改善されましたが、望ましいとは言えません。世代はまだ多くのデフォルトを使用していると思います。これをさらに調整することは可能ですか (たとえば、qwiki.com エンジンの品質に近づけることができますか)? 適切な組み合わせが必要であることを理解しています

  • 合成方法
  • イントネーション/デュレーションの設定
  • オーディオ出力パラメータ
  • xx ?

しかし、すべての詳細を見つけるのは非常に困難です (進行は非常に遅い)。

ヒント、チュートリアル/ドキュメントへのリンク(古いバージョンですが、いくつかの理論の概要を提供します)、またはスキームのスニペットを歓迎します。

PS

これまでのところ、アルゴリズム自体の調整には興味がないことに注意してください (例: sphinxを使用した音声モデルのトレーニング)。

音声を生成するには、次のようなコマンドを使用します

(SayText "This is a short introduction ...")

./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav
4

0 に答える 0