私は単純な TTS エンジンに取り組んでいます。レコーダーの音と音素の添字 (単一の発話の場合) を取り、音の音素の境界を設定する自動二音セグメンテーション システムがあるとよいでしょう。CMU Sphinx で実行できますか? どのバージョンの sphinx を使用すればよいですか?
質問する
4166 次
1 に答える
2
Sphinxtrain を使用して、話者に固有の話者依存モデルをトレーニングできます。トレーニングの詳細については、
http://cmusphinx.sourceforge.net/wiki/tutorialam
データベースをセグメント化するには、次のように sphinx3_align バイナリを使用できます。
sphinx3_align \
-hmm <model_dir> \
-dict dictionary.dic \
-ctl db.fileids \
-cepdir <feats_folder> \
-cepext .mfc \
-insent db.transcription \
-outsent db.out \
-phlabdir phlabdir
電話レベルのアライメントは、phlabdir というフォルダーに作成されます。
于 2013-04-10T18:12:01.653 に答える