2

私は単純な TTS エンジンに取り組んでいます。レコーダーの音と音素の添字 (単一の発話の場合) を取り、音の音素の境界を設定する自動二音セグメンテーション システムがあるとよいでしょう。CMU Sphinx で実行できますか? どのバージョンの sphinx を使用すればよいですか?

4

1 に答える 1

2

Sphinxtrain を使用して、話者に固有の話者依存モデルをトレーニングできます。トレーニングの詳細については、

http://cmusphinx.sourceforge.net/wiki/tutorialam

データベースをセグメント化するには、次のように sphinx3_align バイナリを使用できます。

  sphinx3_align \
    -hmm <model_dir> \
    -dict dictionary.dic \
    -ctl db.fileids \
    -cepdir <feats_folder> \
    -cepext .mfc \
    -insent db.transcription \
    -outsent db.out \
    -phlabdir phlabdir

電話レベルのアライメントは、phlabdir というフォルダーに作成されます。

于 2013-04-10T18:12:01.653 に答える