speech-recognition - 強制整列音素認識に CMU Sphinx を使用する方法は?

Question

私は単純な TTS エンジンに取り組んでいます。レコーダーの音と音素の添字 (単一の発話の場合) を取り、音の音素の境界を設定する自動二音セグメンテーションシステムがあるとよいでしょう。CMU Sphinx で実行できますか? どのバージョンの sphinx を使用すればよいですか?

score 2 · Accepted Answer

Sphinxtrain を使用して、話者に固有の話者依存モデルをトレーニングできます。トレーニングの詳細については、

http://cmusphinx.sourceforge.net/wiki/tutorialam

データベースをセグメント化するには、次のように sphinx3_align バイナリを使用できます。

  sphinx3_align \
    -hmm <model_dir> \
    -dict dictionary.dic \
    -ctl db.fileids \
    -cepdir <feats_folder> \
    -cepext .mfc \
    -insent db.transcription \
    -outsent db.out \
    -phlabdir phlabdir

電話レベルのアライメントは、phlabdir というフォルダーに作成されます。

speech-recognition - 強制整列音素認識に CMU Sphinx を使用する方法は?

1 に答える 1

Related

Reference