1

フレーズ内の個々の単語の開始/終了時間を特定しようとしています。フレーズと発話のテキストの WAV ファイルがあります。

これら 2 つのデータ (オーディオ、テキスト) を組み合わせて Sphinx の認識能力を向上させるインテリジェントな方法はありますか? 出力として欲しいのは、フレーズ内の各単語の正確な開始/停止時間です。

(ポケットスフィンクスに渡して、探している時間データを取得できることは知っていますが-time yes、音声認識自体はあまり正確ではありません。)

私が扱っているコーパスにはさまざまな話者が含まれているため、解決策は特定の話者には当てはまりません。ただし、彼らはすべて米国英語を使用しています。

4

1 に答える 1

0

そのための特定のツールがあります - sphinx4 のオーディオ アライナーです。確認してもいい

http://cmusphinx.sourceforge.net/2014/07/long-audio-aligner-landed-in-trunk/

于 2014-12-02T23:08:03.103 に答える