cmusphinx - Sphinx を使用して、フレーズ内の話し言葉の開始/終了時間を特定する

Question

フレーズ内の個々の単語の開始/終了時間を特定しようとしています。フレーズと発話のテキストの WAV ファイルがあります。

これら 2 つのデータ (オーディオ、テキスト) を組み合わせて Sphinx の認識能力を向上させるインテリジェントな方法はありますか? 出力として欲しいのは、フレーズ内の各単語の正確な開始/停止時間です。

(ポケットスフィンクスに渡して、探している時間データを取得できることは知っていますが-time yes、音声認識自体はあまり正確ではありません。)

私が扱っているコーパスにはさまざまな話者が含まれているため、解決策は特定の話者には当てはまりません。ただし、彼らはすべて米国英語を使用しています。

score 0 · Accepted Answer

そのための特定のツールがあります - sphinx4 のオーディオアライナーです。確認してもいい

1 に答える 1