フレーズ内の個々の単語の開始/終了時間を特定しようとしています。フレーズと発話のテキストの WAV ファイルがあります。
これら 2 つのデータ (オーディオ、テキスト) を組み合わせて Sphinx の認識能力を向上させるインテリジェントな方法はありますか? 出力として欲しいのは、フレーズ内の各単語の正確な開始/停止時間です。
(ポケットスフィンクスに渡して、探している時間データを取得できることは知っていますが-time yes
、音声認識自体はあまり正確ではありません。)
私が扱っているコーパスにはさまざまな話者が含まれているため、解決策は特定の話者には当てはまりません。ただし、彼らはすべて米国英語を使用しています。