audio - 人が文を読む音声ファイルがあるとします。C、C++、またはJavaプログラムでスピーチの開始時間と終了時間を知る方法

Question

自動字幕生成プロジェクトに取り組んでいます。私のアプローチは 1. 音声抽出 (ffmpeg を使用して実行) 2. 音声からテキストへ (Sphinx 4 を使用して実行できますが、正確ではありません) 3. 字幕の生成です。（ここで私は助けが必要です）

人が文を読む音声ファイルがあるとします。C、C++、またはJavaプログラムでスピーチの開始時間と終了時間を知る方法

字幕ファイルの特定の行の開始時間と終了時間が必要です。では、会話の開始時刻と終了時刻を取得するにはどうすればよいでしょうか。

何か案は？

音響式でそれを行うことは可能ですか？

score 0 · Accepted Answer

私はそれが非常に遅いことを知っています。しかし、私はsphinx4を使用してこれを行いました。オーディオの開始時間は必要ありません。Sphinx4 は、認識された単語ごとに時間を提供します。あなたはそれを使うことができます。この研究論文は役に立ちます。

1 に答える 1