自動字幕生成プロジェクトに取り組んでいます。私のアプローチは 1. 音声抽出 (ffmpeg を使用して実行) 2. 音声からテキストへ (Sphinx 4 を使用して実行できますが、正確ではありません) 3. 字幕の生成です。(ここで私は助けが必要です)
人が文を読む音声ファイルがあるとします。C、C++、またはJavaプログラムでスピーチの開始時間と終了時間を知る方法
字幕ファイルの特定の行の開始時間と終了時間が必要です。では、会話の開始時刻と終了時刻を取得するにはどうすればよいでしょうか。
何か案は?
音響式でそれを行うことは可能ですか?