language-agnostic - 音声認識による既存のトランスクリプトからの字幕の生成

Question

音声とその音声のプレーンテキストトランスクリプトがあると仮定すると、音声認識を使用して、この 2 つからプログラムで字幕を生成するにはどうすればよいでしょうか?

これは、YouTube がビデオの編集時にキャプション/字幕ページで提供するものと非常によく似ています。

これを行うために利用できる API は何ですか? それにはどのような課題がありますか?

私は Java/C# に最も精通していますが、これは言語に依存しません。

score 3 · Accepted Answer

これは、タイムスタンプまたはアラインメントと呼ばれます。CMUSphinxプロジェクトプロジェクトには、そのための特定のツールがあります。サブバージョンから確認できます。

使用方法については、を参照してください。

1 に答える 1