音声とその音声のプレーンテキスト トランスクリプトがあると仮定すると、音声認識を使用して、この 2 つからプログラムで字幕を生成するにはどうすればよいでしょうか?
これは、YouTube がビデオの編集時にキャプション/字幕ページで提供するものと非常によく似ています。
これを行うために利用できる API は何ですか? それにはどのような課題がありますか?
私は Java/C# に最も精通していますが、これは言語に依存しません。
音声とその音声のプレーンテキスト トランスクリプトがあると仮定すると、音声認識を使用して、この 2 つからプログラムで字幕を生成するにはどうすればよいでしょうか?
これは、YouTube がビデオの編集時にキャプション/字幕ページで提供するものと非常によく似ています。
これを行うために利用できる API は何ですか? それにはどのような課題がありますか?
私は Java/C# に最も精通していますが、これは言語に依存しません。
これは、タイムスタンプまたはアラインメントと呼ばれます。CMUSphinxプロジェクト プロジェクトには、そのための特定のツールがあります。サブバージョンから確認できます。
http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/
使用方法については、を参照してください。