c++ - ビデオファイルで/上で音声認識を使用する方法は？

Question

音声認識エンジン（Microsoft Speech SDKを使用）をコーディングしてビデオファイルを「リッスン」し、検出をファイルに保存するにはどうすればよいですか？

score 2 · Accepted Answer

これはこの質問と非常によく似ており、非常によく似た答えがあります。オーディオ部分を分離し、WAV形式に変換して、inprocレコグナイザーに送信する必要があります。

ただし、前に説明したのと同じ問題があります（トレーニングが必要で、単一の音声を想定し、マイクがスピーカーの近くにあると想定します）。その場合は、かなり良い結果が得られる可能性があります。そうでない場合（つまり、テレビ番組を書き写そうとしている場合、またはさらに悪いことに、ある種のカムコーダーオーディオを書き写そうとしている場合）、結果は満足のいくものではない可能性があります。

c++ - ビデオファイルで/上で音声認識を使用する方法は？

1 に答える 1

Related

Reference