1

ビデオの自動音声認識を探しています。私は正確な「書き起こし」を探しているのではなく、特定のキーワードを適切な精度で認識できるシステムを探しています。

私が直面しているように見える問題は、バックグラウンド ノイズ (群衆の歓声、拍手など) または音楽がある非音声ビデオ (たとえば、通常のテレビ録画) です。人間の声を「抽出」し、それをスフィンクスのような音声認識エンジンに渡すことを検討する必要がある既知のアプローチはありますか? これが非常に未解決の問題である可能性があることは理解していますが、少なくとも最初から、ここで超高精度を探しているわけではありません。いくつかの商用システムがこれでまともな仕事をしているのを見てきました。見始めるべき場所を探しています。

私はこの分野に慣れていないので、どんな助けも素晴らしいでしょう。

4

0 に答える 0