私のアプリケーションの一部として、音声認識を追加しようとしていますが、実際には従来の意味ではありません。誰かが歌っている歌詞 (詩に分かれている) がたくさんありますが、その考えは、現在歌われている詩を見つけて、画面に表示できるようにすることです。
私はスフィンクスで遊んで、いくつかの基本的な例をセットアップして動作させましたが、遅延を待ってから結果を処理できる音声テキストの登録に関するドキュメントがたくさんあるようですが、あまり見つけられません文を連続的に認識するという考え。これはもちろん、言葉が歌われ、話されていない部分に到達する前のことです!
誰かがこれを経験したことがありますか?もしそうなら、良い出発点を提供する場所はありますか? それとも、私が達成しようとしていることがスフィンクスであまりにも野心的であり、実際に適切に機能することはありませんか? 私は他のライブラリを見ることにもオープンですが、それらは無料である必要があり、Sphinx は私が掘り下げることができるライブラリについて最も広く話題になっていました。