9

私のアプリケーションの一部として、音声認識を追加しようとしていますが、実際には従来の意味ではありません。誰かが歌っている歌詞 (詩に分かれている) がたくさんありますが、その考えは、現在歌われている詩を見つけて、画面に表示できるようにすることです。

私はスフィンクスで遊んで、いくつかの基本的な例をセットアップして動作させましたが、遅延を待ってから結果を処理できる音声テキストの登録に関するドキュメントがたくさんあるようですが、あまり見つけられません文を連続的に認識するという考え。これはもちろん、言葉が歌われ、話されていない部分に到達する前のことです!

誰かがこれを経験したことがありますか?もしそうなら、良い出発点を提供する場所はありますか? それとも、私が達成しようとしていることがスフィンクスであまりにも野心的であり、実際に適切に機能することはありませんか? 私は他のライブラリを見ることにもオープンですが、それらは無料である必要があり、Sphinx は私が掘り下げることができるライブラリについて最も広く話題になっていました。

4

1 に答える 1

3

少し遅れて発音されるとすぐに音声を認識することは完全に可能です。さらに、多かれ少なかれ理解している場合、何を期待していますか。これは「部分結果」と呼ばれ、API を介してすべての CMUSphinx デコーダーで利用できます。基本的には進行中の仮説を取得できます。

この結果を安定させる方法 (安定した部分を抽出する方法) について考慮すべき小さな問題がありますが、この手法はバックトラッキングと呼ばれ、簡単に実装できます。

歌の場合は、音楽をフィルターで除外できるので、それも可能です。

于 2011-09-14T10:22:04.990 に答える