4

一見簡単そうに見えるタスクを実行する方法へのポインタを得るのに苦労しています。

オーディオ ストリームが与えられた場合、話された単語の数をリアルタイムでどのように数えますか?

単語が何であるかを認識する必要はありませんが、発声された単語に対して正確なカウンターを持っているだけです。カウンターは正確すぎる必要はなく、発話や咳などの他の「うなり声」を考慮することさえできます。

すべての音声認識システムは、話された音素を分析してある程度の精度で既知の単語に変換する前に、あらかじめ定義された文法が提供されることに依存しているようです。しかし、正確さはまったく気にしませんが、言葉が話される速度が気になります。

重要なのは、これがリアルタイムで実行され、特定の数の単語が話された後にシステムがアラートを提供できるようにすることです. システムは視覚的な合図で一時停止を促し、話者は話を続けることができます。

CMU Sphinx FAQ を調べたところ、「ワード スポッティング」の考え方がまだサポートされていないことがわかりました。特定の単語をリアルタイムで検索する必要はありませんが、探しているものにより近くなっています。波形内の非常に小さな無音部分を探すのは非常に大雑把な方法のようで、おそらくまったく正確ではありませんが、私が今持っているのはそれだけです。

アルゴリズム、研究論文、またはその他の洞察に関する指針をいただければ幸いです。

4

0 に答える 0