neural-network - 簡単な音声認識方法

Question

はい、私は音声認識がかなり複雑であることを知っています（控えめな表現として）。私が探しているのは、おそらく20〜30のフレーズを区別する方法です。単語を分割する機能（個別のスピーチで十分です）は便利ですが、必須ではありません。ソフトウェアはユーザーに依存します（つまり、私が使用します）。私は既存のソフトウェアを探していませんが、これを自分で行うための良い方法を探しています。私はさまざまな既存の方法を調べましたが、音を音素に分割することは一般的ですが、私のニーズにはやや過剰なようです。

状況によっては、いくつかの簡単な音声コマンドを使用して、コンピューターのいくつかの側面を制御する方法を探しています。Windowsにはすでに音声認識ソフトウェアが搭載されていることは承知していますが、これを学習演習として自分でやってみたいと思います。コマンドは「OpenGoogle」や「Mute」のように単純です。私が念頭に置いていたのは（これが良い考えかどうかはわかりませんが）、いくつかのコマンドは複合的であるということです。したがって、「ミュート」は単に「ミュート」になります。一方、「開く」コマンドは個別に認識され、その後に接尾辞が付けられます（Google、Photoshopなど）。別のネットワーク/モデル/その他で認識されます。しかし、この方法でプレフィックス/単語の区切りを探すことで、個々のコマンドの数を増やすよりも良い結果が得られるかどうかはわかりません。

私はパーセプトロン、ホップフィールドネットワーク（私が理解しているものからはやや時代遅れですが）、HMMを調べてきましたが、これらの背後にある考え方は理解していますが（以前にANNを実装したことがあります）、どれがこのタスクに最適です。線形ベクトル量子化モデルも適切だと思いますが、この目的のために多くの文献を見つけることはできません。任意のガイダンス/リソースをいただければ幸いです。

score 3 · Accepted Answer

音声認識にはいくつかのオープンソースプロジェクトがあります。

HTK（隠れマルコフモデルツールキット）
スフィンクス

どちらにもデコーダー、トレーニング、言語モデルツールキットがあります。完全で堅牢な音声認識機能を構築するためのすべて。Voxforgeには、両方のオープンソース音声認識ツールキット用の音響モデルと言語モデルがあります。

score 2 · Accepted Answer

少し前に、簡単な認識プロセスを使用した限られた語彙システムに関するホワイトペーパーを読みました。システムは、各発話を少数のビンに分割し（正確に覚えていれば、合計24の場合、時間は6、大きさは4）、各ビンのサンプルオーディオ測定の数をカウントするだけでした。次に、各発話を24ビンカウントで解釈し、解釈を生成するファジー論理ルールベースがありました。

（一部のアプリケーションでは）単純なマッチングプロセスも同様に機能する可能性があると思います。このプロセスでは、現在の発話の24のビンカウントが、保存されている各プロトタイプのビンカウントと単純にマッチングされ、全体的な違いが最も少ないのは勝者。

neural-network - 簡単な音声認識方法

2 に答える 2

Related

Reference