はい、私は音声認識がかなり複雑であることを知っています(控えめな表現として)。私が探しているのは、おそらく20〜30のフレーズを区別する方法です。単語を分割する機能(個別のスピーチで十分です)は便利ですが、必須ではありません。ソフトウェアはユーザーに依存します(つまり、私が使用します)。私は既存のソフトウェアを探していませんが、これを自分で行うための良い方法を探しています。私はさまざまな既存の方法を調べましたが、音を音素に分割することは一般的ですが、私のニーズにはやや過剰なようです。
状況によっては、いくつかの簡単な音声コマンドを使用して、コンピューターのいくつかの側面を制御する方法を探しています。Windowsにはすでに音声認識ソフトウェアが搭載されていることは承知していますが、これを学習演習として自分でやってみたいと思います。コマンドは「OpenGoogle」や「Mute」のように単純です。私が念頭に置いていたのは(これが良い考えかどうかはわかりませんが)、いくつかのコマンドは複合的であるということです。したがって、「ミュート」は単に「ミュート」になります。一方、「開く」コマンドは個別に認識され、その後に接尾辞が付けられます(Google、Photoshopなど)。別のネットワーク/モデル/その他で認識されます。しかし、この方法でプレフィックス/単語の区切りを探すことで、個々のコマンドの数を増やすよりも良い結果が得られるかどうかはわかりません。
私はパーセプトロン、ホップフィールドネットワーク(私が理解しているものからはやや時代遅れですが)、HMMを調べてきましたが、これらの背後にある考え方は理解していますが(以前にANNを実装したことがあります)、どれがこのタスクに最適です。線形ベクトル量子化モデルも適切だと思いますが、この目的のために多くの文献を見つけることはできません。任意のガイダンス/リソースをいただければ幸いです。