私は非常に基本的なロボット工学プロジェクトに取り組んでおり、音声認識を実装したいと考えています。複雑なことはわかっていますが、3つか4つのコマンド(または単語)だけでやりたいと思っています。
私はwavinを使ってオーディオを録音できることを知っています。しかし、オーディオ信号でリアルタイムの振幅分析を行いたいのですが、どうすればそれができるのでしょうか。波形は 8 ビット、モノとして入力されます。
信号を特定の時間のセットに分割し、さらに小さなサブセットに分割し、サブセットの平均 rms 値を取得してからそれらを合計し、実際に保存された信号とどれだけ異なるかを確認することを考えました。エラーがセットのすべて (またはほとんど) の許容値を下回っている場合は、その単語を出力します。
これはどのように実装できますか?他の提案も提供していただければ、それは素晴らしいことです。
前もって感謝します。