個人的なプロジェクトのためのアドバイスを探しています。
カスタマイズされた音声コマンドを作成するためのソフトウェアを作成しようとしています。目標は、ユーザー/私がコマンド/マクロを定義するためのオーディオデータ(2/3秒)を記録できるようにすることです。次に、ユーザーが話す(同じ音声データを録音する)と、コマンド/マクロが実行されます。ソフトウェアは、低コストのコンピューター(RaspberryPiなど)で1秒未満の処理時間でコマンドを検出できる必要があります。
私はすでに2つの方法で検索しました:-音声認識(CMU-Sphinx、Julius、simon):優れたオープンソースソリューションがありますが、多くの場合、大きなデータベースファイルが必要であり、音声認識は実際には私がやろうとしていることではありません。音声認識は、小さな機能には電力を消費しすぎる可能性があります。-オーディオ指紋(Chromaprint-> http://acoustid.org/chromaprint):それは私が探しているものとほぼ同じようです。原則は、生のオーディオデータからフィンガープリントを作成し、フィンガープリントを比較して、それらが同一であるかどうかを判断することです。ただし、この種のソフトウェア/ライブラリは、曲の識別用に設計されているようです(スマートフォンの有名なソフトウェアのように):私は優れた「コンパレータ」を構成しようとしていますが、うまくいかないと思います。
専用のソフトウェアやコードの一部が似たようなことをしていることを知っていますか?
任意の提案をいただければ幸いです。