後で他のオーディオファイルと簡単に比較できるように、認識可能なオーディオを録音するプログラムに取り組んでいます。音声ファイルにはスピーチのようなものが含まれるので、何が簡単にできるのだろうと思っていました:
- 音声認識のアルゴリズムを実装し、その出力を保存・比較し、
- または、たとえば高速フーリエ変換を使用してオーディオ指紋のようなものを作成し、それらを比較するアルゴリズムを実装/作成しますか?
誰かその分野で経験がありますか?2番目の解決策が比較的短期間で実現できるかどうか疑問に思っています. たぶん、コーディングがそれほど難しくない解決策があり、私はそれを見つけられませんか?