1

後で他のオーディオファイルと簡単に比較できるように、認識可能なオーディオを録音するプログラムに取り組んでいます。音声ファイルにはスピーチのようなものが含まれるので、何が簡単にできるのだろうと思っていました:

  • 音声認識のアルゴリズムを実装し、その出力を保存・比較し、
  • または、たとえば高速フーリエ変換を使用してオーディオ指紋のようなものを作成し、それらを比較するアルゴリズムを実装/作成しますか?

誰かその分野で経験がありますか?2番目の解決策が比較的短期間で実現できるかどうか疑問に思っています. たぶん、コーディングがそれほど難しくない解決策があり、私はそれを見つけられませんか?

4

1 に答える 1

1

アコースティック フィンガー プリンティングを見てみましょう。ほとんどのコードは github で見つけることができます。問題の解決に役立つはずです。より具体的には、https://github.com/lalinsky/chromaprint/tree/master/tools

詳細については、このスレッドを参照してください。このトピックは、オープン ソースのオーディオ パターン認識 (フィンガー プリンティング)およびカスタム音声コマンドの作成 (GNU/Linux)で既に広く取り上げられています。

于 2014-03-29T05:09:53.203 に答える