話し言葉を音声ファイルと比較し、それらが一致するかどうかを判断するにはどうすればよいですか?たとえば、iPhoneアプリケーションに「リンゴ」と言った場合、音声を録音して、「リンゴ」と言っている人の録音済みの音声ファイルと比較したいと思います。2つの話された単語が一致することを決定できるはずです。
この種の音声ベースのオーディオファイルマッチングを実行するには、どのようなアルゴリズムまたはライブラリを使用できますか?
話し言葉を音声ファイルと比較し、それらが一致するかどうかを判断するにはどうすればよいですか?たとえば、iPhoneアプリケーションに「リンゴ」と言った場合、音声を録音して、「リンゴ」と言っている人の録音済みの音声ファイルと比較したいと思います。2つの話された単語が一致することを決定できるはずです。
この種の音声ベースのオーディオファイルマッチングを実行するには、どのようなアルゴリズムまたはライブラリを使用できますか?
You should look up Acoustic Fingerprinting see wikipedia link below. Shazam is basically doing it for music.
この質問は古いことは知っていますが、今日このライブラリを発見しました:
ニューラルネットワークライブラリを使用して、さまざまな音声パターンを認識するように教えることができます。これには、ニューラルネットワークの一般的な理論の背後にある方法と、特定の方法で動作するシステムを作成するためにニューラルネットワークを使用する方法についての知識が必要になります。主題について何も知らない場合は、基本的なことから始めて、自分で何かを実装するのではなく、ライブラリを使用することができます。お役に立てば幸いです。
Sphinx は音声認識とポケットを実行しますSphinx は Brian King によって iPhone に移植されました
https://github.com/KingOfBrian/VocalKitを確認してください
彼は優れた詳細を提供し、自分で簡単に実装できるようにしました. 私は彼の例を実行し、自分の表現を変更しました。