ios - Compare Two Audio(locally stored pre-recorded voice command and recorded from microphone in app) in iOS

Question

In-app, I have to compare live recording from previously locally stored voice command if it matches(not only text but also identified person's voice) then perform necessary action.

1-match voice commands from the same person.

2-match command 's text.

I applied many ways but none are working as per my expectation.

First: use Speech to text Library like OpenEars,SpeechKit but these libraries convert only text from speech.

Result: Failed As My expectation

Second:(Audio Finger printing)

acrcloud Library : in this library, I record a command and stored that mp3file on acrcloud server and match with live recording(spoken by me) it doesn't match but when I play the same recording(recorded MP3 file of my voice ) which is uploaded to the acrcloud server then it matches. Result: Failed As My expectation

API.AI : in this library,it is like speech to text ,I stored some text command on his server and then anyone speaks the same command the result get success. Result: Failed As My expectation

Please Suggest me how to solve this problem for iOS Application

score 1 · Accepted Answer

あなたの要件を正しく理解している場合、これは私がこれにアプローチする方法です：

人に合わせて各録音のオーディオスペクトルを比較する必要があります (Accelerate フレームワークの vDSP を見てください)。 - スペクトル内の 10 個のピークとそこからの実験。簡単な FFT の実装については、EZAudioをチェックしてください。
スピーチからテキストへのライブラリを使用して、テキストを一致させます。スピーチのアクセントは通常、結果をかなり歪めます。そのため、テキストでコマンドを指定して照合するのではなく、オーディオと比較の両方からテキストを取得することから始めることになるでしょう。

幸運を！

score 1 · Accepted Answer

http://www.politepix.com/openears/はobjective-cで使用できます。または、迅速に試してみたい場合はhttp://blog.tryolabs.com/2015/06/15/tlsphinx-automatic-speech-recognition-asrを試してください-in-swift/ . 私はそれらを使用したことはありませんが、必要なものはすべて揃っているようです。C++ ライブラリを探そうとしない場合は、さらに多くのオプションがあるはずですが、ほとんどの場合、典型的な移植の問題に対処する必要があります。自分で作成することはお勧めしません。テクニックを学ぶのに時間を費やしてから、信号処理ライブラリをインポートしてから独自のアルゴリズムの作成を開始するためです。もちろん、時間と興味がある場合を除きます。

音声認識ソフトウェアが通常開発されるのと同じ方法でアプリの統合を開始することをお勧めします。一連の例を記録し、テストを構築し、物事が軌道に乗っているかどうかを頻繁に検証します。

音声認識作業 (単語認識と話者認識の両方) を行っているときに学んだ重要なことの 1 つは、録音の品質が、その音声で何ができるかに大きな影響を与えるということでした。できるだけ静かな場所で少量の録音を行うと、実際の録音と比較するためのベンチマークが常に得られます。

また、すべての iphone マイクが同等に作成されているという本質的な保証はないため、後の段階で実際のアプリケーションで見つかるすべてのマイクをカバーするようにしてください。iPhoneのモデルが変わってもまったく変わらないと思いますが、誰が知っていますか?

score -2 · Accepted Answer

一般に、方法 1 を少し調整して使用する必要があると思います。ローカルオーディオ用。次のようなテキストスクリプトバージョンを追加します。1 オーディオ、ソーススクリプト録音オーディオ用。オーディオをテキストに変換するには、OpenEars、SpeechKit を使用します。

結果を得るために、ソーススクリプトとテキストを比較してみてください。最適な比較結果を得るには、ソーススクリプトでどのテキストにアクセントを付ける必要があるかをマークする必要があります。時々、ワイン、妻、白などの言葉があります...（これも考えてみてください）

GL HF

ios - Compare Two Audio(locally stored pre-recorded voice command and recorded from microphone in app) in iOS

3 に答える 3

Related

Reference