5

私は、ユーザーがマイクを介して自分の声を録音し、ストレージに保存して、特定のコンテンツ (連絡先など) にリンクできるようにする Android アプリを作成しています。後で、ユーザーがその声をもう一度呼び出すと、アプリはそれを保存されたオーディオ ファイルと比較し、声に一致するものを見つける必要があります。

私はたくさん検索し、これをオンラインで行ういくつかのライブラリを見つけました.EchoPrintは、録音されたオーディオからフィンガープリントを生成し、それをオープンソースサーバーに送信して結果を返します. しかし、私はこれをオフラインで行う必要があります。

そのようなライブラリを知っている人はいますか?

4

2 に答える 2

7

ユーザーの古い録音と着信時の新しい通話を比較することを目的としている場合、サーバー上の Python のDejavuや C++ のEchoprintなどのオーディオ フィンガープリンティング ソリューションは役に立ちません。それらは、録音された音声セグメントとノイズの認識と検索を行うためのものです。人間の声の可変性を処理することはできません。ここで説明を参照してください。

その場合、あなたが言及しているのは話者認識です。これははるかに難しく、かなりの機械学習が必要です。大規模なユーザー コーパス (特に電話でオフライン) に対してこれを行うのは難しいでしょうが、2 人のユーザーの間で判断する場合は実行可能かもしれません。

于 2014-11-05T18:14:56.850 に答える
1

以下は良いライブラリです。使いやすいです。ただし、その前にオーディオ ファイルを Wave 形式に変換する必要があります。

https://code.google.com/p/musicg/

于 2014-12-05T06:40:17.843 に答える