mp3 - Sphinx 4 を使用した mp3 認識

Question

wavファイルを使わずにmp3ファイルを音声認識処理に使用できますか? または、mp3 から wav ファイルを生成し、精度に深刻な影響を与えずに音声認識を実行できますか? 問題は、アプリケーションでネットワークを介して転送される負荷を最小限に抑える必要があることです。変換で失われる情報は、精度の大きな要因になりますか?

score 1 · Accepted Answer

wavファイルを使用せずに音声認識プロセスにmp3ファイルを使用できますか？

直接ではありません。mp3ストリームを認識できるようにするには、Javaライブラリを使用してmp3を読み取り、pcmストリームに変換する必要があります（tritonus-mp3、lameonj）。デコードする別のプロセスとしてffmpegを呼び出すこともできます。

または、mp3からwavファイルを生成してから、精度に深刻な影響を与えることなく音声認識を実行できますか？

mp3ファイルをどこでデコードしても、どちらの場合も精度が影響を受けます。

問題は、アプリケーションでネットワークを介して転送される負荷を最小限に抑える必要があることです。変換で失われる情報は、精度の大きな要因になりますか？

転送にはflacのような損失のないコーデックを使用することをお勧めします。mp3変換は、ASRの精度を低下させます。もう1つのアプローチは、クライアントの機能を計算してサーバーに転送することです。

mp3 - Sphinx 4 を使用した mp3 認識

1 に答える 1

Related

Reference