python - Python 音声比較

Question

2 つの .wav ファイルを比較して、同じ単語が含まれているかどうかを判断する必要があります (順序も同じです)。

私はしばらくの間、最善の方法を探してきました。pyspeech でファイルを入力として使用する方法がわかりません。CMU sphinx プロジェクトを動作させようとしましたが、GStreamer を Python 27 で動作させることはできないようです。プロジェクトは言うまでもありません。私はDragonFlyをいじりましたが、運がありません。

Python27でWin7 64ビットを使用しています。誰にもアイデアはありますか？

どんな助けでも大歓迎です。

score 5 · Accepted Answer

PySpeechを試すことができます。詳細については、pyspeech (python) - Transcribe mp3 files?を参照してください。. これを使用したことはありませんが、Windows の組み込みの音声認識エンジンを活用していると思います。これにより、Wav ファイルをテキストに変換し、テキスト比較を行うことができます。

Windows 音声エンジンを使用し、入力に wav ファイルを使用するには、2 つの要件があります。

インプロセス認識エンジン (SpeechRecognitionEngine) を使用します。共有レコグナイザーは、Wav ファイルを入力として使用できません。
認識オブジェクトで SetInputToWaveFile を呼び出して、入力 wav ファイルを指定します。

音声認識エンジンは特定のサンプルレートしかサポートしていないため、wav ファイルの再サンプルが必要になる場合があります。

サンプルあたり 8 ビット
シングルチャンネルモノラル
毎秒 22,050 サンプル
PCM エンコーディング

Windowsでうまく動作します。詳細については、 https://stackoverflow.com/a/6203533/90236を参照してください。

Windows 音声エンジンの背景については、SAPI と Windows 7 の問題とSystem.Speech.Recognition と Microsoft.Speech.Recognition の違いをご覧ください。

python - Python 音声比較

1 に答える 1

Related

Reference