6

2 つの .wav ファイルを比較して、同じ単語が含まれているかどうかを判断する必要があります (順序も同じです)。

私はしばらくの間、最善の方法を探してきました。pyspeech でファイルを入力として使用する方法がわかりません。CMU sphinx プロジェクトを動作させようとしましたが、GStreamer を Python 27 で動作させることはできないようです。プロジェクトは言うまでもありません。私はDragonFlyをいじりましたが、運がありません。

Python27でWin7 64ビットを使用しています。誰にもアイデアはありますか?

どんな助けでも大歓迎です。

4

1 に答える 1

5

PySpeechを試すことができます。詳細については、pyspeech (python) - Transcribe mp3 files?を参照してください。. これを使用したことはありませんが、Windows の組み込みの音声認識エンジンを活用していると思います。これにより、Wav ファイルをテキストに変換し、テキスト比較を行うことができます。

Windows 音声エンジンを使用し、入力に wav ファイルを使用するには、2 つの要件があります。

  1. インプロセス認識エンジン (SpeechRecognitionEngine) を使用します。共有レコグナイザーは、Wav ファイルを入力として使用できません。
  2. 認識オブジェクトで SetInputToWaveFile を呼び出して、入力 wav ファイルを指定します。

音声認識エンジンは特定のサンプル レートしかサポートしていないため、wav ファイルの再サンプルが必要になる場合があります。

  • サンプルあたり 8 ビット
  • シングルチャンネルモノラル
  • 毎秒 22,050 サンプル
  • PCM エンコーディング

Windowsでうまく動作します。詳細については、 https://stackoverflow.com/a/6203533/90236を参照してください。

Windows 音声エンジンの背景については、SAPI と Windows 7 の問題System.Speech.Recognition と Microsoft.Speech.Recognition の違いをご覧ください。

于 2012-02-23T21:20:20.143 に答える