Mozilla の DeepSpeech Speech-To-Text エンジンについて学んでいます。コマンド ライン インターフェースは問題なく動作しましたが、Python インターフェースの動作が異なっているようです。私が実行すると:
deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio testFile3.wav
sox で生成された PCM、16 ビット、モノラル 48000 Hz .wav ファイルでは、次のようになります。
test test apple benana
「バナナ」を意味するときに「ベナナ」を差し引いたものは、テストした他のファイルと一緒に正常に動作するようです。このチュートリアルからの次のコードを使用しようとすると、問題が発生します。
import deepspeech
import scipy.io.wavfile as wav
import sys
ds=deepspeech.Model(sys.argv[1],26,9,sys.argv[2],500)
fs,audio=wav.read(sys.argv[3])
processed_data=ds.stt(audio,fs)
print(processed_data)
次のコマンドでコードを実行します。
python3 -Bi test.py models/output_graph.pb models/alphabet.txt testFile3.wav
特定のファイルに応じて、異なる 4 文字の応答が得られます。この特定のファイルから得た応答は でし'hahm'
たが、'hmhm'
と' eo'
も一般的です。パラメータをモデル (25、9、および 500) に変更しても、出力は変わらないようです。