python - この DeepSpeech Python プログラムの結果が、コマンドラインインターフェースから取得した結果と異なるのはなぜですか?

Question

Mozilla の DeepSpeech Speech-To-Text エンジンについて学んでいます。コマンドラインインターフェースは問題なく動作しましたが、Python インターフェースの動作が異なっているようです。私が実行すると：

deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio testFile3.wav

sox で生成された PCM、16 ビット、モノラル 48000 Hz .wav ファイルでは、次のようになります。

test test apple benana

「バナナ」を意味するときに「ベナナ」を差し引いたものは、テストした他のファイルと一緒に正常に動作するようです。このチュートリアルからの次のコードを使用しようとすると、問題が発生します。

import deepspeech
import scipy.io.wavfile as wav
import sys

ds=deepspeech.Model(sys.argv[1],26,9,sys.argv[2],500)
fs,audio=wav.read(sys.argv[3])
processed_data=ds.stt(audio,fs)

print(processed_data)

次のコマンドでコードを実行します。

python3 -Bi test.py models/output_graph.pb models/alphabet.txt testFile3.wav

特定のファイルに応じて、異なる 4 文字の応答が得られます。この特定のファイルから得た応答はでし'hahm'たが、'hmhm'と' eo'も一般的です。パラメータをモデル (25、9、および 500) に変更しても、出力は変わらないようです。

python - この DeepSpeech Python プログラムの結果が、コマンド ライン インターフェースから取得した結果と異なるのはなぜですか?

2 に答える 2

Related

Reference

python - この DeepSpeech Python プログラムの結果が、コマンドラインインターフェースから取得した結果と異なるのはなぜですか?