音声のサンプリング レートとビット深度がシステムのトレーニング データと一致する場合、認識結果は最適になります。
では、Microsoft Speech Platform で使用されている正確なサンプリング レートやビット深度 (および/またはステレオ/モノラル) を知っている人はいますか? もしそうなら、どこでこの情報を入手したか覚えていますか?
SAPI ではなく、MS Speech Platform を使用していることに注意してください。両方が同じトレーニング データを使用していない限り、それは同じではありません。正確に言うと - 私はこれを使用します :
私の最初の試みは、ページにある C++ コードの例に基づいています。