多くのオーディオ形式 (mp3、m4a など)、ソース (ディクテーション、コマンド、電話、会議など)、デバイス (電話、PC、IoT デバイスなど) があります。Cloud Speech API で最もよく機能するのはどれですか?
質問する
785 次
1 に答える
4
Cloud Speech API で最もよく機能するのはどれですか?
サポートされているものが最適に機能します。
- LINEAR16 圧縮されていない 16 ビットの符号付きリトル エンディアン サンプル。これは、speech.asyncrecognize で使用できる唯一のエンコーディングです。
- FLAC これは、可逆圧縮を使用するため、speech.syncrecognize および StreamingRecognize に推奨されるエンコードです。したがって、非可逆コーデックによって認識精度が損なわれることはありません。
- G.711 PCMU/mu-law を使用して 14 ビット オーディオ サンプルを圧縮する MULAW 8 ビット サンプル。
- AMR アダプティブ マルチレート ナローバンド コーデック。sampleRate は 8000 Hz でなければなりません。
- AMR_WB アダプティブ マルチレート ワイドバンド コーデック。sampleRate は 16000 Hz でなければなりません。
https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding
于 2016-10-15T18:10:20.197 に答える