google-cloud-speech - Cloud Speech API でサポートされている音声の種類は何ですか?

翻译自：https://stackoverflow.com/questions/38485515 2016-07-20T16:04:55.627

785 次

0

多くのオーディオ形式 (mp3、m4a など)、ソース (ディクテーション、コマンド、電話、会議など)、デバイス (電話、PC、IoT デバイスなど) があります。Cloud Speech API で最もよく機能するのはどれですか?

1 に答える 1

4

Cloud Speech API で最もよく機能するのはどれですか?

サポートされているものが最適に機能します。

LINEAR16 圧縮されていない 16 ビットの符号付きリトルエンディアンサンプル。これは、speech.asyncrecognize で使用できる唯一のエンコーディングです。
FLAC これは、可逆圧縮を使用するため、speech.syncrecognize および StreamingRecognize に推奨されるエンコードです。したがって、非可逆コーデックによって認識精度が損なわれることはありません。
G.711 PCMU/mu-law を使用して 14 ビットオーディオサンプルを圧縮する MULAW 8 ビットサンプル。
AMR アダプティブマルチレートナローバンドコーデック。sampleRate は 8000 Hz でなければなりません。
AMR_WB アダプティブマルチレートワイドバンドコーデック。sampleRate は 16000 Hz でなければなりません。

https://cloud.google.com/speech/reference/rest/v1beta1/RecognitionConfig#AudioEncoding

于 2016-10-15T18:10:20.197 に答える