17

Google Cloud Speech API に対して非同期リクエストを実行していますが、操作の結果を取得する方法がわかりません:

リクエスト POST: https://speech.googleapis.com/v1beta1/speech:asyncrecognize

体:

{
    "config":{
                 "languageCode" : "pt-BR",
                 "encoding" : "LINEAR16",
                 "sampleRate" : 16000
             },
     "audio":{
                 "uri":"gs://bucket/audio.flac"
             }
}

どちらが返されますか:

{ "name": "469432517" }

だから、私は POST を行います: https://speech.googleapis.com/v1beta1/operations/469432517

どちらが返されますか:

{
    "name": "469432517",
    "metadata": {
        "@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeMetadata",
        "progressPercent": 100,
        "startTime": "2016-08-11T21:18:29.985053Z",
        "lastUpdateTime": "2016-08-11T21:18:31.888412Z"
    },
    "done": true,
    "response": {
                    "@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeResponse"
                }
}

操作の結果、文字起こしされたテキストを取得する必要があります。

どうやってやるの?

4

3 に答える 3

11

操作の結果があり、空です。空の結果の理由は、フォーマットの不一致です。「LINEAR16」ファイル(PCM非圧縮データ、基本的にはWAVファイル)を提出したはずが、FLAC(圧縮形式)を提出しようとしています。

空の結果のその他の理由として、サンプル レートが正しくない、チャネル数が正しくないなどの可能性があります。

最後に、純粋な無音のファイルは空の応答になります。

于 2016-08-12T02:40:08.413 に答える