問題タブ [google-speech-to-text-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
209 参照

python - Cloud Function 内で非同期関数を実行する

Cloud Functions (python) を使用して、このチュートリアルで Speech-to-Text API を実装しようとしています。

Speech-to-Text 長期実行

ここに実装されているのは、非同期で長時間実行される関数です。私の目的は、Cloud Function でサイトから音声をダウンロードし、それを S3 に書き込んでから、その音声の S3 ロケーションで Speech-to-Text API クライアント関数を呼び出して、トランスサイブされたテキストを返すようにすることです。チュートリアルの短縮コードは次のとおりです。

ただし、オーディオが長すぎる場合、Cloud Function の最大タイムアウトにも収まらず、ログにタイムアウトが発生します。おそらく Speech-to-Text API によって終了されましたclient.long_running_recognizeが、Cloud Function はそれを待つことができません。この場合、どうすればよいですか?Python でライブラリを使用することasyncioは良い解決策ですか?

0 投票する
1 に答える
510 参照

asp.net-core-mvc - Google Speech To Text API の Twilio Base64 メディア ペイロードが応答しない

Google の音声テキスト変換 API を使用して、twilio 通話からリアルタイムの文字起こしを行う必要があり、これを設定する方法を示すいくつかのデモ アプリに従いました。私のアプリケーションは .net core 3.1 で、Twilio 定義のコールバック メソッドで Webhook を使用しています。コールバックを介して Twilio からメディアを取得すると、ここで確認できるように、Base64 でエンコードされた Raw オーディオとして渡されます。

https://www.twilio.com/docs/voice/twiml/stream

私はこのデモを Live Transcriptingでも参照しており、c# で case ステートメントを模倣しようとしています。すべてが正しく接続され、メディアとペイロードが Twilio から問題なくアプリに渡されます。

次に、音声文字列は byte[] に変換され、音声の書き起こしが必要な Task に渡されます。

ファイルまたはオーディオ入力 (マイクなど) からストリーミングする Google ドキュメントに基づいた例に従っています。ユース ケースが異なるのは、オーディオの各チャンクのバイトが既にあることです。私が参照した例は、ここで見ることができます。ストリーミング入力からの音声の書き起こし

以下は、生のオーディオバイトを使用していますが、後者の私の実装です。以下のこのタスクは、Twilio Websocket 接続がメディア イベントにヒットしたときにヒットします。ペイロードを直接渡します。while (await responseStream.MoveNextAsync())コンソール ログから、Print Responses hit... コンソール ログを取得していますが、ブロックに入らず、トランスクリプトをコンソールに記録しません。エラーは返されません (アプリケーションが壊れます)。これは可能ですか? また、バイトをメモリストリームオブジェクトにロードして、Google doc の例と同様に渡すことも試みました。