問題タブ [google-cloud-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
785 参照

google-cloud-speech - Cloud Speech API でサポートされている音声の種類は何ですか?

多くのオーディオ形式 (mp3、m4a など)、ソース (ディクテーション、コマンド、電話、会議など)、デバイス (電話、PC、IoT デバイスなど) があります。Cloud Speech API で最もよく機能するのはどれですか?

0 投票する
1 に答える
1973 参照

java - Google パッケージ「com.google.cloud.speech.v1beta1」が見つかりません

Google Cloud Speech API を使用して音声を認識しようとしています。
のサンプルコードに従っています

https://github.com/GoogleCloudPlatform/java-docs-samples/tree/master/speech/grpc

run は完了しましたが、Spring MVC アプリケーションで使用されているパッケージがmvn package見つかりません。com.google.cloud.speech.v1beta1

com.google.cloud.speech.v1beta1 パッケージを解決できる

このパッケージを見つける方法、または Spring MVC maven プロジェクトで使用する方法を教えてください。ありがとう。

0 投票する
1 に答える
914 参照

java - Wowza Stream を Google Cloud Speech API に送信するには?

Wowza は、rtsp://、rtmp://、および m3u8 ストリームを提供してくれます。これを Google Cloud Speech API に送信したいので、その場でストリーミングを書き起こします。

この API は純粋なバイト表現のみを受け取ることができるようで、Githubのサンプルはファイルでそれを行う方法を示しています。

Wowza リンクを使用してこれを達成するにはどうすればよいですか?

編集:私の質問は異なります。もう 1 つの質問では、その機能を提供するサービスを求めています。この質問では、具体的には Google Cloud Speech と、その API を使用してそれを行う方法について話しています。

0 投票する
3 に答える
10681 参照

google-api - Google Speech Recognition API の結果が空です

Google Cloud Speech API に対して非同期リクエストを実行していますが、操作の結果を取得する方法がわかりません:

リクエスト POST: https://speech.googleapis.com/v1beta1/speech:asyncrecognize

体:

どちらが返されますか:

{ "name": "469432517" }

だから、私は POST を行います: https://speech.googleapis.com/v1beta1/operations/469432517

どちらが返されますか:

操作の結果、文字起こしされたテキストを取得する必要があります。

どうやってやるの?

0 投票する
0 に答える
139 参照

node.js - Google Streaming Speech Recognize Got Error "Aborted: error -83105"

gRPC StreamingRecognize を使用して wav ファイルを認識すると、次のエラーが発生することがあります。そして、私はそれを解決する方法がわかりませんでした。

0 投票する
0 に答える
329 参照

speech-to-text - インタビューを書き起こすための Google Cloud Speech API の設定

テキストに書き起こす必要があるドキュメンタリーのビデオ インタビューに関連する 100 時間以上の音声を持っています。うまくいけば、30 秒ごとに何らかのタイムコード マーカーを付けて、ビデオを編集中のテキストと簡単に一致させることができます。スイート。

ファイルは BWAV 24 ビット 96khz および WAV 16 ビット 48khz で、20 分から 2 時間続きます。

この種のアクティビティを実行するには、VM でどのような種類のリソースをセットアップする必要がありますか? かなり計算量が多いため、VM には 32 個のコアとかなりの量のメモリが必要になると思われますが、リアルタイムの応答は必要ないため、優先度が低く、ファイルの処理に数時間かかる場合でも問題ありません。私の予算はごくわずかです。$300 は、すべてのファイルに対して余裕のある最高額です (これが、これらのファイルを $75+/時間でトランスクリプション サービスに送信しない理由の 1 つです)。

すでに Cloud Platform アカウントを持っていますが、使用したことはありません。誰かがすでに同様のことを行っていて、私に助けを与えることができる場合、私がもがき回しても意味がありません。