問題タブ [google-cloud-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-speech - Cloud Speech API でサポートされている音声の種類は何ですか?
多くのオーディオ形式 (mp3、m4a など)、ソース (ディクテーション、コマンド、電話、会議など)、デバイス (電話、PC、IoT デバイスなど) があります。Cloud Speech API で最もよく機能するのはどれですか?
java - Google パッケージ「com.google.cloud.speech.v1beta1」が見つかりません
Google Cloud Speech API を使用して音声を認識しようとしています。
のサンプルコードに従っています
https://github.com/GoogleCloudPlatform/java-docs-samples/tree/master/speech/grpc
run は完了しましたが、Spring MVC アプリケーションで使用されているパッケージがmvn package
見つかりません。com.google.cloud.speech.v1beta1
com.google.cloud.speech.v1beta1 パッケージを解決できる
このパッケージを見つける方法、または Spring MVC maven プロジェクトで使用する方法を教えてください。ありがとう。
java - Wowza Stream を Google Cloud Speech API に送信するには?
Wowza は、rtsp://、rtmp://、および m3u8 ストリームを提供してくれます。これを Google Cloud Speech API に送信したいので、その場でストリーミングを書き起こします。
この API は純粋なバイト表現のみを受け取ることができるようで、Githubのサンプルはファイルでそれを行う方法を示しています。
Wowza リンクを使用してこれを達成するにはどうすればよいですか?
編集:私の質問は異なります。もう 1 つの質問では、その機能を提供するサービスを求めています。この質問では、具体的には Google Cloud Speech と、その API を使用してそれを行う方法について話しています。
google-api - Google Speech Recognition API の結果が空です
Google Cloud Speech API に対して非同期リクエストを実行していますが、操作の結果を取得する方法がわかりません:
リクエスト POST: https://speech.googleapis.com/v1beta1/speech:asyncrecognize
体:
どちらが返されますか:
{ "name": "469432517" }
だから、私は POST を行います: https://speech.googleapis.com/v1beta1/operations/469432517
どちらが返されますか:
操作の結果、文字起こしされたテキストを取得する必要があります。
どうやってやるの?
node.js - Google Streaming Speech Recognize Got Error "Aborted: error -83105"
gRPC StreamingRecognize を使用して wav ファイルを認識すると、次のエラーが発生することがあります。そして、私はそれを解決する方法がわかりませんでした。
speech-to-text - インタビューを書き起こすための Google Cloud Speech API の設定
テキストに書き起こす必要があるドキュメンタリーのビデオ インタビューに関連する 100 時間以上の音声を持っています。うまくいけば、30 秒ごとに何らかのタイムコード マーカーを付けて、ビデオを編集中のテキストと簡単に一致させることができます。スイート。
ファイルは BWAV 24 ビット 96khz および WAV 16 ビット 48khz で、20 分から 2 時間続きます。
この種のアクティビティを実行するには、VM でどのような種類のリソースをセットアップする必要がありますか? かなり計算量が多いため、VM には 32 個のコアとかなりの量のメモリが必要になると思われますが、リアルタイムの応答は必要ないため、優先度が低く、ファイルの処理に数時間かかる場合でも問題ありません。私の予算はごくわずかです。$300 は、すべてのファイルに対して余裕のある最高額です (これが、これらのファイルを $75+/時間でトランスクリプション サービスに送信しない理由の 1 つです)。
すでに Cloud Platform アカウントを持っていますが、使用したことはありません。誰かがすでに同様のことを行っていて、私に助けを与えることができる場合、私がもがき回しても意味がありません。