問題タブ [google-speech-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1932 参照

c# - httpclientを使用して、C#でリクエストの本文にjson文字列とファイルを含む投稿リクエストを送信する

https://cloud.google.com/speech/reference/rest/v1beta1/speech/asyncrecognize#authorization によると、次の情報を含む投稿リクエストをhttps://speech.googleapis.com/v1beta1に送信しようとしています/speech:asyncrecognize本文:

これらのパラメーターを本体に設定する方法がわかりません。json データと、本文に入れるオーディオ ファイルのバイナリ コンテンツがあります。これは私のコードです:

0 投票する
1 に答える
1217 参照

c# - 事前定義された文法を使用しない C# 音声認識

C# アプリケーションで音声認識を使用しようとしていますが、この方法では、出力でフレーズのみを予測しました。

Google Speech Recognition API の作業と同じ方法で出力を取得し、音声を認識し、存在しない単語を出力して出力することはできますか?

0 投票する
1 に答える
1299 参照

google-app-engine - Google Speech API v1beta1 が非常に遅い?

Google が開発者向けの公式音声 API をついにリリースしたことを知ったとき、私は非常に興奮しました。私は、Google の音声認識が Android、Chrome、およびその他の製品でどれほど優れているかに常に驚かされてきました。

Google Cloud アカウントを作成し、Speech API を有効にして、Google Speech API のドキュメントに従っていくつかのテスト スクリプトを作成しました。精度は超高いが、速度はめちゃくちゃ遅い。18 秒の音声ファイルの文字起こしには、エンジンで約 16 秒かかります。Microsoft Bing Speech API は 3 ~ 4 秒しかかかりません。

誰も同じことを経験しましたか?それとも私の設定の問題ですか?どんな助けでも大歓迎です!

使用したコードは次のとおりです。

バッシュ:

0 投票する
1 に答える
1558 参照

ruby-on-rails - mp3をflacファイルに変換

Ruby(できれば)サーバー側を使用してmp3をflacファイルに簡単に変換する方法を見つけようとしています。Google Speech API を使用して文字起こししたいオーディオの大群がありますが、flac しか受け入れません。(とりわけ)。ラップトップで動作するflac2mp3コンバーターを見つけることができ、コードを調べましたが、残念ながら、コーデックをローカルにインストールする必要があるシステムコマンドを呼び出しているようです. .

おそらく私のためにこれを行うAPIはありますか?または、コーデックをインストールして、heroku でこの種のコマンドを実行する簡単な方法です。

0 投票する
3 に答える
2036 参照

c# - C# で Google Speech API を使用すると 403 エラーが返される

C# で Google Speech API を使用しようとすると、403 が返されます。

Google Cloud Platform でキーを生成しても 403 エラーが発生します。

このコードを使用しました:

おそらく無効なキーの問題です。サーバーキーとブラウザキーを生成しようとしましたが、同じ結果、403 (禁止)

助けてください。

0 投票する
2 に答える
598 参照

python - Python で defaultdict キーの名前を変更する

次の問題があります。単語とその出現頻度を含む word_count という defaultdict があります。これは、Google Speech API の応答をカウントすることで得られます。しかし、この API は、ドイツ語の文字 'ö' に対して '\303\266' のようなものを返します。ここで、この辞書を調べて、上記のいずれかが存在するかどうかをテストし、次のように正しいものに置き換えます。

defaultdict を埋める:

これまでのところ問題なく動作し、辞書を印刷でき、数字で単語を取得できます。

キーを交換します:

整数が必要なため、 pop(key) できないため、これは機能しません。他にどうすればいいですか?いくつかのアプローチを試しましたが、ここでは何もうまくいかないようです。

どんな助けでも大歓迎です!

解決:

辞書を並べ替えてタプルのリストに変えたので、これは私のせいでした。これを理解するのを手伝ってくれたみんなに感謝します!