0

Google の Speech API を直接使用するには、API キーを取得する必要があります。そのキーを取得するには、chromium-dev@chromium.org ニュースグループに登録する必要があります。その後、いくつかの手順を実行すると、Google から「配布用ではない」開発者キーが提供されます。キーは、1 日あたり 50 リクエストにレート制限されています。

たとえば、node-google-speech-api は、ノード アプリケーションが Google の Speech API に直接 (ブラウザを使用せずに) アクセスするために、このキーが必要であることを示しています: https://github.com/psirenny/node-google-音声 API

Google の Speech API にアクセスするための PHP ライブラリと Java ライブラリもあり、これにもこのキーが必要です。

Google の音声認識テクノロジを利用するデスクトップ アプリケーションを作成したいと考えていますが、1 日あたり 50 リクエストという制限は、広範囲に配布する場合や、想定しているソフトウェアを単一のデスクトップに展開する場合でも受け入れられません。音声認識が何らかの形で壊れている場合、個々のデスクトップ ユーザーによって 1 日に最大 500 のリクエストが表示されます。これらのほとんどはおそらくロング ポーリング/継続的であるため、1 日に 2 つか 3 つのリクエストしかないかもしれませんが、数時間かかる可能性があります。時間。これに数百人のユーザーを掛けると、1 日あたり 50 件のリクエストを簡単に超えてしまいます。

私は自分のアプリでデスクトップ上の Google の優れた音声認識技術にアクセスする方法を考えようとしていました (言語は問題ではありませんが、node.js がミックスの一部になる可能性が高いため、node.js ソリューションが優先されます)。この制限により、Google Chrome がたまたま実装している Web Speech API 標準を検討するようになりました。

私が知る限り、Google Chrome の Web Speech API の実装に要求/日の厳しい制限はありません。Google Speech API と比較して、制限なしまたは最小限の制限で、一日中 Web Speech API を使用する Web サイトを喜んで作成できました。直接。これにより、Chrome (Chromium ではなく) ブラウザーを配布した場合、つまり正真正銘の Google Chrome ブラウザーに「拡張機能」を追加して、カスタム html5 Web ページ内の JavaScript がクライアントの他のアプリケーションとインターフェイスできるようにしたらどうなるかを考えるようになりました。システム (つまり、Chrome のこの特別なインストールと一緒に実行される Node.js アプリ) を作成し、Web Speech API スタイルの Javascript で音声認識部分を記述し、その出力を、私が設計してクライアントのシステムにインストールした他のアプリケーションにパイプしました。

それはうまくいくでしょうか?

このアプローチの落とし穴は何ですか?

別のアプローチの提案はありますか、それとも、Google の音声技術の使いやすさと極端な自然言語精度に匹敵する商用ライセンスのソリューションをお勧めしますか?

4

1 に答える 1

1

試行可能なアプローチの 1 つは、Chrome アプリ
です。これは、Chrome のサンドボックス化されたインスタンスで実行され、HTML + Javascript で実装されます。

ユーザーにとっては、デスクトップ アプリケーションのように見えます。

于 2014-08-21T17:37:41.350 に答える