問題タブ [speech-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-applications - Web 経由の音声コマンド
私はこのシナリオに興味があります。Web アプリケーションを構築していて、音声コマンドを受け取り、音声テキスト変換の結果に基づいてアクションを実行するとします。
そうでなければ、これをキラーアプリケーションにする可能性のある主要な障害はありますか?
nlp - 音声認識ソフトウェアのさまざまなレベル
音声レベル、構文レベル、意味レベル、音韻レベル、音響レベル、言語レベル、言語レベルがあります。
他のレベルはありますか?
下から順番は?
そして、彼らは本当に何についてですか?
android - Androidの音声認識をパラメータ化するにはどうすればよいですか? android.speech.action.RECOGNIZE_SPEECH は何もしません
ユーザーがおそらく発する単語をより簡単に認識できるように、音声認識エンジンを適切にパラメーター化するにはどうすればよいですか?
私が知る限り、方法はありません。
このサイトは間違っていると思います: http://www.4feets.com/2009/04/speech-recognition-in-android-sdk-15/
サイトによると、このコード: ArrayList< String > potentialResults = new ArrayList< String >();
potentialResults.add("黄色");
potentialResults.add("緑");
potentialResults.add("青");
potentialResults.add("赤");
あなたがそれらの言葉を言うかもしれないというヒントを認識エンジンに与えます。ただし、まったく何もしないようです。また、次のようなGoogleのドキュメントとも矛盾しています。
「ACTION_RECOGNIZE_SPEECH を実行したときの潜在的な結果の ArrayList。RESULT_OK が返された場合にのみ存在します。」これは、配列が入力ではなく戻り値であることを示唆しています。
これをテストするには、以下を追加してみてください: ArrayList< String > potentialResults = new ArrayList< String >();
potentialResults.add("クミン"); 音声認識エンジンにそれを認識させようとします。あなたはそれが非常に難しいと思うでしょう。
音声認識エンジンを適切に制御する方法について洞察を持っている人はいますか?
c++ - ISpMMSysAudio::SetLineIdとmixerLineIdのマッピング
ISpMMSysAudio :: SetLineIdを呼び出して、SAPIのlineIdを設定したいと思います。持っているミキサーハンドルから、設定したいラインを見つけます。ただし、ミキサーから取得した行IDは、SAPIが想定しているものではありません。その結果、SAPIはマイクの間違った入力ラインをリッスンし、入力を取得しません。
ミキサーハンドルの「DST_WAVEIN」のマルチプレクサコントロールを取得してから、マイクのどのソースラインがアクティブであるかを確認しています。SAPIへの「入力」としてアクティブな行を設定したいと思います。
次のようにMUXコントロールを列挙することにより、ミキサーからラインIDを取得しています。
int GetSelectedWaveInLine(UINT uMixrId){int iRetVal = -1; MMRESULT mmResult; HMIXER dwMixerHandle;
}
Mixerによって返されるインデックスは、ISpMMSysAudioによって使用されるインデックスと一致しません。そして、私の音声エンジンは別の回線IDを選択します。
ありがとう
wpf - MACおよびPCでの音声認識
MAC と PC で動作する音声認識アプリケーションを作成する必要があります。SAPI についてのアイデアはありますが、MAC ではなく PC でのみ使用できます。
これを達成するために使用できる他のAPIまたはフレームワークはありますか?プログラミング言語は私にとってバーではありません。
speech-recognition - sapi 5.3 で無料のディクテーションを行っているときに修正コマンドを取得するにはどうすればよいですか?
sapi 5.3 で基本的なディクテーションを行うサンプル アプリケーションがあります。
句読点を含むテキストを入力するとうまくいき
ます...チュートリアルのように修正機能を有効にするにはどうすればよいですか (正しい単語、選択...)?
ロードする特定の文法 (どの方法で)、実装する特定のイベントはありますか?
multilingual - Sphinx音声認識機能での他の言語のサポート
私は、私たちのプロジェクトの1つでSphinx音声認識機能を分析しています。要件は、英語(米国)を含む6つの言語をサポートするテキストに音声を変換することです。これがSphinxで可能かどうか誰かが知っていますか?
Sphinxを選択した理由は、アプリケーションがWindows、Mac、およびLinuxプラットフォームと互換性があることを望んでいるためです。
speech-recognition - SphinxII認識読み取りおよび認識
Sphinx IIを使用して音声認識クライアントを実装しようとしています。私の目標は、誰かにテキストで書かれた文章を読んでもらい、各単語の信頼スコアを取得することです。そのために、私は有限状態文法と限定辞書を使用しています。
何かが機能するようになりましたが、信頼スコアは非常に低くなっています(<0.30)。Sphinx 2の単純なRecoの例と同じ設定を使用しています。発音される単語ごとに1つの可能性しかないため(各単語は文法の1つの状態です)、通常は高いスコアと時間効率の良い認識が必要ですが、仮説の計算には時間がかかります。また、単語が発音されるとすぐに仮説が立てられます。だから今、私はこれを改善するためにどこに行くべきか実際にはわかりません。私はこの種の問題に適切な解決策を使用していますか?代わりに言語モデルを使用する必要があります。使用する場合は、コンテキストをストーリー内の特定の文に制限する方法を教えてください。
また、スフィンクストレーナーを使用する必要がありますか?これまで、Webツールを使用して言語モデル/辞書を生成してきました。
あなたの助けをいただければ幸いです。ありがとう、Boris Gougeon
speech-recognition - Speech Recognition for Julius using audio instead of Microphone
I need to test Julius Speech to Text conversion with some audio. moreover it would be possible to simulate noise over the audio.
is anyone aware of such a software? Has anyone worked with Julius? Any Comments on the library?
speech-recognition - SAPI 5.1 での複数の文法ファイルのロード
XML 文法ファイルを使用して、コマンド アンド コントロール アプリケーションを開発しています。文法には約 4000 のエントリがあるため、1 つのファイルにすべてを含めることはできません (ロードしようとするとエラーが発生します)。複数の XML 文法ファイルを作成しましたが、複数のファイルを読み込もうとすると、以前に読み込んだファイルが置き換えられます。つまり、プログラムは 2 番目の文法ファイルの句のみを認識します。単一の音声認識アプリケーションに複数の文法をロードする方法を誰か教えてもらえますか?