問題タブ [speech-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - 単語のリストが多い場合、音声認識用の文法ファイルを効率的に作成するにはどうすればよいですか?
手動でできるので、たった50語で音声認識用の文法ファイルを簡単に書くことができます。10,000語または100,000語の場合、最も簡単で効率的な方法は何ですか。
例:
「RCコーラ」と「ペプシコーラ」があるとします。次の2つのルールで構成される文法ファイルがあります
。DRINK:(COLANAME?[coke cola soda])
COLANAME:[rc pepsi]
"RC"、 "RC Coke"、 "RC Cola"、 "RC Soda"、"を認識します。 「ペプシ」、「ペプシコーラ」、「ペプシコーラ」、「ペプシソーダ」。
編集:私は音声認識のための文法について話している。音声認識システムには、何を認識するか(gsl、grxml)がわかるように、付随する文法ファイルが必要です。実は、言葉だけでなく、名前のようにカテゴリーに分類できないものも考えていました。
mfc - SAPI はどこで入手できますか?
音声対応のアプリケーションを作成したいのですが、MS の Web サイトにアクセスして SAPI をダウンロードしようとすると、エラーが発生します。
どこで SAPI を入手できるか知りたいです。
また、SAPI 5.3 アプリケーションが Windows 2000、Windows XP、および Windows Vista (C++/MFC でコーディングされている場合) で動作するかどうかも知りたいです。
また、 SAPI を使用する最良の方法は何ですか? C# .NET または C++/MFC で?
ありがとう。
c# - C# 音声認識 VISTA の問題
プロジェクトを実行しようとすると、次のエラーが発生します。
Form1 コード:
java - Javaでの音声認識
プロジェクトで音声認識を使用したいのですが、このコードを見つけましたが、実行すると次のようなエラーが発生します。
この問題で私を助けてくれませんか?
これは私が使用するサーバーコードです:
objective-c - Mac OS X 音声からテキストへの API。方法?
TCP/IP からビットのオーディオ (モノラル) ストリームを受信するプログラムがあります。Mac OS X の音声 (音声認識) API が音声からテキストへの変換を実行できるかどうか疑問に思っています。
(最初にオーディオを .wav に保存し、オンザフライで変換するのとは対照的にそれを読んでもかまいません)。
公式ドキュメントをオンラインで読みましたが、少し混乱しています。そして、このトピックに関する良い例が見つかりませんでした。
また、Cocoa/Carbon/Java または Objective-C で行う必要がありますか?
誰かが光を当てることができますか?
ありがとう。
flash - Flashで音(拍手など)を認識する方法は?
私のウェブサイトの訪問者がちょうど2回手をたたいたかどうかを認識する最も簡単な方法は何ですか?
私の考え:ユーザーが許可した場合、Flashはマイクを使用できます。
linux - Linux 用のテキスト読み上げおよび音声認識ツールが必要
テキスト読み上げおよび音声認識を使用する Linux 用のプログラムを作成する予定です。これに最適なツール/ライブラリは何ですか? より優れたツールを使用するには、代わりに Windows を使用する必要がありますか? ツールは、コンソールまたは C プログラムから簡単に呼び出せる必要があります。
usability - 使いやすさ:音声認識とキーパッド
ますます多くの音声認識が実装されており、優れた音声認識を行うライブラリが求められています。キーボードやキーパッドと比較して、その背後にある(使いやすさの観点からの)理論的根拠は何ですか?この開発に投資しなければならない理由は何ですか?
たとえば、コールセンターを見てみましょう。数年前、ほとんどすべてのコールセンターは、メニューのキーを要求するIVRを使用していました。現在、音声キーワードの入力やキーパッドの押下を伴うメニューがますます増えています。「請求書を言うか、1を押して請求書を表示してください」。または、会社の電話帳にも同じことが表示されています。「連絡しようとしている人の名前を言ってください」...「FranckLoyd」...「JackFreudと言いましたか?必要に応じて「はい」と言ってくださいこの人に連絡するか、「いいえ」と言って再試行してください。」
携帯電話を持たずに車に乗っているときはプラスだと思いますが、追加の待ち時間の価値はありますか?すべての選択肢に対する相互作用が長くなり、何かが言われたかどうかを分析しようとする際の迅速な時間が長くなりますか?また、信頼性は確かに以前よりも優れていますが、誰かがシステムに接続することを決めたおもちゃのように感じられることもあり、未来を感じることができます。
音声認識を使用した(または使用しないことを選択した)IVRまたはソフトウェアを設計した経験はありますか?
ありがとう!
speech-recognition - 「ボイストリガー」検出
「トリガーワード」を使用してオーディオの録音を開始する機能があれば、大幅に改善される音声アプリケーションがあります。完全な音声テキスト エンジンは必要ありません。トリガー ワードを確実かつ効率的に検出する機能だけが必要です。
この特定のユースケースをサポートする特殊な音声エンジン、またはそのような単一目的の検出エンジンを開発するためのライブラリ/方法があるかどうか疑問に思っています。理想的には、騒がしい環境で動作することを望みますが、1 人のユーザーの声に対してトレーニングすることもできます。
研究論文/トピックへのポインタも高く評価されるので、私は何を求めるべきかを知っています.