問題タブ [voice-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - アイテムを繰り返しているときに、grxml ファイルでセマンティック タグを使用するにはどうすればよいですか?
音声認識に Microsoft の Speech SDK を使用するソフトウェア用の GRXML 文法を構築しています。
タグは、特定のドキュメントが見つからなかったタグ形式「properties-ms/1.0」に従う必要があります(私の質問に答えないMSDNは別として)。
私の主な関心事は、「1 2 3 4」のような認識されたテキストを数字「1234」に変換するために数字にタグを付けることです。これがアイデアです:
これは連結しませんが、少なくとも各桁のセマンティック値を取得します。
ただし、数字にこのようなルールを使用すると、実行時にプログラムが中断し、「ルール 'CODE' のセマンティック値は既に設定されており、変更できません。」という例外がスローされます。
セマンティック タグ付けを DIGIT ルールの「繰り返し」と一緒に機能させるにはどうすればよいですか? CODE ルールを 4 つの同一の項目に分割したくありません。それぞれが異なるセマンティック キーを持ちます。私の文法には、桁数が固定されていないケースが他にもあります。
また、数値の一般的な意味を提供するためにタグを連結する方法はありますか。
android - サービス内で音声認識を実行できますか?
サービスから音声認識を実行できるかどうか疑問に思っています。
一部のAndroidエキスパート/Googleエンジニアがこれに関する貴重な情報を提供してくれることを願っています。
ありがとう。
audio - オーディオを切り替えるカスタムサウンド認識ソフトウェアを作成するための提案
オウムの叫び声や鳴き声を認識したときに特定のオーディオトラックのオンとオフを切り替えるプログラムを開発する必要があります。ソフトウェアは、特定の範囲の音を認識し、範囲のいくつかのバリエーションを許可する必要があります(オウムは毎回そのスリーチを正確に複製しない可能性が高いため)。
例:鳥の鳴き声、音声なし。鳥は5秒間鳴き声を止め、鳥を称賛するオーディオトラックが再生されます。定期的なおしゃべりは、落胆させないため、完全に無視する必要があります。
辞書が組み込まれた音声認識を備えたJavaライブラリについて聞いたことがありますが、ソフトウェアには、単語やランダムな鳥の音ではなく、特定のオウムが発する特定の音を教える必要があります。さらに、前述したように、スクリーチが録音されたバージョンと100%同一になることはない可能性があるため、サウンドのわずかな変動を考慮する必要があります。
これを実行するための最良の方法は何ですか/どの言語を調べる必要がありますか?
編集:あるいは(そしておそらくこれはより簡単な解決策になるでしょう)、入力の音量に基づいてオーディオを切り替える方法はありますか?それで、オウムがどんな音を出すかは問題ではなく、どれだけ大きいのでしょうか?
speech-recognition - 音声コマンドを認識するソフトウェアを作成するために Linux で使用できるライブラリ (C または Python) は何ですか?
「アップ」、「ダウン」、「クローズ」、「オープン」など、非常に限定されたセットから音声コマンドを認識することを要求するソフトウェア契約を要求しています。
本格的な音声認識は必要ないようです。つまり、wave からテキストへの変換を行う必要はありません。私がグーグルできる特定の用語はありますか?
私は、自分でそのようなものをコーディングできるほど、主題について十分に知りません。これに取り組みたいのであれば、この副次的な問題に対してかなり成熟したライブラリ、できればオープンソースが必要です。
ターゲット プラットフォームは、Linux を実行するある種の産業用 PC で、アプリケーションには C または Python を使用します。
iphone - Iphone 音声からテキストへ & 音声 API に戻る
私は自分のiPhoneアプリで、音声からテキストに、そして音声に戻りたいと思っています。
フォーラムと Google で検索してみたところ、OpenEars、Vocal Kit、tts などの API がいくつか見つかりましたが、これらはすべて英語用であり、ドイツ語、フランス語、スペイン語、中国語などの他の言語用ではありません。
このための無料の API はありますか? Google で見逃しているか、このための API がありませんか? 助けてください
Jibbigo や MLD のような App Store の既存のアプリは、このような機能を使用していますが、何を使用しているのでしょうか??
ANSWER by ポール・ディクソン
Nuance API は無料で開発できますが、APP Store で公開する前に購入を求められるため、無料の API がないことを受け入れる必要があります ,,, みんな助けてください
android-emulator - Android 2.2: エミュレーターの音声入力のオプションはどこにありますか?
私の Nexus One には次の機能があります。
- 設定には、「音声入出力設定」の一覧に「音声認識設定」があります。
- Google 検索の横にはマイク ボタンがあるので、それに触れるとダイアログが表示され、検索したい内容を言うように求められます。
ただし、エミュレーター (API レベル 8、Android 2.2) では、上記のいずれも見つかりません。
音声検索は Android 2.2 の一部ではありませんか? もしそうなら、なぜ私のNexus One (Froyo)にはあるのにエミュレーターには無いのですか?
少なくとも「音声入出力設定」を利用できるようにするにはどうすればよいですか?
更新 1 : 以下に示すように、レコグナイザー対応の AVD を作成する手順に従いましたが、「レコグナイザーが存在しません」というメッセージが引き続き表示されます。
他に何をする必要がありますか?
Google Inc. による Google API、Android API 8、リビジョン 2 をインストールし、それを使用して特別な AVD を作成しても、Android マーケットから音声検索アプリをインストールする必要がある可能性はありますか?
更新 2 : Michael の修正に従って、Google の音声検索アプリをインストールしました。これにより、「レコグナイザーが存在しない」問題は解決しましたが、新しい問題が発生しました。
アプリの提案「もう一度話してください」は偽物です。もう一度話すと、同じエラー メッセージが何度も表示されます。
wpf - Dragon Naturally Speaking が WPF サブメニューで失敗する
私の WPF アプリケーション メニューは Dragon Natually Speaking では機能しないため、他のスクリーン リーダーやアクセシビリティ ソフトウェアを想定しています。私のソフトウェアが目の不自由な顧客のためにうまく機能することを望んでいます。私の間違いを理解するために、Visual Studio 2010 や Expression Blend 4 などの他の WPF アプリケーションも試しましたが、同じバグがあります。どのような場合でも、音声を使用して「ファイル」、「編集」、「ヘルプ」などのメイン メニュー ヘッダーをドロップダウンできますが、「新規」、「開く」、「閉じる」などの子メニュー項目をアクティブにすることはできません。アクセシビリティと「UI オートメーション」についてできることはすべて読みました。「UI アクセシビリティ チェッカー」と「スヌープ」を実行してみました。これらのアプリケーションも、メニュー ヘッダー OK を列挙しているようですが、それらのメニューの項目は列挙していません。なんで?
android - TTS *と*音声入力を同時に?
音声認識アクティビティが開始されるとすぐに、テキスト読み上げの出力が停止することに気付きました。
私はその理由を理解しています。TTS出力は音声認識エンジンによって「聞こえ」、その適切な動作を妨げる可能性があります。
私の質問:この動作はシステムにハードコーディングされていますか、それとも(APIの)設定またはパラメーターによって変更できますか?
c# - .net での音声認識。スフィンクス、ISIP、ユリウス
C# で記述されたアプリケーションに音声認識機能を実装したいと考えています。System.Speech.Recognition は、サポートする言語の数が十分でないため、適切ではありません。
いくつかのエンジンを見つけましたが、それらは .net で書かれておらず、ラッパーも見つかりません。では、Sphinx、ISIP、Julius のどれを使用しますか? それらの .net ラッパーを知っていますか? 役立つチュートリアルや記事を知っていますか?
前もって感謝します
android - Android で音声検索と VoiceRecognition を使用するにはどうすればよいですか?
アプリケーションで VoiceRecognition を使用したいのですが、このアプリケーションには音声検索をインストールする必要があります。
ユーザーが別の他のアプリケーションをインストールしてから、自分のアプリケーションに戻って実行する必要はありません。アプリケーションから音声検索をインストールしたい、またはアプリケーションに音声検索機能を追加する方法についてのチュートリアルを見つけたい。
私に何ができる?