問題タブ [speech-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
delphi - Delphi での Vista 音声認識
Microsoft Vista の音声認識を使用して、自分の Delphi アプリケーションに音声入力できるようにしたいと考えています。ただし、TMemo に口述しようとすると、まったく機能しません。Firefox 3.0 にも同じ問題があることに気付きました。この問題について Microsoft に問い合わせたところ、アプリケーションにText Services Frameworkを実装する必要があるとのことでした。
TMemo または TRichEdit に口述できるように、これを Delphi に実装する方法があるかどうか疑問に思っています。Google で解決策を検索しても、関連する結果は返されませんでした。解決策を見つけるには、どこから始めればよいでしょうか。
編集: Windows Speech Recognition のオプションに移動し、 Enable dictation Everywhereを選択するだけで、サポートされていないプログラムであっても、すべてのプログラムで音声認識を有効にする方法があることがわかりました。ただし、これを使用して、テキスト サービス フレームワークを使用しない編集ボックスに口述する場合は、常に、プロンプトSay the number next to the item you want, 続いて OKを表示する代替パネルがポップアップします。これは短い文章には有効かもしれませんが、単語の修正や削除などの便利な機能の多くはありません。そのため、どこでもディクテーションを有効にするオプションに依存せずに音声認識を有効にする方法をまだ見つけようとしています。
speech-recognition - SAPI 5.3 Speech API を使用した音響トレーニング
Vista で Microsoft の SAPI 5.3 Speech API を使用して、RecoProfile の音響モデル トレーニングをプログラムでどのように行うのですか? より具体的には、テキスト ファイルと、そのテキストを話しているユーザーの音声ファイルがある場合、そのテキストと音声を使用してユーザーのプロファイルをトレーニングするには、どのような SAPI 呼び出しを行うでしょうか?
アップデート:
この問題の詳細については、まだ解決していません。「最初」に ISpRecognizer2.SetTrainingState( TRUE, TRUE ) を呼び出し、「最後」に ISpRecognizer2.SetTrainingState( FALSE, TRUE ) を呼び出します。しかし、これらのアクションが他のアクションに対していつ発生する必要があるかはまだ不明です。
たとえば、音声に一致するテキストを使用して文法をセットアップするためにさまざまな呼び出しを行う必要があり、音声を接続するために他の呼び出しを行ったり、さまざまなオブジェクトを呼び出して「今すぐ行ってもいいです」と言ったりする必要があります。しかし、相互依存関係とは何でしょうか? 他に何をする前に何をしなければならないのでしょうか? また、入力にシステム マイクの代わりにオーディオ ファイルを使用している場合、相対的なタイミングの許容度が低くなりますか?
c# - System.Speech と SAPI 5.3 を使用して、既に読み込まれている文法に単語を追加する方法
次のコードを考えると、
読み込まれた文法に単語を追加するにはどうすればよいですか? これは、ネイティブ コードと SpeechLib 相互運用機能の両方を使用して実現できることはわかっていますが、私はマネージ ライブラリを使用することを好みます。
更新:私が達成したいのは、個々の変更のために文法全体を繰り返しロードする必要がないことです。小さな文法の場合、私は呼び出すことで良い結果を得ました
そして、イベントで古い文法のアンロードと再構築された文法のロードを行います:
大規模な文法の場合、これはコストがかかりすぎます。
sql - 音声認識を使用して SQL を記述できますか?
入力時に手首が痛いので、音声認識を使用して SQL ステートメント、ストアド プロシージャ、およびビューを書き始めたいと考えています。
speech-recognition - 話し言葉プログラミング言語/システム
私は最近、話し言葉のコンピューター言語であるRpokuと呼ばれるものに出会いました。また、別のアプローチをとるVoice Codeと呼ばれる研究もいくつか見つけました。ここにデモビデオがあります..
これは有望に見えますか、それともただのおもちゃですか? いつの日か、キーボードをタイプせずにアプリケーションを作成できるようになるのでしょうか?
speech-recognition - Vista Speech API を Windows Server 2003 で使用できますか?
私は、リモート処理を介して Windows サービスを呼び出す Web サーバーに 30 秒間の音声を転送する iPhone で小さなアプリを作成しました。このサービスは、Windows 2003 サーバーで SAPI5.1 を使用して、デフォルトの認識エンジンを介して Wave をテキストに変換します。
エンジンを最新のものに更新し、Vista で動作するように作成された医療用音声モデルを追加したいと考えています。Windows 2003 サーバーと .net 3.5 ライブラリに記述されたアプリを介してこれを実行できますか。とにかく、Vista は 3.5 .net ライブラリを使用するだけですか。レジストリまたは API 呼び出しを介して音声モデルを変更できますか。Vista で音声モデルを使用する場合、音声認識の下でレジストリ キーを変更する必要があることはわかっています。
何か案は?ありがとう、トム
c++ - Linux での音声からテキストへの変換
Linux で音声をテキストに変換するアプリケーションを開始する予定です。拡張できる既存のインターフェースはありますか? または Linux にそのような既存のアプリケーションはありますか? これに関する何か入力はありますか?
編集: 私が作成しようとしているアプリケーションは、はい/いいえだけでなく、話すすべての単語をテキストに変換できる必要があります。
c# - C# 音声認識
それについてここに投稿があります...しかし、それは私にはうまくいきません。インターネットで見つけた system.speech.dll を追加しましたが、 System.speech が表示されないため使用できません。
エラー 1 型または名前空間名 'SpeechRecognizer' が見つかりませんでした (using ディレクティブまたはアセンブリ参照がありませんか?)
エラー 2 型または名前空間名 'SpeechRecogniizedEventArgs' が見つかりませんでした (using ディレクティブまたはアセンブリ参照がありませんか?)
このコードを使用しました。Windows Vista 64 を使用しています
java - Java 音声認識
オープンソース、またはJava用の比較的安価な音声認識APIの経験がある人はいますか? 話し言葉をテキストに変換するものを探しています。
Sun の Java 音声認識ページから、それはかなり死んでいるようです。私の要件は、少なくとも Linux で動作するものです。
誰でも何かをお勧めできますか?純粋な Java はおまけですが、それ以外の場合は Linux ベースのソリューションを検討できます。そして、これは家のプロジェクトなので... 安いほど良い.
- 編集
CMU Sphinx Amit が指摘したように、CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php 私の問題は大量の単語エラー率です。トレーニングはそれ自体がプロジェクトのように思えますが、今週末にそれを試すために力を集めたいと思っています.
IBM ViaVoice
2004 年、Via Voice がオープン ソースになるというニュースが飛び交っています。ニュースリリースは時期尚早であり、それは決して起こらなかったようです. VIA Voice はある時点でLinux 用にリリースされましたが、停止したようです。IBM の Web サイトに残っているように見えるのは、埋め込みの ViaVoice だけです。
IBM Websphere Voice
これが、ViaVoice (デスクトップ) が廃止されたように見える理由だと思います。IBM は、腕と脚よりも多くの費用がかかるこの商用ソリューションを作成しました。そして、それを使用するだけで、少なくとも websphere とその IDE での私の経験の後、あなたが残したものが必要になります。
ニュアンス
彼らはまだ Linux 向けの製品を作っているようです。しかし、彼らは道に迷い、IBM に続いてサーバー市場に参入したと思います。私はこれについて確信が持てません.彼らのウェブサイトは有用な情報を見つけるのにそれほど親切ではありません.
Open Mind / Free Speech
これらの人たちは、プロジェクト名を変え続けています。おそらく、お金に飢えた会社が彼らを脅迫し続けているのでしょうが、私にはわかりません。プロジェクトは少し死んでいるように見えます。
今週末、Sphinx をトレーニングして、友だちになりたいかどうかを確認してみます。それ以外の場合は、Microsoft の音声ソリューションの使用を検討します。これまではうまく機能していましたが、優れた Linux ソリューションではありません。おそらくワインを介して使用できますが、2つの別々のサーバーが必要になります...面倒です。
ああ、音声/スピーチSpeechTechMagを訪問するのに適した場所と思われるもの. 彼らは、何らかの形で音声/スピーチに関連する企業のリストを含む「年次参照」を持っています.