問題タブ [sapi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1261 参照

vb.net - Windows サービスからボイス オーバー モデムを再生する

私は VB.NET Windows サービスを開発しています。これは、BMS データベースで新しいアラームを頻繁にチェックし、オペレーターにリモートで警告するために電話をかけます。現在、.NET TAPI ラッパーと SAPI 5.3 相互運用アセンブリを使用しています。電話で話す手順は次のとおりです。

  1. TAPI インターフェイスを初期化します。
  2. オペレーターの番号に電話をかけます。
  3. 音声モデムの waveOut デバイス ID を取得します
  4. 音声出力をそのデバイス ID に設定します。
  5. SAPI に魔法をかけましょう。

コードを Windows コンソールまたはフォーム アプリケーションとしてコンパイルすると、これはすべて正常に機能しますが、Windows サービスとしてコンパイルして実行するとすぐに、ステップ 5 は発生しません。数字の監視も含め、他のすべてが機能します。Windows サービスはデスクトップと対話することになっていないことがわかったので、UI 要素やサウンドの再生などは禁止されていますが、Wave API を使用せずに開発できる代替手段を見つけるのに苦労しています合理的な時間枠で。何か案は?

0 投票する
1 に答える
887 参照

speech-recognition - SpeechToText(音声認識)とその後のTextToSpeech(同じテキストと同じ音声を使用)を行うことは可能ですか?

私は音痴の人のためのプログラムに取り組んでいます。私はsapiとTTを使用しています。プログラムは同時に手で 3D アニメーションを行います。しかし、問題は、声が(最も遅いスピーチに置かれた場合も)、私が望むもののために断食することです。そこで、音声認識を考えてみたのですが、問題は、アニメーションが始まる前にテキストに大きな処理をしなければならないことです。

それで、(.wave ファイルの私の声から) 音声認識を行い、その後 TT の同じプロセスを (Sapi イベントを使用して...) 行うことが可能かどうかを知りたいのですが、私の声で .wave を使用します。

可能であれば、方法を教えてください。より良い代替案があると思われる場合は、それらを見せてください。

お時間をいただきありがとうございます(そして私の英語を許してください)

イエスキェヴィチ

0 投票する
2 に答える
4624 参照

delphi - Microsoft speech api 5.1 GetVoices が Windows 7 に存在しない音声を返す

XP から Windows 7 64 ビットに移行しています。XP マシンでコンパイルしたアプリは、XP で正しく動作します。ただし、W7 マシンで exe を実行すると、GetVoices によって返される音声のリストは次のようになります。
Microsoft Anna
Microsoft Mary
Microsoft Mike
Sample TTS Voice.

W7 Speech Properties ダイアログを確認すると、Microsoft Anna だけがマシンにロードされていることがわかります。HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Speech/Voices でレジストリを確認すると、これが確認されます。

新しい Windows 7 開発マシンでアプリを再コンパイルすると、上記の動作を複製する exe が作成されます。(XP コンパイル コードと W7 コンパイル コードは、W7 で実行すると同じエラーを再現します)

私は Windows 7 64 ビットの Delphi 7 で開発を行っており、Microsoft Speech Object Library (バージョン 5.4) を使用しています (注: 5.4 は [インポート タイプ ライブラリ] リストに表示されているものです)。

W7 マシンに SpeechSDK51.exe をインストールしました。これは次のとおりです。

http://www.microsoft.com/downloads/details.aspx?FamilyID=5e86ec97-40a7-453f-b0ee-6583171b4530&DisplayLang=en

次のコードは、Windows 7 で 4 つのボイスのリストを生成します。ボイスは 1 つしかないはずです。

この問題に対処する方法について何か提案はありますか?

ありがとう、
ショーン

0 投票する
2 に答える
2992 参照

windows-server-2008 - Windows Server 2008 : Speech Runtime - 足りないものは何ですか?

system.speech を使用して Windows Server 2008 で音声認識を動作させようとしています。

  1. Vista で System.Speech.Recognition (SAPI 5.4) を使用するコンソール アプリケーションを作成しました。このマシンでうまく機能します。

  2. Windows Server 2008 x86 マシンにインストール/実行しようとしました。.NET 3.5 を搭載しています。運が悪い... スローされたエラー -- 調査の結果、2008 にはデフォルトで認識機能がインストールされていないことがわかりました。

  3. 新しいSpeech Platform Server Runtime英語の言語ファイル、およびSpeech SDKをインストールしました。これらはすべて約1か月前にリリースされました。私が理解しているように、ランタイムには WinServer 2008 と互換性のある認識機能が含まれています。

  4. アプリケーションを再度実行しようとしましたが、まだ認識エンジンが見つかりません。

C:\Program Files (x86)\Common Files\microsoft shared\Speech\SR\v10.1\spsreng.dll にレコグナイザー dll がインストールされていることがわかります。

私は何を間違っていますか?:)

0 投票する
1 に答える
751 参照

speech-recognition - SAPI: サーバー側のディクテーション

皆さん、私は Microsoft SAPI を使用して次の目的でサーバー側システムを構築しようとしています。

  • サーバーで複数の同時ディクテーション スタイルの認識を実行します。
  • さらに、すべての認識で異なるスピーカー プロファイルを使用することができます (私のアプリケーションはユーザーを識別し、どのプロファイルを読み込むかを SAPI に指示します)。
  • また、さまざまなユーザー プロファイルをプログラムでトレーニングしたいと考えています。

上記のいくつかはマネージ コード、つまり System.speech 名前空間からは不可能であることを既に知っています。SAPI 5.x を使用して、私がやろうとしていることが理論的に可能かどうかについて誰か教えてもらえますか?

ご協力いただきありがとうございます。

-ラージ

0 投票する
2 に答える
673 参照

speech-recognition - MS Speech Recognition サーバー API を使用した書き起こし

ディクテーション文法の読み込みは、サーバー バージョンの MS Speech API (Microsoft.Speech) ではサポートされていません。

Q1: それを回避する方法はありますか?

Q2: 私が思いついたアイデアの 1 つは、人々が特定のトピックについて行った会話 (たとえば、チャット ルーム) の履歴に基づいて文法を構築することです。ソフトウェアは自然言語の書き起こしを行う必要がありますが、使用される言語のサブセットは多少制限される可能性があります。

これが合理的に正確で堅牢である可能性はありますか? それとも、非指定文法で行うことを意図していないものですか?

ありがとう

1月

0 投票する
2 に答える
672 参照

windows - SAPI を直接使用して、リアルタイムで保存された音声から音声をテキストに変換できますか

私が本当に達成したいのはこれです-> インターネットからストリーミングするか、ローカルストレージから直接アクセスできるオーディオファイルを(アプリケーションを使用して)再生するとします。ここで、SAPI を構成して、マイクの代わりにこのソースをリッスンし、音声を通常どおりテキストに変換します。

0 投票する
1 に答える
1086 参照

c# - SAPI5.1と互換性のあるSAPI5.4文法?

System.SpeechのSharedRecognizerを使用して、.NET4.0とSAPI5.4を使用するWin7用のアプリケーションをC#で作成しました。すべてがその環境で機能しますが、WindowsXPでは機能しません。

Win XP(SAPI 5.1がインストールされている)では、私が使用している文法xmlファイルが気に入らないようです。

文法ファイルを読み込もうとすると、プログラムがクラッシュし、次のエラーが発生します。

いくつか検索した後、このフォーラムで非常によく似た問題を抱えている他の誰かを見つけましたが、問題が解決されたとは思えませんでした。

誰かアイデアはありますか?XP用とWinVista/ 7用の2つのバージョンの文法ファイルが必要ですか?もしそうなら、誰かが何が違うのかを並べて説明しているので、私は一方から他方に翻訳する簡単な方法を思い付くことができますか?また、異なる形式の文法ファイルがある場合、SAPI 5.3-4クラスであると想定しているSharedRecognizerに古いバージョンを実際にロードできますか?または、System.Speech名前空間の代わりにSAPI 5.1 dllへのCOM呼び出しを使用する必要がありますか?

本当にありがとう!!

0 投票する
1 に答える
2265 参照

c# - SAPI 5.4 C#プログラムでテキスト文法をロードするにはどうすればよいですか?

私はSAPI5.4でSRGS文法を使用して、コマンドおよび制御文法を定義してきました。ここで、テキスト文法に切り替えて、SAPI 5.1(および場合によってはSAPI 4?)と互換性を持たせたいと思います。

SAPI5.4互換のテキスト文法の例をここで見つけました

文法コンパイラツールを使用して、その文法のバイナリバージョンをリソースとして含めるのではなく、実行時にXMLファイルからその文法をロードしたいと思います。理想的には、メモリ内にXDocumentを作成してから、Speech.Recognizerにそれらのコマンドをリッスンさせたいと思います。

誰かがこれを行う方法を知っていますか?ありがとう!

0 投票する
1 に答える
766 参照

c# - .Net System.Speech Mic-inputからWavFile-inputに変更するときに発生する問題?

私はC#.netライブラリSystem.Speechを使用してASRアプリを実装しています(ところで、SAPIのより基本的で低レベルの実装のように見えるSpeechLib.dllについての投稿を見ました。同じ?)。私たちの主な目的は、サーバー/クライアントASRシステムとして実装することです。クライアントでユーザーの音声を録音し、オーディオストリーム全体をインターネット経由でサーバーに転送し、サーバーがASRジョブを処理して結果をクライアントに返します。

また、音声入力としてローカルマイクを使用している同様のアプリを作成しましたが、非常にうまく機能しました。

私のオリジンアプリ:



このように、入力にはマイクを使用しましたが、結果の精度はかなり良好です。

そして、ここに問題があります。次に、新しいタスクに移ります。このタスクでは、認識入力をWavFile(またはTCP / IPソケット接続を介したaudioStream)に設定する必要があります。したがって、コードを次のように変更しただけです。



結果は不十分になります。マイク入力アプリの同じ文法に基づいて、いくつかのウェーブスニペットをいくつかのファイルに個別に事前に録音し、これらのファイルをASR入力として設定します。ただし、検出できる(SpeechDectectedEventによって処理される)ファイルは一部のみであり、十分に認識できる(SpeechRecognizedEventによって処理される)ファイルはごくわずかです。マイク入力アプリと同じフレーズを録音します。

精度は低いですが、一部のファイルは正しく認識できます。これは、コードに論理エラーがないことを示しています。しかし、レコグナイザーのいくつかのパラメーターを設定するなど、使用する前にいくつかの仕事を逃していると思いました。

それで、wavfile-inputを使用した精度が低い理由を誰かが知っているなら、私は助けを求めるためにここにいますか?

ありがとう!!!!