問題タブ [sapi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
visual-c++ - C++ Microsoft SAPI: Windows のテキスト読み上げ出力をメモリ バッファーに設定する方法は?
Windows SAPI 5.1 を使用してテキストをメモリ バッファーに "読み上げる" 方法を見つけようとしましたが、これまでのところ成功していません。
合成音声を .wav ファイルにストリーミングする例はありますが、メモリ バッファーにストリーミングする方法の例はありません。
最後に、合成音声を 16 kHz 16 ビット リトルエンディアン PCM 形式の char* 配列にする必要があります。現在、一時的な .wav ファイルを作成し、そこに音声出力をリダイレクトしてから読み取りますが、それはかなりばかげた解決策のようです。
誰もそれを行う方法を知っていますか?
ありがとう!
text-to-speech - Microsoft TTS (テキスト読み上げ) Dat ファイルの場所
わかりましたので、デフォルトのMicrosoft TTSエンジンを置き換えるためにいくつかのTTSエンジンをダウンロードし、プログラムをもう少し「人間的」に聞こえるようにしました-基本的に、TTSエンジンファイルがローカルPC(Windows 7 )
-- 私が持っているファイルは .Dat 形式です。Text-to-Speech の音声として登録する必要がある場所を知っている人はいますか?
乾杯。
@UPDATE: わかりまし
た。レジストリを検索した後、dat ファイルの新しいレジストリ キーと値を作成する必要があることがわかりました。ファイルの場所、フォーマットなどについて... Text-To-Speech Voice を読み込もうとすると、次のエラーが表示されます。「この音声は再生できません。別の音声を選択するか、別の音声出力デバイスを選択してください。」 - 何か案は?-- ダウンロードした DAT ファイルのエンコーディングを確認する方法はありますか?
delphi - SAPI音声認識デルファイ
デルファイ言語を使用して同等のプログラムを作成する必要があります...または、誰かがデルファイを使用して音声認識で文法を行う方法に関するリンクを投稿できます。または、Delphiでプログラム的に同等のXML文法の例。私の英語でごめんなさい。
参照: http: //msdn.microsoft.com/en-us/library/ms723634 (v = VS.85).aspx
XML文法サンプル:
delphi - 単語発音ゲームでWindows音声認識エンジンを使用することは可能ですか?
私は、Windows音声認識エンジンまたはSAPIを使用するアプリケーションを作成するために使用します。正しく発音したときにスコアが出る発音ゲームのようなものです。しかし、SAPIで実験を開始したとき、文法(XML)をロードしない限り、認識が不十分で、最良の認識結果が得られます。
しかし、問題は、入力テキストから最も近い発音が認識されることです。例えば:
データベース->dedebase->正しい。
たとえあなたがそれを誤って発音したとしても。それはあなたに正しい答えを与えます。
xml文法を使用せずに
データベースと言うと、「ベース/ベース/データベースなど...」になります。
あなたの答え、提案、説明を投稿してください。ベストアンサーに投票します。
ちなみに私はプロジェクトでdelphiコンパイラを使用しています...
c++ - "event.GetFrom(m_cpVoice)==S_OK" のときに関数を呼び出す (イベントが発生した場合) [SAPI 5.1 および C++]
私は 3D モデルを使ったプロジェクトを行っています。そのため、私は SAPI 5.1 を使用しており、Viseme イベントが発生したときに (関連するアニメーションを再生するために) 関数を非同期で呼び出したいと考えています。
どうすればできますか?
どうもありがとうございました。
注: 私は次を使用します: hRes = m_cpVoice->Speak(L"私が望むのはこの問題を解決することだけです", SPF_ASYNC , NULL); そして、私は CspEvent、 event.eEventId を知っています。私が欲しいのは、Sapi イベントが発生したときに関数を呼び出す方法だけです
c# - スピーチリファレンスカードを無効にすることはできますか?
Microsoft Speech Recognition には、Speech Reference Card が付属しています。それは、認識されるいくつかの事前定義された単語で構成されています。
無効化できるか知りたいです。それは...ですか?
編集:事前定義されたすべてのコマンドを削除したい。これ: http://windows.microsoft.com/en-us/windows-vista/Common-commands-in-Speech-Recognition
EDIT2: SpeechLib を使用しています!
c# - IsWordPronounceable(SomeWord:String): boolean; のように関数を作成する方法
関数IsWordPronounceable(SomeWord:String): boolean;を作成したいと思います。「英語」 私は SAPI 音声認識を使用しており、この機能が必要です。Delphi コンパイラ、C/C#/C++、または任意の言語を使用しています。助けてください。どうやって始めればいいのかわからない...
最初から、文法規則を追加することで問題を解決できると思っていました。シナリオは、ユーザーに言われているテキストを強調表示することです。しかし、エンジンは発音できない単語を認識できません。
delphi - 音声認識で音素を取得するには?
Delphi2009を使用して、VistaおよびWindows 7の組み込み音声認識を使用して、可能であれば音素とその波形を表示するための音声認識に取り組んでいます。他のプログラミング言語は大歓迎です。
delphi - Delphi SAPI テキスト読み上げ
まず第一に、これはDelphi と SAPIの複製ではありません。「Delphi の SAPI」という件名に特定の問題があります。
コンポーネント パレットで TSpVoice コンポーネントを取得するために、Delphi 2009 の優れた Import Type-Library ガイドを使用しました。これはうまくいきます。と
私は書くことができます
非同期オーディオ出力を取得します。
最初の質問
ドキュメントによると、私は書くことができるでしょう
同期オーディオ出力を取得しますが、代わりに EZeroDivide 例外が発生します。なぜですか?
2 番目の質問
しかし、もっと重要なことは、SpVoice オブジェクトを動的に作成できるようにしたいということです (これは、SpVoice オブジェクトを "遅延バインド" するために呼び出されると思います)。また、エンド ユーザーのシステムに SAPI サーバーが存在することを想定したくないという理由もあります。
この目的のために、私は試しました
明らかに何もしません!(0 を 1 に置き換えると、EZeroDivide 例外が発生します。)
免責事項
私は、COM/OLE オートメーションの初心者です。この投稿で私が示した無知または愚かさについては申し訳ありません...
アップデート
私と同じ問題に遭遇したすべての人のために、François によるビデオでは、SAPI/Windows にバグがあり (どこかに非互換性があります)、次のコードで EZeroDivide 例外が発生することが説明されています。
ビデオで示されているように、解決策は FPU 制御ワードを変更することです。
さらに、サウンドを非同期で再生したい場合は、プレーヤーが範囲外にならないようにする必要があります。
c# - C#で文法(ルール)とディクテーション(言論の自由)をSpeechRecognizerと組み合わせる方法
私はMicrosoftの最新の音声認識(およびSpeechSynthesis)製品が本当に好きです。
http://msdn.microsoft.com/en-us/library/ms554855.aspx
http://estellasays.blogspot.com/2009/04/speech-recognition-in-cnet.html
ただ、文法を使うと少し制限がある気がします。
誤解しないでください。文法は、音声認識に注意すべき単語やフレーズを正確に伝えるのに最適ですが、注意を払っていないものを認識させたい場合はどうすればよいでしょうか。または、半分が事前に決定されたコマンド名と半分がランダムな単語であるフレーズを解析したいですか?
例えば..
シナリオA-「Google[OilSpill]」と言い、括弧内の用語の検索結果を使用してGoogleを開きたいと思います。
シナリオB -「[マンチェスター]を検索」と言い、Googleマップまたはその他の事前に決定されていないものでマンチェスターを検索したい
「Google」と「Locate」はコマンドであり、その後に続くのはパラメーター(そして何でもかまいません)であることを知ってもらいたいです。
質問:事前に決定された文法(音声認識が認識すべき単語)と、事前に決定された文法に含まれていない単語の使用を組み合わせる方法を知っている人はいますか?
コードフラグメント。