問題タブ [speech-synthesis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - SpeechSynthezier.PhonemeReached イベントと制御文字
単語を発音し、発音されたときに各音節を強調表示する小さな Silverlight ウィジェットを作成しています。
この一環として、SpeechSynthesizer.PhonemeReached イベントを使用して、各音素の開始時刻と終了時刻を決定しています (各音節の開始時刻と終了時刻を把握するための手順として)。
奇妙なことに、PhonemeReachedEventArgs.Phoneme プロパティは、少なくとも (ただし、排他的ではない可能性があります) U+0004 END OF TRANSMISSIONという制御文字になることがあります。始まり)。
これが何を意味するのかについてのドキュメントが見つかりません。誰か知っていますか?
編集:明確にするために、私はSilverlightで音声合成を行っていません(サポートされていないため)、サーバーで行っており、音声のHTTPヘッダーで単語の音節境界時間とIPA転写を返しています応答。おそらく、Silverlight の部分についてはまったく言及すべきではありませんでした。それは実際には関連性がないためです。コンテキストを説明することについてあまり考えていませんでした。おっと。:)
text-to-speech - System.Speech.Synthesis および TTSEngine のスペイン語音声
System.Speech.Synthesis を使用して、アンナとサムの任意の声で英語のテキストを読み上げることに成功しました。私の次のタスクは、アプリケーションをローカライズして、スペイン語を話す顧客がスペイン語のテキストを正しく読めるようにすることです。
しかし、私は正しい質問をしているとは思いません.b/cドキュメント、フォーラム、グループ、または技術の記事で、これがどのように行われるかについての明確な説明を見つけることができません.
1st: SpeechSynthesizer クラスやその他の Text-To-Speech オブジェクトには設定がないというのは正しいですか? つまり、スペイン語の「アクセント」で読む正しい音声をインストールするだけでよいのでしょうか。
2位:どうやってこれを行うのですか?インストールしようとしたスペイン語ライブラリへのリンクを見たことがありますが、Windows XP の音声コントロール パネルまたはアプリケーションの GetInstalledVoices() 呼び出しでこれらの新しい音声を確認できません。
私は .Net 3.5 SP 1 と Windows XP SP3 を使用しており、私のコードは Visual Studio 2..8 を使用しています。
詳細が不足している場合は、お知らせください。
助けていただければ幸いです。Ⅴ
c# - C#音声認識
現在、スマートハウス制御システムを作っていますが、少し問題があります。基本システムにCosmosを使用し、必要な名前空間ライブラリを追加することを考えていましたが、通常のSystem.Speech.Recognition名前空間はWindows Speech APIに大きく依存しているため、使用することを忘れる必要があります。
だから私の質問は、C#用の(可能であれば無料の)音声認識および/または音声合成シンセサイザーライブラリはありますか、次のものがあります:
- 多言語を話すためのサポート
- 音声サンプルからテキストコンテンツを抽出する
- 選択可能な(またはユーザーが作成した)音声パターン(音声)を使用した音声の合成
一般的な使用法では、Windowsに依存しないライブラリが最適です。もちろん、それが無料の場合も同様です。
iphone - iOS での音声出力
アクセシビリティに使用されている iOS の音声合成機能にアクセスできますか?
vb.net - VB 2010 Express: テキスト読み上げ
VB 2010 Express で TTS を動作させる方法について非常に混乱しています。いくつかのハウツーを読みましたが、それぞれが異なる方法で TTS を実行する方法を示しています (System.Speech、Microsoft Speech Object Library への参照の追加、SAPI の使用など)。残念ながら、すぐに使用できるものはありません。そのため、追加のパッケージをインストールして、いくつかの手順に従う必要があります。
私の質問は次のとおりです。TTS を有効にし、英語以外の音声を選択し、移植可能な実行可能ファイル (つまり、XP および Vista マシンにインストール可能) を確保する最も簡単な方法はどれですか?
ありがとう!
php - シンセサイザーがそれらを正しく読み取ることを確実にするために頭字語を爆発させますか?
スピーチシンセサイザー(この場合はフェスティバルですが、すべてに適用されます)にフィードすると、次のテキストが表示されます。
「米国でのUSPGAチャンピオンシップで、BBCレポーターはMIAに行きました」。「私たちのuspgaチャンピオンシップで、BBCレポーターはミアに行きました」と書かれています。
言い換えれば、子音のクラスターであるため、「BBC」を正しく読み取りますが、他の子音から「単語」を作成していると思います。
最も簡単な方法は、2つ以上の大文字を検索するphpスクリプトを実行し、USPGAのように単語をスペースに「分解」することだと思います。
「そんなことしないように言った」などと変なことになると思いますが、ニュース報道ではあまり起こらない傾向があります。
つまりね; 私は「OK」という言葉を「爆発」させることができます。問題は、私は何ヶ月も試したにもかかわらず、正規表現の特定の側面に頭を悩ませることができない人々の1人です。この場合、それは探しています:大文字で隣り合った2つ以上の文字。
上記のすべてのプリアンブルを提供した理由は、私が見つけられなかった、またはそれを介してこれを行うためのより良い方法がある場合に備えてです-おそらく単語などの頭字語のdbです。
.net - 最先端のテキスト読み上げをどのようにすればよいですか?
昔は、テキスト読み上げは、最先端であったとしても、非常に不完全でした。あなたが単語をタイプしたとき、それはあなたがそれをどのように綴ったかをほとんど読むでしょう...単調に。多くの場合、結果は非常に面白いでしょう。今日、Text-to-Speechは頭が良すぎて、笑いを誘うような方法で間抜けすることはできません。
個人的なプロジェクトとして、この古いスタイルのテキスト読み上げをおもちゃとしてだけでも復活させることができるアプリケーションを作りたいと思っています。System.Speech.dll
.Netでは、COMオブジェクトとCOMオブジェクトの両方を使用できSpeechLib
ます。(Microsoft Speech Object Library)どちらもOSに組み込まれているText-to-Speechを使用しているようですが、これも賢すぎます。インテリジェントにするものを無効にするようにこれらを構成する方法はありますか?
いくつかの異なる「SayAs」オプションを試し、カルチャを不変に設定しようとしました(例外!)。そして今、SSMLを見ています。古いテクノロジー自体を見つけなければならないように見え始めていますが、どこから始めればよいのかさえわかりません。
私が見たいと思っている混乱の例として、ここにいくつかのMoonbase Alphaがあります:http ://www.youtube.com/watch?v = Hv6RbEOlqRo (ヘッドフォンを着用していることを確認してください!)
これらの新しいテキストから音素へのコンバーター、ノーマライザー、ケーブルレス電話、そして...
.net - SpeechSynthesizer を使用して SpeechAudioFormatInfo でストリーミングする TTS
System.Speech.Synthesis.SpeechSynthesizerを使用してテキストを音声に変換しています。また、Microsoft の貧血に関するドキュメント (私のリンクを参照してください。コメントやコード例はありません) のために、2 つの方法の違いを理解するのに苦労しています。
SetOutputToAudioStream と SetOutputToWaveStream。
これが私が推測したものです:
SetOutputToAudioStream は、ストリームと、wave ファイルの形式 (1 秒あたりのサンプル数、1 秒あたりのビット数、オーディオ チャネルなど) を定義する SpeechAudioFormatInfo インスタンスを受け取り、ストリームにテキストを書き込みます。
SetOutputToWaveStream は、ストリームだけを受け取り、16 ビット、モノラル、22kHz、PCM ウェーブ ファイルをストリームに書き込みます。SpeechAudioFormatInfo を渡す方法はありません。
私の問題は、 SetOutputToAudioStream が有効なウェーブ ファイルをストリームに書き込めないことです。たとえば、ストリームを System.Media.SoundPlayer に渡すと、InvalidOperationException (「ウェーブ ヘッダーが壊れています」) が発生します。ストリームをディスクに書き込んで WMP で再生しようとすると、「Windows Media Player はファイルを再生できません...」というエラーが表示されますが、SetOutputToWaveStream によって書き込まれたストリームは両方で正しく再生されます。私の理論は、SetOutputToAudioStream が (有効な) ヘッダーを書き込んでいないというものです。
奇妙なことに、SetOutputTo*Blah* の命名規則には一貫性がありません。SetOutputToWaveFile は SpeechAudioFormatInfo を受け取りますが、SetOutputToWaveStream は受け取りません。
SetOutputToAudioStream や SetOutputToWaveStream ではできないことですが、8kHz、16 ビット、モノラル ウェーブ ファイルをストリームに書き込めるようにする必要があります。SpeechSynthesizer とこれら 2 つの方法について洞察を持っている人はいますか?
参考までに、いくつかのコードを次に示します。
解決:
@Hans Passantに感謝します。これが私が現在使用しているものの要点です:
私の大まかなテストでは、リフレクションを使用するのは少し厄介ですが、ファイルをディスクに書き込んでストリームを開くよりはましですが、うまく機能します。
speech-recognition - 音声認識と音声合成を始める
音声認識に基づくプロトタイプで音声認識と音声合成を開始したい 誰かがマイクロソフトの音声サーバー(SDKなど)を使用するように言った
これを持っている場合、どのようにアプリケーションをプログラミングし、どのプログラミング言語(開発環境?)でプログラミングしますか?
アスタリスクまたはSVOXの経験はありますか?
私はする必要があります:
音声認識音声合成
私は非常に優れた音声認識である必要はありません-最初は30〜50語で十分だと思います。私はウィンドウズで働いています。
前もって感謝します
c# - C#とMicrosoft Speech.Recognition and Speech.Synthesis
私はC#を初めて使用し、Speech.Recognitionを初めて使用します。チュートリアルを非常に長い間検索しましたが、それほど多くは見つかりませんでした。すべてが正しく含まれているかどうかさえわかりません。
私がダウンロードしました:
私はローカルでプログラミングしています。WindowsXP、.netFramework3.5を使用しています。
ここで、「hello world」と言ったり、入力として1つまたは2つの単語を言ったりするなど、いくつかの簡単なコード行から始めたいと思います。
フォローしてみましたが、もちろん動作しません:>エラー:
「Typ-またはNamespacename「SpeechSynthesizer」が見つかりませんでした(Using-DirektiveまたはAssemblyverweisがありませんか?)」
編集:
こんにちは、私はあなたにコードを試しましたが、SpeechLibを使用しています。見つかりませんでした:>
さて今私は書いた:
しかし、次のエラーが発生します。
nudeUpDown1、SpVoice、SpeechVoiceSpeakFlags、textBox1およびタイムアウト