問題タブ [text-to-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows-vista - MS SAPI TTS を使用した意図しないピッチ変更
MS SAPI TTS 音声を使用して意図しないピッチ変更を経験した (そしておそらく解決した) 人はいますか?
SAPI 5.1 で SpVoice オートメーション インターフェイスを使用しています。
現在、私のアプリケーション (VB6 アプリ) は、TTS (Microsoft Anna) がシマリスのように聞こえ始める状態 (適切な速度ですが高音) になる可能性があり、Vista を再起動しても問題は修正されません。
XML を Voice.Speak() 関数に渡しています。< ピッチ absmiddle="0" /> を他のすべての XML の前に送信しようとしましたが、それでもピッチの問題は修正されません。音声コントロール パネルで TTS 音声プレビューを試してみると、音声のピッチが正常です。
過去にXPで問題が発生しましたが、再起動すると修正されたようです。
java - Java: Text to Speech エンジンの概要
私は今、Java Text to Speech (TTS) フレームワークを探しています。調査中に、JSAPI 実装ページにリストされているJSAPI1.0と(部分的に)互換性のあるフレームワークがいくつか見つかりました。 . また、現在 JSAPI のリファレンス実装が存在しないことにも注意しました。
私が FreeTTS に対して行った簡単なテスト (JSAPI impls ページにリストされている最初のもの) は、単純で明白な単語 (例: ABC、黒板) を読み取るには程遠いことを示しています。他のテストは現在進行中です。
そして、ここに質問があります(実際には6):
- 使用したことがある Java ベースの TTS フレームワークはどれですか?
- あなたの意見では、最大の単語ベースを読み取ることができるのはどれですか?
- 彼らの声質はどうですか?
- 彼らのパフォーマンスはどうですか?
- Javaバインディングを備えたJava以外のフレームワークはどれですか?
- それらのどれをお勧めしますか?
コメントや提案をお寄せいただきありがとうございます。
audio - 音声サンプルのライブラリ(音声テキスト)
現在取り組んでいるプロジェクトでは、さまざまな言語の話し言葉のライブラリが必要です。
2つのオプションが可能と思われます。ネイティブスピーカーによるテキスト読み上げまたは「実際の」録音です。品質は私たちにとって重要なので、私たちは後者の道を進むことを考えています。
アプリケーションのプロトタイプを作成するために、さまざまな言語の単語をできるだけ多く含むライブラリを探しています。私たちのアプローチの質を感じるために、このライブラリは合成音声で構成されるべきではありません。
利用可能な/アクセス可能なライブラリを知っていますか?
text-to-speech - ブラウザ用の無料のテキスト読み上げはありますか?
IE または Firefox 用のプラグインとして利用できる Text to Speech ソフトウェアがあるかどうか疑問に思っています。
java - (音声コード) テキスト読み上げアドオンを見つけるのに助けが必要
文字を発声できるアドオンを探しています。それは非営利目的であり、アジア語、英語など、より多くの言語を発声できればいいのですが...グーグルで検索しましたが、無料で使用できるものが見つからないようです.
更新: これは Web 用です
.net - TTS エンジンの推奨事項
テレフォニー アプリケーションで使用するための、信頼性が高く費用対効果の高い TTS エンジンを推奨できる人はいますか?
要件は次のとおりです。
- Windows プラットフォームをサポートする必要があります
- アクセントのサポートを含む豊富な言語サポートが必要です (つまり、米国英語と英国英語)
あった方がよい:
- .NET プラットフォームとの統合
- 予算にやさしい
- 出力はテレフォニー アプリに送信されますが、出力の品質を完全に制御できると便利です (将来の潜在的な使用のために)。
さまざまなパッケージでのすべての経験を聞くことに興味があります。
注: 残念ながら、オープン ソース パッケージはここではオプションではありません。
delphi - Vista でのテキスト読み上げ
次のように、2000/NT/XP で Delphi を使用して OLE オブジェクトを作成することでそれを行いました。
しかし、これは Vista では機能しません。Vista でプログラムに単にテキストを読み上げさせるにはどうすればよいですか?
c# - C# 音声認識 - これはユーザーが言ったことですか?
単語やフレーズを表示し、ユーザーがそれを読んだとき(またはその近似値)を認識できる、組み込みのビスタまたはサードパーティの音声認識エンジンを使用するアプリケーションを作成する必要があります)。また、オペレーティング システムの言語を変更せずに、言語をすばやく切り替える必要もあります。
ユーザーは非常に短期間システムを使用します。アプリケーションは、最初に認識エンジンをユーザーの声に合わせてトレーニングする必要なく動作する必要があります。
これが Windows XP 以下のバージョンの Windows Vista で動作することも素晴らしいことです。
必要に応じて、システムは、ユーザーが選択した言語で、画面上の情報をユーザーに読み上げることができる必要があります。事前に録音されたナレーションを使用してこの仕様を回避することはできますが、推奨される方法はテキスト読み上げエンジンを使用することです。
誰かが私に何かを勧めることができますか?
c# - 質問SpeechSynthesizer.SetOutputToAudioStreamオーディオ形式の問題
私は現在、特定のオーディオ形式にエンコードされた音声の送信を必要とするアプリケーションに取り組んでいます。
これは、オーディオがPCM形式、1秒あたり8000サンプル、1サンプルあたり16ビット、モノラル、1秒あたり平均16000バイト、2のブロックアライメントであることを示しています。
次のコードを実行しようとすると、MemoryStreamインスタンスに何も書き込まれません。ただし、毎秒8000サンプルから11025まで変更すると、オーディオデータは正常に書き込まれます。
8000のサンプルレートを使用したときに記録された例外やエラーはなく、SetOutputToAudioStreamに関するドキュメントで有用なものが見つからず、8000ではなく11025サンプル/秒で成功する理由があります。wavファイルを含む回避策があります。いくつかのサウンド編集ツールを使用して生成され、正しいサンプルレートに変換されましたが、可能であれば、アプリケーション内からオーディオを生成したいと思います。
特に興味深い点の1つは、SpeechRecognitionEngineがそのオーディオ形式を受け入れ、合成されたWaveファイル内の音声を正常に認識したことです...
更新:最近、このオーディオ形式はインストールされている特定の音声では成功しますが、他の音声では失敗することがわかりました。特にLHMichaelとLHMichelleで失敗し、PromptBuilderで定義された特定の音声設定で失敗が異なります。
.net-3.5 - 別の言語の音声をインストールする System.Speech.Synthesis
.net フレームワーク 3.5 (または vista) は、Speech.Synthesis API で使用する英語の音声 (David だと思います) を提供してくれます。子供たちがフランス語のスペルを改善するために使用するために構築しているフランス語のディクテーション練習アプリで使用するには、フランス語の声が必要です。この API を使用すると、音声を作成するときにカルチャを変更できますが、デフォルトの英語の音声ではフランス語の単語を正しく発音できません。
Microsoft からフランス語の音声をダウンロードする方法が見つかりませんでした。これは可能ですか?私は Cepstral から Demo コマーシャル ボイスをダウンロードしましたが、(テスト用であっても) 使用できないほど機能が損なわれています。このエクササイズはただの楽しみのためなので、何も買いたくありませんでした。
私は、商業的なプロの声に頼ることなく、別の言語の声が簡単に得られることを望んでいました. 無料の代替手段はありますか?