問題タブ [text-to-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3978 参照

.net - System.Speech.Synthesis.SpeechSynthesizer を使用してテキストを MP3 に変換

テキスト読み上げを MP3 に保存しようとしています。現在、System.Speech.Synthesis が WAV ファイルに適切に話しかけています。

コメントアウトされた最初の行は、素晴らしい WAV ファイルを生成します。現在、それを MP3 出力ストリームに置き換えようとしていますが、あまり成功していません。

Yeti.MMedia コンバーターを試しましたが、うまくいかないか、うまく動作しません。ここで、エンコーディング、速度などについてあまり知らないことを認めなければなりません。

だから私が持っている質問は、誰かが私が次のようなことを言うことができる良い方法を知っているかということです:

SpeechSynthesizer で WAV に書き込み、MP3 に変換して HDD に保存します。

0 投票する
2 に答える
1970 参照

.net - Interop.SpeechLib.dllCOM例外

私はSpeechLibを非常に単純なテキストから音声への変換に使用しています。ローカルでうまく機能します。アプリケーションをサーバーにデプロイすると、例外が発生します。

私は運が悪かったので次のことをしました:

  • LocalSystemを使用して実行するようにAppPoolを設定します
  • SpeechLibがwavファイルを作成するフォルダーに書き込み特権を与えました

私は次のユーザーからまったく同じ問題を抱えています:

User1

User2

誰かがこの問題の解決策を見つけましたか?

ありがとう!

0 投票する
2 に答える
2065 参照

emacs - Emacs でのテキスト読み上げ

私は盲目ではありません。Windows マシンでバッファの内容を読み上げる方法が欲しいだけです。基本的な要件は次のとおりです。

  • 英語のテキスト バッファを読み取ります。
  • いつでも読み取りを一時停止し、いつでも再開できます (誰かが私のオフィスに入ってきたときに、大きなバッファーが終了するまで数分待たないでください)。
  • 再生時のリードバック速度を調整します。
  • 現在読んでいるテキストを強調表示する (オプション)

私はいくつかの可能な解決策を見つけました:

  • Emacspeak : 視覚障害者向けに設計されています。Emacs プラグインではなく、スタンドアロン プログラムのように見える
  • festival.el : Festival が必要です。Festival 用の Windows バイナリが見つかりません。持ってる人いる?
  • 自分で書くこともできました。Text-To-Speech (TTS) ライブラリは最近たくさんあります。インタラクティブな一時停止機能が最大のトリックかもしれませんが、それができるライブラリがいくつかあるはずです。

最適なプランはどれですか? ここでは 1 週間のプロジェクトは必要ありません。Windows で Festival をコンパイルするのは、骨の折れる実験でした。Emacspeak は、私が望むものに対してやり過ぎのように見えます。

0 投票する
1 に答える
905 参照

emacs - フェスティバルのアウトプットを管理する

私はFestivalonEmacsの改善に取り組んでいます。文章を読むときは、フェスティバルをもっとうまくコントロールする必要があります。基本的に、私は2つのものが必要です。

  1. 読んでいる単語を表示します。
  2. 読み取られているものの速度(そしておそらくピッチ)を変更します。

理想的には、Festivalによって出力されるデータ構造があり、オフセット/長さ(通常は単語の開始/長さ)を出力WAVファイル(またはwavファイル内の場所)にリンクします。次に、mplayerのようなものを使用してプレイリストを作成し、次の単語がいつ再生されているか、その単語がバッファのどこにあるかを教えてくれます。

また、読み取られる速度を変更するための簡単なコマンドがあることを望んでいます。しかし、mplayerは私のためにそれを行うことができるので、私が#1を機能させることができれば、それは大したことではありません。

0 投票する
1 に答える
161 参照

scheme - Scheme プログラムのデバッグ

プロジェクトにテキスト読み上げシンセサイザーであるFestivalを使用しています。これには、Scheme スクリプト言語があります。私はスキームに非常に慣れていないので、誰かが助けてくれることを願っています。Festival の現在の構成パラメーターを確認したいだけです。スキーム プロンプトがあり、次のコマンドで既存のパラメーターを変更できます。

ここで、一度に 1 つずつではなく、すべてのパラメーターを一度に表示したいと考えています。これを行うための簡単なSchemeコマンドはありますか?

0 投票する
1 に答える
774 参照

android - Android の音声エンジンの文字列入力

クラスTextToSpeechのメソッド「speak」は、メソッドonInitまたはonUtteranceCompletedでのみ機能するようです。ただし、onInit と onUtteranceCompleted には、文字列を渡すためのパラメーターがありません。

次のコードでは、グローバル文字列配列リストをメソッドの外側で定義しようとして、配列リストを文字列入力に使用しました。何らかの理由でうまくいきませんでした。しかし、エンジンは「よく眠れましたか」と話しました。どんな助けでも大歓迎です。

public void onCreate(Bundle savedInstanceState) {

}

0 投票する
4 に答える
7705 参照

c# - Microsoft Sam、SAPI の代替

Microsoft Speech API を使用する予定のアプリケーションがあります。現在、Microsoft Sam の音声を使用して Windows XP でテストしましたが、率直に言ってひどい音です...音声が何を言おうとしているのかを聞くことはほとんど不可能です。

他にもっと良い声はありますか?より優れたアップデートまたは新しいバージョンはありますか。代替として機能する他の製品、オープン ソース プロジェクトなどはありますか?

明確にするために-実際にプログラムできるように、ある種のAPIが必要です。

0 投票する
1 に答える
6393 参照

asp.net - ASP.NETWebアプリへの追加の音声

SAPIを使用してTTSを実行するWebアプリケーションがあります。デフォルトでMSSamがインストールされているWindowsServer2003で実行します。

音声を販売しているサードパーティ企業がたくさんあることを理解しています。商用アプリケーションの場合、これらの企業のうち、高額な料金を請求しないライセンスを提供しているのはどれですか?ASP.NETアプリと簡単に統合できるAPIはありますか?

私は本当にアプリケーションにもっと声を追加したいと思います。

編集:もう答えますか?ありがとう

0 投票する
1 に答える
5057 参照

android - Web ページから Android TTS を使用できますか?

Web ページから Android TTS API を使用するにはどうすればよいですか?

0 投票する
2 に答える
1980 参照

python - PyTTS のオーディオ ストリームからの mp3 のエンコード

Python 2.5 を使用して、音声 mp3 ファイルでテキストを音声に変換する作業を行っています。

pyTSS を python Text-To-Speech モジュールとして使用して、オーディオ .wav ファイルのテキストを変換します (pyTTS では、mp3 形式で直接エンコードすることはできません)。その後、ラメ コマンド ライン エンコーダーを使用して、これらの wav ファイルを mp3 形式でコーディングします。

さて、問題は、特定の外部サウンドファイル(音声警告など)または(可能であれば生成された警告音)(オーディオmp3ファイルの特定のポイント、2つの単語の間)を挿入したいということです。

質問は次のとおりです。

1) PyTTS にはオーディオ ストリームをファイルまたはメモリ ストリームに保存できる可能性があることがわかりました。2つの機能を使用:

tts.SpeakToWave(ファイル、テキスト) または tts.SpeakToMemory(テキスト)

tts.SpeakToMemory(text) 関数を利用し、PyMedia を使用して、mp3 を直接保存することはできましたが、mp3 ファイル (再生時) は、ドナルドダックのように理解できないように聞こえます! :-) ここにコードのスニペットがあります:

どこが問題なのかわからない?!? この可能性 (正しく動作する場合) は、wav ファイルの変換ステップをスキップすることをお勧めします。

2) 2 番目の問題として、オーディオ mp3 ファイル (テキスト読み上げモジュールから取得) を特定の警告音と連結する必要があります。

明らかに、オーディオ メモリ ストリーム全体を一意の mp3 ファイルにエンコードする前に、テキストのオーディオ メモリ ストリーム (テキスト読み上げモジュールの後) と警告音のストリームを連結できれば素晴らしいことです。

また、tksnack ライブラリはオーディオを連結できますが、mp3 ファイルを書き込むことはできません。

明確になったことを願っています。:-)

私の質問に答えてくれてありがとう。

ジュリオ