問題タブ [speech-synthesis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Perlでの音声合成
コンピューター(WindowsまたはLinux、Mac)をPerlで話すようにすることは可能ですか?私はそれがVBスクリプトで可能であることを知っています。しかし、perlはどうですか?
VBでは次のように記述します
これをperlでどのように行うのですか?
php - ばかげた考え: PHP サーバーからの Mac の音声?
Mac OS X の音声を合成したいのですが、PC を使用しています。自宅の Macbook に PHP サーバーをセットアップして、テキストを合成し、それを Web リクエストで返すことはできますか?
お気に入りhttp://mymacbook.com/speak.php?t=why+hello+there
この可能性を解き放つ秘密の PHP コードは何ですか? コマンドラインで音声を合成できることは知ってsay -o "output.aiff" -f "input.txt"
いますが、結合組織については助けが必要です。
いいえ、Cepstral や AT&T のオンライン スピーチ シンセサイザへのリンクは希望しません。Mac の特別な音声合成構文を使用したいからです。
iphone - iPhoneプロジェクトでCソースコードを使用することは可能ですか?
多くの言語をサポートする音声合成装置を見つけました (http://espeak.sourceforge.net/index.html)。ただし、入手可能なソース コードは C で記述されています。
iPhoneで動作させるにはどうすればよいですか?
objective-c - NSSpeechSynthesizerの「rate」プロパティの範囲を見つける方法は?
NSSpeechSynthesizer
クラスを使用してテキストを読み取るOSXアプリがあります。rate
のプロパティを使用して行われる読み取りの速度を設定できる必要がありますNSSpeechSynthesizer
。ただし、音声が異なれば、ベースラインの読み上げ率も範囲も異なります。問題は、音声からこの範囲を取得する方法が見つからないため、音声に受け入れられる値がわからないことです。範囲の違いから抽象化して、ユーザーに低速/通常/高速などを選択させたいので、これは重要です。ただし、ベースラインが1分間に180ワードの音声の場合、値100は遅いと見なされます。これは、ベースラインが1分あたり100ワードの音声の場合には明らかに当てはまりません。
それらの範囲を取得する方法はありますか?のクラスリファレンスで役立つものは見つかりませんでしたNSSpeechSynthesizer
。
.net - MicrosoftTTS音声合成
特定の単語やフレーズのトーンや強調を設定することは可能ですか?
例:Good Morning
リラックスした声にThe nuclear plant is about to melt down
なりますが、はるかに緊急です。
再生の速度を変更できることは知っていますが、気付いていないもっと賢いものはありますか?他のTTSエンジンはこれをサポートしていますか(そしてそれらのいずれかはオープンソースですか)?
ありがとう
c# - C#(C ++)SAPI-TTS-読み取られているテキストの音声タイミングを取得する方法
誰か助けてもらえますか?SAPIを介してTTSの音声合成に関する情報を取得する方法の例を検索します(C#でアプリケーションをプログラミングしていますが、必要ありません。SAPIはC ++でも同じです)。必要な情報は次のとおりです。ユーザーはテキストボックスに書き込む:
「これはテキストです」 ..
tts.Speak( "これはテキストです"); //これはそれを「読み取り」ます。
わかりました、いいです...しかし、私も「タイミング」に関する情報を取得する必要があります。
例えば:
「Th」(「This」の最初の音(音素))は0.01msで「読み」ました。
「i」(「is」の最初の音)は0.5msで「読み取った」。
「e」(「テキスト」の2番目の音)は1.02msで「読み取られました」。
SAPIによって生成された.wavファイルを保存するとき、wavファイルの後続の「処理」のために.wavのタイミングに関する情報を取得する必要があります。
私の英語と私の問題の悪い説明について申し訳ありませんが、問題は私が非常に単純だと思い、すべてがそれを理解することです。そうでない場合は、問題についてもう一度説明します:) ^^ ..
open-source - FLOSSプロジェクトは、音声合成に人間の入力を利用していますか?
録音された音声データを使用して合成音声を生成するオープンソースのオープンコンテンツプロジェクトはありますか?(特定の個人のスピーチを合成/シミュレートすることを目的としています。補足として、このプロセス、目標、または抽出されたデータの名前はありますか?「音声署名」?)
ワークフローは次のようになると思います。
- 標準化されたテキストからスピーチを録音します(「テディはマットの上に座っていました。」)
- アクセントを考慮して、音素(猫の「a」)を選びます
- アリスの「eh」の音をベティの「eh」とは異なるものにするデータを取得する
- アクセントに適した音素と音声署名を使用して、テキストを音声に変換します
この質問に答えることは、人類のために彼のなだめるような声の署名をパブリックドメインに寄付するようにジャックエンジェル(テディ、ウォンカーズ)に請願する際の重要なステップです。
android - AndroidTTSエンジンの拡張
Androidの既存のTTSエンジンに新しい言語を追加しますが、最初から開始せずに既存のエンジンを変更できますか?音声合成フレームワークはある程度完成しているので、別のアプローチをとる代わりに、それに応じて自分の言語にTTSを実装できるかもしれません。
提案が必要です。
ありがとう
java - Linux/Ubuntu - FreeTTS を使用しない Java からの音声合成
私はそれを機能させるために2日を費やしました.UbuntuシステムでFreeTTSを使用したJavaからの音声合成であり、可能であれば、予想よりもはるかに複雑なようです. この構成には、解決できない問題がいくつかあります。
それで、気が変わって、別の方法で作ることにしました。アプリの実行中にいくつかのテキストを合成する必要があるだけなので、私の質問は次のとおりです。それを可能にし、プラットフォームに依存しない他の方法を知っている人がいます(実行する必要があるマシン)?
どうもありがとう。
multithreading - C# でマルチスレッドを使用するときに「待機」状態を実装する方法
マルチスレッドを適用するクラスがあります。一度に 1 つのスレッドだけが「startSpeaking()」できるようにしたいと思います。これが私の試みです:
createVoiceThread()
また、別のクラスからメソッドを呼び出しています。これは、別のクラスの同様の規則によって呼び出されます。例えば
私の質問は、このプログラムを変更して、startSpeaking()
が任意のスレッドによって呼び出されたときに、一度に 1 つの音声パターンのみを再生するようにするにはどうすればよいかということです。