問題タブ [speech-synthesis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
185 参照

android - 音声合成通話、Android?

Android で、音声合成された電話をかけるアプリを作成できますか? つまり、電話に出たときに話してもらいたい一連のテキストがあります。

0 投票する
1 に答える
1808 参照

signal-processing - LPC エンコーダー/デコーダーを備えた DSP ライブラリ

軽量の diphone スピーチ シンセサイザーを作成しようとしています。私の母国語には非常に単純な発音とテキスト処理ルールがあるため、すべてが非常に単純に見えます。私が遭遇した唯一の問題は、ピッチコントロールです。

私が理解している限り、音声のピッチを制御するために、ほとんどの音声シンセサイザーは LPC (線形予測コーディング) を使用しています。これは、基本的にピッチ情報を録音された音声サンプルから分離し、合成中に独自のピッチを次のように指定できます。必要です。

問題は、私が DSP の専門家ではないことです。私は Ooura FFT ライブラリを使用して AFR 情報を抽出しました。Hann ウィンドウと Hamming ウィンドウの使用については少し知っていますが (自分で C++ コードを実装しました)、ほとんどの場合、DSP アルゴリズムをブラック ボックスとして扱います。

使用例が含まれた裸の LPC コードであるオープンソース ライブラリを見つけたいと思っていましたが、何も見つかりませんでした。利用可能なコード (フェスティバル エンジンなど) のほとんどは、シンセに緊密に統合されており、それを分離して使用方法を学ぶのはかなり難しい作業です。

「ブラック ボックス」スタイルの LPC アルゴリズムと使用例を備えた C/C++/C#/Java オープン ソース DSP ライブラリはありますか?そのため、PCM サンプル データをそれに投げて、LPC コード化された出力を取得し、コード化されたものを投げることができます。データとデコードされた音声データを合成しますか?

0 投票する
1 に答える
936 参照

text-to-speech - フェスティバルttsをflitettsに変換します

私は現在、festivalとfestvoxを使用して構築されたttsを持っています。これらの音声を変換して、fliteでTTSを作成する必要があります。どうやらあなたはfestvoxを使って変換をすることができます(festvoxとfliteのウェブサイトはそう言っていますが、それを行う方法についての適切なステップはありません)。私はこの分野に慣れていないので、誰かが私を助けてくれますか?事前に感謝します..

0 投票する
3 に答える
822 参照

java - クラスが見つかりません。なぜですか?

javax.speech.recognition.Result; をインポートしようとしています。私のコードで。しかし、クラスが見つからないというエラーが発生しています。

javap; での確認について。次のように:-

私はJava 7を使用しています。次の出力を見つけてください:-

助けてください、私は音声認識に取り組もうとしています。

ありがとう


jsapi.sh ファイルをインストールした後のディレクトリのスクリーンショットは次のとおりです。 ここに画像の説明を入力

すべての jar ファイルを含める必要があります。簡単なチュートリアルや手順があれば、大いに役立ちます。

0 投票する
0 に答える
105 参照

.net - System.Speech.Synthesis で金額を発音する

これを .NET の Speech Synthesizer で実行すると、

次のように発音します。

dollars nine dot zero zero

System.Speech.SynthesisのドキュメントSayAs列挙は次のように述べています。

時刻、日付、通貨などの要素を話すためのコンテンツ タイプを列挙します。

すごい!ただし、列挙には実際には通貨に関連するものは何もありません! 日付、数字、単語の綴りだけです。

Speech Server 2007 では、電話番号と通貨の両方を持っていたようですが、現在はなくなっています

この質問を書くのにかかった時間内に、おそらくRegExを書いて解析することができたかもしれませんが、より良い方法でこれを行う方法があれば、その方法を知りたいです.

0 投票する
1 に答える
790 参照

c# - SpeechSynthesizerの再生中にIMFMediaEngineバックグラウンドオーディオを再生する方法

バックグラウンドオーディオの再生中にWindowsPhone8の音声合成装置を再生したい。しかし、毎回、Speech Synthesizerをアクティブにすると、バックグラウンドオーディオの再生が停止し、シンセサイザーが終了すると再開します。

助言がありますか?ありがとう。

以下のいくつかのコードスニペット:バックグラウンドオーディオ:C ++でIMFMediaEngineを使用すると、正常に再生されます。

C#/ XAMLには、ボタン付きのXAMLページがあり、クリックすると、WP8の最新の音声クラスから再生されます。テキストを再生します。

SpeakTextAsyncをスレッドに通してみましたが、両方のオーディオを同時に再生できないため、すべて間違っていると思います。

0 投票する
2 に答える
1391 参照

speech-recognition - テキスト読み上げ、音声合成、Re:できますか?

ですから、私はここではまったく新しいので、いくつかの情報を探すのに苦労しました。

このテクノロジーが現在モバイルプラットフォームに存在するかどうか疑問に思います。

電話を使って人の声やフレーズを録音したい。次に、音声に基づいて、別の人がテキストを入力して音声データを取得できるようにします。できれば、同じ単語を使用しないと同時に、目的のフレーズを生成するために必要な正しい音節をキャプチャするためのフレーズを与えます。基本的にはテキスト読み上げですが、ミッションインポッシブル2のようなリアルタイム入力です。たとえば、兄が私に電話をかけ、彼の声を録音してから、母に電話をかけ、兄のように聞こえます。ただし、音楽ファイルのように声をつなぎ合わせるのではなく、言いたいことを入力してください。おそらく、機械的に聞こえないものです。

うまくいけば、私の説明が理にかなっていて、どんな助けでも大いに活用されるでしょう。

ありがとう、ウィル

0 投票する
1 に答える
1098 参照

nlp - 100,000 の単語から音素へのマッピングが与えられた場合、元の単語を音素の境界で分割するにはどうすればよいでしょうか?

次のように、100,000以上の単語を音素( CMUdict )にマッピングしています。

元の単語の文字を音素の数に等しい数のグループに分割したい、例

音素から書記素へのマッピングはありませんが、音素から書記素への統計モデルを計算し、それを使用して各単語をどこで分割するかを決定できるはずです。(このモデルを使用して、新しい単語を可能性のある音素に変換することもできればよいのですが)

これどうやってするの?隠れマルコフモデルが適用できるように聞こえると思っていましたが、それ以上のことはわかりません。

0 投票する
1 に答える
887 参照

c++ - オーディオ出力の検出 + 音声合成ライブラリの提案

PC が何らかの種類のオーディオ (音楽/映画など) を再生しているかどうかを検出したいと考えています。
Twitter の更新を通知するアプリを作成しました。音声合成を追加したいのですが、音楽や映画が再生されていない場合にのみメッセージを再生したいと考えています。

私は C# を使用していますが、C++ を使用して検出を行い、それを統合してもかまいません。

質問は次のとおりです。

1) オーディオ出力を検出するにはどうすればよいですか?
2) Windows 用の最高の無料音声合成ライブラリは何ですか?

0 投票する
2 に答える
980 参照

c# - Windows Phone8SpeechSynthesizerの一時停止

SpeechSynthesizer.SpeakTextAsyncの実行中に一時停止して、そこから再開するアプリを開発しています。

いつ読むのをやめるvar stop = true;