問題タブ [speech-synthesis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
24318 参照

text-to-speech - グーグルのテキスト読み上げエンジンの声?

あなたのほとんどはおそらくグーグル翻訳のテキスト読み上げシンセサイザーを知っているでしょう、あなたはここでプログラム的にアクセスすることができます:

私の印象では、時々espeakを使用しているようですが、主要な言語では、品質はそれよりもはるかに優れています。Googleが何を使用しているのか、またはどのような声を使用しているのかを知っている人はいますか?明らかに、それは正常ではなく、mbrolaが声を出すことでもありません。

0 投票する
1 に答える
197 参照

iphone - iPhoneでオーディオを合成する方法

提供されたテキストを話すために使用できるように、音声を合成する必要があります。iPhoneでどのように行うことができますか。Sphinx音声シンセサイザーやその他の音声シンセサイザーを試しましたが、テキストを音声に変換するための事前定義された音声がいくつかあります。私のアプリでは、返信するために私から提供された音声が必要です。

どこから始めるべきかに関するこの中の提案は非常に役に立ちます。

前もって感謝します。

0 投票する
1 に答える
681 参照

text-to-speech - TTS - テキスト音声合成システム

TTS - Text to Speech Synthesis System 機能を含む html ページを作成しようとしています。オンラインの良いデモをいくつか提案してください。

また、Google が TTS - Text to Speech Synthesis System の API を提供しているかどうかもお知らせください。

どうもありがとう。

0 投票する
1 に答える
720 参照

speech-synthesis - 音声合成をどこから始めるか

皆さんは、Google の TTS エンジンに精通しているかもしれません:こちら.

そのようなものが入力を分析し、さまざまな音節/品詞を選択する方法についての基本的な理解がありますが、TTS システムの「声」を作成したい場合、どこから始めればよいでしょうか?

0 投票する
3 に答える
36217 参照

speech-recognition - Text-to-speech (音声生成) および speech-to-text (音声認識) API?

デスクトップまたはブラウザ環境向けの既知の API の包括的なリストはありますか?

0 投票する
3 に答える
24768 参照

audio - 高品質で、感情的で、流暢で、可変のテキスト読み上げエンジン?

いくつかのサービス/ツールを見た後、結論に達しました。ほとんどのテキスト読み上げツールは技術的で機械的すぎます。言い換えれば、質の悪い c 音声です。

それに加えて、「ハードコードされた」音声テンプレートが付属しているように見えるため、多様性/カスタマイズが短くなります. 一部のツールでは、読み取り速度とピッチを設定できますが、それだけでは十分ではありません。

感情的な側面の背後にある問題についての私の推測では、プレーン テキストから感情を判断するのは難しく、それが 1 つか 2 つの文であればなおさらです。さらに、古き良き PC は機械です。機械には感情がありませんが、それは別の話です。

私が最も気になるのは、品質です。たとえば、単語の頂点を切り取るために使用するこれらのツールがあり、これらの技術的な音声が得られます。文の構成か何かに問題があるように感じます。そして、はい、人々がそのようなツールに取り組んでいる間、私は、それらを改善するために彼らがもう少し努力することを妨げているのだろうかと思います.. さらに、優れた高品質のテキスト読み上げソフトウェアには価値があることを覚えておく必要があります...たくさん!したがって、かなり収益性の高い製品になります。

ああ、流暢さの下に、質問や感嘆符などを隠しています。(流暢さには当てはまらないかもしれませんが、私は英語が母国語ではありません。その場合はご容赦ください。)

私が調べたツールのリスト:

非常に印象的ですが、まだ改善の余地があります (++)

- Loquendo : 声の多様性に欠ける、頂点/流暢さに小さな問題がある (文によって異なります)、咳が多すぎる、例の言い訳が多すぎる!
-ニュアンス ボーカライザー: まだバラエティに欠けますが、提供されたボイスのいくつかは価値があります。


協力してより多くのリソースを獲得し、異なるがほぼ同等の製品に取り組むこともできます (--)

- eSpeak :最高のロボットの 1 つので、プログラムのロゴ(
? ! )英語のテキストで音声を日本語に設定します。日本の男性は、これに満足していないに違いない。-ケプストラル+強化された声... さらに、強化された声は古き良きくだらない結果をもたらすため、さらに 5 つの声を除いて、何も強化されていません。- AT&T : まともな流暢さですが、文末に問題があり、ロボが多すぎます! -ルーメンボックス TTS



: 多くの音声ツールを使用した背景から来ているように見えますが、それでもロボットの声になります。
- そして、もう少し...


一見の価値があるものを見逃した場合は、共有してください。無料でも、商用でも、超高額でもかまいません...うまくいく限り、私は興味があります!

そして質問(-s)。

  1. これらの声の質、流暢さ、多様性の背後にある主な問題は何だと思いますか? 感情的な部分は判断が難しいので飛ばしていただいても構いませんが、何かアイデアがあれば教えていただければと思います。
  2. テキストはどのように音声に変換されますか? たとえば、これらのツールの背後で使用されているアルゴリズムは何ですか? たぶん、新しい理論が役立つかもしれません。
  3. それらは実際には異なるエンジン/ドライバーですか、それとも同じドライバー/エンジンの異なる音声パターンですか?
  4. それは私だけですか、それとも最初のText2Speech ツールの 1 つの間の品質は、何年にもわたってあまり変化していません (またはまったく変化していません)。 そして、少なくとも私が調べたものとビデオを比較した場合、この古い学校の Apple のツールは 2000 年以降のツールのいくつかよりも優れた結果を提供することを認めなければなりません.)
0 投票する
2 に答える
570 参照

objective-c - Mac OS X テキスト読み上げの性別

Mac OS X でさまざまな声をすべて取得し、性別で並べ替えようとするアプリケーションを作成しています。各性別 (男性、女性、ノベルティ) の声を入れるために 3 つの可変配列を作成し、列挙を使用してそれぞれを調べて正しい配列に入れています。残念ながら、それは機能していません。ノベルティ配列以外はすべて空になり、ノベルティ配列には 1 つの声、Zarvox しかありません。誰かが私が間違っていることを見ていますか? 以下のコードを投稿しました。

0 投票する
1 に答える
18254 参照

android - プログラムで TTS の言語を設定しますか?

さまざまな言語で TTS を使用するための小さな Android デモを作成しました。スペイン語と英語の 2 つのボタンがあるレイアウトがあります。ボタンを押すと、選択した言語で発話がトリガーされます。

ただし、言語を変更することはできません (setLanguage (Locale locale))。電話の設定を使用し、TTS 言語を米国、英国、イタリア語、ドイツ語などに変更して、手動で行うことはできますが、コードが機能しないようです。どこに問題があるのか​​教えていただけますか?

ありがとうございました!!

}

0 投票する
1 に答える
2480 参照

c# - アプリケーションがカスタム音声で話すようにする

重複の可能性:
tts のカスタム sapi 音声を作成する方法

ねえみんな、ここに不可解な問題があります。マシンに問題が発生したときにオペレーターに警告できるように、アプリケーションの 1 つを通信するように依頼されました。問題は、彼らが特定の声を使いたいということです。

これをさらに困難にしているのは、問題が何であるかを示す必要があり、1 つの周辺機器に対して 70 を超えるエラー コードがあり、すべてがこの機能を必要とする 9 つの異なる周辺機器が接続されているという事実です。

Microsoft によるテキスト読み上げエンジンの使用方法を説明する投稿を見たことがあります (例: http://www.itechgiz.com/2011/01/create-a-simple-text-to-speech-application-in-visual -studio )しかし、これを実装する方法がわかりません。

私は彼らの男に特定のフレーズを言ってもらい、音を出して言葉を生成できるようにする必要があると思いますが、どこから始めればいいのかわかりません!

ところで、C# Win フォームでなければならないアイデアはありますか?