13

いくつかのサービス/ツールを見た後、結論に達しました。ほとんどのテキスト読み上げツールは技術的で機械的すぎます。言い換えれば、質の悪い c 音声です。

それに加えて、「ハードコードされた」音声テンプレートが付属しているように見えるため、多様性/カスタマイズが短くなります. 一部のツールでは、読み取り速度とピッチを設定できますが、それだけでは十分ではありません。

感情的な側面の背後にある問題についての私の推測では、プレーン テキストから感情を判断するのは難しく、それが 1 つか 2 つの文であればなおさらです。さらに、古き良き PC は機械です。機械には感情がありませんが、それは別の話です。

私が最も気になるのは、品質です。たとえば、単語の頂点を切り取るために使用するこれらのツールがあり、これらの技術的な音声が得られます。文の構成か何かに問題があるように感じます。そして、はい、人々がそのようなツールに取り組んでいる間、私は、それらを改善するために彼らがもう少し努力することを妨げているのだろうかと思います.. さらに、優れた高品質のテキスト読み上げソフトウェアには価値があることを覚えておく必要があります...たくさん!したがって、かなり収益性の高い製品になります。

ああ、流暢さの下に、質問や感嘆符などを隠しています。(流暢さには当てはまらないかもしれませんが、私は英語が母国語ではありません。その場合はご容赦ください。)

私が調べたツールのリスト:

非常に印象的ですが、まだ改善の余地があります (++)

- Loquendo : 声の多様性に欠ける、頂点/流暢さに小さな問題がある (文によって異なります)、咳が多すぎる、例の言い訳が多すぎる!
-ニュアンス ボーカライザー: まだバラエティに欠けますが、提供されたボイスのいくつかは価値があります。


協力してより多くのリソースを獲得し、異なるがほぼ同等の製品に取り組むこともできます (--)

- eSpeak :最高のロボットの 1 つので、プログラムのロゴ(
? ! )英語のテキストで音声を日本語に設定します。日本の男性は、これに満足していないに違いない。-ケプストラル+強化された声... さらに、強化された声は古き良きくだらない結果をもたらすため、さらに 5 つの声を除いて、何も強化されていません。- AT&T : まともな流暢さですが、文末に問題があり、ロボが多すぎます! -ルーメンボックス TTS



: 多くの音声ツールを使用した背景から来ているように見えますが、それでもロボットの声になります。
- そして、もう少し...


一見の価値があるものを見逃した場合は、共有してください。無料でも、商用でも、超高額でもかまいません...うまくいく限り、私は興味があります!

そして質問(-s)。

  1. これらの声の質、流暢さ、多様性の背後にある主な問題は何だと思いますか? 感情的な部分は判断が難しいので飛ばしていただいても構いませんが、何かアイデアがあれば教えていただければと思います。
  2. テキストはどのように音声に変換されますか? たとえば、これらのツールの背後で使用されているアルゴリズムは何ですか? たぶん、新しい理論が役立つかもしれません。
  3. それらは実際には異なるエンジン/ドライバーですか、それとも同じドライバー/エンジンの異なる音声パターンですか?
  4. それは私だけですか、それとも最初のText2Speech ツールの 1 つの間の品質は、何年にもわたってあまり変化していません (またはまったく変化していません)。 そして、少なくとも私が調べたものとビデオを比較した場合、この古い学校の Apple のツールは 2000 年以降のツールのいくつかよりも優れた結果を提供することを認めなければなりません.)
4

3 に答える 3

0

Google 翻訳で使用される TTS は、短いフレーズには非常に適していますが、複雑なものでは不自然なイントネーションの輪郭が生成される可能性があります。それでも、単語レベルでは、それは印象的です。ここに小さなコード例があります

そして、Ivonaがあります。Google 翻訳などよりもアーティキュレーション エラーがわずかに多くなる可能性がありますが、リズムとイントネーションに関してはやや優れています。彼らの「Raveena」の声をチェックしてください。これまでで最高の声の 1 つです。

于 2014-03-14T18:26:38.097 に答える