2

私は Java で自分の言語用のテキスト読み上げ (TTS) を開発しています (以前に開発されたことのない最終プロジェクトであるため、組み込みクラスを使用できません)。

入力テキストのディフォンを認識できます。

再生のために、入力テキストの分析が完了したら、配列にディフォンを配置します。その上で、配列内の diphone に従って (1 つずつ) オーディオ ファイル (ogg 形式) を再生します。

私が聞きたいのは、別々のダイフォンを演奏するこの方法についてどう思いますか? 現在、スムーズにしようとしている各オーディオ クリップの再生間に (大きな) ギャップがあります。何か案は?

4

1 に答える 1

1

ダイフォン合成では、最も安定している電話機の中央でダイフォンを分割し、そのようにつなぎ合わせるのが一般的です。したがって、たとえば、「会議」という単語を合成するには、m iy電話 (ARPAbet シンボル) から始めて、真ん中で切断し、両方の電話が半分に分割されたダイフォンiyにスプライスします。 iy dx、完成したix ngダイフォンでng終わります。

これを行うには、連続電話の途中、またはストップの閉鎖と解放の間のギャップに対応する各 .ogg の時間インデックスを知る必要があります。

于 2012-02-25T13:00:20.020 に答える