私は Java で自分の言語用のテキスト読み上げ (TTS) を開発しています (以前に開発されたことのない最終プロジェクトであるため、組み込みクラスを使用できません)。
入力テキストのディフォンを認識できます。
再生のために、入力テキストの分析が完了したら、配列にディフォンを配置します。その上で、配列内の diphone に従って (1 つずつ) オーディオ ファイル (ogg 形式) を再生します。
私が聞きたいのは、別々のダイフォンを演奏するこの方法についてどう思いますか? 現在、スムーズにしようとしている各オーディオ クリップの再生間に (大きな) ギャップがあります。何か案は?