text-to-speech - TTSパッケージの作成

Question

TTS音声パッケージを作成するにはどうすればよいですか？

テキストを音声に変換する小さなアプリがあります。現在、マイクロソフトの組み込みのttsパッケージを使用してテキストを音声に変換していますが、プロの声優に新しいテキストを音声に変換するパッケージを作成してもらいたいと考えています。問題は、その音声パッケージ（TTS）の作成方法がわからないことです。

score 6 · Accepted Answer

テキスト読み上げエンジンの新しい音声を作成することは、複雑なプロセスです。声優に音声を録音してもらい、そこから声を出すだけではありません。これには多くの作業があります（音声を音素に分割する、音声データを作成する、辞書を作成する、韻律と音声の結合/合成ルールを正しくする）。

Microsoft Text-to-Speechエンジンのような音声エンジンの場合、音声フォーマットが独自仕様であるため、そのフォーマットで新しい音声を作成できないという問題にも直面しています。また、エンジンの機能によっても制限されます。

現時点での最善の策は次のいずれかです。

eSpeak text-to-speechエンジンの使用に切り替え、espeakeditを使用して独自の音声を作成します（これについては開発者に問い合わせてください）-このエンジンは、Microsoftの音声と同じように聞こえる合成方法を使用しており、StephenHawkingはを使用していますが、それらは非常に明確であり、発音は全体的に非常に優れています。
音声録音を使用するCepstralのような別のテキスト読み上げエンジンを使用する（これらはより人間らしいように聞こえる傾向がありますが、韻律はあまり良くなく、結果のオーディオを台無しにすることがわかりました）。
Cepstralのサービスを使用して、ニーズに固有の音声を作成します（これは高額になる可能性があります）。

librivox.orgの音声データを使用して、からテキスト読み上げ音声を生成することを検討しています。私が機能することに近い何かを得る前に、これはおそらく3-4年先です。

1 に答える 1