ユーザーがテキストを書き、ソフトウェアがそれをユーザーに歌い返すオンラインアプリケーションを開発しようとしています。
私は現在、espeak を使用してコンピューターによって話された言葉で音声ファイルを生成できますが、それを歌のように聞こえるようにする方法、それにリズムを追加する方法がわかりません。
ラバーバンドを使用してピッチとテンポを変更できますが、それは私が得た限りです.
これを実現する方法を知っている人はいますか?
ユーザーがテキストを書き、ソフトウェアがそれをユーザーに歌い返すオンラインアプリケーションを開発しようとしています。
私は現在、espeak を使用してコンピューターによって話された言葉で音声ファイルを生成できますが、それを歌のように聞こえるようにする方法、それにリズムを追加する方法がわかりません。
ラバーバンドを使用してピッチとテンポを変更できますが、それは私が得た限りです.
これを実現する方法を知っている人はいますか?
Festival の歌唱モードを使用することになりました。英語の音声でのみ機能するという事実を除けば、それはかなりうまく聞こえます。
ラバーバンドを使用してデュレーションとピッチを変更する場合、難しい部分は、テキストの音素/音節から音声合成出力の対応するオーディオ範囲にマッピングすることになると思いますが、これについては簡単な提案はありません. (理想的には、音声シンセサイザーの内部に入って、音素から音声位置へのマッピングを提供するようにします。)
より簡単な代替手段は、 Speech Synthesizer Markup Language - SSMLを試すことです。「ピッチ」要素と「デュレーション」要素があり、ピッチを Hz 単位で、デュレーションを秒単位で絶対的に指定できます。ダイナミクスを制御するために、ボリュームを指定することもできます。
これを考慮して、テキストを SSML ドキュメントに変換し、単語/音節/音素をピッチ/デュレーションおよびボリューム属性でマークアップすることができます。