4

ユーザーがテキストを書き、ソフトウェアがそれをユーザーに歌い返すオンラインアプリケーションを開発しようとしています。

私は現在、espeak を使用してコンピューターによって話された言葉で音声ファイルを生成できますが、それを歌のように聞こえるようにする方法、それにリズムを追加する方法がわかりません。

ラバーバンドを使用してピッチとテンポを変更できますが、それは私が得た限りです.

これを実現する方法を知っている人はいますか?

4

2 に答える 2

0

Festival の歌唱モードを使用することになりました。英語の音声でのみ機能するという事実を除けば、それはかなりうまく聞こえます。

于 2010-06-02T17:33:23.403 に答える
0

ラバーバンドを使用してデュレーションとピッチを変更する場合、難しい部分は、テキストの音素/音節から音声合成出力の対応するオーディオ範囲にマッピングすることになると思いますが、これについては簡単な提案はありません. (理想的には、音声シンセサイザーの内部に入って、音素から音声位置へのマッピングを提供するようにします。)

より簡単な代替手段は、 Speech Synthesizer Markup Language - SSMLを試すことです。「ピッチ」要素と「デュレーション」要素があり、ピッチを Hz 単位で、デュレーションを秒単位で絶対的に指定できます。ダイナミクスを制御するために、ボリュームを指定することもできます。

これを考慮して、テキストを SSML ドキュメントに変換し、単語/音節/音素をピッチ/デュレーションおよびボリューム属性でマークアップすることができます。

于 2010-05-04T01:14:55.920 に答える