Text-to-Speech ( TTS ) と単語ごとに同期されたタイムテキスト(字幕用など)を生成するにはどうすればよいですか?
高品質のSAPI5音声 (ここで IVONA から入手できるものなど)を使用してこれを行いたいと思います。これは Windows 10 で使用したものです。
Windows では、すでに優れた無料の TTS プログラムがいくつかあります。
TTSApp は、WAV でオーディオ ファイルを生成できます。Balabolka は、カラオケで使用される LRC ファイルとして同期されたタイムテキストと共に MP3 ファイルを作成します - ただし、単語単位ではなく行単位でのみです。
ただし、両方とも、画面上で声を出して話している間、単語ごとの強調表示がリアルタイムで表示されます。
TTS/SAPI5 ソース コードがあれば、新しい単語が生成されるたびに時計をチェックして、時刻とその単語をファイルに書き込むことができます。そのレベルのプログラミングを公開しているプロジェクトを知っている人はいますか?
2016年9月更新
その後、2012 年に特定のjballiによってAutoHotKey を使用して TTSApp が再実装されたことを発見しました。
onWord イベント ハンドラーが起動するたびに、ミリ秒単位の時間をテキスト ファイルに追加するようにコードを調整しました。それでも、次の 2 つのパスを作成する必要があります。
- WAVファイルを保存するための迅速な自動パスと
- タイミング ファイルを作成する低速 (リアルタイム) パス。
ステップ2を加速する方法を見つけたいと思っています。
ところで、VisualBasic のソースはここにアーカイブされているようです。