これは古い質問です。最近の最後の解決策であり、最も効果的なのは
curl 'https://translate.google.com/translate_tts?ie=UTF-8&q=hello&tl=en&tk=995126.592330&client=t' -H 'user-agent: stagefright/1.2 (Linux;Android 5.0)' -H 'referer: https://translate.google.com/' > google_tts.mp3
そして、それは主にここで議論されています。
このソリューション (将来的には壊れる可能性があります) は、Python ライブラリgTTSに実装されており、API を便利な方法でラップしているため、言語、テキストを特定してファイルに簡単に書き込むことができます。
>> from gtts import gTTS
>> from tempfile import TemporaryFile
>> tts = gTTS(text='Hello', lang='en')
>> f = TemporaryFile()
>> tts.write_to_fp(f)
>> f.close()
ノート。反対に、Speech to Text について考えると、最近、Google は機械学習を利用するCloud Speech APIをリリースしました。これは、より多くの言語をサポートし、音声認識の公式 API です。
ところで、今日、これを行うプラットフォームは他にもたくさんありますが、おそらく TTS Web サービスよりも優れています。Microsoft は、新しいコグニティブ システムの一部としてSpeech APIを提供しており、 1 か月あたり最大 5000 クエリまで無料です。IBM Watson Text To Speech APIは非常に強力で、最近導入された表現合成(音声で感情を合成する方法) です。これらすべてのクラウド API は、https: //www.w3.org/TR/speech-synthesis/をマークアップ言語として使用してテキストを音声に変換します。これは、単純なラベルのないテキストを使用するよりもはるかに表現力があります。