Google Cloud text-to-speech API でSSML マーカーを使用して、オーディオ ストリームでこれらのマーカーのタイミングをリクエストしたいと考えています。これらのタイムスタンプは、効果、単語/セクションの強調表示、およびユーザーへのフィードバックの手がかりを提供するために必要です。
質問はSSMLタグではなく、各単語のタイムスタンプを参照していますが、関連するこの質問を見つけました。<mark>
次の API リクエストは OK を返しますが、リクエストされたマーカー データが不足していることを示しています。これは を使用していCloud Text-to-Speech API v1
ます。
{
"voice": {
"languageCode": "en-US"
},
"input": {
"ssml": "<speak>First, <mark name=\"a\"/> second, <mark name=\"b\"/> third.</speak>"
},
"audioConfig": {
"audioEncoding": "mp3"
}
}
応答:
{
"audioContent":"//NExAAAAANIAAAAABcFAThYGJqMWA..."
}
コンテキスト情報なしで合成オーディオのみを提供します。
IBM WatsonやAmazon Pollyの場合のように、これらのマーカーに関する情報を公開できる、見落としている API リクエストはありますか?