14

Google Cloud text-to-speech API でSSML マーカーを使用して、オーディオ ストリームでこれらのマーカーのタイミングをリクエストしたいと考えています。これらのタイムスタンプは、効果、単語/セクションの強調表示、およびユーザーへのフィードバックの手がかりを提供するために必要です。

質問はSSMLタグではなく、各単語のタイムスタンプを参照していますが、関連するこの質問を見つけました。<mark>

次の API リクエストは OK を返しますが、リクエストされたマーカー データが不足していることを示しています。これは を使用していCloud Text-to-Speech API v1ます。

{
 "voice": {
  "languageCode": "en-US"
 },
 "input": {
  "ssml": "<speak>First, <mark name=\"a\"/> second, <mark name=\"b\"/> third.</speak>"
 },
 "audioConfig": {
  "audioEncoding": "mp3"
 }
} 

応答:

{
 "audioContent":"//NExAAAAANIAAAAABcFAThYGJqMWA..."
}

コンテキスト情報なしで合成オーディオのみを提供します。

IBM WatsonAmazon Pollyの場合のように、これらのマーカーに関する情報を公開できる、見落としている API リクエストはありますか?

4

2 に答える 2