text-to-speech - 同じ SSML 内での言語の混在

Question

この小さな SSML をスピーチプロセッサに送信すると、2 つの音声が得られます。

<speak version='1.0' xml:lang='es-ES'>
  <voice xml:lang='es-ES' xml:gender='Male' name='Microsoft Server Speech Text to Speech Voice (es-ES, Pablo, Apollo)'>
    <p>
        <s>Hola </s>
        <s xml:lang='en'>Hello</s>
        <s>¿Cómo estas?.</s>
    </p>
  </voice>
</speak>

スペイン語の男性と英語の女性。これは Project Oxford Text to Speech エンジンの制限ですか? つまり、同じ声が複数の言語を話すことを期待しますが、そうではないようです。

score 1 · Accepted Answer

SSML仕様を引用するには、

xml:lang を指定しても音声が変わるわけではありませんが、実際に発生する可能性があります。指定された音声が指定された言語でコンテンツを話すことができない場合、新しい音声がプロセッサによって選択される場合があります。

現在のフォールバックの動作には望みがありませんが、複数の音声ノードを作成し、言語を切り替えるときに音声をより明示的に選択することをお勧めします。

text-to-speech - 同じ SSML 内での言語の混在

1 に答える 1

Related

Reference