私が実装しようとしているユースケースは次のとおりです。
- ユーザーは、Web ページの一部を読み上げるように要求します。たとえば、「説明を読む」、「背景を読む」、「メモを再生する」などです (Watson STT)。
- STT リクエストが (アプリ サーバー経由で) Conversation に渡され、解釈されます。応答はセクションの種類を示します (セクションの種類が正しくない場合は、今のところプロンプトを省略します)
- アプリ サーバーは、要求されたセクションの音声 (Watson TTS) を再生して、ユーザーに応答します。
- ユーザーは、選択したセクションの一時停止、停止、続行、または再生を要求します (STT)
問題があるのはステップ 4 です。リクエストが一時停止、停止、または続行の場合、それらはおそらく別の #intent によって処理される可能性があり、アプリ サーバーは<audio>
それに応じてコマンドをコントロールに渡すだけです。ただし、リクエストがリプレイの場合は、最初にリクエストされたセクション タイプを知る必要があります。アプリサーバーがこれを機能させるにはコンテキストを設定する必要があると感じていますが、ドキュメントを読んでもその方法がわかりません。例やドキュメントは大歓迎です。