厳密な意味では、ステップ4のみがVoiceXMLによって実装されます。その他の側面は、プラットフォームまたは外部コードによって処理されます。VoiceXMLは、ステップ4を実装するための標準メカニズムですが、オーディオ出力と単純な入力を制限するだけの場合、使用可能なソリューションによってはやり過ぎになる可能性があります。
以下はあなたの問題を解決する方法のほんの一例であり、私があなたの環境や制約について何も知らないことを考えるとかなり架空のものです。
ほとんどのVoiceXMLプラットフォームでは、呼び出しを受信すると、VoiceXMLアプリケーションが実行されます。これがサーブレット/ASPベースのソリューションである場合は、手順2と3を実行してから、VoiceXMLを生成/返すことでメニューを再生し、入力を収集して次の手順に進むことができます。これが静的VoiceXML2.1ソリューションである場合は、Data要素呼び出しを使用して、これらのアクションを実行できるシステムにHTTP要求を行うことができます。システムは、VoiceXMLアプリケーションのJavascript /ECMAScriptが解析して正しい音声出力と入力処理を提供できるXMLを返す必要があります。
あなたはVoiceXMLについて質問しているので、あなたの挑戦は問題の電話の側面であると思います。すでに利用可能なシステムがない限り、構内またはホスト型ソリューションの選択とアクティブ化は、関連するコールフローコードよりもはるかに複雑です。要件に応じて、単一回線のアナログモデム、オーディオ出力とDTMF入力をサポートするソリューションがあり、オンプレミスで大規模に拡張されたソリューションと、VoiceXMLやその他のさまざまな実装を実装する10,000件の同時通話を処理するホスト型ソリューションがあります。コールフローテクノロジー。