grammar - Voicexml文法の単語数

Question

voicexml ファイルに動的文法を入れたい (単一の製品を読み取り、php で文法を作成する)

私の質問は、アドバイスや経験があれば、製品を読んだ場所からソースに何語を書くべきかということです. 単語の構造や発音についてはよくわからないので、

a) 単語がかなり異なっている b) 単語の構造や発音が同じである c) a) と b) が混在している

前もって感謝します

score 3 · Accepted Answer

VoiceXML の動的文法を示す場合、SRGS 文法を意味していると思います。

残念ながら、確実に知るには、妥当な負荷の下でパフォーマンステストを行う必要があります。特定の条件下で 1M 以上の文法を送信することに成功しました。また、10,000 件の名前リストを作成しました。また、数十のエントリしか利用できないプラットフォームにも出くわしました。

音声認識 (ASR) と VoiceXML プラットフォームは、結果に大きな影響を与えます。また、この文法による同時認識の数も、全体的な認識負荷に関連します。

あなたが言及した要因は、認識のパフォーマンスとCPU負荷に影響を与えますが、通常、文法のサイズとエントリの長さ/可変性がより重要であることがわかりました. たとえば、yes/no 文法は通常、複雑なメニュー文法よりも CPU 負荷がはるかに高くなります (短いフレーズはより多くのパスを必要とする傾向があり、処理時に多くの可能性が残されます)。私は、広範囲の数字文法 (9 桁から 31 桁の文法) から恐ろしい数字を見てきました。音は短く、明確にするのは難しいです。コンポーネントの変動性は、ソリューションを継続的にチェックする必要がある多数のパスを作成します。ほとんどのメニューまたは自然に話すフレーズには、大きく異なるように聞こえる長い単語が含まれているため、多くのパスをすばやく除外できます。

いくつかのヒント：

ほとんどのエンタープライズクラスの ASR システムは、キャッシュをサポートしています。URL パラメーターを使用して文法を識別し、ASR が必要とする HTTP ヘッダー情報を設定できる場合 (標準に従っているとは限りません)、パフォーマンスが大幅に向上する可能性があります。

プロンプトは、多くの場合、文法の読み込み/コンパイルフェーズを隠すことができます。人々が割り込みがちな比較的長いプロンプトがある場合は、かなり大きな文法フェッチを非表示にできることがわかります。繰り返しになりますが、すべてのプラットフォームがこれらのタスクを並行して適切に処理できるわけではありません。ほとんどの ASR エンジンは、音声を収集し、エンドポインティングを実行しながら、文法を取得してコンパイルできることに注意してください。これにより時間を節約できますが、遅延が長くなるという影響が見られます。

ほとんどの ASR エンジンには、サンプルオーディオを使用して文法を分析できるツールが用意されています。ツールは通常、CPU リソースインジケーターを提供します。認識の同時実行に関する複雑さのために、全体的なパフォーマンスを計算/予測できることはめったにありませんが、他の文法と比較して影響を与えることができます。文法の処理時間を簡単に追跡できるエンジンをまだ見つけていません。同時実行の問題を大まかに推測することさえ難しい場合があります。ほとんどの場合、大規模なテストが必要でした。

文法の読み込み/コンパイル時間の後、認識の同時実行がパフォーマンスに最も大きな影響を与えます。呼び出しの開始近くで非常に複雑な文法を持つアプリケーションをいくつか見てきました。キャッシュする機会がない高レベルの認識の同時実行があり (当時のプラットフォームの問題)、スケーリングの課題 (認識処理で断続的で大きなレイテンシー) につながりました。

grammar - Voicexml文法の単語数

1 に答える 1

Related

Reference