1

ますます多くの音声認識が実装されており、優れた音声認識を行うライブラリが求められています。キーボードやキーパッドと比較して、その背後にある(使いやすさの観点からの)理論的根拠は何ですか?この開発に投資しなければならない理由は何ですか?

たとえば、コールセンターを見てみましょう。数年前、ほとんどすべてのコールセンターは、メニューのキーを要求するIVRを使用していました。現在、音声キーワードの入力やキーパッドの押下を伴うメニューがますます増えています。「請求書を言うか、1を押して請求書を表示してください」。または、会社の電話帳にも同じことが表示されています。「連絡しようとしている人の名前を言ってください」...「FranckLoyd」...「JackFreudと言いましたか?必要に応じて「はい」と言ってくださいこの人に連絡するか、「いいえ」と言って再試行してください。」

携帯電話を持たずに車に乗っているときはプラスだと思いますが、追加の待ち時間の価値はありますか?すべての選択肢に対する相互作用が長くなり、何かが言われたかどうかを分析しようとする際の迅速な時間が長くなりますか?また、信頼性は確かに以前よりも優れていますが、誰かがシステムに接続することを決めたおもちゃのように感じられることもあり、未来を感じることができます。

音声認識を使用した(または使用しないことを選択した)IVRまたはソフトウェアを設計した経験はありますか?

ありがとう!

4

4 に答える 4

1

音声認識は、タッチスクリーン技術と組み合わせると、間違いなく未来の波になります。例として、tazti音声認識を使用します。XPおよびVistaバージョンで利用できます。Microsoftのタッチスクリーン「Surface」プラットフォームはVistaで動作するため、taztiはタッチスクリーンテクノロジーで動作すると確信しています。tazti音声認識を試したところ、組み込みのコマンドがうまく機能しました。また、独自の音声コマンドを作成してみましょう。これらもうまく機能します。グーグルとヤフー、ウィキペディアのユーチューブと他の多くの検索エンジンの音声検索は素晴らしい働きをします。他にも多くの機能があります。しかし、それは口述を持っていません。インターネットで生成されたクリックの70%以上を排除していることがわかりました。注:Taztiは彼らのウェブサイトから無料でダウンロードできます。

于 2009-05-24T01:36:42.660 に答える
1

他の入力方法と同じように、音声認識には長所と短所があると思います。

プロの

  • 学習曲線はありません。私たちは幼い頃から話していました。
  • 非常に直感的です。
  • 電話では、ヘッドセットを常に耳から動かす必要はありません。

コンの

  • 待ち時間が長くなる
  • 音質が悪い場合は、選択を正しく行うために複数回試行します。
于 2009-05-22T15:17:20.107 に答える
1

場合によっては、会社が回転式電話を取り扱う必要があります。両方ではなく、認識システムをセットアップするだけの方が、コスト面で影響が大きいと思われるかもしれません。

音声認識には、タッチトーンよりもはるかに多くのオーバーヘッドがあります。最良の結果が必要な場合は、アプリを絶えず微調整し、認識されない単語の発音についてシステムをトレーニングする必要があります。また、音声認識をユーザーに促す方法にも細心の注意を払う必要があります。そうしないと、予期しない応答が返される可能性があります。

常に可能なオプションのセットは限られているため、全体的なタッチトーンははるかに簡単です。

あなたのアプリが十分に単純であるならば、あなたは多くの人がそれを複雑にするだけです。他の言語の場合は2を押します。

于 2009-05-23T02:46:01.190 に答える
1

キーボードやキーパッドと比較して、その背後にある(使いやすさの観点からの)理論的根拠は何ですか?

ユーザビリティは非常に広い用語です。タッチパッドで住所を入力しようとしても、あまり使い勝手が悪いと思います。全体的な成功率が70〜80%の音声エンジンを使用することもあまり役に立たないと主張する人もいます。他の投稿で示されているように、ハンズフリー入力は携帯電話の人にとってはるかに簡単です。ただし、トピックが発信者にとって多少異質な場合、単語と数値入力の使用は、実際にはプッシュホン電話よりも直感的ではない可能性があります。あまり馴染みのない用語やフレーズを聞いた発信者は、プロンプトの10〜30秒でそれらを思い出せませんが、指で最適な音の選択肢にカーソルを合わせたり、選択肢の順序を覚えたりすることができます。

この開発に投資しなければならない理由は何ですか?

これは奇妙な質問です。通常、IVR環境で音声を使用するかどうかの決定は、世界の開発の観点からは決まりません。本当にスピーチを必要とする特定の要件がない限り、ほとんどの場合、全体的な成功率が低下します。スピーチは通常、企業イメージの要因です...または最新の技術的なおもちゃを持っています。

携帯電話を持たずに車に乗っているときはプラスだと思いますが、追加の待ち時間の価値はありますか?

最近のASRを使用する場合、音声認識の待ち時間はそれほど長くありません。ほとんどの場合、入力は音声と並行して処理され、音声認識の終了間の時間は0.5〜1秒です。多くのIVRは、いくつかの入力の後にデータルックアップを実行する必要があり、これは低速のシステムとして表示される可能性があることに注意してください。1秒を超える通常の入力は、通常、電力不足の展開の兆候です。

最初に実装されたときは十分な能力がなかった可能性がありますが、調整作業を通じて、パフォーマンスと精度の決定を大幅に行うことができます。次の0.1%を取得するには、リソースをピーク時の値を超えてプッシュすることができます。

また、信頼性は確かに以前よりも優れていますが、誰かがシステムに接続することを決めたおもちゃのように感じられることもあり、未来を感じることができます。

一般的に、はい。信頼性の観点から、システムを理解するには、全体の数値を実際に確認する必要があります。これは、個人がそれほど重要ではない統計の戦いです(VP以上の称号を持っている場合を除く)。入力(シフトプロンプト)、リソース使用量、およびその他の音声認識調整パラメーターの最適化を通じて、精度を最大化しようとします。基本的な自然言語の応答については、90年代後半に取得できます。ただし、全体的な成功率ははるかに低くなります。5つのプロンプトがすべて98%であると想像してください(実際には、99の束があり、90年代半ばかそれより少し下にある傾向があります):. 98 * .98 * .98 * .98 * .98 = 90%。これは、10人に1人が失敗することを意味します。それは、発信者の混乱とビジネスルールの前です。DTMF入力は、いくつかの入力の後でも、通常100%に非常に近くなります。

音声認識を使用した(または使用しないことを選択した)IVRまたはソフトウェアを設計した経験はありますか?はい。しかし、それは本当にあなたが望む質問ではないのではないかと思います。テクノロジー側の誰かとして、これは通常あなたの決定ではなく、あなたはそれに限定的な影響力を持っています。あなたが本当にスピーチの賛否両論を探しているなら:

長所:

  • クール/ヒップ(注意、スピーチだけでは不十分です。優れたVUIと声優が必要です)
  • 耳の部分を避けている移動性の高い群衆に適しています。将来は、音声と触覚入力をブレンドすることになっています。多分。おそらく市場のIVR側からは来ないでしょう。
  • DTMFでは実行できないタスクに適しています。これらの問題の多くは、スピーチでも成功率が低い傾向があることに注意してください。コスト(人間ではなく)は通常、使いやすさではなく、推進要因です。アドレス変更などのためにボイスメールボックスに電話を切ることは、非常に費用対効果が高い場合があります。

短所:

  • 開発、展開、保守に費用がかかります。注意しないと、新しい選択肢を追加すると、成功率に大きな影響を与える可能性があります。変更の影響を常に監視します。
  • 多くの場合、不適切に展開されます。たとえば、数値メニューの選択を言うだけです。これは、ほとんどの場合、スピーチのクールさを求めている場合ですが、スピーチのクールさを実現するために実際に必要なものを買う余裕はありません。
  • 成功率が低くなるため、コールセンターのコストが高くなります。
  • 失敗は、特定のプロンプトと個々の発信者に集中する傾向があります。システムで定期的に問題が発生する発信者は、非常に不満になります。
  • 彼らが理解されていないとき、発信者は怒ります。あなたの顧客ベースのサブセットを特定し、彼らを本当に怒らせるというあなたの目標はありますか?
于 2009-08-17T13:09:55.033 に答える