1

コールセンターでの音声認識の実装に取り​​組んでいます。私はMiscrosoftSpeechPlatformを使用していますが、DTMF認識を音声認識に置き換えたいと考えています(たとえば、「販売のために1つ押す」ではなく、「到達しようとしている部門を言う」)。

1つの例外を除いて、SpeechRecognitionEngineが仕様どおりに完全に機能しています。自発的なスピーチを認識している間、私は流暢さを説明しなければなりません(「ええと」、「ええと」、「えー」、「あなたが知っている」、「のように」)。私の質問は、認識エンジンがこれらの発話をバイパスして実際の音声を検索し続けることを可能にする.NETフレームワーク内のメソッドはありますか?

事前に提供されている方法がない場合、これらの流暢さを回避するにはどうすればよいでしょうか。答えは文法の作り方にあるのではないかと思いますが、どんな洞察もいただければ幸いです。

ありがとう!

4

1 に答える 1

0

これを処理する方法はあなたの文法にあります。これらの「流暢さ」を文法のルールに追加する必要があります。そこで、音声認識の調整が行われます。アプリケーションで認識されないフレーズをすべて調べ、音声録音を聞いて、ユーザーが「文法から外れている」と言っていることを理解してから、それらを追加する必要があります。たとえば、ユーザーに「ピザとハンバーガーのどちらを食べたいですか?」と尋ねると、文法が「ピザ」または「ハンバーガー」のみを処理するように設定されていて、ユーザーが「ええとピザ」と応答した場合、文法外として失敗します。オプションになるように、ルールに「um」を追加する必要があります。XML文法を使用している場合は、次のようになります。

 <rule id="whatToEat">
   <ruleref uri="influencies" repeat="0-1" />
   <one-of>
     <item>pizza</item>
     <item>hamburger</item>
   </one-of>
 </rule>
 <rule id="influencies">
   <one-of>
     <item>uh</item>
     <item>um</item>
   </one-of>
 </rule>

戻り値に「影響力」を含めたくない場合は、タグを使用してセマンティック解釈を返します。このセマンティック解釈を含める方法はプラットフォームごとに異なりますが、ここに1つの例を示します。

 <rule id="whatToEat">
   <ruleref uri="influencies" repeat="0-1" />
   <one-of>
     <item>pizza<tag>out.mySlot="pizza"</tag></item>
     <item>hamburger<tag>out.mySlot="hamburger"</tag></item>
   </one-of>
 </rule>
 <rule id="influencies">
   <one-of>
     <item>uh</item>
     <item>um</item>
   </one-of>
 </rule>

Microsoftは、ここで意味解釈について議論しています。

于 2012-07-19T18:31:55.173 に答える