Microsoft Cognitive Service の Language Understanding Service API であるLUIS.aiを使用しています。
テキストが LUIS によって解析されるときは常に、句読点の周りに空白トークンが常に挿入されます。
ドキュメントによると、この動作は意図的なものです。
「英語、フランス語、イタリア語、スペイン語: トークンの区切りは空白と句読点の周りに挿入されます。」
私のプロジェクトでは、これらのトークンなしで元のクエリ文字列を保持する必要があります。モデル用にトレーニングされた一部のエンティティには句読点が含まれており、解析されたエンティティから余分な空白を削除するのは面倒で少しハックです。
この動作の例:
これを無効にする方法はありますか?かなりの労力を節約できます。
ありがとう!!