0

clucene を使用して検索インデックスを作成していますが、不快な用語を含むドキュメントがインデックスに追加されないようにしたいと考えています。攻撃的なドキュメントがまだ追加され、攻撃的でない検索で返されるため、停止リストで StandardAnalyzer を使用するのは十分ではありません。

代わりに、ドキュメントを作成し、不快な言葉が含まれているかどうかを確認し、含まれていない場合にのみ追加することを望んでいます。

乾杯!

4

1 に答える 1

0

ドキュメント内のそのタイプのデータに実際にアクセスすることはできません

できることは、テキストに対して分析チェーンを手動で実行し、各トークンを個別にチェックすることです。これは愚かなループで行うか、後でチェックするフラグを立てるだけの別のアナライザーをチェーンに追加することで実行できます。

これにより、さらに作業が発生しますが、その IMO を達成するための最良の方法です。

于 2013-10-16T21:38:45.877 に答える