2

solrを使用したいのですが、keepwordfilterfactoryそのための適切なトークナイザーを取得していません。ユースケースは、次の文字列から、、などのhi i am coming, bla-bla go out.単語を保持したいという文字列があります。したがって、ファセットでそのような組み合わせを取得できるように、フィルターファクトリでどのトークナイザーを使用するかを指定します。別のトークナイザーを試しましたが、正確な結果が得られませんでした。私はを使用しています。使用されているキープワードに基づいてトークン化するそのようなトークナイザーはありますか?hi icoming,bla-blasolr 4.0

4

1 に答える 1

1

トークン化(長いテキストを個々のトークンに分割する)の「ルール」は何ですか。上記の例は、単一の単語のトークンがある場合と、複数の単語( "hi i")がある場合があることを示しているようです。ここではマルチワードの場合に問題がありますが、ShingleFilterFactoryを組み合わせて、元のトークンだけでなくマルチワードトークンを取得し、必要なアイテムのみを保持することで、問題が発生する可能性があります。

KeepWordフィルターがマルチワード文字列を正しく処理するかどうかはわかりません。そうでない場合は、シングルプロセス中に特別な区切り文字を使用し、最後のステップとして正規表現でスペースに戻すことができます。

于 2013-01-23T13:33:20.200 に答える