solrを使用したいのですが、keepwordfilterfactory
そのための適切なトークナイザーを取得していません。ユースケースは、次の文字列から、、などのhi i am coming, bla-bla go out.
単語を保持したいという文字列があります。したがって、ファセットでそのような組み合わせを取得できるように、フィルターファクトリでどのトークナイザーを使用するかを指定します。別のトークナイザーを試しましたが、正確な結果が得られませんでした。私はを使用しています。使用されているキープワードに基づいてトークン化するそのようなトークナイザーはありますか?hi i
coming,
bla-bla
solr 4.0
質問する
814 次
1 に答える
1
トークン化(長いテキストを個々のトークンに分割する)の「ルール」は何ですか。上記の例は、単一の単語のトークンがある場合と、複数の単語( "hi i")がある場合があることを示しているようです。ここではマルチワードの場合に問題がありますが、ShingleFilterFactoryを組み合わせて、元のトークンだけでなくマルチワードトークンを取得し、必要なアイテムのみを保持することで、問題が発生する可能性があります。
KeepWordフィルターがマルチワード文字列を正しく処理するかどうかはわかりません。そうでない場合は、シングルプロセス中に特別な区切り文字を使用し、最後のステップとして正規表現でスペースに戻すことができます。
于 2013-01-23T13:33:20.200 に答える