ウィキペディアのダンプにインデックスを付けようとしています。記事の要約を提供する (または、将来的にハイライト機能を有効にする) ために、WikiMarkup なしでテキストを保存したいと考えています。最初の試行では、英数字記号だけを残すだけで十分です。質問は、元のフィールドではなく、文字レベルでフィルタリングされたフィールドを保存することは可能ですか?
質問する
1030 次
2 に答える
2
箱から出してこれを行う方法はありません。Solr にこれを行わせたい場合は、独自のUpdateHandlerを作成できますが、これは少し難しいかもしれません。これを行う最も簡単な方法は、ドキュメントを Solr に送信する前に前処理することです。
于 2012-04-10T12:21:36.140 に答える
1
デフォルトでは、Solr は、fieldType のインデックス時間アナライザーによってフィルターが適用される前に、元のフィールド値を保存します。したがって、デフォルトでは、フィルタリングされた値は保存されません。ただし、必要な結果を得るには 2 つのオプションがあります。
- インデックス時に適用されるのと同じフィルターをクエリ時にフィールドに適用して、Wiki マークアップを削除できます。詳細については、Solr Wiki のアナライザー、トークナイザー、およびトークン フィルターを参照してください。
- データを Solr にロードする前に、別のプロセスでフィルターをデータに適用できます。Solr はフィルター処理された値を保存します。
于 2012-04-10T12:21:11.570 に答える