0

既存のインデックスを Lucene から Solr に移動しています。Lucene の入力テキストに次のロジックを適用します。

  1. 小文字に
  2. replaceDictionaryWords (いくつかの特定の単語を他の単語に置き換えます。たとえば、"hertz" を "htz" に置き換えます)
  3. 文字と数字のみを抽出する
  4. 出力文字列をトリム
  5. \s+ を \s に置き換えます
  6. java.lang.String#split(in) メソッドを使用して分割
  7. 分割されたテキストごとに、結果の単語を次のパターンで分割します: "ABCDEF" => ABC BCD CDE DEF (3, 2 で分割)

存在する可能性のある Tokenizer を書きたくありません。

それで、私はここhttp://wiki.apache.org/solr/AnalyzersTokenizersTokenFiltersを見ましたが、見逃されました。

4

2 に答える 2

1
  1. 小文字フィルター,
  2. シノニムフィルター,
  3. StandardTokenizerまたはPatternTokenizer
  4. トリムフィルター,
  5. パターン置換フィルタ,
  6. WordDelimiterFilter ?
  7. NGramTokenFilter (このためのファクトリを作成する必要がある場合があります)。

ただし、既存の Lucene アナライザーが既にある場合は、Solr にそれを使用させることができます。

于 2012-05-14T19:36:26.690 に答える
0

OpenPipelineをお試しください。これは、検索ソフトウェアに送られるドキュメントを前処理するために設計されています。

于 2012-05-14T16:24:06.087 に答える