既存のインデックスを Lucene から Solr に移動しています。Lucene の入力テキストに次のロジックを適用します。
- 小文字に
- replaceDictionaryWords (いくつかの特定の単語を他の単語に置き換えます。たとえば、"hertz" を "htz" に置き換えます)
- 文字と数字のみを抽出する
- 出力文字列をトリム
- \s+ を \s に置き換えます
- java.lang.String#split(in) メソッドを使用して分割
- 分割されたテキストごとに、結果の単語を次のパターンで分割します: "ABCDEF" => ABC BCD CDE DEF (3, 2 で分割)
存在する可能性のある Tokenizer を書きたくありません。
それで、私はここhttp://wiki.apache.org/solr/AnalyzersTokenizersTokenFiltersを見ましたが、見逃されました。