solr - WhitespaceTokenizerFactory と StandardTokenizerFactory の違い

Question

私はSolrが初めてです。Solr の wiki を読んでも、WhitespaceTokenizerFactory と StandardTokenizerFactory の違いがわかりません。彼らの本当の違いは何ですか？

score 27 · Accepted Answer

分析されたテキストをトークンに分割する方法が異なります。

StandardTokenizerは、以下に基づいてこれを実行します（lucene javadocから取得）。

WhitespaceTokenizerは、空白文字に基づいてこれを行います。

WhitespaceTokenizerは、空白でテキストを分割するトークナイザーです。非空白文字の隣接するシーケンスはトークンを形成します。

アプリケーションに最適なトークナイザーを選択する必要があります。いずれの場合も、インデックス作成と検索に同じアナライザー/トークンライザーを使用する必要があります。

1 に答える 1