私はSolrが初めてです。Solr の wiki を読んでも、WhitespaceTokenizerFactory と StandardTokenizerFactory の違いがわかりません。彼らの本当の違いは何ですか?
質問する
13114 次
1 に答える
27
分析されたテキストをトークンに分割する方法が異なります。
StandardTokenizerは、以下に基づいてこれを実行します(lucene javadocから取得)。
- 句読文字で単語を分割し、句読点を削除します。ただし、空白が続かないドットはトークンの一部と見なされます。
- トークンに数字が含まれていない限り、単語をハイフンで分割します。数字が含まれている場合は、トークン全体が製品番号として解釈され、分割されません。
- 電子メールアドレスとインターネットホスト名を1つのトークンとして認識します。
WhitespaceTokenizerは、空白文字に基づいてこれを行います。
WhitespaceTokenizerは、空白でテキストを分割するトークナイザーです。非空白文字の隣接するシーケンスはトークンを形成します。
アプリケーションに最適なトークナイザーを選択する必要があります。いずれの場合も、インデックス作成と検索に同じアナライザー/トークンライザーを使用する必要があります。
于 2012-06-25T03:13:57.513 に答える