11

私はSolrが初めてです。Solr の wiki を読んでも、WhitespaceTokenizerFactory と StandardTokenizerFactory の違いがわかりません。彼らの本当の違いは何ですか?

4

1 に答える 1

27

分析されたテキストをトークンに分割する方法が異なります。

StandardTokenizerは、以下に基づいてこれを実行します(lucene javadocから取得)。

  • 句読文字で単語を分割し、句読点を削除します。ただし、空白が続かないドットはトークンの一部と見なされます。
  • トークンに数字が含まれていない限り、単語をハイフンで分割します。数字が含まれている場合は、トークン全体が製品番号として解釈され、分割されません。
  • 電子メールアドレスとインターネットホスト名を1つのトークンとして認識します。

WhitespaceTokenizerは、空白文字に基づいてこれを行います。

WhitespaceTokenizerは、空白でテキストを分割するトークナイザーです。非空白文字の隣接するシーケンスはトークンを形成します。

アプリケーションに最適なトークナイザーを選択する必要があります。いずれの場合も、インデックス作成と検索に同じアナライザー/トークンライザーを使用する必要があります。

于 2012-06-25T03:13:57.513 に答える