2

Lucene の Standard Tokenizer は空白と空白行を削除しますか? API( StandardTokenizer )を読んでいますが、指定されていません。トークナイザーはデフォルトでそれを行うかもしれませんが、わかりません。

4

1 に答える 1

1

はい。Lucene トークナイザーは、空白を含まないドキュメントからインデックス可能な用語を取得します。ただし、元のドキュメントのトークンのオフセットは保持されます。

これは、次のドキュメントに記載されていStandardTokenizerます。

  • 句読点で単語を分割し、句読点を削除します。

(空白は句読点です。)

于 2012-05-23T07:43:15.167 に答える