java - Apache Lucene を使用してファイルのインデックス作成中にストップワードを削除する

Question

私は、Apache Lucene を使用してファイルのインデックスを作成するプロジェクトに取り組んでいます。Lucene を使用してファイルのインデックスを作成することはできますが、結果を見ると、おそらくインデックス作成中にストップワードを削除していないために、多くの突然の単語が表示されます。

ファイルのインデックス作成中に Lucene がストップワードを削除する方法を提供していることを Web で読みました。どうやってやるの？

score 1 · Accepted Answer

Lucene のStandardAnalyzerには、通過したものからいくつかの典型的なストップワードを削除する StopFilter が含まれています。英語のストップワードの標準的なリストはかなり短いものです。主にいくつかの冠詞、代名詞、前置詞。

独自のストップワードセットを定義する場合、StandardAnalyzer にはいくつかのコンストラクタがあり、独自のストップワードセット、特にthisを渡すことができます。目的のストップワードを含むCharArraySetを作成し、それをそのコンストラクターに渡し、途中でそれを渡すだけです。

他のほとんどの典型的なアナライザーも同じ引数を受け入れるコンストラクターを持っていると思います (一見すると、アナライザーの言語アナライザーのほとんどすべてがそのパターンに従っているように見えます) 。

もちろん、インデックス作成と検索の両方に同じアナライザーを使用してください。

score 0 · Accepted Answer

標準アナライザーまたはストップアナライザーを使用する場合、"on、a、an、the" などのストップワードはインデックスから自動的に削除され、ストップワードを使用した検索は実行できません。「was、is、on」などのストップワードを使用して検索を実行する場合は、空白アナライザーまたは単純なアナライザーを使用する必要があります。

java - Apache Lucene を使用してファイルのインデックス作成中にストップ ワードを削除する

2 に答える 2

Related

Reference

java - Apache Lucene を使用してファイルのインデックス作成中にストップワードを削除する