4

検索エンジン用にドキュメントを分析する場合、いわゆるストップ ワードをインデックスに登録しないのが一般的です。ストップ ワードは、言語で頻繁に使用される、、、、aなどtheの一般的な単語です。thisストップ ワードがインデックス化されている場合、インデックス内のスペースを取りすぎて、検索結果の質がほとんど向上しないという考え方です。

これが常に当てはまるかどうかを知りたいです。

最新の検索エンジンでは、ストップ ワードをインデックスに登録すると、インデックス サイズが爆発的に増加しますか? それともほんのわずかな増加でしょうか。

また、ストップ ワードを削除すると、フレーズ検索にどのような影響がありますか? 「ビートルズ」と「ザ・ビートルズ」の検索は、2 つの非常に異なるもののようです。

私は Elasticsearch を使用してアプリを構築していますが、この質問は Solr、direct lucene、またはその他のバリアントにも同様に当てはまります。

4

2 に答える 2