検索エンジン用にドキュメントを分析する場合、いわゆるストップ ワードをインデックスに登録しないのが一般的です。ストップ ワードは、言語で頻繁に使用される、、、、a
などthe
の一般的な単語です。this
ストップ ワードがインデックス化されている場合、インデックス内のスペースを取りすぎて、検索結果の質がほとんど向上しないという考え方です。
これが常に当てはまるかどうかを知りたいです。
最新の検索エンジンでは、ストップ ワードをインデックスに登録すると、インデックス サイズが爆発的に増加しますか? それともほんのわずかな増加でしょうか。
また、ストップ ワードを削除すると、フレーズ検索にどのような影響がありますか? 「ビートルズ」と「ザ・ビートルズ」の検索は、2 つの非常に異なるもののようです。
私は Elasticsearch を使用してアプリを構築していますが、この質問は Solr、direct lucene、またはその他のバリアントにも同様に当てはまります。