Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
転置索引を構築する際、検索エンジンでの基本語の選択にルールがあるのだろうかと思いました。通常、ストップ ワードはインデックスに登録されないことを知っています。しかし、他の人はどうですか?混乱しています...よろしくお願いします。
ステミングっていうんですか?一部の検索エンジンはそれを使用しています。これは、すべての単語が切り捨てられることを意味するためwalk、walks、 、walkedおよびwalkingはすべて として索引付けされwalkます。検索を実行する前に、同じことがクエリに適用されます。walking in the woodsを検索すると「a」にもマッチするため、より多くのヒットが得られますwalk in the woods。
walk
walks
walked
walking
walking in the woods
walk in the woods