これは標準的な手順であるべきだと思いますが、クロール中にNutchがSolrにインデックス付けするコンテンツからサイトナビゲーションメニューコンテンツを除外する方法を示す良い指標を提供する検索を実際に見つけることはできません.
つまり、インデックスを作成するすべてのコンテンツにナビゲーション メニューのテキストが表示されます。これは、すべてのコンテンツに同じテキストが含まれるため、検索に悪影響を及ぼします。明らかに、クロールにサイト ナビゲーションを使い続けたいのですが、インデックスに登録したくありません。Nutch でこれを達成するためのベスト プラクティスはありますか? <!-- NO_NUTCH_IDX -->
たとえば、ある種のタグでナビゲーションをラップする方法が好きですか?
私はNutchを初めて使用するので(明らかに)、これを行うのに最適な場所がわかりません。
どうもありがとう。