私は検索ソリューションに Nutch/Solr/SolrNet を使用しています。私が取り組んでいる新しいサイトでは、マスター ページを使用しています。その結果、ヘッダーとフッターのコンテンツがインデックス化され、結果が歪んでいます。たとえば、ヘッダーに Contact Us ページへのリンクがあります。今、「連絡先」を検索すると、結果はサイト内のすべてのページを返します。
div id を渡して、div 内のコンテンツのみにインデックスを付けることができるカスタマイズ可能な Nutch パーサーはありますか。
または、カスタマイズできる .NET ベースのクローラーがある場合。