asp.net - Nutch 用のカスタムパーサー (またはオープンソースの .NET クローラー)

Question

私は検索ソリューションに Nutch/Solr/SolrNet を使用しています。私が取り組んでいる新しいサイトでは、マスターページを使用しています。その結果、ヘッダーとフッターのコンテンツがインデックス化され、結果が歪んでいます。たとえば、ヘッダーに Contact Us ページへのリンクがあります。今、「連絡先」を検索すると、結果はサイト内のすべてのページを返します。

div id を渡して、div 内のコンテンツのみにインデックスを付けることができるカスタマイズ可能な Nutch パーサーはありますか。

または、カスタマイズできる .NET ベースのクローラーがある場合。

score 1 · Accepted Answer

Nutch フィルター (私はJericho HTML Parserが好きです) を実装して、DOM 操作を使用してインデックスを作成する必要があるページの部分のみを抽出できます。TextExtractorクラスを使用して、インデックスで使用するクリーンテキスト (HTML タグを除く) を取得できます。私は通常、そのデータをカスタムフィールドに保存します。

score 1 · Accepted Answer

https://issues.apache.org/jira/browse/NUTCH-585 およびhttps://issues.apache.org/jira/browse/NUTCH-961を参照してください。

ところで、Nutch ユーザーリストに投稿することで、より関連性の高いオーディエンスを獲得できます。

asp.net - Nutch 用のカスタム パーサー (またはオープン ソースの .NET クローラー)

2 に答える 2

Related

Reference

asp.net - Nutch 用のカスタムパーサー (またはオープンソースの .NET クローラー)