0

私は検索ソリューションに Nutch/Solr/SolrNet を使用しています。私が取り組んでいる新しいサイトでは、マスター ページを使用しています。その結果、ヘッダーとフッターのコンテンツがインデックス化され、結果が歪んでいます。たとえば、ヘッダーに Contact Us ページへのリンクがあります。今、「連絡先」を検索すると、結果はサイト内のすべてのページを返します。

div id を渡して、div 内のコンテンツのみにインデックスを付けることができるカスタマイズ可能な Nutch パーサーはありますか。

または、カスタマイズできる .NET ベースのクローラーがある場合。

4

2 に答える 2

1

Nutch フィルター (私はJericho HTML Parserが好きです) を実装して、DOM 操作を使用してインデックスを作成する必要があるページの部分のみを抽出できます。TextExtractorクラスを使用して、インデックスで使用するクリーン テキスト (HTML タグを除く) を取得できます。私は通常、そのデータをカスタム フィールドに保存します。

于 2011-06-30T23:43:19.897 に答える
1

https://issues.apache.org/jira/browse/NUTCH-585 およびhttps://issues.apache.org/jira/browse/NUTCH-961を参照してください。

ところで、Nutch ユーザー リストに投稿することで、より関連性の高いオーディエンスを獲得できます。

于 2011-05-25T15:18:46.740 に答える