apache - HTML 構造が不明な場合に、Nutch が URL を解析して Solr にインデックスを付ける方法を制御するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/15953751 2013-04-11T16:11:14.210

931 次

HTML 構造の維持が不十分なサイトをクロールしようとしていますが、それを変更することはできません。Solr によってインデックス化されたナッチクロールされたデータを見ると、「タイトル」フィールドは問題ないように見えますが、「コンテンツ」フィールドには、ドロップダウンメニューを使用して HTML バナーからすべてのテキストを取得し、左側のメニュー、ナビゲーション、フッターなど

私の場合、HTMLページのパラグラフで定義されている「説明:」情報を「コンテンツ」フィールドに取得することに興味があります。

例: (生の html):

 <p><strong>Description:</strong> Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over.

「コンテンツ」フィールドから迷惑メールを除外し、興味のある情報のみを取得するにはどうすればよいですか?

apache - HTML 構造が不明な場合に、Nutch が URL を解析して Solr にインデックスを付ける方法を制御するにはどうすればよいですか?

1 に答える 1

Related

Reference