0

HTML 構造の維持が不十分なサイトをクロールしようとしていますが、それを変更することはできません。Solr によってインデックス化されたナッチ クロールされたデータを見ると、「タイトル」フィールドは問題ないように見えますが、「コンテンツ」フィールドには、ドロップダウン メニューを使用して HTML バナーからすべてのテキストを取得し、左側のメニュー、ナビゲーション、フッターなど

私の場合、HTMLページのパラグラフで定義されている「説明:」情報を「コンテンツ」フィールドに取得することに興味があります。

例: (生の html):

 <p><strong>Description:</strong> Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over. 

「コンテンツ」フィールドから迷惑メールを除外し、興味のある情報のみを取得するにはどうすればよいですか?

4

1 に答える 1