java - Nutch を使用して Web ページからテキストを抽出する

Question

私はNutchを初めて使用するので、これについてはご容赦ください。

私の目標は、単純に Web ページからいくつかのコンテンツを抽出し、結果の情報を取得できるようにすることです。たとえば、e コマースサイトのいくつかのページをクロールし、製品情報 (名前、カテゴリ、価格など) を保存しようとしているとします。

繰り返しになりますが、seed.txt ファイルに www.site.com が含まれていて、クロールを開始するとします。HtmlParseFilters が www.site.com からの製品情報を正しく解析するように設定されており、このクロールが www.site.com と www.site.com/link の両方を解析すると仮定します。www.site.com に ID 1 の製品 A が含まれ、www.site.com/link に ID 2 の製品 B が含まれている場合、何らかの事前定義されたユーティリティを使用して、それらの結果だけを取得できると期待しています。

A 1

B 2

現時点では、抽出した結果を分離するために、org.apache.nutch.segment.SegmentReader と org.apache.nutch.parse.ParseResult および org.apache.nutch.metadata.MetaData の toString() メソッドを変更しています。、何かが足りないような気がします...アウトリンク、recno、URL、解析メタデータ、再生、またはその他のクロールメタデータを見たくありません。上記のように、HTML フィルタリングの結果が必要です。

要するに、nutch を使用してサイトのグループをスクレイピングし、抽出したものだけを提供する方法を本当に理解しようとしています。

ご不明な点がございましたら、お気軽にお問い合わせください。

java - Nutch を使用して Web ページからテキストを抽出する

0 に答える 0

Related

Reference