1

Apache Nutch 1.4 クローラーを実行しているので、いくつかの追加情報を保管したいと考えています。すべての URL の親を保存したい。

たとえば、b.html と c.html への 2 つのアンカー リンクを含むページ a.html をクロールしたいので、a.html をクロールすると、次のようになります。

a.html null
b.html a.html
c.html a.html

こんなものを収納したい。私はnutchがどのように機能するかを読み、Eclipseでもnutchを実行しました。また、fetcher.java を読み、コンテンツを取得した場所をログに記録しました。しかし、Nutch が特定のページの子 URL を取得する場所を知ることはできませんでした。このステップは、解析ステップの後に行われると思います。

4

1 に答える 1

2

linkdbを生成することで情報が得られると思います。

リンク データベース、または linkdb : これには、ソース URL とリンクのアンカー テキストの両方を含む、各 URL への既知のリンクのリストが含まれます。これは逆リンク マップを維持し、各 URL の着信リンクをリストします。

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

解析段階で、nutch はクロールされたコンテンツからアウトリンクを生成し、後で新しく発見された URL は更新段階でcrawldb に保存されます。新しい URL は、nutch クロールの次のサイクル/ラウンドで取得されます。

于 2012-05-24T03:35:02.380 に答える