java - フェッチされたすべての URL の親をフェッチするように Nutch を更新します

Question

Apache Nutch 1.4 クローラーを実行しているので、いくつかの追加情報を保管したいと考えています。すべての URL の親を保存したい。

たとえば、b.html と c.html への 2 つのアンカーリンクを含むページ a.html をクロールしたいので、a.html をクロールすると、次のようになります。

a.html null
b.html a.html
c.html a.html

こんなものを収納したい。私はnutchがどのように機能するかを読み、Eclipseでもnutchを実行しました。また、fetcher.java を読み、コンテンツを取得した場所をログに記録しました。しかし、Nutch が特定のページの子 URL を取得する場所を知ることはできませんでした。このステップは、解析ステップの後に行われると思います。

score 2 · Accepted Answer

linkdbを生成することで情報が得られると思います。

リンクデータベース、または linkdb : これには、ソース URL とリンクのアンカーテキストの両方を含む、各 URL への既知のリンクのリストが含まれます。これは逆リンクマップを維持し、各 URL の着信リンクをリストします。

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

解析段階で、nutch はクロールされたコンテンツからアウトリンクを生成し、後で新しく発見された URL は更新段階でcrawldb に保存されます。新しい URL は、nutch クロールの次のサイクル/ラウンドで取得されます。

java - フェッチされたすべての URL の親をフェッチするように Nutch を更新します

1 に答える 1

Related

Reference