Apache Nutch 1.4 クローラーを実行しているので、いくつかの追加情報を保管したいと考えています。すべての URL の親を保存したい。
たとえば、b.html と c.html への 2 つのアンカー リンクを含むページ a.html をクロールしたいので、a.html をクロールすると、次のようになります。
a.html null
b.html a.html
c.html a.html
こんなものを収納したい。私はnutchがどのように機能するかを読み、Eclipseでもnutchを実行しました。また、fetcher.java を読み、コンテンツを取得した場所をログに記録しました。しかし、Nutch が特定のページの子 URL を取得する場所を知ることはできませんでした。このステップは、解析ステップの後に行われると思います。