Nutch 用の独自の HTML パーサー プラグインを作成したいと考えています。特定の xpath にのみ該当するアウトリンクを生成することで、集中的なクロールを行っています。私の使用例では、現在のクロールの深さに応じて、html ページからさまざまなデータを取得したいと考えています。したがって、解析している各コンテンツの HtmlParser プラグインの現在の深さを知る必要があります。
Nutchで可能ですか?CrawlDatum には、crawl_depth 情報がありません。情報のマップを別のデータ構造にすることを考えていました。誰かがより良いアイデアを持っていますか?
ありがとう