0

nutch-default.xml は、最初のクロールでリダイレクト先を保存し、次のクロールでhttp.redirect.maxを 0 に設定することでそれらをクロールする方法があることを示唆しています。

最初のクロールは正常に終了し、保存されたセグメントにリダイレクト レスポンスが表示されました。その後、クロール DB を更新して次のフェッチ リストにリダイレクト先を追加しようとしましたが、それらを含めることができませんでした。フェッチ リストはほとんど空で、ナッチがクロールに失敗した URL がいくつかありました。最初のクロール。

解析/更新/生成中に指定する必要があるパラメーター/構成はありますか?

4

1 に答える 1

1

すべてのURL が fetchlist で取得されるように、 topN パラメータを増やす必要があります。第 2 ラウンドの URL の選択は、URL のスコアに基づいています...変更することはできないと思います。

于 2012-09-23T18:15:37.020 に答える