0

ウェブサイト abc.com があり、以下のように abc.com の 100 ページをクロールするとします。

1 日目: maxDocumentsToDownload を 100 に指定して、heritrix でクロール ジョブを作成します。2 日目: 上記のジョブを heritrix で複製して実行します。

Web サイトが 2 日間変更されない場合、同じ 100 ページまたは別の 100 ページのセットになりますか?

さらに情報が必要な場合はお知らせください

ありがとう、ハリーシュ

4

1 に答える 1

0

2 日目にジョブを複製した後、Web サイト (Web ページ) が更新されない限り、基本的に同じページ セットがダウンロードされます。一方、ジョブの実行中、Heritrix は同じページを 2 回クロールしないように最善を尽くします。abc.com と abc.com/index が同じ webp を指している可能性があるため

于 2016-02-03T13:30:52.617 に答える