私にとって、このプロパティは非常に役に立ちました。ドメインが遅いと、すべてのフェッチ フェーズが遅くなる可能性があるからです。
<property>
<name>generate.max.count</name>
<value>50</value>
<description>The maximum number of urls in a single
fetchlist. -1 if unlimited. The urls are counted according
to the value of the parameter generator.count.mode.
</description>
</property>
たとえば、robots.txt (デフォルトの動作) を尊重し、ドメインが長すぎてクロールできない場合、遅延は fetcher.max.crawl.delay になります。そして、このドメインがキューに大量にあると、すべてのフェッチ フェーズが遅くなるため、generate.max.count を制限することをお勧めします。
同じ方法でフェッチ フェーズの時間を制限するために、このプロパティを追加できます。
<property>
<name>fetcher.throughput.threshold.pages</name>
<value>1</value>
<description>The threshold of minimum pages per second. If the fetcher downloads less
pages per second than the configured threshold, the fetcher stops, preventing slow queue's
from stalling the throughput. This threshold must be an integer. This can be useful when
fetcher.timelimit.mins is hard to determine. The default value of -1 disables this check.
</description>
</property>
ただし、fetcher.threads.per.queue プロパティには触れないでください。ブラック リストで終了します...クロール速度を改善するための良い解決策ではありません...