Heritrix を使用して、ある特定のドメインからページをクロールしようとしています。
クロール速度は非常に遅いようです。そして、1 つ気づいたことは、25 のスレッドがある一方で、そのうちの 24 は常にアイドル状態になっているということです。アクティブにキューから URI を取得し、サーバーからデータを取得しているスレッドは 1 つだけのようです。
Rates
0.33 URIs/sec (0.34 avg); 18 KB/sec (20 avg)
Load
1 active of 25 threads; 1 congestion ratio; 13193 deepest queue; 13193 average depth
Elapsed
1h32m3s424ms
Threads
25 threads: 24 ABOUT_TO_GET_URI, 1 ABOUT_TO_BEGIN_PROCESSOR; 24 noActiveProcessor, 1 fetchHttp
Frontier
RUN - 2 URI queues: 1 active (1 in-process; 0 ready; 0 snoozed); 0 inactive; 0 ineligible; 0 retired; 1 exhausted
Memory
79933 KiB used; 143508 KiB current heap; 253440 KiB max heap
25 個のスレッドすべてを利用するために使用できる構成はありますか? 私はすでに礼儀正しさ(最小/最大遅延)に関連する構成を発見して変更しました ありがとう!