対応するサーバーから Web ページを取得するように要求するマルチスレッド Web クローラーを作成しました。マルチスレッドであるため、サーバーに負担をかける可能性があります。どのサーバーがクローラーをブロックできるか(礼儀正しさ)が原因です。
同じサーバーへの連続したリクエスト間の遅延を最小限に抑える機能を追加したいだけです。各サーバー (ドメイン) からの robot.txt からの最小遅延を HashMap に保存し、それをその特定のサーバーに対して行われたリクエストの最後のタイミングと比較しても問題ないでしょうか?
robot.txt で遅延が指定されていない場合はどうなりますか?