クローラーの提案について読んだすべての論文で、重要なコンポーネントの 1 つがDNS Resolverであることがわかります。
私の質問は:
なぜそれが必要なのですか?http://www.some-domain.com/にリクエストを送信することはできませんか?
クローラーの提案について読んだすべての論文で、重要なコンポーネントの 1 つがDNS Resolverであることがわかります。
私の質問は:
なぜそれが必要なのですか?http://www.some-domain.com/にリクエストを送信することはできませんか?
DNS 解決は、Web クロールのボトルネックとしてよく知られています。ドメイン ネーム サービスの分散型の性質により、DNS 解決には複数の要求とインターネット全体での往復が必要になる場合があり、数秒、場合によってはそれ以上の時間がかかります。すぐに、これは 1 秒間に数百のドキュメントをフェッチするという目標を危うくします。
DNS 解決にはもう 1 つの重要な問題があります。標準ライブラリ (クローラーを開発しているすべての人が使用する可能性が高い) のルックアップの実装は、一般に同期的です。これは、ドメイン ネーム サービスに対して要求が行われると、最初の要求が完了するまで、そのノードの他のクローラー スレッドがブロックされることを意味します。これを回避するために、ほとんどの Web クローラーは独自の DNS リゾルバーをクローラーのコンポーネントとして実装しています。
http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html