0

バックグラウンド :

bit.ly、ow.ly instagr.am、gowal.la などのサイト ドメインは、他の場所に転送する短縮形です。これらの URL のほとんどは実際には他のサード パーティ サイトに転送されるため、かなり重い負荷を処理できると想定しています。

質問 :

「実際の」コンテンツ ページ (例: blogger.com/) をクロールする場合と比較して、単一のドメイン (例: ow.ly) から 301 リダイレクトをクロールする場合、異なる礼儀正しさの指標はありますか?

より具体的には、実際のコンテンツをストリーミングする通常のサイトと比較して、301 リダイレクトを発行するサイトに 1 日に何回アクセスできると予想されるかということです。

いくつかの最初の考え:

  • タンブラーのような大規模なサイトが約 (10E7 = 10E7 = 1 日あたり 10,000,000+) のビュー。Google などのサイトでは、1 日あたり 10E8 (10 億) のオーダーです。

いずれにせよ、301 リダイレクトと「真の」ページ クロール (帯域幅を大量に消費する) について議論する際に、私が行ったこの非常に生の事実調査が、「礼儀正しさ」の指標の違いを定義するためのいくつかの考えに拍車をかけることを願っています。 .

4

1 に答える 1

1

疑わしい場合は、を確認してくださいrobots.txt。と呼ばれる非標準の拡張機能がありCrawl-delayます。これは、ご想像のとおり、リクエスト間で待機する秒数を指定します。

あなたはbit.lyについて言及しました。そのrobots.txtような制限はなく、「ロボット歓迎」という人間に優しいコメントがあります。あなたが虐待していない限り、あなたはおそらく彼らに問題はないでしょう。そこにはAPIがあるというコメントもあります。そのAPIを使用すると、クロールよりも便利な場合があります。

虐待を定義することに関しては...まあ、残念ながらそれは非常に主観的なことであり、正しい答えはありません。サイトのドキュメントや実際のAPIを通じてこの情報を提供していない場合は、特定のベンダーに推奨事項と制限を尋ねる必要がありますrobots.txt。実際のAPIには、アクセス制限が明確に定義されている場合があります。

于 2012-06-27T16:18:03.753 に答える