html - Webクローラーはクエリを取得する必要がありますか？

Question

最近、私はWebクローラーをコーディングしました。私が残した唯一の質問は、「標準の」ウェブクローラーが次のようなリンククエリをクロールするかどうかです： https ：//www.google.se/？q = stackoverflow またはクエリをスキップして次のようにピックアップします： https ：//www.google.se

score 0 · Accepted Answer

0

于 2012-07-07T23:42:21.843 に答える

score 0 · Accepted Answer

GETリクエストを使用してリンクにアクセスした場合は、はい、Webブラウザでクロールする必要があります。

クエリ文字列を使用して、要求されているコンテンツを識別するWebサイトはまだたくさんあります。たとえば、ブログ/article.php?article_id=754などです。Webブラウザーがこのようなリンクをたどらなかった場合、Web上の多くのコンテンツはインデックスに登録されません。

score 0 · Accepted Answer

あなたの特定の例では、/robots.txtを使用して検索禁止検索エンジンの結果ページを提供する多くのウェブサイト。

cgi argsを使用してページをクロールする必要はありますが、堅牢なクローラーが無関係または有害なcgiargsを理解する必要があります。

urchin cgi args（utm_campaignなど）を使用してクロールするということは、重複するコンテンツが表示されることを意味します。

すべてのフェッチにセッションcgiargを追加するサイトは、コンテンツが重複しているだけでなく、古いcgi argが表示されると、特に巧妙なサイトでエラーが発生します。これにより、クロールはほぼ不可能になります。

一部のサイトには、アクセスするのが危険なcgi argsとのリンクがあります。たとえば、公開編集可能なデータベースの「削除」ボタンなどです。

グーグルのウェブマスターツールは、あなたのサイトでどのcgi引数を無視すべきかをグーグルに伝える方法を持っていますが、それは他の検索エンジンには役に立ちません。この問題でrobots.txt拡張機能に取り組んでいる人は誰も知りません。

過去4年間で、blekkoはURLから削除するargsのひどい正規表現を蓄積してきました。かなり長いリストです！

html - Webクローラーはクエリを取得する必要がありますか？

3 に答える 3

Related

Reference