0

最近、私はWebクローラーをコーディングしました。私が残した唯一の質問は、「標準の」ウェブクローラーが次のようなリンククエリをクロールするかどうかです: https ://www.google.se/?q = stackoverflow またはクエリをスキップして次のようにピックアップします: https ://www.google.se

4

3 に答える 3

0
于 2012-07-07T23:42:21.843 に答える
0

GETリクエストを使用してリンクにアクセスした場合は、はい、Webブラウザでクロールする必要があります。

クエリ文字列を使用して、要求されているコンテンツを識別するWebサイトはまだたくさんあります。たとえば、ブログ/article.php?article_id=754などです。Webブラウザーがこのようなリンクをたどらなかった場合、Web上の多くのコンテンツはインデックスに登録されません。

于 2012-07-07T23:37:06.143 に答える
0

あなたの特定の例では、/robots.txtを使用して検索禁止検索エンジンの結果ページを提供する多くのウェブサイト。

cgi argsを使用してページをクロールする必要はありますが、堅牢なクローラーが無関係または有害なcgiargsを理解する必要があります。

urchin cgi args(utm_campaignなど)を使用してクロールするということは、重複するコンテンツが表示されることを意味します。

すべてのフェッチにセッションcgiargを追加するサイトは、コンテンツが重複しているだけでなく、古いcgi argが表示されると、特に巧妙なサイトでエラーが発生します。これにより、クロールはほぼ不可能になります。

一部のサイトには、アクセスするのが危険なcgi argsとのリンクがあります。たとえば、公開編集可能なデータベースの「削除」ボタンなどです。

グーグルのウェブマスターツールは、あなたのサイトでどのcgi引数を無視すべきかをグーグルに伝える方法を持っていますが、それは他の検索エンジンには役に立ちません。この問題でrobots.txt拡張機能に取り組んでいる人は誰も知りません。

過去4年間で、blekkoはURLから削除するargsのひどい正規表現を蓄積してきました。かなり長いリストです!

于 2012-07-13T22:47:22.160 に答える