2

Google 検索結果の rss/xml フィードから自分のウェブサイトに結果をインポートしようとしていますが、python スクリプトを実行するたびに Google からメッセージが表示されます。

私たちのシステムは、あなたのコンピュータ ネットワークから異常なトラフィックを検出しました。このページでは、ロボットではなく、本当にあなたがリクエストを送信しているかどうかを確認します。

このスクリプトは、urllib を使用してページをダウンロードし、他の RSS フィードと連動します。

RSSフィードはソフトウェア(ボット)によって消費されるはずだと思っていたので、あまり意味がありません.週末にスクリプトを残して月曜日の朝に実行しましたが、それでもメッセージが表示されたので、サーバーにあまりアクセスしていません.

ブラウザでフィードをロードできますが、サーバーで wget を使用してフィードをダウンロードすることもできますか?

4

1 に答える 1

3

HTTP スニファ (フィドラーなど) または任意のプロトコル スニファ (tcpdump、wireshark) を使用して、Google へのネットワーク トラフィックをスニッフィングし、urllib リクエストと wget/browser リクエストが異なるかどうかを確認できます。また、両方のリクエストのすべての Cookie と HTTP ヘッダーを確認して比較します。また、Google への多数のリクエストがある IP の場合、Google は N リクエストごとにキャプチャを送信するため、そのコンテンツを解析する必要がある場合は、Google の解析にいくつかのプロキシを使用する必要があることを覚えておいてください。

于 2013-03-18T13:53:46.930 に答える