User-Agent ヘッダーを変更したにもかかわらず、アクセスしているスクリプトとして識別する Web サイトはありますか。
import urllib,urllib2
req_headers = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(url,headers = req_headers)
html = req.open(url)
はいの場合、どのように?
User-Agent ヘッダーを変更したにもかかわらず、アクセスしているスクリプトとして識別する Web サイトはありますか。
import urllib,urllib2
req_headers = {'User-Agent':'Mozilla/5.0'}
req = urllib2.Request(url,headers = req_headers)
html = req.open(url)
はいの場合、どのように?
まず第一に、ユーザー エージェントはかなり不完全であり、簡単に偽物として検出できます。
投票コンテストでのハンティング詐欺師への回答で、ロボット検出技術について説明します。
はい。まず、Firebug などのツールを使用して Web を閲覧するときに、完全なヘッダーを確認します。通常のブラウザでは、 では提供されていない、受け入れられている言語など、多くの情報が提供されていることに気付くでしょうurllib
。そのため、Web サイトは他のヘッダー情報の存在をチェックする場合があります。
もう 1 つのトリックは、ページに 1x1 ピクセルの画像を含め、クライアントが画像ファイルを要求したかどうかを確認することです。そうでない場合、クライアントはテキストのみのブラウザ ( lynxなど) を使用しているか、実際にはスクリプトです。JavaScript を使ってマウスの存在を探すこともできると思います。
一般的に、それは猫とネズミのゲームです。1 つの代替手段urllib
はSeleniumです。Selenium がブラウザ ウィンドウを起動します。