python - 機械化リクエストを実際のブラウザから発信されたように見せる方法

Question

OK、これは、アカウントにログインしているときにライブ HTTP ヘッダーから取得したヘッダー (ほんの一例) 情報です。

http://example.com/login.html

POST /login.html HTTP/1.1
Host: example.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Referer: http://example.com
Cookie: blahblahblah; blah = blahblah
Content-Type: application/x-www-form-urlencoded
Content-Length: 39
username=shane&password=123456&do=login

HTTP/1.1 200 OK
Date: Sat, 18 Dec 2010 15:41:02 GMT
Server: Apache/2.2.3 (CentOS)
X-Powered-By: PHP/5.2.14
Set-Cookie: blah = blahblah_blah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Cache-Control: private, no-cache="set-cookie"
Expires: 0
Pragma: no-cache
Content-Encoding: gzip
Vary: Accept-Encoding
Content-Length: 4135
Keep-Alive: timeout=10, max=100
Connection: Keep-Alive
Content-Type: text/html; charset=UTF-8

通常、次のようにコーディングします。

import mechanize
import urllib2

MechBrowser = mechanize.Browser()
LoginUrl = "http://example.com/login.html"
LoginData = "username=shane&password=123456&do=login"
LoginHeader = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)", "Referer": "http://example.com"}

LoginRequest = urllib2.Request(LoginUrl, LoginData, LoginHeader)
LoginResponse = MechBrowser.open(LoginRequest)

上記のコードは正常に動作します。私の質問は、LoginHeader機械化ではなく、Firefox のサーフィンのように見えるようにするために、これらの次の行 (および以前のヘッダー情報にさらに追加) を追加する必要がありますか?

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7

「本物」に見えるようにするには、ヘッダー情報のどの部分/いくつをスプーフィングする必要がありますか?

score 7 · Accepted Answer

それは、あなたが何をだまそうとしているかによって異なります。簡単なユーザーエージェントのスニッフィングを行ういくつかのオンラインサービスを試して、成功を評価できます。

http://browserspy.dk/browser.php

http://www.browserscope.org (「あなたが使用していると思われる...」を探します)

http://www.browserscope.org/ua

http://panopticlick.eff.org/ -> 「追跡するには一般的すぎる」オプションを選択するのに役立ちます

http://networking.ringofsaturn.com/Tools/browser.php

私は、熱心なプログラマーがあなたのゲームを検出できると信じていますが、多くのログパーサーやツールは、実際のブラウザーが送信するものを一度エコーすると検出しません。

考慮すべきことの 1 つは、JS がないと危険信号が発生する可能性があるため、JS を無効にして送信済みヘッダーもキャプチャすることです。

score 6 · Accepted Answer

mechanize.Browser によって行われるすべてのリクエストに対してユーザーエージェントを設定する方法は次のとおりです。

br = mechanize.Browser()
br.addheaders = [('User-agent', 'your user agent string here')]

Mechanize はフォームにも入力できます

br.open('http://yoursite.com/login')
br.select_form(nr=1) # select second form in page (0 indexed)
br['username'] = 'yourUserName' # inserts into form field with name 'username'
br['password'] = 'yourPassword'
response = br.submit()
if 'Welcome yourUserName' in response.get_data():
    # login was successful
else:
    # something went wrong
    print response.get_data()

詳細については、機械化の例を参照してください

score 0 · Accepted Answer

ボット/スクリプト/非現実的なブラウザーを締め出すことに偏執的である場合は、HTTP 要求の順序などを探し、JavaScript を使用して 1 つのリソースを追加します。そのリソースがリクエストされていない場合、または JavaScript の前にリクエストされている場合は、それが「偽の」ブラウザであることがわかります。また、接続ごとのリクエスト数 (キープアライブ) を調べたり、最初のページのすべての CSS ファイル (HTML の上部にある場合) が読み込まれることを確認したりすることもできます。

YMMV ですが、一部の「偽の」ブラウザーを「本物の」ブラウザー (人間が使用する) として通過させるのに十分なほどシミュレートするのはかなり面倒になる可能性があります。

python - 機械化リクエストを実際のブラウザから発信されたように見せる方法

3 に答える 3

Related

Reference