python - ウェブページの現在のバージョンを取得する

Question

Wget または Python で Web ページの現在のバージョンを取得するにはどうすればよいですか? キャッシュを完全にオフにする必要があります。

http://robocademy.com/courses/arduino/get_code/を毎秒ダウンロードするコードを作成しようとしています。Python の urllib と Wget を使用すると、Chrome のように現在のファイルを取得できません。私はもう試した

wget --cache=off --user-agent="Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" http://robocademy.com/courses/arduino/get_code/

および urllib.urlcleanup を使用した urllib

Chrome の応答ヘッダー:

Accept-Ranges:bytes
Age:0
Connection:keep-alive
Content-Encoding:gzip
Content-Length:449
Content-Type:text/plain
Date:Wed, 28 Nov 2012 23:20:24 GMT
Server:nginx
Vary:Accept-Encoding
Via:1.1 varnish
X-Varnish:400211059

Wget の応答ヘッダー

HTTP/1.1 200 OK
Server: nginx
Content-Type: text/plain
Keep-Alive: timeout=20
Vary: Accept-Encoding
Transfer-Encoding: chunked
Date: Wed, 28 Nov 2012 23:22:20 GMT
X-Varnish: 400216320 400212892
Age: 76
Via: 1.1 varnish
Connection: keep-alive

score -1 · Accepted Answer

--no-cachewget に追加してみてください。マニュアルによると：

サーバー側のキャッシュを無効にします。この場合、Wget はリモートサーバーに適切なディレクティブ ('Pragma: no-cache') を送信して、キャッシュされたバージョンを返すのではなく、リモートサービスからファイルを取得します。これは、プロキシサーバー上の古いドキュメントを取得してフラッシュする場合に特に便利です。

キャッシングはデフォルトで許可されています。

cache=offwgetrcファイルに入るはずです。

Python の場合、この回答を検討できます。

python - ウェブページの現在のバージョンを取得する

1 に答える 1

Related

Reference