1

頻繁に更新されるブログからデータを収集しようとしているので、urllib2.urlopen( "http:\ example.com")を含むwhileループを使用して、5分ごとにページを更新し、必要なデータを収集します。

しかし、これを行っても最新のコンテンツが得られないことに気付きました。Firefoxなどのブラウザで表示されるものとは異なり、FirefoxのソースコードとPythonから取得した同じページの両方を確認したところ、最新の結果を得るのを妨げているのはWPスーパーキャッシュです。

また、Pythonコードのヘッダーをスプーフィングしても、同じキャッシュページが表示されます。では、WPスーパーキャッシュをバイパスする方法はあるのでしょうか。そして、なぜFirefoxにそのようなスーパーキャッシュがまったくないのですか?

4

1 に答える 1

2

無害なデータでURLを変更してみましたか?このようなもの:

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

実際にはを呼び出しますhttp:\example.com?time=1283872559。ほとんどのキャッシングシステムは、クエリ文字列がある場合、または予期しないものである場合、キャッシュをバイパスします。

于 2010-09-07T15:17:36.697 に答える