こんにちは、この URL からいくつかのデータを削除しようとしています:
http://www.21cineplex.com/nowplaying/jakarta,3,JKT.htm/1
お気づきかもしれませんが、Cookie とセッション データがまだ設定されていない場合は、そのベース URL ( http://www.21cineplex.com/ )にリダイレクトされます。
私はこのようにそれをやろうとしました:
def main():
try:
cj = CookieJar()
baseurl = "http://www.21cineplex.com"
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.open(baseurl)
urllib2.install_opener(opener)
movieSource = urllib2.urlopen('http://www.21cineplex.com/nowplaying/jakarta,3,JKT.htm/1').read()
splitSource = re.findall(r'<ul class="w462">(.*?)</ul>', movieSource)
print splitSource
except Exception, e:
str(e)
print "Error occured in main Block"
しかし、私はその特定の URL からスクラップすることに失敗しました。
簡単に調べると、Web サイトがセッション ID (PHPSESSID) を設定していて、クライアントの Cookie にコピーを作成していることがわかります。
問題は、そのような例をどのように軽減するかです。
ps:リクエストを (pip 経由で)インストールしようとしましたが、どのように取得しても (404):
Getting page https://pypi.python.org/simple/request/
Could not fetch URL https://pypi.python.org/simple/request/: HTTP Error 404: Not Found (request does not have any releases)
Will skip URL https://pypi.python.org/simple/request/ when looking for download links for request
Getting page https://pypi.python.org/simple/
URLs to search for versions for request:
* https://pypi.python.org/simple/request/
Getting page https://pypi.python.org/simple/request/
Could not fetch URL https://pypi.python.org/simple/request/: HTTP Error 404: Not Found (request does not have any releases)
Will skip URL https://pypi.python.org/simple/request/ when looking for download links for request
Could not find any downloads that satisfy the requirement request
Cleaning up...