0

derstandard.at というオーストリアの新聞の掲示板用にウェブクローラーをプログラムしようとしています。インタラクションに興味があり、ユーザーのネットワーク分析を行いたいと考えています。必要なものはすべて取得できましたが、メッセージ ボードのページを変更しようとすると、まったく機能しません。

Firefox を使用すると、たとえば 5 ページのように URL の 1 つの数字を変更するだけで、必要なページに簡単にアクセスできます。

http://derstandard.at/1345164506806/Umfrage-FPOe-auf-tiefstem-Stand-seit-mehr-als-zwei-Jahren?seite=5#forumstart

Python スクリプトからこれにアクセスしようとすると、常にページ 1 が表示されます。

最初は、これはユーザー エージェントが原因だと思っていましたが、Firefox ユーザー エージェントに変更しても、常にページ 1 が表示されるのはなぜですか?

関連するコード スニペットは次のとおりです。

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib
from BeautifulSoup import BeautifulSoup

from urllib import FancyURLopener
class MyOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:14.0) Gecko/20100101 Firefox/14.0.1'

f_open=MyOpener()

page=BeautifulSoup(f_open.open('http://derstandard.at/1345164506806/Umfrage-FPOe-auf-tiefstem-Stand-seit-mehr-als-zwei-Jahren?seite=5#forumstart'))

印刷ページ

4

1 に答える 1

1

OPによると。彼への私のコメントは問題を解決しました。

私のコメント:

多分それは「#」で、時々エラーを引き起こす可能性があると聞いたので、検索文字列の先頭に ar を入れてください。「http://derstandard.at/1345164506806/Umfrage-FPOe-auf-tiefstem-Stand-seit-mehr‌ -als-zwei-Jahren?seite=5#forumstart」のように

単純な間違いだったようです。

于 2012-08-20T15:14:31.167 に答える