1

免責事項:私の愚かさの言い訳ですが、私はWebプログラマーではありません:D

PythonScrapyを使用してクローラーを作成しようとしています。このvbulletinボードを見ると、奇妙な動作が発生しています。ページをfirefoxにロードし、firefox / firebugを使用して検査すると、フォーラムのL1ヘッダーにクラスforumbit_nopost new L1が含まれていることがわかります(ドキュメントでcat117を検索して、目的の要素にアクセスできます)。

スクラップまたはカールを使用してドキュメントを取得すると、クラスがに設定されforumbit_nopost old L1ます。curlを使用するときにFirefoxと一致するようにユーザーエージェントを変更しましたが、違いはありませんでした。そのため、JavaScriptの実行に関係していると思われます。newFirefoxでJavaScriptを無効にしようとしましたが、Firefoxにはまだclass属性のバリアントを持つソースがあります。

誰かが私に何が起こっているのか説明してもらえますか?:D

追伸、クロームはoldバリアントも認識します。

使用したcurlコマンド:

curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch
4

1 に答える 1

0

new は、前回の訪問以降に新しい投稿があることを意味します。セッション間で Cookie を保持しない限り、スクリプトでこれが表示されることはありません。

于 2012-05-02T23:57:17.473 に答える