免責事項:私の愚かさの言い訳ですが、私はWebプログラマーではありません:D
PythonScrapyを使用してクローラーを作成しようとしています。このvbulletinボードを見ると、奇妙な動作が発生しています。ページをfirefoxにロードし、firefox / firebugを使用して検査すると、フォーラムのL1ヘッダーにクラスforumbit_nopost new L1
が含まれていることがわかります(ドキュメントでcat117を検索して、目的の要素にアクセスできます)。
スクラップまたはカールを使用してドキュメントを取得すると、クラスがに設定されforumbit_nopost old L1
ます。curlを使用するときにFirefoxと一致するようにユーザーエージェントを変更しましたが、違いはありませんでした。そのため、JavaScriptの実行に関係していると思われます。new
FirefoxでJavaScriptを無効にしようとしましたが、Firefoxにはまだclass属性のバリアントを持つソースがあります。
誰かが私に何が起こっているのか説明してもらえますか?:D
追伸、クロームはold
バリアントも認識します。
使用したcurlコマンド:
curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch