python - 実際のページのソースコードにアクセスできません

翻译自：https://stackoverflow.com/questions/16484096 2013-05-10T14:03:16.853

233 次

これは、javascript がページソースの一部を変更することに関する標準的な問題の 1 つではありません。これらの部分は、右クリックして [ページソースを表示]をクリックすると非表示になります。私の問題は異なります。

実際には、右クリック > ページのソースを表示すると、html コード全体を表示できますが、この URL を BeautifulSoup や xml.parser で読み取ろうとしたり、mechanize で開いたりすると、この時点でページが少し異なって表示されます。重要な内容が抜けています。

この実際の html コードを理解する唯一の方法は、コンテンツ全体を手動でコピー/貼り付けして、ファイルとして保存することです。pythonで自動でやると内容も変わります。

基本的にサイトは html ですが、javascript、flash、ajax コードも見られます。

何ができるか考えていますか？ソースコードを実際に見ないとわかりにくいかもしれませんが、スクレイピング元のページの URL を投稿しない方がよいと思います。

python - 実際のページのソース コードにアクセスできません