0

これは、javascript がページ ソースの一部を変更することに関する標準的な問題の 1 つではありません。これらの部分は、右クリックして [ページ ソースを表示]をクリックすると非表示になります。私の問題は異なります。

実際には、右クリック > ページのソースを表示すると、html コード全体を表示できますが、この URL を BeautifulSoup や xml.parser で読み取ろうとしたり、mechanize で開いたりすると、この時点でページが少し異なって表示されます。重要な内容が抜けています。

この実際の html コードを理解する唯一の方法は、コンテンツ全体を手動でコピー/貼り付けして、ファイルとして保存することです。pythonで自動でやると内容も変わります。

基本的にサイトは html ですが、javascript、flash、ajax コードも見られます。

何ができるか考えていますか?ソースコードを実際に見ないとわかりにくいかもしれませんが、スクレイピング元のページの URL を投稿しない方がよいと思います。

4

1 に答える 1