1

私は、Web ページの HTML の解析を扱うプロジェクトに参加しています。そこで、ブログ(Bloggers Blog - Dynamic Template) の内容を読んでみました。残念ながら、ブログの Web ページの「実際の」ソースを確認できませんでした。

ここに私が観察したものがあります:

  1. view sourceブログのランダムな記事をクリックして、その中のコンテンツを見つけようとしました。そして、私は何も見つけることができませんでした。それはすべてJavaScriptでした。

  2. そこで、そのウェブページをラップトップに保存してソースを再度確認したところ、今度はコンテンツが見つかりました。

  3. また、ブラウザを使用してソースを確認しdevelopers toolsたところ、その中にコンテンツが見つかりました。

  4. 今、私はpythonの方法を試しました

    import urllib
    from bs4 import BeautifulSoup
    
    soup = BeautifulSoup( urllib.urlopen("my-webpage-address") )
    print soup.prettify()
    

    HTMLコードのコンテンツも見つかりませんでした。

最後に、ケース 1、4 でソース コード内のコンテンツが見つからない理由を説明します。

実際の HTML コードを取得するにはどうすればよいですか? 仕事をするpythonライブラリを聞きたいです。

4

1 に答える 1

1

コンテンツは JavaScript (AJAX) 経由で読み込まれます。「ソース」にはありません。

ステップ 2 では、元のソースではなく、結果のページを保存しています。ステップ 3 では、ブラウザーによってレンダリングされているものを確認しています。

ページのソース (コンテンツが含まれていない) を取得しているため、ステップ 1 と 4 は「機能しません」。実際に JavaScript を実行する必要がありますが、これはスクリーン スクレイパーにとっては簡単なことではありません。

于 2012-06-12T15:31:25.987 に答える