python - ブログの正確なソースコードが見つからない

Question

私は、Web ページの HTML の解析を扱うプロジェクトに参加しています。そこで、ブログ(Bloggers Blog - Dynamic Template) の内容を読んでみました。残念ながら、ブログの Web ページの「実際の」ソースを確認できませんでした。

ここに私が観察したものがあります：

view sourceブログのランダムな記事をクリックして、その中のコンテンツを見つけようとしました。そして、私は何も見つけることができませんでした。それはすべてJavaScriptでした。
そこで、そのウェブページをラップトップに保存してソースを再度確認したところ、今度はコンテンツが見つかりました。
また、ブラウザを使用してソースを確認しdevelopers toolsたところ、その中にコンテンツが見つかりました。

今、私はpythonの方法を試しました

import urllib
from bs4 import BeautifulSoup

soup = BeautifulSoup( urllib.urlopen("my-webpage-address") )
print soup.prettify()

HTMLコードのコンテンツも見つかりませんでした。

最後に、ケース 1、4 でソースコード内のコンテンツが見つからない理由を説明します。

実際の HTML コードを取得するにはどうすればよいですか? 仕事をするpythonライブラリを聞きたいです。

score 1 · Accepted Answer

コンテンツは JavaScript (AJAX) 経由で読み込まれます。「ソース」にはありません。

ステップ 2 では、元のソースではなく、結果のページを保存しています。ステップ 3 では、ブラウザーによってレンダリングされているものを確認しています。

ページのソース (コンテンツが含まれていない) を取得しているため、ステップ 1 と 4 は「機能しません」。実際に JavaScript を実行する必要がありますが、これはスクリーンスクレイパーにとっては簡単なことではありません。

python - ブログの正確なソース コードが見つからない