html - Web ページの生成されたソースをプログラムで取得することは可能ですか?

Question

タイトルの通り、生成されたページのHTMLコードを取得する方法があればいいなと思っています。明らかに、Web 開発者ツール (ブラウザーの組み込みまたは外部プログラム) を使用してページを検査して取得することはできますが、実際には自動的に行いたいと考えています。おそらく、Fiddler の API を使用すると可能でしょうか?

ありがとう！

score 2 · Accepted Answer

「ソース」は、ページの読み込み後に JavaScript によって変更されることはありません。変更されるのは、ソースから生成されたドキュメントオブジェクトモデル (DOM) です。次に GUI に変換されるのはこの DOM であり、ページが再ロードされない限り、変更のたびに変更されます。

DOM は HTML コードの文字列ではなく、ページのメモリ内階層オブジェクト表現です。ブラウザーは、変更された DOM の最新のフラットファイル表現を維持しません。そのため、「ソースを表示」すると、HTTP 経由でブラウザーに最初に送信されたものしか表示されません。

Firebug などの開発者ツールでのページ/DOM のノードごとの表現は、自分で新しいツールを構築することなく、ソースコードの再生成 (AFAIK) に最も近いものです。

score 0 · Accepted Answer

変数 (URL) を取り、それを wget などの Web ページをダウンロードするコマンドの後に挿入するスクリプトを Python で記述できる場合があります。

グーグルで調べてみると、HTMLファイルを解析するためにこれが見つかりました.おそらく、index.HTMLをwgetして、これらのいずれかを使用できます.PHPで HTML/XMLを解析および処理するにはどうすればよいですか?

html - Web ページの生成されたソースをプログラムで取得することは可能ですか?

2 に答える 2

Related

Reference