2

タイトルの通り、生成されたページのHTMLコードを取得する方法があればいいなと思っています。明らかに、Web 開発者ツール (ブラウザーの組み込みまたは外部プログラム) を使用してページを検査して取得することはできますが、実際には自動的に行いたいと考えています。おそらく、Fiddler の API を使用すると可能でしょうか?

ありがとう!

4

2 に答える 2

2

「ソース」は、ページの読み込み後に JavaScript によって変更されることはありません。変更されるのは、ソースから生成されたドキュメント オブジェクト モデル (DOM) です。次に GUI に変換されるのはこの DOM であり、ページが再ロードされない限り、変更のたびに変更されます。

DOM は HTML コードの文字列ではなく、ページのメモリ内階層オブジェクト表現です。ブラウザーは、変更された DOM の最新のフラット ファイル表現を維持しません。そのため、「ソースを表示」すると、HTTP 経由でブラウザーに最初に送信されたものしか表示されません。

Firebug などの開発者ツールでのページ/DOM のノードごとの表現は、自分で新しいツールを構築することなく、ソース コードの再生成 (AFAIK) に最も近いものです。

于 2013-04-15T06:23:35.173 に答える
0

変数 (URL) を取り、それを wget などの Web ページをダウンロードするコマンドの後に挿入するスクリプトを Python で記述できる場合があります。

グーグルで調べてみると、HTMLファイルを解析するためにこれが見つかりました.おそらく、index.HTMLをwgetして、これらのいずれかを使用できます.PHPで HTML/XMLを解析および処理するにはどうすればよいですか?

于 2013-03-09T20:43:04.660 に答える