python - Python を使用してブラウザーリソースの展開動作をシミュレートする

Question

ブラウザリソースの展開動作をシミュレートする方法を探しています。

私が対処しようとしているフローは次のとおりです。

初期 URL にアクセスする (例: http://example.dmn/index.htm )
受信した html 応答を解析します (例: index.htm)
インデックス解析の結果としてブラウザーが取得するリソースを見つけます。たとえば、次のようになります。
- 画像
- 閃光
- 埋め込みビデオ/オーディオ
- フレーム/iFrame
見つかった新しいリソースごとにプロセスを再帰的に繰り返します

リンク (href) をたどることは期待していません。ページが最初にアクセスされたときにブラウザーによって自動的に取得されるページリソースのみです。

このシミュレーションを実行する方法について提案はありますか?

役立つ可能性のあるPythonプロジェクト/ライブラリはありますか?

ありがとう

score 1 · Accepted Answer

Scrapyをご覧になることをお勧めします。

必要な機能をすべて提供できるとは限りませんが、簡単に拡張できます。

score 1 · Accepted Answer

Python で Web アプリ用のテストを作成できるWindmill Testing Frameworkを参照してください。

score 1 · Accepted Answer

Spider.pyとrobotparserを参照してください。あなたが望むことを自動的に行う人を除いて、 BeautifulSoupを使用して HTML スープを自分で掘り下げることができます。

python - Python を使用してブラウザー リソースの展開動作をシミュレートする