2

ブラウザ リソースの展開動作をシミュレートする方法を探しています。

私が対処しようとしているフローは次のとおりです。

  • 初期 URL にアクセスする (例: http://example.dmn/index.htm )
  • 受信した html 応答を解析します (例: index.htm)
  • インデックス解析の結果としてブラウザーが取得するリソースを見つけます。たとえば、次のようになります。
    • 画像
    • 閃光
    • 埋め込みビデオ/オーディオ
    • フレーム/iFrame
  • 見つかった新しいリソースごとにプロセスを再帰的に繰り返します

リンク (href) をたどることは期待していません。ページが最初にアクセスされたときにブラウザーによって自動的に取得されるページ リソースのみです。

このシミュレーションを実行する方法について提案はありますか?

役立つ可能性のあるPythonプロジェクト/ライブラリはありますか?

ありがとう

4

3 に答える 3

1

Scrapyをご覧になることをお勧めします。

必要な機能をすべて提供できるとは限りませんが、簡単に拡張できます。

于 2010-06-15T14:16:01.580 に答える
1

Python で Web アプリ用のテストを作成できるWindmill Testing Frameworkを参照してください。

于 2010-06-15T09:43:29.493 に答える
1

Spider.pyrobotparserを参照してください。あなたが望むことを自動的に行う人を除いて、 BeautifulSoupを使用して HTML スープを自分で掘り下げることができます。

于 2010-06-15T09:45:25.823 に答える