1

話は長くなりますが、私は内部 Web サイトを保存しようとしています。彼らはもはや価値を見出しておらず、将来的にスイッチを切り替えることになるとんがり髪の上司から逃れようとしています。含まれている情報は重要であり、将来の世代がそれを使用したいと思う. いいえ、アダルトサイトではありませんが、大企業なのでこれ以上は言えません。

問題は、サイトが IE7 でしか動作しない ASP と Flash の混乱であり、IE8 と 32 ビットのみでさえバグがあることです。すべての URL はセッション スタイルであり、意味不明です。フラッシュ オブジェクト自体は、ASP オブジェクトへの GET 要求で追加情報を取得します。スクレイピング用に設計されているのは本当に貧弱です。:)

したがって、私の考えは、サイト全体をナビゲートするときに tcpdump を実行することです。次に、何らかの方法ですべての GET の結果を SQL データベースにダンプします。次に、ホスト ファイルを少しいじって、すべての要求を cgi スクリプトにリダイレクトします。このスクリプトは、データベースで一致する get 要求を探してデータを返します。そのため、サイト全体が URL/データ キーペアの SQL データベースに配置されます。フラットファイルも機能する場合があります。

理論的には、これが唯一の方法だと思います。私が目にする唯一の問題は、毎回異なるセッション URL を生成するクライアント側の ActiveX/Flash を実行する場合です。

とにかく、私は Perl を知っており、適切なモジュールを使用すればアイデアは単純に思えるので、ほとんどの作業は Perl で行うことができると思いますが、始める前に他のアイデアを受け入れます。多分これはすでに存在しますか?

ご意見ありがとうございます。

4

1 に答える 1

2

キャプチャするには を使用しませんが、クローラー自体、またはFiddlerSquidmod_proxytcpdumpなど、すべてを保存するために微調整できる webproxy のいずれかを使用します。

于 2012-02-15T10:02:51.323 に答える