2

ブラウザ (Firefox など) に表示されるすべてのデータをキャプチャするモジュールを探しています。すべてのデータをキャプチャする必要がありCSS/JS/AJAXます。私はLWP::UserAgent、すべてのデータをキャプチャしていない方法を使用しようとしました。

私が見ているWebページを見たい場合は、次のとおりです。

http://finance.yahoo.com/q?s=SAPE&ql=1

メニュー バー (ホーム、投資、ニュース、パーソナル ファイナンスなど) の下に、日付と時刻の情報を含む水平バーがあることがわかります。例:

2013 年 2 月 6 日 (水) 午後 8 時 10 分 (EST) - 米国市場は閉鎖

これはどのブラウザでも見ることができますが、Perl が Web ページをフェッチするとき、日付、時刻、市場が開いているか閉じているかはキャプチャされたデータには含まれていません。

必要なものを盗み出すために Wireshark を使用する必要がありますか、またはブラウザーを複製してこのデータをキャプチャするモジュールがありますか、またはより良い方法がありますか?

すべてのデータをキャプチャすると思いLWP::UserAgentましたが、明らかに間違っています..

ありがとう。

4

1 に答える 1

1

ページの「ソースを表示」すると、これは主に LWP::UserAgent が見るものです。動的にロードされた ajax データ、javascript に基づいて構築されたメニューなどを含むページを取得するには、ページを Web ブラウザ、node.js、phantomJs、または同様のツールにロードする必要があります。ご覧のとおりのページです。次に、その DOM モデルを使用して関連データを探します (たとえば、jQuery を使用します)。

于 2013-02-10T17:36:30.803 に答える