http - 重要なユーザーシナリオの HTML 結果をスクリーンスクレイピングするにはどうすればよいですか

Question

ブラウザーでインタラクティブに行う場合、複数のアクションとページの読み込みを伴うページの HTML を取得できるようにしたいと考えています。 1. ホームページに移動します。 2. ログインフォームにテキストを入力し、フォームを送信します ( post) 3. 投稿は、さまざまなリダイレクトとフレームセットの使用を通過します。

Cookie は、このプロセス全体で適応されます。

ブラウザーでは、送信後、ページを取得するだけです。

しかし、curl (PHP など)、wget、またはその他の低レベルテクノロジでこれを行うには、Cookie、リダイレクト、およびフレームセットの管理がすべて非常に面倒になり、スクリプトを Web サイトに非常に緊密にバインドします (小さなことでも非常に影響を受けやすくなります)。私がスクレイピングしているウェブサイトの変更。)

誰でもこれを行う方法を提案できますか?

私はすでにCrowbarとPhantomJSとLynx (cmd_log/cmd_script オプション付き) を見てきましたが、Firefox や Chrome で行うことを正確に模倣するためにすべてを連鎖させることは困難です。

(余談ですが、ターゲット Web サイトがこのスクリプトをFirefox や Chrome、または「実際の」ブラウザであると見なすことは、有用/必要でさえあるかもしれません)

score 2 · Accepted Answer

これを行う1つの方法は、SeleniumRCを使用することです。通常はテストに使用されますが、コアとなるのは単なるブラウザのリモートコントロールサービスです。

このWebサイトを出発点として使用してください：http ：//seleniumhq.org/projects/remote-control/

score 0 · Accepted Answer

irobotsoftでirobotを使用して、ロボットを記録して再生することができます。

低レベルの制御が必要な場合は、HTQL pythonインターフェイスを使用できます。http：//htql.net/htql-python-manual.pdfを参照してください。PythonからIEベースのブラウザにアクセスできます。

score 0 · Accepted Answer

Firebug などのツールを使用して、ログインのために Web サイトに送信されるヘッダーを確認し、それをコードに正確に複製します。

または、ブラウザでログインしてから、コードで Cookie を再利用します。

http - 重要なユーザー シナリオの HTML 結果をスクリーン スクレイピングするにはどうすればよいですか

3 に答える 3

Related

Reference

http - 重要なユーザーシナリオの HTML 結果をスクリーンスクレイピングするにはどうすればよいですか