0

ブラウザーでインタラクティブに行う場合、複数のアクションとページの読み込みを伴うページの HTML を取得できるようにしたいと考えています。 1. ホームページに移動します。 2. ログイン フォームにテキストを入力し、フォームを送信します ( post) 3. 投稿は、さまざまなリダイレクトとフレームセットの使用を通過します。

Cookie は、このプロセス全体で適応されます。

ブラウザーでは、送信後、ページを取得するだけです。

しかし、curl (PHP など)、wget、またはその他の低レベル テクノロジでこれを行うには、Cookie、リダイレクト、およびフレームセットの管理がすべて非常に面倒になり、スクリプトを Web サイトに非常に緊密にバインドします (小さなことでも非常に影響を受けやすくなります)。私がスクレイピングしているウェブサイトの変更。)

誰でもこれを行う方法を提案できますか?

私はすでにCrowbarPhantomJSLynx (cmd_log/cmd_script オプション付き) を見てきましたが、Firefox や Chrome で行うことを正確に模倣するためにすべてを連鎖させることは困難です。

(余談ですが、ターゲット Web サイトがこのスクリプトFirefox や Chrome、または「実際の」ブラウザであると見なすことは、有用/必要でさえあるかもしれません)

4

3 に答える 3

2

これを行う1つの方法は、SeleniumRCを使用することです。通常はテストに使用されますが、コアとなるのは単なるブラウザのリモートコントロールサービスです。

このWebサイトを出発点として使用してください:http ://seleniumhq.org/projects/remote-control/

于 2011-11-09T14:05:09.817 に答える
0

irobotsoftでirobotを使用して、ロボットを記録して再生することができます。

低レベルの制御が必要な場合は、HTQL pythonインターフェイスを使用できます。http://htql.net/htql-python-manual.pdfを参照してください。PythonからIEベースのブラウザにアクセスできます。

于 2011-11-11T20:59:13.267 に答える
0

Firebug などのツールを使用して、ログインのために Web サイトに送信されるヘッダーを確認し、それをコードに正確に複製します。

または、ブラウザでログインしてから、コードで Cookie を再利用します。

于 2011-11-14T16:25:00.263 に答える