ブラウザーでインタラクティブに行う場合、複数のアクションとページの読み込みを伴うページの HTML を取得できるようにしたいと考えています。 1. ホームページに移動します。 2. ログイン フォームにテキストを入力し、フォームを送信します ( post) 3. 投稿は、さまざまなリダイレクトとフレームセットの使用を通過します。
Cookie は、このプロセス全体で適応されます。
ブラウザーでは、送信後、ページを取得するだけです。
しかし、curl (PHP など)、wget、またはその他の低レベル テクノロジでこれを行うには、Cookie、リダイレクト、およびフレームセットの管理がすべて非常に面倒になり、スクリプトを Web サイトに非常に緊密にバインドします (小さなことでも非常に影響を受けやすくなります)。私がスクレイピングしているウェブサイトの変更。)
誰でもこれを行う方法を提案できますか?
私はすでにCrowbarとPhantomJSとLynx (cmd_log/cmd_script オプション付き) を見てきましたが、Firefox や Chrome で行うことを正確に模倣するためにすべてを連鎖させることは困難です。
(余談ですが、ターゲット Web サイトがこのスクリプトをFirefox や Chrome、または「実際の」ブラウザであると見なすことは、有用/必要でさえあるかもしれません)