http://www.hostels.com/hosteldetails.php/HostelNumber.11890のように、hostels.com から一部のデータ (具体的には空室状況と価格) をスクレイピングして最終的に解析しようとしました。問題は、泊数を選択して「今すぐ予約」を選択すると、URL文字列を介して何も渡されないことです(すべてAjaxを介して行われると思います)特定の日付または時間枠に直接移動できません.
私は Selenium、IRobotSoft、FakeApp などのブラウザー エミュレーターを試してみました。Selenium と Fake で完全なソースをキャプチャする作業の多くを実行できましたが、複数のページをスクレイピング (および他のソフトウェアで解析) する必要がある場合は、見苦しく、退屈でした。一日。
HTML DOM Parser、PHP Scriptable Web Browser、HTMLUnit、cScrape.php、Crowbar も試しました。彼らが Ajax を処理できなかったか、私が彼らを走らせることができなかったのです。
理想的には、依存関係をできるだけ少なくして、サーバーから実行できるものが欲しいのですが、現時点では実行したいと思っています。
これを機能させるために何時間も費やした後。どこから手を付けていいのかわからないという気持ちはまだあります。誰かが私を正しい方向に向けることができますか?. HTMLUnit に戻ってもっと時間を費やすべきでしょうか? このようなサイトのベストプラクティスは何ですか?
ありがとう