0

PHP を使用して Web ページから情報をスクレイピングしていますが、ページからスクレイピングしようとしている情報が何らかの方法で AJAX/javascript を介して読み込まれていることがわかりました。Curl が JavaScript を反復処理できることを覚えていたと思っていましたが、そうではないことがわかりました。

フル機能のブラウザが到達する最終ページの結果を取得するために、javascript と AJAX をトレースできるバックエンドの「Web ブラウザ」ライブラリ/関数のようなものを覚えているようです。

これを行うことができるライブラリまたは関数はありますか? スクリプト/リダイレクトを手動でトレースする以外に、これを行う方法についてのアイデアはありますか? きれいである必要はありません。結果のテキストをスクレイピングしたいだけです。

4

2 に答える 2

1

そのような図書館はないと思います。あなたが本当に絶望的で、たくさんの時間があれば、もちろん、たとえば Firefox のソース コードをダウンロードして、便利なものを自分で構築することができます。しかし、これがあなたや他の誰かのリソースを最大限に活用することになるとは思いません。

Google のインデックス ボットでさえ ajax を処理しないことに注意してください。 これは、Googleがそれについて言わなければならないことです. あなたが扱っているサイトがこれをサポートしている可能性は十分にあります。その場合、この google の手法を試すことができますが、残念ながら、全体としてはうまくいきません。

于 2012-06-17T15:48:31.627 に答える
1

php ではないかもしれませんが、他の言語には次のようなものがあります。iMacros や同様の商用オプションもあります。

しかし、私は通常、ページが行っているリクエストを見て、それらを再作成したり、レスポンスを解析したりするだけで、これらがなくても必要なデータを取得できることがわかります。

于 2012-06-18T01:46:08.677 に答える