0

このようなページを見ると: http://www.fieg.nl/ias-demo#/

下にスクロールすると、Ajax を使用して動的にコンテンツが追加されていることがわかります。これは、Google 画像の仕組みと同様です。

このようなページを解析用にキャプチャしたい場合は、次のようにします。

$page = file_get_contents("http://www.fieg.nl/ias-demo#/");

しかし、これは、Ajax が発生する前に最初に読み込まれたものすべてを取得するだけです。PHP、CURL、またはその他のプログラムを使用してページ全体をキャプチャし、Ajax コンテンツを自動的にロードしてキャプチャすることはできますか?

また、読み込みが止まらず、文字通り永遠に続く奇妙なページが発生した場合、ツールがそれをどのように処理する必要があるかわかりません。そのような状況では、ツールは DOM の終わりを決して見つけられないからです。

4

1 に答える 1

1

これらのページは、ユーザーがページの下部に向かってスクロールするときに、より多くのデータを取得するために ajax 要求を送信することによって機能します。次に、JavaScript は ajax リクエストの応答をページの下部に書き込みます。

コンテンツの次のページを取得するためにサーバーに対して行われる要求を分析するには、firebug などのツールを実行する必要があります (ネット パネルを使用)。リクエスト URL を見つけたら、PHP スクリプトでこれらのリクエストをエミュレートする必要があります。

残念ながら、SO はスパイダー Web サイトにスクリプトを書き込む場所ではありませんが、理論はあります。

于 2012-05-10T16:07:23.057 に答える