php - 実行時に生成された Web ページから HTML タグを抽出する方法

Question

SimpleHTMLDOM パーサーを使用して Web ページから HTML データを抽出しています。しかし、実行時に Web ページが生成されるwww.coursera.comなどの Web サイトに出くわしました。

誰かがそのようなページを解析しようとしたことを知る必要がありますか?

私はこの分野に不慣れなので、このトピックに関するいくつかの理論は、Webページの解析における私の理解に役立ちます.

score 3 · Accepted Answer

この場合、おそらくより簡単です（常にではありませんが）。コンテンツの生成に使用されるデータは、おそらく ajax リクエストの一部であり、それらの ajax エンドポイントに直接リクエストを送信し、エンドポイントからのレスポンスを解析できます。

多くの場合、これは HTML に比べて非常に簡単に解析できる JSON になります。

score 1 · Accepted Answer

John Resig は HTML パーサーを書きました。

デモ: http://ejohn.org/blog/pure-javascript-html-parser/

これはあなたのために運動することができます。

2 に答える 2