1

SimpleHTMLDOM パーサーを使用して Web ページから HTML データを抽出しています。しかし、実行時に Web ページが生成されるwww.coursera.comなどの Web サイトに出くわしました。

誰かがそのようなページを解析しようとしたことを知る必要がありますか?

私はこの分野に不慣れなので、このトピックに関するいくつかの理論は、Webページの解析における私の理解に役立ちます.

4

2 に答える 2

3

この場合、おそらくより簡単です(常にではありませんが)。コンテンツの生成に使用されるデータは、おそらく ajax リクエストの一部であり、それらの ajax エンドポイントに直接リクエストを送信し、エンドポイントからのレスポンスを解析できます。

多くの場合、これは HTML に比べて非常に簡単に解析できる JSON になります。

于 2013-03-03T22:04:05.563 に答える
1

John Resig は HTML パーサーを書きました。

デモ: http://ejohn.org/blog/pure-javascript-html-parser/

これはあなたのために運動することができます。

于 2013-03-03T22:12:23.673 に答える