1

CakePHP 2.2 で Web クローラーの作成を開始しました。スクリプトがクロールしているページは HTML ページであり、それらを解析して値を取得する必要があります。

いくつかの異なるソリューションを試し、いくつかのオープンソースのものも調べましたが、これを行う最善の方法はわかりません.

  • DomDocument::loadHTML() - これが解決策のように見えますが、100% 確実ではありません。
  • 正規表現 - 維持するのが少し難しい
  • シンプルな HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component (Cake 1.3 用に作成されたもので、コード自体は好きではありません -そして重大なメモリ リークが発生しました( s) )

どの方法を使うべきかを理解するために、あなたの助けが必要です。

4

1 に答える 1

2

DomDocument が最良の選択です。このモジュールの php.net ドキュメントには、適切な例がいくつかあります。Ruby などの他の言語を使用できる場合は、html を解析するための jQuery のようなライブラリである hpricot の経験が豊富です。

この質問は、PHP 用の堅牢で成熟した HTML パーサーに関連しています。

于 2012-07-24T19:09:28.117 に答える