CakePHP 2.2 で Web クローラーの作成を開始しました。スクリプトがクロールしているページは HTML ページであり、それらを解析して値を取得する必要があります。
いくつかの異なるソリューションを試し、いくつかのオープンソースのものも調べましたが、これを行う最善の方法はわかりません.
- DomDocument::loadHTML() - これが解決策のように見えますが、100% 確実ではありません。
- 正規表現 - 維持するのが少し難しい
- シンプルな HTMLDom - http://electrokami.com/coding/simple-html-dom-baked-cakephp-component (Cake 1.3 用に作成されたもので、コード自体は好きではありません -そして重大なメモリ リークが発生しました( s) )
どの方法を使うべきかを理解するために、あなたの助けが必要です。