正規表現を使用して PHP で HTML スクレイピングを行っています。これは機能しますが、結果は扱いにくく壊れやすいものになります。より堅牢なソリューションを提供するパッケージを使用した人はいますか? 構成主導のソリューションが理想的ですが、私はうるさいわけではありません。
7 に答える
ページから HTML をスクレイピングした後、 PHP Simple HTML DOM Parserをお勧めします。無効な HTML をサポートし、HTML 要素を処理するための非常に簡単な方法を提供します。
スクレイピングしているページが有効な X(HT)ML である場合は、PHP の組み込み XML パーサーのいずれかで実行できます。
スクレイピング用の PHP ライブラリーではあまり成功していません。ただし、冒険好きなら、simplehtmldomを試すことができます。Ruby の場合はHpricot 、Python の場合はBeautiful Soupをお勧めします。どちらも優れた HTML パーサーです。
htmlSQLを使った作業は楽しいものでした。これはハイエンドなソリューションではありませんが、操作は非常に簡単です。
「Simple HTML DOM Parser」もお勧めします。特に jQuery や JavaScript のセレクターに慣れている場合は、このオプションをお勧めします。
HTML スクレイピングに PHP を使用する場合、個人的には cURL + regexp を使用しますが、cURL + regexp または cURL + いくつかの DOM パーサーをお勧めします。正規表現に慣れている場合は、実際にはより正確な場合があります。
ホスト1and1でcurlを使用する必要がありました。
http://www.quickscrape.com/は、Simple DOM クラスを使用して思いついたものです!
上記のSimple Html DOM Parserでも非常に良い結果が得られました。そして、 PHP用のきちんとした拡張機能もあり、これも非常にうまく機能します。