39

正規表現を使用して PHP で HTML スクレイピングを行っています。これは機能しますが、結果は扱いにくく壊れやすいものになります。より堅牢なソリューションを提供するパッケージを使用した人はいますか? 構成主導のソリューションが理想的ですが、私はうるさいわけではありません。

4

7 に答える 7

28

ページから HTML をスクレイピングした後、 PHP Simple HTML DOM Parserをお勧めします。無効な HTML をサポートし、HTML 要素を処理するための非常に簡単な方法を提供します。

于 2008-08-29T07:55:42.710 に答える
5

スクレイピングしているページが有効な X(HT)ML である場合は、PHP の組み込み XML パーサーのいずれかで実行できます。

スクレイピング用の PHP ライブラリーではあまり成功していません。ただし、冒険好きなら、simplehtmldomを試すことができます。Ruby の場合はHpricot 、Python の場合はBeautiful Soupをお勧めします。どちらも優れた HTML パーサーです。

于 2008-08-29T08:01:37.457 に答える
5

htmlSQLを使った作業は楽しいものでした。これはハイエンドなソリューションではありませんが、操作は非常に簡単です。

于 2008-08-29T09:40:59.540 に答える
5

「Simple HTML DOM Parser」もお勧めします。特に jQuery や JavaScript のセレクターに慣れている場合は、このオプションをお勧めします。

過去にブログでも取り上げました。

于 2009-07-31T19:43:11.867 に答える
3

HTML スクレイピングに PHP を使用する場合、個人的には cURL + regexp を使用しますが、cURL + regexp または cURL + いくつかの DOM パーサーをお勧めします。正規表現に慣れている場合は、実際にはより正確な場合があります。

于 2008-12-27T09:11:09.953 に答える
2

ホスト1and1でcurlを使用する必要がありました。

http://www.quickscrape.com/は、Simple DOM クラスを使用して思いついたものです!

于 2010-12-02T06:51:57.477 に答える
2

上記のSimple Html DOM Parserでも非常に良い結果が得られました。そして、   PHP用のきちんとした拡張機能もあり、これも非常にうまく機能します。

于 2008-08-29T08:08:50.417 に答える