0

このサイト(センターボード)からすべての最新ニュースを取得したい: http ://web.hanu.vn/en/ 私の最新のアプローチは、PHPでSimple HTML DOM Parserを使用してhtmlを解析することでしたが、そうだと思います。スロー。私の考えは、このサイトのようなほぼ20の同様のサイトからニュースを取得することです。それらはすべてMoodleによって開発されているため、同じhtml形式になっています。ただし、1つのサイトではフェッチに数秒かかります=>20のサイトでは多くの時間が必要です。HTMLを解析するよりも良いアプローチはありますか?または、結果をデータベースに保存し、一定期間後にユーザーの要求ごとに取得するのではなく、更新する必要がありますか?私はいわゆる「クロール」をしているのではないですか?

4

3 に答える 3

3

または、結果をデータベースに保存し、一定期間後にユーザー要求ごとに取得するのではなく更新する必要がありますか?

はい、そうすべきです。HTML の解析に固執し、HTMLの解析に正規表現を使用しないでください。

そして、あなたがしようとしているのは Web スクレイピングであり、まだクロールしていません (実際にページをクロールしない限り)。

于 2012-11-22T21:05:32.947 に答える
0

curl でページをダウンロードし、regex を使用せずに正しい処理を行い、substr、strpos、strip タグなどを使用してみてください... また、最後の通知をデータベースに保存し、cronjob を使用して更新することをお勧めします。

于 2012-11-22T15:24:27.537 に答える
-1

Reqular Expressions を使用することをお勧めします。( Wikipedia ) また、正規表現よりも高速な strpos 関数と substr 関数を使用して、HTML データの一部を削除することをお勧めします。そして、ここに素晴らしい正規表現テスターがあります。

于 2012-11-22T15:09:20.257 に答える