このサイト(センターボード)からすべての最新ニュースを取得したい: http ://web.hanu.vn/en/ 私の最新のアプローチは、PHPでSimple HTML DOM Parserを使用してhtmlを解析することでしたが、そうだと思います。スロー。私の考えは、このサイトのようなほぼ20の同様のサイトからニュースを取得することです。それらはすべてMoodleによって開発されているため、同じhtml形式になっています。ただし、1つのサイトではフェッチに数秒かかります=>20のサイトでは多くの時間が必要です。HTMLを解析するよりも良いアプローチはありますか?または、結果をデータベースに保存し、一定期間後にユーザーの要求ごとに取得するのではなく、更新する必要がありますか?私はいわゆる「クロール」をしているのではないですか?
3 に答える
3
または、結果をデータベースに保存し、一定期間後にユーザー要求ごとに取得するのではなく更新する必要がありますか?
はい、そうすべきです。HTML の解析に固執し、HTMLの解析に正規表現を使用しないでください。
そして、あなたがしようとしているのは Web スクレイピングであり、まだクロールしていません (実際にページをクロールしない限り)。
于 2012-11-22T21:05:32.947 に答える
0
curl でページをダウンロードし、regex を使用せずに正しい処理を行い、substr、strpos、strip タグなどを使用してみてください... また、最後の通知をデータベースに保存し、cronjob を使用して更新することをお勧めします。
于 2012-11-22T15:24:27.537 に答える