php - 別のウェブサイトから情報を取得しますか？

Question

このサイト（センターボード）からすべての最新ニュースを取得したい： http ：//web.hanu.vn/en/ 私の最新のアプローチは、PHPでSimple HTML DOM Parserを使用してhtmlを解析することでしたが、そうだと思います。スロー。私の考えは、このサイトのようなほぼ20の同様のサイトからニュースを取得することです。それらはすべてMoodleによって開発されているため、同じhtml形式になっています。ただし、1つのサイトではフェッチに数秒かかります=>20のサイトでは多くの時間が必要です。HTMLを解析するよりも良いアプローチはありますか？または、結果をデータベースに保存し、一定期間後にユーザーの要求ごとに取得するのではなく、更新する必要がありますか？私はいわゆる「クロール」をしているのではないですか？

score 3 · Accepted Answer

または、結果をデータベースに保存し、一定期間後にユーザー要求ごとに取得するのではなく更新する必要がありますか?

はい、そうすべきです。HTML の解析に固執し、HTMLの解析に正規表現を使用しないでください。

そして、あなたがしようとしているのは Web スクレイピングであり、まだクロールしていません (実際にページをクロールしない限り)。

score 0 · Accepted Answer

curl でページをダウンロードし、regex を使用せずに正しい処理を行い、substr、strpos、strip タグなどを使用してみてください... また、最後の通知をデータベースに保存し、cronjob を使用して更新することをお勧めします。

score -1 · Accepted Answer

Reqular Expressions を使用することをお勧めします。( Wikipedia ) また、正規表現よりも高速な strpos 関数と substr 関数を使用して、HTML データの一部を削除することをお勧めします。そして、ここに素晴らしい正規表現テスターがあります。

php - 別のウェブサイトから情報を取得しますか？

3 に答える 3

Related

Reference