Webサイトからすべての最新ニュースをWebスクレイピングする機能があります(約10ニュースで、ニュースの数はそのWebサイトまでです)。ニュースは年代順であることに注意してください。
たとえば、昨日 10 件のニュースを取得し、データベースに保存しました。今日は 10 件のニュースを受け取りましたが、昨日から入手できなかったニュースが 3 件あります (7 件は同じままで、3 件は新しいニュースです)。
私の現在のアプローチは、古いニュース (7 つのニュースの 1 つ目) が見つかるまで各ニュースを抽出することです。その後、抽出を停止"lastUpdateDate"
し、古いニュースのフィールドのみを更新し、新しいニュースをデータベースに追加します。このアプローチはなんとなく複雑で時間がかかると思います。
実際には、同じコンテンツ構造 ( Moodle
) を持つ 20 の Web サイトからニュースを取得しているため、各リクエストは約 2 分かかりますが、これは無料のホストではサポートされていません。
すべてのニュースを削除してから、最初からすべてを抽出した方がよいでしょうか (これにより、実際にはデータベース内の ID 番号が膨大に増加します)。