PHP cURL を使用して構築された、mySQL データベースに関連付けられたシーン スクレーパーが既にあります。現在持っているもの (URL/製品を入力して [Go] をクリックするフォーム) ではなく、毎週更新する必要がある製品を保存しました。
私の最初の考えは、PHPファイルで30分ごとに標準のcronを使用することです。
ソース サイトに実際にアクセスする PHP スクリプトの遅延 (つまり 0 ~ 20 分) の 2 つをランダム化したいので、プロセスのタイミングはランダムになります。次に、ターゲットのアイテム/ページにランダムにアクセスしたいのですが、リストを再度循環する前に、それらすべてを毎週および/または一貫して取得してください。
タイマーはかなり簡単で、データを保存する必要はありませんが、この方法でアイテム/URI を追跡するにはどうすればよいですか? データをクリアするために2番目のcronを考えていましたが、最初のcronはインクリメントするだけです。しかし、まだ更新済みのフラグを設定する必要があり、このデータを保存する場所と方法を選択するのに十分な知識がありません。
私はHTML5オプションでmySQLを使用しており、Codeigniterを使用しているため、SQLiteにオプションとしてデータを保持することもできます..それが理にかなっている場合はCookieとともに. この部分についていくつか質問があります。毎回必要なものをデータベース (mySQL) に照会しますか、それとも週に 1 回 JSON ファイルに保存して実行しますか? これは明らかに、すでに処理されたものにフラグを立てる場所に依存および/または決定します。