ゲストはウェブサイトを持っていますAはパートナープログラムを持っています。
パートナーサイトBにはAへのリンクがあります。
すべてのパートナーサイト(5000サイト)のすべてのWebページを特定の頻度(1日2回)で確認し、BからAへのすべてのリンクを抽出する必要があります。次に、URLが特定の方法で作成されているかどうかを正規表現で確認する必要があります。
PHPでこれを簡単に行うことができますが、サードパーティのソリューションがすでに直面している深刻な問題がいくつかあります。
- 帯域幅の使用法を活用したい
- タスクを可能な限り最速で実行したい
- チェックするWebページは、エラーや一貫性のないhtmlでいっぱいのアマチュアWebページである可能性があります
- 前回チェックしてから変更されたウェブページのみを管理したい
- プロセスは自動化する必要があります(cron?または代替?)
- ..。
- (このリストを自由に拡張してください)
しかし、私は超大型のメガ超洗練されたツールを構築したくありません...
私はまだ小さくて軽量の賢いソリューションが欲しいです。
このようなタスクをどのように解決しますか?