私は、いくつかのことをしなければならないスクリプト (またはもっと良いのはデーモン) を書くタスクを与えられています:
- 複数の入力 xml フィードから最新のデータをクロールします。当面は15~20フィード程度ですが、将来的には50フィードまで増える可能性があると思います。フィードのサイズは 500 KB から 5 MB の間で変動します (10 MB を超えることはほとんどありません)。フィードは標準化された形式ではないため、データが単一の共通形式に統合されるように、特定のソースからのフィードごとにフィード パーサーが必要です。
- フィードから抽出されたデータのすべての単一ユニットが引き続き利用できるように、データをデータベースに保存します。
- データは時間とともに変化するため (たとえば、情報は少なくとも 1 時間に 1 回更新されます)、変更されたデータのアーカイブを保持する必要があります。
この場合、管理が難しいことが証明されているもう 1 つのこと (私はすでにいくつかのソリューションをハックしました) は、ステップ 2 でデータベースがクロールに遅くなり始めることです。これは、複数のテーブルにデータを挿入する SQL クエリの量が原因で、データベースに依存するシステムの残りの部分に影響します (これは、複数のサイトがホストされている専用サーバーです)。そして、ステップ3にさえ到達できませんでした...
この問題にどのように取り組むべきかについてのヒントはありますか? 注意すべき注意点は?この問題を解決するのに役立つものは何でも大歓迎です。
ありがとう!