5 分ごとに読み取られる約 50,000 のサードパーティ データ フィードがあります。アイデアは、更新されたコンテンツをチェックすることです。次のテーブルがあります。
フィード
- ID
- 名前
- URL
投稿
- ID
- feed_id
- 題名
- コンテンツ
- URL
- unique_hash (URL + タイトルに基づく)
私の最初のアプローチは、posts.unique_hash を一意のインデックス フィールドにして、INSERT を試行すると失敗するようにすることでした。INSERT の大部分は (意図したとおり) 単純に失敗します。ただし、私の問題は、「posts」テーブルで SELECT を頻繁に実行する必要があることです (このアプリケーションの別の部分のために)。
もちろん、INSERT を試みる前に「posts」テーブルで SELECT を実行することもできますが、それはさらに多くのリソースを消費します。
多くの SELECT クエリを作成するために「posts」テーブルのリソースを解放しておく最善の方法を探しています。インデックス テーブルを使用しますか? キャッシュメカニズムを使用しますか?