3

私はさまざまなサイトからのRSSフィードを表示するプロジェクトに取り組んでいます。私はそれらをデータベースに保持し、3時間ごとに、プログラムがそれらをフェッチしてSQLデータベースに挿入します。プロバイダーの一意のレコードに重複コンテンツが表示されないようにしたい。

ただし、問題は、GUIDフィールドを提供しないプロバイダーもあれば、GUIDフィールドを提供するがpubdateを提供しないプロバイダーもあります。また、GUIDまたはPubDateにタイトルとリンクだけを提供しないプロバイダーもあります。

それで、SQLサーバーでRSSフィードを一意に保つための最良の方法は何でしょうか?

最初にGUID、次にpubbdate、次にリンク、次にタイトルを確認する必要がありますか?SQLのリンクフィールドを比較して一意性を確認するのは良い習慣ですか?

ありがとう。

4

1 に答える 1

2

タイトル、ソース、本文などの特定の重要なパラメーターを受け取り、それらを組み合わせてCRCハッシュを作成するルーチンを開発します。次に、ハッシュをフィードの属性として保存し、新しいフィードを追加する前に一致するハッシュを確認します。

環境の制約が何であるかはわかりませんが、C#でCRC-32を計算する例を次に示します。http://damieng.com/blog/2006/08/08/calculating_crc32_in_c_and_net

于 2012-08-14T13:59:24.623 に答える