0

時間をかけてデータを収集している Web ページがいくつかあります。ページが変更されたかどうかだけで、コンテンツ自体は気にしません。

現在、私は Python の requests.get を使用してページをフェッチし、ページをハッシュ (md5) し、そのハッシュ値を保存して将来比較します。

これには、計算コストが低い、またはより小さなストレージ戦略がありますか? 動作するようになりました。より良い/安価な方法があるかどうかを確認したかっただけです。:)

4

2 に答える 2

0

ハッシュは、変更検出の最も信頼できるソースになります。私はCRC32を使用します。md5 の 128 ビットとは対照的に、わずか 32 ビットです。また、ブラウザのJavascriptでも非常に高速です。私は、非常に大きなデータセットに対して CRC32 の JS 実装の速度を改善した個人的な経験があります。

于 2013-06-03T05:28:05.873 に答える