時間をかけてデータを収集している Web ページがいくつかあります。ページが変更されたかどうかだけで、コンテンツ自体は気にしません。
現在、私は Python の requests.get を使用してページをフェッチし、ページをハッシュ (md5) し、そのハッシュ値を保存して将来比較します。
これには、計算コストが低い、またはより小さなストレージ戦略がありますか? 動作するようになりました。より良い/安価な方法があるかどうかを確認したかっただけです。:)
時間をかけてデータを収集している Web ページがいくつかあります。ページが変更されたかどうかだけで、コンテンツ自体は気にしません。
現在、私は Python の requests.get を使用してページをフェッチし、ページをハッシュ (md5) し、そのハッシュ値を保存して将来比較します。
これには、計算コストが低い、またはより小さなストレージ戦略がありますか? 動作するようになりました。より良い/安価な方法があるかどうかを確認したかっただけです。:)