こんにちはみんな!このスクリプトで取得したページがあるとします。
page = urllib2.urlopen(url).read()
Web ページのクロール中に、このコンテンツが既にクロールされているかどうかを効率的 (高速) に確認するにはどうすればよいですか? 私のアルゴリズムは次のようなものです:
seenContents = set()
then check if crawled content is in set or not
しかし、そのセット、ハッシュ値などに何を保存するのかわかりませんか? 何かお勧めできますか?