2

こんにちはみんな!このスクリプトで取得したページがあるとします。

page = urllib2.urlopen(url).read()

Web ページのクロール中に、このコンテンツが既にクロールされているかどうかを効率的 (高速) に確認するにはどうすればよいですか? 私のアルゴリズムは次のようなものです:

    seenContents = set()
then check if crawled content is in set or not

しかし、そのセット、ハッシュ値などに何を保存するのかわかりませんか? 何かお勧めできますか?

4

1 に答える 1

4

How about MD5 of the content?

import md5

contest = "some data"
m = md5.new(contents)
m.digest()
于 2012-05-21T12:57:31.887 に答える