python - Python でのコンテンツ表示チェック

Question

こんにちはみんな！このスクリプトで取得したページがあるとします。

page = urllib2.urlopen(url).read()

Web ページのクロール中に、このコンテンツが既にクロールされているかどうかを効率的 (高速) に確認するにはどうすればよいですか? 私のアルゴリズムは次のようなものです：

    seenContents = set()
then check if crawled content is in set or not

しかし、そのセット、ハッシュ値などに何を保存するのかわかりませんか? 何かお勧めできますか？

score 4 · Accepted Answer

4

How about MD5 of the content?

import md5

contest = "some data"
m = md5.new(contents)
m.digest()

于 2012-05-21T12:57:31.887 に答える

1 に答える 1