0

単純なWebページを取得するのは非常に簡単です。Pythonのマニュアルからわかるように

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

しかし、すべてのサイトを取得するにはどうすればよいですか?誰か私にコードを教えてもらえますか?

4

2 に答える 2

1

BeautifulSoupを使用してサイトを解析し、ドメイン外に誘導されない限り、すべてのリンクに対してこのプロセスを繰り返します。

非常に簡単ですが、動的コンテンツもフェッチしようとすると複雑になります。動的コンテンツには、それにつながるリンクがありません。

于 2012-04-18T22:14:35.437 に答える
0

あなたはの組み合わせを使用することができます

Webページ上のリンクを抽出し、そのページに既にアクセスしたかどうか、およびURLが同じサイトに属しているかどうかを追跡してそれらを取得できます。

そのページにインデックスを付けるために必要となるネストのレベルを覚えておく必要があります。そうしないと、取得しようとしているページが指数関数的に大きくなります

于 2012-04-18T22:18:16.030 に答える