python - サイト全体のPythonを取得する

Question

単純なWebページを取得するのは非常に簡単です。Pythonのマニュアルからわかるように

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

しかし、すべてのサイトを取得するにはどうすればよいですか？誰か私にコードを教えてもらえますか？

score 1 · Accepted Answer

BeautifulSoupを使用してサイトを解析し、ドメイン外に誘導されない限り、すべてのリンクに対してこのプロセスを繰り返します。

非常に簡単ですが、動的コンテンツもフェッチしようとすると複雑になります。動的コンテンツには、それにつながるリンクがありません。

score 0 · Accepted Answer

あなたはの組み合わせを使用することができます

Webページ上のリンクを抽出し、そのページに既にアクセスしたかどうか、およびURLが同じサイトに属しているかどうかを追跡してそれらを取得できます。

そのページにインデックスを付けるために必要となるネストのレベルを覚えておく必要があります。そうしないと、取得しようとしているページが指数関数的に大きくなります

2 に答える 2