単純なWebページを取得するのは非常に簡単です。Pythonのマニュアルからわかるように
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
しかし、すべてのサイトを取得するにはどうすればよいですか?誰か私にコードを教えてもらえますか?
単純なWebページを取得するのは非常に簡単です。Pythonのマニュアルからわかるように
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
しかし、すべてのサイトを取得するにはどうすればよいですか?誰か私にコードを教えてもらえますか?
BeautifulSoupを使用してサイトを解析し、ドメイン外に誘導されない限り、すべてのリンクに対してこのプロセスを繰り返します。
非常に簡単ですが、動的コンテンツもフェッチしようとすると複雑になります。動的コンテンツには、それにつながるリンクがありません。
あなたはの組み合わせを使用することができます
Webページ上のリンクを抽出し、そのページに既にアクセスしたかどうか、およびURLが同じサイトに属しているかどうかを追跡してそれらを取得できます。
そのページにインデックスを付けるために必要となるネストのレベルを覚えておく必要があります。そうしないと、取得しようとしているページが指数関数的に大きくなります