python - クローラーまたはスクレーパーを使用して Web サイトのすべての URL を取得する方法は?

Question

Web サイトから多くの URL を取得する必要があり、それらを Excel ファイルにコピーする必要があります。それを自動的に行う方法を探しています。このウェブサイトは、約 300 のリンクを含むメインページで構成されており、各リンクの内部には、私にとって興味深いリンクが 2 つまたは 3 つ含まれています。助言がありますか？

score 0 · Accepted Answer

解析に美しいスープを使用できます [http://www.crummy.com/software/BeautifulSoup/]

ドキュメントの詳細については、 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ を参照してください。

質問で説明した作業にスクラップは必要ないため、スクラップはお勧めしません。

たとえば、このコードは urllib2 ライブラリを使用して Google ホームページを開き、その出力内のすべてのリンクをリスト形式で検索します。

import urllib2
from bs4 import BeautifulSoup

data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')

Excel ファイルの処理については、http: //www.python-excel.org を参照してください。

python - クローラーまたはスクレーパーを使用して Web サイトのすべての URL を取得する方法は?

4 に答える 4

Related

Reference