Web サイトから多くの URL を取得する必要があり、それらを Excel ファイルにコピーする必要があります。それを自動的に行う方法を探しています。このウェブサイトは、約 300 のリンクを含むメイン ページで構成されており、各リンクの内部には、私にとって興味深いリンクが 2 つまたは 3 つ含まれています。助言がありますか ?
1382 次
4 に答える
0
解析に美しいスープを使用できます [http://www.crummy.com/software/BeautifulSoup/]
ドキュメントの詳細については、 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ を参照してください。
質問で説明した作業にスクラップは必要ないため、スクラップはお勧めしません。
たとえば、このコードは urllib2 ライブラリを使用して Google ホームページを開き、その出力内のすべてのリンクをリスト形式で検索します。
import urllib2
from bs4 import BeautifulSoup
data=urllib2.urlopen('http://www.google.com').read()
soup=BeautifulSoup(data)
print soup.find_all('a')
Excel ファイルの処理については、http: //www.python-excel.org を参照してください。
于 2014-01-04T11:48:35.710 に答える