python - Pythonでウェブサイトの概要ページをスクレイプする

Question

私は研究のためにいくつかのウェブサイトからいくつかのコンテンツをスクレイピングしようとしています。Pythonとウェブスクレイピングを使用するとプロセスがスピードアップすることを期待していました。私は以前、ある小さなプロジェクトでxmlをある形式から別の形式に変換するためにPythonと美しいスープを使用しました。

score 3 · Accepted Answer

抽出するデータの構造がどの程度冗長であるかに応じて、いくつかのツールを使用できます。

常に同じ DOM 構造に格納されているデータの抽出を探している場合、Scrapyがその仕事を行うことができます。
データがまばらで、さまざまな場所に保存されている場合は、BeautfulSoup4またはlxmlが役立つ可能性があります。
データが何らかの JS コードによって生成されている場合は、Seleniumを見てください。

以下に、役に立つと思われるリソースをいくつか示します。

Web スクレイピングに関する PyCon 2012 チュートリアル: http://pyvideo.org/video/609/web-scraping-reliably-and-effectively-pull-data/
http://isbullsh.it/2012/04/Web-crawling-with-scrapy/ (完全開示、私が書いた)
http://www.packtpub.com/article/web-scraping-with-python
http://wwwsearch.sourceforge.net/mechanize/

python - Pythonでウェブサイトの概要ページをスクレイプする

1 に答える 1

Related

Reference