私はここ数日Pythonを学び始めました。Pythonでクローラーを作成する同等の方法を知りたいです。
だからルビーで私は使用します:
nokogiri
HTMLをクロールし、cssタグを介してコンテンツを取得するためNet::HTTP
URLからJSONデータをNet::HTTP::Get.new(uri.request_uri).body
取得するため
Pythonでこれらに相当するものは何ですか?
私はここ数日Pythonを学び始めました。Pythonでクローラーを作成する同等の方法を知りたいです。
だからルビーで私は使用します:
nokogiri
HTMLをクロールし、cssタグを介してコンテンツを取得するためNet::HTTP
URLからJSONデータをNet::HTTP::Get.new(uri.request_uri).body
取得するためPythonでこれらに相当するものは何ですか?
上手
主に、「スクレーパー」/クローラーを、Webサーバーからファイル/データをダウンロードするpython lib / program / functionと、このデータを読み取ってデータを解釈するパーサーに分離する必要があります。私の場合、「オープン」であるがダウンロード/データに対応していない政府情報をスクラップして取得する必要がありました。このプロジェクトでは、scrapy[1]を使用しました。
主に、ロボットがクロール/取得するURLである「starter_urls」を設定し、関数「parser」を使用してこのデータを取得/解析した後です。
解析/取得するには、データの90%がそれになるため、html、lxmlエクストラクタが必要になります。
今あなたの質問に焦点を当てます:
データクロール用
データの解析用
また、「クロール」と廃棄はWebだけでなく、電子メールにも適用されることを忘れないでください。ここでそれについての別の質問をチェックすることができます[6]
[1] = http://scrapy.org/
[2] -http://docs.python-requests.org/en/latest/
[3] -http://docs.python.org/library/urllib.html
[4] -http://lxml.de/
また、HTMLを解析する非常に簡単な方法であるBeautifulSoupも使用しています。いくつかのWebページをクロールしていたときは、ElementTreeXMLAPIも使用しました。個人的には、ElementTreeライブラリ(XMLの解析が簡単)が本当に好きです。