プログラムで Web サイトにログインし、サイトから定期的に情報を取得できるようにしたいと考えています。これをできるだけ簡単にするための最良のツールは何ですか? Python に習熟したいので、何らかの種類の Python ライブラリを使用したいと思いますが、どんな提案も歓迎します。
5 に答える
プログラムによる Web ブラウジングにはMechanize ( http://wwwsearch.sourceforge.net/mechanize/ ) を試すことができ、スクレイピングには間違いなく Beautiful Soup ( http://www.crummy.com/software/BeautifulSoup/ ) を使用できます。
私たちのほとんどは、urllib2を使用してページを取得します。さまざまな形式の認証と Cookie コレクションを処理できます。次に、Beautiful Soupで結果を解析します。
以前、vBulletin フォーラムに自動的にログインする Python スクリプトを作成したことがあります。難しかったのは、ログイン リクエストを正しく形成する方法を知ることでした。これは、ライブラリでは役に立たないことです。Live Http Headers (Firefox のアドオン) は、ログイン プロセス中にクライアントとサーバーの間で送信される内容を確認するのに非常に役立ちます。
また、Beautiful Soup が非常に素晴らしいという点については、他の皆さんと同意見です。
ログイン手順を簡単に実行できるツイルを使用することをお勧めします。次に、上記のように美しいスープなどを使用します。iveは機械化を試みたことがありませんが、かなり良さそうです。
スクリーンスクレイピングには、url lib + pyqyery の組み合わせを使用できます。 https://pythonhosted.org/pyquery/