python - Pythonでソーシャルネットワークをクロールする

Question

ソーシャルネットワークのウェブサイトをクロールするPythonスクリプトを書きたいと思います。スクリプトの目的は、ソーシャルグラフ（友情関係）の一部を取得することです。

WebサイトはAPIを提供していません。

問題は、ログインセッションを装って連絡先ページ（ http://www.anobii.com/junemiller/friendsなど）にアクセスするPythonでWebサイトをクロールするにはどうすればよいですか？私はlogin\passwordを持っていて、それを使用してログインと取得を行いますが、Python経由でログインして、ページにアクセスするためのセッションを確立する方法がわかりません。Pythonモジュールまたはメソッドに関する提案はありますか？

ありがとう、Jacopo

score 2 · Accepted Answer

まず、ソーシャルネットワークがこれを行うためのAPIを提供しているかどうかを確認する必要があります。また、あなたがやりたいことがサービスの条件で許可されているかどうかを確認してください。そうしないと、ブロック/禁止されるリスクがあります。

APIがなく、この方法でシステムをクロールすることが許可されている場合は、mechanizeやtwillなどのツールを調べて、ブラウザー/ Cookie /セッションの動作をシミュレートし、適切なスクレイピングを提供します。

または、 lxml.html、urllib2、cookielibモジュールなどを使用してこれを自分で実装します。

score 2 · Accepted Answer

すでにCookieとWebセッションを処理しているScrapyを使用することもできます。

公式ドキュメントにログインを実行する方法の例があります： http ：//doc.scrapy.org/en/stable/topics/request-response.html？highlight = request＃using-formrequest-from-response-to-ユーザーログインのシミュレーション

Scrapyは非同期IOを使用して実装されるため、Mechanizeやtwillよりも高速である必要があります。

score 0 · Accepted Answer

Mechanizeを調査する必要があります。ドキュメントから：

AndyLesterのPerlモジュールWWW::Mechanizeの後の、PythonでのステートフルプログラマティックWebブラウジング。

または、urllib2やその他の組み込みのPythonモジュールを使用して独自のロールを作成することもできます。

@Ivoが言ったように、最初にサイトにこれを行うためのAPIがあるかどうかを確認してください。たとえばFacebookには、あなたが説明したことをほぼ実行するためのGraphAPIがあります。

python - Pythonでソーシャルネットワークをクロールする

3 に答える 3

Related

Reference