2

こんにちは、FacebookページのURLのリストがあります

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

最善の方法は次のとおりです。

  • これらの URL が実際に Facebook ページ用であり、プロフィール用ではないかどうかを確認してください

  • これらのページからファンの数などの詳細を収集します

助けていただければ幸いです。

4

4 に答える 4

3

コンテンツをスクレイピングせずに(とにかくFacebookの利用規約に違反します):

  1. URLのユーザー名部分、つまりwww.facebook.com/の後のビットを抽出します
  2. フォームのFQLクエリを実行しますselect fan_count from page where username='michaeljackson'
  3. 結果が返された場合、それはページであり、ユーザーのプロファイルではないことがわかります。

同じ呼び出しで取得できる他のデータについては、ページFQLテーブルを参照してください。

于 2010-01-21T14:06:36.597 に答える
2

urllib2またはpyfacebookを使用してコンテンツを取得します

BeautifulSoupまたはlxmlを使用して解析します

reモジュール (正規表現) を使用して、検証とデータ収集用のコンテンツを抽出します。

于 2010-01-20T21:32:17.133 に答える
1

ファンの数は、クラス「FanManager」のタグにあります。Beautiful Soup を使用してこのタグのコンテンツを取得し、正規表現を使用して文字列 (例: 1,000,000 ファン) からデータを int または任意のものとして取得できます。

ページが存在するかどうかを確認するには、いくつかのタグをチェックして、404 ページにいるかどうかを確認します。

于 2010-01-20T22:56:59.860 に答える
0

コンテンツをスクレイピングするには、 scrapyまたはBeautifulSoupを使用できます。

于 2010-01-20T21:27:16.130 に答える