0

私はApacheNutch修正プロジェクトに取り組んでいます。Nutchの元のモジュールを、HtmlUnitを使用して構築されたモジュールと既に交換しました。Facebookユーザーサイト全体(例:http://www.facebook.com/profile.php?id = 100002517096832)をダウンロードする必要があります。これは、独自のパーサーを使用して解析されます。残念ながら、FacebookはBigPipe(http://www.facebook.com/note.php?note_id=389414033919)と呼ばれるメカニズムを使用しています。<.!-- -->そのため、現在のWebサイトのほとんどはタグで隠されています。通常、Facebookページを下にスクロールすると、ページの下部に到達するたびに新しいコンテンツが解凍されます。私は自分のhtmlPageHtmlPageからのオブジェクトをスクロールするJavascriptを使用しようとしましたHtmlUnitプロジェクト)、しかし最終的に私はスクロールがFacebookユーザーサイトに新しいコンテンツをロードするきっかけにならないことに気づきました。

ページ上のどのイベントが現在のFacebookページにコンテンツの読み込みをトリガーするかを確認するにはどうすればよいですか?たぶん、私は別の側面から問題に取り組む必要があります。たとえば、BigPipeの「もの」を自分で抽出してみてください。あなたはそれをしたことがありますか?

4

1 に答える 1

0

質問に答える前に…そこでどのようなプロジェクトを構築しようとしていますか?

Apache NutchはオープンソースのWeb検索ソフトウェアなので、Facebookのユーザープロファイル/フィードを取得してデータを取得し、サードパーティのWebサイトで検索できるようにする、ある種の検索エンジンを構築しようとしていると思いますか?

まあ、それはFacebookプラットフォームポリシーの違反になります:

I.特徴と機能

12.書面による許可なしに、当社から取得したデータを検索エンジンまたはディレクトリに含めることはできません。

それで、あなたはその書面による許可を持っていますか?

于 2012-09-18T14:58:12.127 に答える