私はApacheNutch修正プロジェクトに取り組んでいます。Nutchの元のモジュールを、HtmlUnitを使用して構築されたモジュールと既に交換しました。Facebookユーザーサイト全体(例:http://www.facebook.com/profile.php?id = 100002517096832)をダウンロードする必要があります。これは、独自のパーサーを使用して解析されます。残念ながら、FacebookはBigPipe(http://www.facebook.com/note.php?note_id=389414033919)と呼ばれるメカニズムを使用しています。<.!-- -->
そのため、現在のWebサイトのほとんどはタグで隠されています。通常、Facebookページを下にスクロールすると、ページの下部に到達するたびに新しいコンテンツが解凍されます。私は自分のhtmlPage
(HtmlPage
からのオブジェクトをスクロールするJavascriptを使用しようとしましたHtmlUnit
プロジェクト)、しかし最終的に私はスクロールがFacebookユーザーサイトに新しいコンテンツをロードするきっかけにならないことに気づきました。
ページ上のどのイベントが現在のFacebookページにコンテンツの読み込みをトリガーするかを確認するにはどうすればよいですか?たぶん、私は別の側面から問題に取り組む必要があります。たとえば、BigPipeの「もの」を自分で抽出してみてください。あなたはそれをしたことがありますか?