facebook - ~390KB を超えるファイルでスクレイパーが失敗する

Question

Facebook の URL スクレーパーにはサイズ制限がありますか? ウェブサイトで数冊の本を入手できます。HMTL ファイルサイズが特定のサイズ (~390KB) 未満のものはスクレイピングされ、適切に読み取られますが、より大きな 4 つはそうではありません。これらの大きなアイテムは 200 応答コードを受け取り、正規 URL が開きます。

これらのページはすべて同じテンプレートを使用して作成されています。唯一の違いは、各ブック内のコンテンツのサイズと、各ブックがサイトの他のページに作成するリンクの数です。

正規の URL をクリックします
Firebug を Firefox または Chrome の開発者ツールでネットワークタブ 3 に開きます。
「スクレイパーがあなたの URL について見ているものを正確に見る」をクリックします。
失敗した場合は空白のページ、成功した場合は HTML が表示されます

失敗:

成功:

score 4 · Accepted Answer

問題の解決策は、実際のユーザーまたは Facebook ボットがページにアクセスしているかどうかを確認することです。ボットの場合は、必要なメタデータのみをレンダリングします。Facebookのドキュメントによると、ユーザーエージェントを介してボットを検出できます。
"facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"

コードは次のようになります (PHP の場合):

function userAgentIsFacebookBot() {
    if ($_SERVER['HTTP_USER_AGENT'] == "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)") {
        return true;
    }
    return false;
}

score 0 · Accepted Answer

これはあなたの側の問題ではありませんか？前回、スクレイパーがドキュメントの最初の 4096 バイトのみを要求したことを確認しました。これは<head></head>、メタタグを含むセクションを取得するための十分なスペースである必要があります。

facebook - ~390KB を超えるファイルでスクレイパーが失敗する

2 に答える 2

Related

Reference