8

file_get_contentsPHPで使用しています。以下のコードでは、最初の URL は正常に動作しますが、2 番目の URL は動作しません。


$URL = "http://test6473.blogspot.com";
$domain = file_get_contents($URL);
print_r($domain);


$add_url= "http://adfoc.us/1575051";
$add_domain = file_get_contents($add_url);
echo $add_domain;

2番目のものが機能しない理由について何か提案はありますか?

4

4 に答える 4

14

サーバーが要求がブラウザーからのものかスクリプトからのものかをチェックするため、file_get_contents によって取得されない URL。スクリプトからのリクエストが見つかった場合は、単にページ コンテンツを無効にします。

そのため、ブラウザのリクエストと同様のリクエストを行う必要があります。したがって、次のコードを使用して 2 番目の URL コンテンツを取得しました。Web サーバーによって異なる場合があります。それらは異なるチェックを保持する可能性があるためです。

次のコードを使用しようとしないでください。運が良ければ、これはあなたのために働くかもしれません!!

function getUrlContent($url) {
    fopen("cookies.txt", "w");
    $parts = parse_url($url);
    $host = $parts['host'];
    $ch = curl_init();
    $header = array('GET /1575051 HTTP/1.1',
        "Host: {$host}",
        'Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language:en-US,en;q=0.8',
        'Cache-Control:max-age=0',
        'Connection:keep-alive',
        'Host:adfoc.us',
        'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36',
    );

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);
    curl_setopt($ch, CURLOPT_COOKIESESSION, true);

    curl_setopt($ch, CURLOPT_COOKIEFILE, 'cookies.txt');
    curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookies.txt');
    curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
    $result = curl_exec($ch);
    curl_close($ch);
    return $result;
}

$url = "http://adfoc.us/1575051";
$html = getUrlContent($url);

皆様ご指導ありがとうございました。

于 2013-06-29T05:18:07.713 に答える
2

残念ながら、2 番目のサイトは、認識されていないブラウザーからのアクセスをブロックしているようです。コマンド ラインから curl を使用しても機能しません。

curl -I http://adfoc.us/1575051

与えます:

HTTP/1.1 200 OK
Server: cloudflare-nginx
Date: Fri, 28 Jun 2013 12:15:40 GMT
Content-Type: text/html
Connection: keep-alive
X-Powered-By: PHP/5.5.0
Set-Cookie: __cfduid=d7cd1bf18c136a288cc2b36065a3b31f01372421740; expires=Mon, 23-Dec-2019 23:50:00 GMT; path=/; domain=.adfoc.us
CF-RAY: 85a4dc6829e06d0

しかし、コンテンツはありません。ステータス 200 を返すことに注意してください。返された文字列で boolean === false をチェックして失敗したかどうかを確認すると、実際には機能しているように見えます。

リクエストを受け入れるための URL を取得するためにユーザー エージェント (および場合によっては他のもの) を偽装する必要がある場合は、curl ライブラリを使用してさまざまな組み合わせを試し、機能させる必要があります。最初に curl コマンド ラインで何が機能するかを実験してみるのも、これを調査するための開発時間を短縮する良い方法です。

以前にこれを経験した人は次のとおりです。

PHP curl: get リクエストを Web ブラウザとまったく同じようにエミュレートするにはどうすればよいですか?

于 2013-06-28T12:21:43.013 に答える