私は現在、単純なhtml domを使用してポリティファクトからいくつかのデータを収集しようとしていますが、多くの場合、予想されるhtmlではなく奇妙なエラーが発生します。目標は、サイトをブルートフォースすることではなく、1日に1〜2回リクエストして、結果をキャッシュすることです。ここで私が得るリターンのほとんど:
‹������í]{wÛ6²ÿ»=g¿ªn#»1EËJœÄ–µ×vœ&ÙÄñÚn²{r{|( ’S$ÇeuÛï~3न‡c'ÛísNÄ`f0˜Úß=}sxþ¯“#1ŠÆŽ8ùùàÕ‹CQ3Ló]ëÐ4Ÿž?ÿ|~þú•h66Åy`¹¡Ùžk9¦yt\µQù;¦9™L“...
そして、これが超単純なコードです:
$html = file_get_html('http://www.politifact.com/personalities/barack-obama');
print_r($html->plaintext);
理由はありますか?ウェブサイト側のある種の保護/リダイレクト?
どうもありがとうございます !