PHP で cURL を使用して Web ページのコンテンツを取得していますが、うまく機能しています。しかし、私のプログラムでは、HTML ではなく、ターゲット サイトからプレーン テキストのみを取得する必要があります。私はこれを広範囲に探しましたが、誰も答えを持っていないようです。cURL オプションの設定も試しましCURLOPT_TRANSFERTEXT=1
たが、結果に影響はないようです。
なぜこれが起こっているのですか?
次のものが揃っていることを確認してください。
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
の戻り値はcurl_exec
データである必要があります。
私はそれがあなたが探しているものだと思います:
<?
$address = file_get_contents('http://www.thesite.com/file.html');
echo $address;
$file = file_get_contents('./file.txt', true);
or
$file = file_get_contents('./file.txt', FILE_USE_INCLUDE_PATH);
?>
ページ上のすべての HTML タグを取り除きたいということですか?
strip_tags()
関数を使用するだけです。
実際、別のページのコンテンツを取得するためにこれが好きです。
<?php
function curl_get_file_contents($URL)
{
$c = curl_init();
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($c, CURLOPT_URL, $URL);
$contents = curl_exec($c);
curl_close($c);
if ($contents) return $contents;
else return FALSE;
}
echo curl_get_file_contents("http://www.php.net");
?>
しかし、それは私にすべての内容を返します。