php - curl_exec（）出力をxmlファイルに保存するときにhtmlタグを削除またはエスケープする方法

Question

Googleカレンダーからいくつかのイベントをインポートしていますが、これを行っています。

$ch = curl_init("my_google_calendar_url");
$fp = fopen("cal.xml", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_exec($ch)
fclose($fp);
curl_close($ch);

すべてのデータをXMLファイルにダンプしていますが、データとともにすべてのhtmlタグも出力にダンプされ、出力が分割されます。

新しい休日日時：2012年12月21日金曜日13：00〜14：00＆nbsp; IST <br>

&lt;br&gt;Where: Aus
&lt;br&gt;Event Status: confirmed</summary><content type='html'>When: Fri 21 Dec 2012 13:00 to 14:00 
IST&lt;br /&gt;

&lt;br /&gt;Where: Aus
&lt;br /&gt;Event Status: confirmed
&lt;br /&gt;Event Description: It&amp;#39;s going to be awesome.</content>

これは、xmlファイルで取得しているものの一部です。xmlデータを簡単に抽出できるように、「＆lt」などのすべてのhtmlタグを削除したいと思います。

score 1 · Accepted Answer

HTMLはXMLではデータとして扱われるため、次のようになります。

XMLパーサーを使用してXMLを解析します
結果のDOMからHTMLをフェッチします
HTMLパーサーを使用してHTMLを解析します
必要なデータを抽出します

score 1 · Accepted Answer

CURLOPT_FILEオプションを削除して、次を使用でき$output = curl_exec($ch); ます。$output = strip_tags(html_entity_decode($output));fwrite($fp, $output);

php - curl_exec（）出力をxmlファイルに保存するときにhtmlタグを削除またはエスケープする方法

2 に答える 2

Related

Reference