0

Googleカレンダーからいくつかのイベントをインポートしていますが、これを行っています。

$ch = curl_init("my_google_calendar_url");
$fp = fopen("cal.xml", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_exec($ch)
fclose($fp);
curl_close($ch);

すべてのデータをXMLファイルにダンプしていますが、データとともにすべてのhtmlタグも出力にダンプされ、出力が分割されます。

新しい休日日時:2012年12月21日金曜日13:00〜14:00&nbsp; IST <br>

&lt;br&gt;Where: Aus
&lt;br&gt;Event Status: confirmed</summary><content type='html'>When: Fri 21 Dec 2012 13:00 to 14:00 
IST&lt;br /&gt;

&lt;br /&gt;Where: Aus
&lt;br /&gt;Event Status: confirmed
&lt;br /&gt;Event Description: It&amp;#39;s going to be awesome.</content>

これは、xmlファイルで取得しているものの一部です。xmlデータを簡単に抽出できるように、「&lt」などのすべてのhtmlタグを削除したいと思います。

4

2 に答える 2

1

HTMLはXMLではデータとして扱われるため、次のようになります。

  1. XMLパーサーを使用してXMLを解析します
  2. 結果のDOMからHTMLをフェッチします
  3. HTMLパーサーを使用してHTMLを解析します
  4. 必要なデータを抽出します
于 2012-12-21T09:56:03.133 に答える
1

CURLOPT_FILEオプションを削除して、次を使用でき$output = curl_exec($ch); ます。$output = strip_tags(html_entity_decode($output));fwrite($fp, $output);

于 2012-12-21T09:56:31.870 に答える