php - PHPでのHTMLエコニングの操作（インテリジェントなデコード方法）

Question

PHPスクリプトから次のようなRSSフィードをダウンロードしています。

$fp = fopen('http://news.google.es/news?cf=all&ned=es_ve&hl=es&output=rss','r') 
 or die('Error reading RSS data.');

<description>フィードはスペイン語のニュースフィードです。ファイルをダウンロードした後、すべての情報をすべてのタグのコンテンツのみを含む1つの変数に解析しました<item>。問題は、varをエコーすると、すべての情報に次のようなhtmlが含まれることです。

echo($result);//この印刷物： elministeriopãºblicoinvestigarã¡lappublicaciã³nenlaprimerapã¡gina

さて、すべての文字を検索して対応する文字に変更できる巨大なケースインスタンスを作成できます。たとえば、ã¡forÁなどですが、単一の関数でこれを行う方法はありません。またはさらに良いことに、htmlエンコーディングなしでコンテンツを$ fpにダウンロードする方法はありませんか？ありがとう！

実際のコード：

<?php
$acumula="";
$insideitem = false; 
$tag = ''; 
$title = ''; 
$description = ''; 
$link = ''; 

function startElement($parser, $name, $attrs) { 
 global $insideitem, $tag, $title, $description, $link; 
 if ($insideitem) { 
  $tag = $name; 
 } elseif ($name == 'ITEM') { 
  $insideitem = true; 
 } 
} 




function endElement($parser, $name) { 
 global $insideitem, $tag, $title, $description, $link, $acumula; 
 if ($name == 'ITEM') { 
  $acumula = $acumula . (trim($title)) . "<br>" . (trim($description)); 
  $title = ''; 
  $description = ''; 
  $link = ''; 
  $insideitem = false; 
 } 
} 

function characterData($parser, $data) { 
 global $insideitem, $tag, $title, $description, $link; 
 if ($insideitem) { 
 switch ($tag) { 
  case 'TITLE': 
  $title .= $data; 
  break; 
  case 'DESCRIPTION': 
  $description .= $data; 
  break; 
  case 'LINK': 
  $link .= $data; 
  break; 
 } 
 } 
} 

$xml_parser = xml_parser_create(); 
xml_set_element_handler($xml_parser, 'startElement', 'endElement'); 
xml_set_character_data_handler($xml_parser, "characterData"); 
$fp = fopen('http://news.google.es/news?cf=all&ned=es_ve&hl=es&output=rss','r') 
or die('Error reading RSS data.'); 
while ($data = fread($fp, 4096)) { 
 xml_parse($xml_parser, $data, feof($fp)) 
  or die(sprintf('XML error: %s at line %d', 
 xml_error_string(xml_get_error_code($xml_parser)), 
 xml_get_current_line_number($xml_parser))); 
} 
//echo $acumula;
fclose($fp); 
xml_parser_free($xml_parser); 
echo($acumula); // THIS IS $RESULT!
?>

score 3 · Accepted Answer

編集

すでにXMLパーサーを使用しているため、エンコードがUTF-8であることが保証されます。

ページがISO-8859-1、またはASCIIでエンコードされている場合は、次のように変換できます。

$result = mb_convert_encoding($result, "HTML-ENTITIES", "UTF-8");

DOM拡張機能やSimpleXMLなど、これを処理するライブラリを使用してください。例：

$d = new DOMDocument();
$d->load('http://news.google.es/news?cf=all&ned=es_ve&hl=es&output=rss');
//now all the data you get will be encoded in UTF-8

SimpleXMLの例：

$url = 'http://news.google.es/news?cf=all&ned=es_ve&hl=es&output=rss';
if ($sxml = simplexml_load_file($url)) {
    echo htmlspecialchars($sxml->channel->title); //UTF-8
}

score 0 · Accepted Answer

DOMDocumentfromを使用しPHPて、HTMLエンコーディングタグを削除できます。また、エンコーディング変換関数を使用しPHPて、このスティングのエンコーディングを変更します。

php - PHPでのHTMLエコニングの操作（インテリジェントなデコード方法）

2 に答える 2

編集

Related

Reference