更新 2: http://htmlpurifier.org/phorum/read.php?3,5088,5113著者はすでに問題を特定しています。
更新: この問題はバージョン 4.2.0 に限定されているようです。4.1.0 にダウングレードしましたが、動作します。いつもお世話になっております。パッケージの作成者に通知しました。
次のようなページをスクレイピングしています。
http://form.horseracing.betfair.com/horse-racing/010108/Catterick_Bridge-GB-Cat/1215
W3C の検証によれば、有効な XHTML Strict です。
次に、http://htmlpurifier.org/を使用して HTML を浄化してから DOMDocument に読み込みます。ただし、1 行のコンテンツしか返していません。
出力:
12:15 Catterick Bridge - Tuesday 1st January 2008 - Timeform | Betfair
コード:
echo $content; # all good
$purifier = new \HTMLPurifier();
$content = $purifier->purify($content);
echo $content; # all bad
ところで、このドメインのすべてのページのタイトルを残すと言うのと同じように、別のサイトから提供されたデータに対しても機能します。
関連リンク
- 次のコードが実行されると、HTMLPurifier が終了します(同様のトピックに関する未回答の質問)