Curl と simplehtml dom を使用して解析している Web サイトから危険な html 文字をすべて削除する必要があります。
<?php
$html = "this is a text";
var_dump($html);
var_dump(html_entity_decode($html,ENT_COMPAT,"UTF-8"));
どの出力
string(19) "これはテキストです"
string(15) "これは┬áテキストです"
テキストには他の文字 (° など) があるため、preg* は使用したくありません。これは今私を狂わせています!
ありがとう、ジェームズ