Web から取得した HTML ファイルから無効な文字を削除して、XML 形式に変換したいと考えています。
ソース コードを変更することはできません。また、1 日に何百ものファイルを処理する必要があるため、手動で変更することはできません。
HTML ファイルの一部にコードを無効にする特殊文字が表示されるまで、私はうまくいっていました。
ふりをした XML ファイルをロードすると、ブラウザから警告が表示されます
"This page contains the following errors:
error on line 137 at column 1: PCDATA invalid Char value 7
Below is a rendering of the page up to the first error."
テキスト エディタで無効な文字を探したところ、次のような文字が見つかりました。
PHPで削除しようとしましたが、うまくいきません。
//create arrays
$find = array ('# #','#list#','#⟩#');
$replace = array ('','','');
//replace with array values
$list = preg_replace($find, $replace, $boletin_saveAsXml);
どんなアドバイスでも大歓迎です:)