php - PHP DOMDocument->アンパサンド/少ない/多いを含むXMLを含むloadXML?

Question

TEXTDATA に文字 & < および > を含む XML 文字列を解析しようとしています。通常、これらの文字は html エンコードする必要がありますが、私の場合はエンコードされていないため、次のメッセージが表示されます。

警告: DOMDocument::loadXML() [function.loadXML]: エンティティの属性名の解析中にエラーが発生しました... 警告: DOMDocument::loadXML() [function.loadXML]: 開始タグの末尾が見つかりませんでした ...

str_replace を使用してすべての & をエンコードできますが、それを < または > で行うと、有効な XML タグに対してもそれを行うことになります。

この問題の回避策を知っている人はいますか??

ありがとうございました！

score 5 · Accepted Answer

XML のテキスト内に < がある場合...それは有効な XML ではありません。エンコードするか、<![CDATA[.

それが不可能な場合 (この「XML」を出力していないため)、いくつかの Html 解析ライブラリを試してみることをお勧めします (私はそれらを使用しませんでしたが、それらは存在します)。それらは XML のものよりも厳密ではないからです。

しかし、他のことを試す前に、有効な XML を取得しようとします!!

score 3 · Accepted Answer

DomDocument の load() の呼び出しの前によく使用@します。これは主に、何をロードするかが期待どおりかどうかを絶対に確信できないためです。

を使用@すると、エラーが抑制されます。

@$dom->loadXml($myXml);

score 1 · Accepted Answer

str_replace を使用してすべての & をエンコードできますが、それを < または > で行うと、有効な XML タグに対してもそれを行うことになります。

厳密に一時的な修正手段として、タグまたはエンティティ参照のように見えるものの一部ではないものを置き換えることができます。

$str= preg_replace('<(?![a-zA-Z_!?])', '&lt;', $str);
$str= preg_replace('&(?!([a-zA-Z]+|#[0-9]+|#x[0-9a-fA-F]+);)', '&amp;', $str);

ただし、これは完璧ではありません。長期的には、この偽のマークアップを生成しているものを修正するか、手がかりが得られるまで修正が必要な人に叫ぶ必要があります。このような非常に整形式でない XMLは、定義上、単純に XMLではありません。

score 0 · Accepted Answer

すべてのテキストを CDATA 要素内に配置しますか?

<!-- Old -->
<blah>
    x & y < 3
</blah>

<!-- New -->
<blah><![CDATA[
    x & y < 3
]]></blah>

4 に答える 4