私はしばらくの間これに苦労してきました。ある時点でXMLを出力する多言語のWebアプリがあります。このXMLには任意の言語を含めることができるため、サニタイズへの私のアプローチは、XMLを中断する特定の文字の挿入を禁止することでした。それとCDATAでできる限りラッピングしますが、属性には大量のコンテンツがあります。括弧、ピリオド、ダッシュ、ティック、アポストロフィなどの完全に有効な文字が常に使用され、それらが機能するため、特殊文字を禁止したくありません。
XML属性を壊すが、言語はそのままにしておくすべての文字を取り除くための最良の方法は何ですか?
更新:
http
://en.wikipedia.org/wiki/CDATA#CDATA-type_attribute_valueを見つけました。これは、DTDを使用して属性をCDATAセクションとして記述できることを示しています。しかし、これは真実ではないようです。
<?xml version="1.0" ?>
<!DOCTYPE foo [
<!ELEMENT foo EMPTY>
<!ATTLIST foo a CDATA #REQUIRED>
]>
<foo a="•"><![CDATA[ • ]]> </foo>
バリデーターは、ブルが属性のエンティティではないことについて不平を言います。属性を削除すると有効になります。また、スキーマが進むべき道だと聞いているので、上記のようなことが可能であるが、代わりにXMLスキーマを使用するのであれば、それは素晴らしいことです。
ありがとう!