これまでのところ、テキストをCDATAタグに入れ、複数の隣接するCDATAに分割することで、テキストにCDATAの末尾が表示される可能性に対処しています。
これについてはよくわかりませんが、XMLパーサーはCDATAタグ内の改行を保持できない可能性があります。これは、どういうわけかそれらをエスケープすることも意味します...
Perlを使用してこれらのXMLファイルを生成し、C ++(expatを使用)、Java、およびC#で解析したいと思います。
最も重要なことは、結果のファイルを人間が読める形式/変更可能な形式にすることです。これらのニーズに合うエンコーディングスキームを知っている人はいますか?これを使用してデータベースのデータを格納しているため、任意のテキストを受け入れる必要があり、解析時にまったく同じテキストが返されます。