私はブログソフトウェアに取り組んでいます。ときどき、ユーザーが制御文字をブログ投稿に貼り付けることができます (たとえば、最近誰かが垂直タブ文字を貼り付けることができたなど)。RSS フィードで投稿をレンダリングすると、XML パーサーは制御文字の解析に失敗し、フィードが無効であると宣言します。
これを修正する 1 つの方法は、文字列を 1 文字ずつスキャンして無効な文字を削除することです。これは、無効な文字のリストを維持することを意味します。そのようなリストがすでに存在するかどうかは誰にもわかりませんか?
または、誰かがこの問題を既に処理しているライブラリを知っていますか? 私は C# で書いていますが、別の言語で書かれたライブラリを移植できます。
または、私が見逃している解決策はありますか?
これは Unicode やエスケープの問題ではないようです。RSS フィードには、括弧、漢字、ウイング、スマート クォートなどが適切に表示されます。フィードが検証されないように見えるのは、特定の制御文字だけです。