1

私はブログソフトウェアに取り組んでいます。ときどき、ユーザーが制御文字をブログ投稿に貼り付けることができます (たとえば、最近誰かが垂直タブ文字を貼り付けることができたなど)。RSS フィードで投稿をレンダリングすると、XML パーサーは制御文字の解析に失敗し、フィードが無効であると宣言します。

これを修正する 1 つの方法は、文字列を 1 文字ずつスキャンして無効な文字を削除することです。これは、無効な文字のリストを維持することを意味します。そのようなリストがすでに存在するかどうかは誰にもわかりませんか?

または、誰かがこの問題を既に処理しているライブラリを知っていますか? 私は C# で書いていますが、別の言語で書かれたライブラリを移植できます。

または、私が見逃している解決策はありますか?

これは Unicode やエスケープの問題ではないようです。RSS フィードには、括弧、漢字、ウイング、スマート クォートなどが適切に表示されます。フィードが検証されないように見えるのは、特定の制御文字だけです。

4

2 に答える 2

1

うーん。このページには良い解決策があるようです:http: //cse-mjmcl.cse.bris.ac.uk/blog/2007/02/14/1171465494443.html

XML仕様から有効な文字のリストを取得し、文字列を反復処理して無効な文字を取り除きます。

于 2009-10-12T20:36:01.637 に答える
0

RSS フィードを構築するためのArgotic フレームワークを見てみましょう。ライブラリはすべてを非常にうまく処理します。

于 2009-10-12T20:48:25.000 に答える