RSS および Atom ファイルを解析する際に SAX で問題が発生している連絡先がいます。彼によると、Item 要素からのテキストがアポストロフィまたはアクセント付きの文字で切り捨てられているようです。エンコーディングにも問題があるようです。
私は SAX を試してみましたが、いくつかの切り捨ても行われていますが、それ以上掘り下げることはできませんでした。誰かが以前にこれに取り組んだことがあれば、いくつかの提案をいただければ幸いです。
これは、ContentHandler で使用されているコードです。
public void characters( char[], int start, int end ) throws SAXException {
//
link = new String(ch, start, end);
編集: エンコーディングの問題は、Java が Unicode で動作することを知っているため、情報をバイト配列に格納することが原因である可能性があります。