Saxon を使用して xml ファイルを処理する: http://meltwaternews.com/magenta/xml/html/18/2/rss/v2_406837.rss2.XML には、Æ、Ø、Å などのノルウェー文字が含まれています。xmlエンコーディングはutf-8です
ただし、エラーが発生します: 不正な html 文字: 10 進数 152。 (http://meltwater.vacau.com/s2.png)
しかし、元の xml ファイルには ~ である 10 進数の 152 が見つかりません。
そして、windows-1252 を使用してこの xml ファイルを Saxon で処理すると、Æ、Ø、Å が Ø Ã¥ として解析されていないことが実際にわかります (ここでは 10 進数の 152 を確認できます) (http://meltwater.vacau .com/s1.png)。
誰かがそれを正しくする方法を提案できますか?