Unicode/ASCII 要素を含む HTML ページを解析したときの奇妙な動作に対処しました。ここでの例は git://gist.github.com/2995626.git です。
実行されたものは次のとおりです。
File layout = new File(html_file);
Document doc = Jsoup.parse(layout, "UTF-8");
System.out.println(doc.toString());
期待したのは HTML の三角形でしたが、「â–¼」に変換されています。何か提案はありますか?
前もって感謝します。