java - jSoup が HTML エンティティのエスケープを適切に解除しない

Question

HTML ドキュメントから情報を抽出する小さなサンプルプログラムがあります。

import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class TestSoup {

    public static void main(String[] args) {

        String html = "<p>An <a href='http://example.com/'><b>exa&nbsp;mple</b></a> link.</p>";
        Document doc = Jsoup.parse(html);
        Element link = doc.select("a").first();

        String linkText = link.text(); // "example""
        System.out.println(linkText);

    }

}

jSOup を使用したことがある場合は、これの出力はであるはずですexa mpleが、出力はexaámple. jSoup が HTML エンティティを適切にアンエスケープしないのはなぜですか、それとも単純に間違っているのでしょうか?

すべての HTML エンティティが正しくエスケープ解除されます。 

score 5 · Accepted Answer

jSoup は正しく動作しますが、出力エンコーディングに問題があります。

Windowsでは、コンソールで使用される文字エンコーディング（CP437あなたの場合）はシステムエンコーディング（あなたの場合）と同じではありませんWindows-1252。System.out.println()システムのデフォルトのエンコーディングで文字列を出力するため、コンソールに正しく表示されません。

System.console()Java 1.6 では、代わりに試すことができます。

System.console().writer().println(linkText);

java - jSoup が HTML エンティティのエスケープを適切に解除しない

1 に答える 1

Related

Reference