JSoup を使用して Web ページから H1 タグの値を取得しています。このタグには次の HTML が含まれています。
ヘキシル β-D-グルコピラノシド
.text() メソッドを使用すると、次のようになります。(注意?) これは「β」の文字のHTMLがうまくいかないからだと思います。Web ページにレンダリングされたこの値を取得するにはどうすればよいですか。
ヘキシル α-D-グルコピラノシド
必要なテキストを取得した後、何らかの変換を行う必要がありますか?
これが私のコードです。
String check = "<title>Hexyl β-D-glucopyranoside ≥98.0% (TLC) | ≥ ≥</title>";
Document doc3 = Jsoup.parse(check);
doc3.outputSettings().escapeMode(Entities.EscapeMode.base); // default
doc3.outputSettings().charset("UTF-8");
System.out.println("UTF-8: " + doc3.html());
//doc3.outputSettings().charset("ISO 8859-1");
doc3.outputSettings().charset("ASCII");
System.out.println("ASCII: " + doc3.html());`
-----コンソールでの出力-----
UTF-8: <html>
<head>
<title>Hexyl ?-D-glucopyranoside ?98.0% (TLC) | ? ? </title>
</head>
<body></body>
</html>
ASCII: <html>
<head>
<title>Hexyl β-D-glucopyranoside ≥98.0% (TLC) | ≥ ≥</title>
</head>
<body></body>
</html>