この質問は、この質問や他の質問と非常によく似ていることを理解しています。コードに依存関係(Apache Commons、Springなど)を追加したくないという制約を追加して、同じ質問(Java文字列からHTMLタグを削除する方法は?)があります。
そのため、これらの他の多くのフレームワークで使用されているHTMLタグストリッピングアルゴリズムの「純粋なJava SE」フレーバーを探していますが、どこから始めればよいのか正確にはわかりません。前もって感謝します。
この質問は、この質問や他の質問と非常によく似ていることを理解しています。コードに依存関係(Apache Commons、Springなど)を追加したくないという制約を追加して、同じ質問(Java文字列からHTMLタグを削除する方法は?)があります。
そのため、これらの他の多くのフレームワークで使用されているHTMLタグストリッピングアルゴリズムの「純粋なJava SE」フレーバーを探していますが、どこから始めればよいのか正確にはわかりません。前もって感謝します。
HTMLEditorKit を明示的に使用しない場合:
String html = "<html>...";
JTextPane pane = new JTextPane();
pane.setContentType("text/html");
pane.setText(html);
StyledDocument doc = pane.getStyledDocument();
try {
System.out.println("Text: " + doc.getText(0, doc.getLength()));
} catch (BadLocationException ex) {
Logger.getLogger(NewJFrame.class.getName()).log(Level.SEVERE, null, ex);
}