JTextPane からきれいな (クリーンな) テキスト コンテンツを取得しようとしています。からのサンプルコードは次のJTextPane
とおりです。
JTextPane textPane = new JTextPane ();
textPane.setContentType ("text/html");
textPane.setText ("This <b>is</b> a <b>test</b>.");
String text = textPane.getText ();
System.out.println (text);
テキストは次のようになりますJTexPane
。
これはテストです。
この種のコンソールへの出力を取得します。
<html>
<head>
</head>
<body>
This <b>is</b> a <b>test</b>.
</body>
</html>
substring()
および/またはreplace()
コードを使用しましたが、使用するのは不快です:
String text = textPane.getText ().replace ("<html> ... <body>\n , "");
<b>
タグ(コンテンツ)以外のすべてのタグを文字列から削除する簡単な機能はありますか?
JTextPane
コンテンツの周りにタグを追加すること<p>
があるので、それらも削除したいと思います。
このような:
<html>
<head>
</head>
<body>
<p style="margin-top: 0">
hdfhdfgh
</p>
</body>
</html>
タグ付きのテキストコンテンツのみを取得したい:
This <b>is</b> a <b>test</b>.