java - JTidyを使用してhtmlから目的のタグを削除します

Question

私は HTML の解析に JTidy と xpath を使用していますが、テキストの解析には b タグが含まれている可能性があるため、しばらくの間、少し問題が発生します。そのため、子ノードをループしたくなく、単に 'b' タグを後で削除します。 html をロードします。

DOM ドキュメントからタグを削除するにはどうすればよいですか。

Document doc = tidy.parseDOM(url.openStream(), System.out);

たとえば、そのための擬似コード-doc.removeTag('<b>');

出来ますか？

score 0 · Accepted Answer

これを「jdom」でタグ付けしましたが、ドキュメントは DOM ドキュメントです (JDOM ではありません)。

もちろん、それがJDOM の場合は、比較的単純なドキュメントスキャンを使用して要素をそのコンテンツに置き換えることができます。または、カスタム SAXHandler を使用して、Element の最初の追加をスキップすることもできます。

JDOM を使用すると、たとえば次のようなことができます。

for (Iterator <Content> it = document.getDescendants(); it.hasNext(); ) {
  Content c = it.next();
  if ((c instanceof Element) && "b".equals(((Element)c).getName())) {
    Element e = (Element)c;
    it.remove();
    for (Content k : e.getContent()) {
      k.detach();
      it.add(k);
    }
  }
}

java - JTidyを使用してhtmlから目的のタグを削除します

1 に答える 1

Related

Reference