2

HTML タグを保持するテキストを検索および置換できる Java ベースの HTML パーサーを探しています。この質問は以前にここで尋ねられましたが、答えが的を射ていないようです。私がダウンロードして簡単なプログラムを書いて、それらが仕事をすることができるかどうかを確認する html パーサーはほとんどありません。これらには、jsoup、Jericho、Java HTML パーサーなどが含まれます。これらは検索を行うことができますが、html タグを保持するテキストを置き換える場合、それを行う方法はありません。

これらの投稿の完全なスレッドを読みました。

HTMLタグ/構造を維持しながらHTML内のテキストを検索/置換する方法

サーバー側でのhtml検索と置換

そのようなパーサーが現在存在しない場合、それを実装するための最良の方法は何ですか? すでにこのようなことを行っている場合は、コードを共有できますか?

4

2 に答える 2

1

Jericho パーサーが役立つかもしれません。永遠に存在し、不正な HTML で動作します。 http://jericho.htmlparser.net/docs/index.html

于 2011-01-19T23:45:47.493 に答える
1

Caja パーサーは、HTML5 パーサーである libhtmlparser を使用します。これは、 を生成する埋め込み XML サブツリーを含むタグ スープを適切に処理し、適切なorg.w3c.dom.DocumentFragment形式の HTML を生成するレンダラーを備えています。

パーサー コードはhttp://code.google.com/p/google-caja/source/browse/trunk/src/com/google/caja/parser/html/DomParser.javaにあります。

レンダラー コードはhttp://code.google.com/p/google-caja/source/browse/trunk/src/com/google/caja/parser/html/Nodes.javaにあります。

于 2011-01-20T02:11:46.450 に答える