2

Java を使用して "alt" と "src" を除く、文字列内の HTML タグからすべての属性を削除するにはどうすればよいですか?

さらに..文字列内のすべての「src」属性からコンテンツを取得するにはどうすればよいですか?

:)

4

2 に答える 2

3

あなたはできる:

  • SAX パーサーを実装します。
  • DOM パーサーを使用してドキュメントを作成し、それをウォークしてプルーニングし、HTML に変換します。また
  • 不要な属性を削除するには、XSLT で恒等変換 (HTML が XHTML 形式であるか、たとえば JTidy で変換できると仮定) を使用ます

何をするにしても、正規表現でやろうとしないでください。

于 2009-02-18T11:10:26.730 に答える
0

OK、これを何とか解決しました。

HTMLCleaner ライブラリを使用して、入力データを有効な形式に解析しました。

次に、DOM パーサーを使用してすべてを反復処理し、許可されていないタグと属性をすべて取り除きます。

(そしていくつかのマイナーな醜いハック;))

これは大変な作業でした。

于 2009-02-20T13:36:18.753 に答える