Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Java を使用して "alt" と "src" を除く、文字列内の HTML タグからすべての属性を削除するにはどうすればよいですか?
さらに..文字列内のすべての「src」属性からコンテンツを取得するにはどうすればよいですか?
:)
あなたはできる:
何をするにしても、正規表現でやろうとしないでください。
OK、これを何とか解決しました。
HTMLCleaner ライブラリを使用して、入力データを有効な形式に解析しました。
次に、DOM パーサーを使用してすべてを反復処理し、許可されていないタグと属性をすべて取り除きます。
(そしていくつかのマイナーな醜いハック;))
これは大変な作業でした。