HTMLを含む可能性のある特定のテキストをフィルタリングしたいという問題があります。私は jsoup を使ってタグをホワイトリストに登録し、きれいにしています。
一部のタグに属性、主にスタイルまたはクラスを含めることができるという問題しかありませんが、異なる属性も存在する可能性があります。(名前、ターゲットなど) きれいにするときは問題ありません。なぜならそれらはきれいに削除されるからです。基本的なホワイトリストは、スタイルやクラスの属性をカバーしていないようです。さらに、他に何が発生しているのかわかりません。
非常に幅広いタグを許可したいが、クリーニング中にそれらのほとんどを削除したいので、許可しているすべてのタグにすべての属性を追加したくありません。とにかく興味がないので、最も簡単な方法は、すべてのタグからすべての属性を削除し、プレーンタグで削除されたテキストが有効かどうかを確認することです。
すべての属性またはいくつかの単純なループを削除する機能はありますか。別のオプションは、ホワイトリスターにすべての属性を無視し、単にタグをホワイトリストに登録するように指示することです。