私は悪いHTMLを削除するために優れたブリーチライブラリを使用してきました。
Microsoft Wordから貼り付けられたHTMLドキュメントがたくさんあり、次のようなものが含まれています。
<STYLE> st1:*{behavior:url(#ieooui) } </STYLE>
ブリーチを使用すると(style
タグは暗黙的に禁止されています)、次のようになります。
st1:*{behavior:url(#ieooui) }
これは役に立ちません。ブリーチには次のオプションしかないようです。
- タグをエスケープします。
- タグを削除します(ただし、その内容は削除しません)。
3番目のオプションを探しています-タグとその内容を削除します。
ブリーチまたはhtml5libを使用してstyle
タグとその内容を完全に削除する方法はありますか?html5libのドキュメントは、それほど役に立ちません。