(私は同様の質問を見ましたが、それらのどれも私の特定のニーズに応えていないと思います、それ故に...)
実世界の(不完全な、形式の悪い)HTMLを分析するためのJavaライブラリーがあるかどうか知りたいのですが。分析とは、次のようなことを意味します。
- HTMLチャンクで最も目立つ色を見つけ出す
- その色を他の色に変更する(したがって、HTMLの変更もサポートする必要があります)
- 不要なタグの削除
- HTMLを修正して、整形式のHTMLスニペットを作成します
最後の2つの部分は、JerichoやjTidyなどのライブラリによって実行されます。これらの上にある「プラグイン」は素晴らしいでしょう。
前もって感謝します!