0

(私は同様の質問を見ましたが、それらのどれも私の特定のニーズに応えていないと思います、それ故に...)

実世界の(不完全な、形式の悪い)HTMLを分析するためのJavaライブラリーがあるかどうか知りたいのですが。分析とは、次のようなことを意味します。

  • HTMLチャンクで最も目立つ色を見つけ出す
  • その色を他の色に変更する(したがって、HTMLの変更もサポートする必要があります)
  • 不要なタグの削除
  • HTMLを修正して、整形式のHTMLスニペットを作成します

最後の2つの部分は、JerichoやjTidyなどのライブラリによって実行されます。これらの上にある「プラグイン」は素晴らしいでしょう。

前もって感謝します!

4

4 に答える 4

4

TagSoupをチェックすることをお勧めします。

http://home.ccil.org/~cowan/XML/tagsoup/

于 2010-01-27T06:39:03.950 に答える
2

さて、私は最初にそれを有効なXMLに整理し、次にXSLTを使用して、最も目立つ色/剪定/必要な処理を行う条件付きディープコピーを実行します。

于 2010-01-27T06:33:56.897 に答える
1

HTMLTidyのJavaポートであるJTidyを見てください。選択したオプションに応じて、整形式でないHTMLを修正するか、それ以外の場合はクリーンアップします。

あなたは色を変えるもののために何か他のものが必要になるでしょう。

于 2010-01-27T06:29:37.660 に答える
0

たぶん、このリストに何かが見つかるでしょう(TagSoup、NekoHTML、VietSpider HTMLParserを試してください)。

于 2010-03-13T11:21:53.737 に答える