0

次のことを上品でエレガントな方法で実行するhtmlパーサーを使用したい

  1. テキストを抽出します(これが最も重要です)
  2. リンク、メタキーワードを抽出する
  3. 元のドキュメントを再構築します(オプションですが、あると便利な機能です)

これまでの私の調査から、ジェリコは合うようです。あなたがお勧めする他のオープンソースライブラリはありますか?

4

3 に答える 3

2

最近、HtmlCleanerとCyber​​NekoHtmlを試しました。Cyber​​NekoHtmlは、予測可能な結果を​​生成するDOM/SAXパーサーです。HtmlCleanerは少し高速ですが、正確な結果を生成できないことがよくあります。

Cyber​​NekoHtmlをお勧めします。Cyber​​NekoHtmlは、あなたが言及したすべてのことを実行できます。たとえば、すべての要素とその属性のリストを抽出するのは非常に簡単です。ページを再構築したい場合は、DOMツリーをトラバースして各要素をHTMLに戻すことができます。

ここにオープンソースのjavahtmlパーサーのリストがあります:http: //java-source.net/open-source/html-parsers

于 2010-04-09T19:17:37.747 に答える
2

私は間違いなくJSoupに行きます。

非常にエレガントなライブラリであり、必要なことを正確に実行します。

ここに例を参照してください

于 2017-02-08T16:08:34.197 に答える
0

結局、HtmlCleanerhttp : //htmlcleaner.sourceforge.net/を似たようなものに使用しました。それは本当に使いやすく、私が必要なものに素早く対応しました。

于 2010-04-09T18:48:26.340 に答える