java - javahtmlパーサーを使用したテキスト抽出

Question

次のことを上品でエレガントな方法で実行するhtmlパーサーを使用したい

これまでの私の調査から、ジェリコは合うようです。あなたがお勧めする他のオープンソースライブラリはありますか？

score 2 · Accepted Answer

最近、HtmlCleanerとCyberNekoHtmlを試しました。CyberNekoHtmlは、予測可能な結果を生成するDOM/SAXパーサーです。HtmlCleanerは少し高速ですが、正確な結果を生成できないことがよくあります。

CyberNekoHtmlをお勧めします。CyberNekoHtmlは、あなたが言及したすべてのことを実行できます。たとえば、すべての要素とその属性のリストを抽出するのは非常に簡単です。ページを再構築したい場合は、DOMツリーをトラバースして各要素をHTMLに戻すことができます。

ここにオープンソースのjavahtmlパーサーのリストがあります：http： //java-source.net/open-source/html-parsers

score 2 · Accepted Answer

私は間違いなくJSoupに行きます。

非常にエレガントなライブラリであり、必要なことを正確に実行します。

score 0 · Accepted Answer

結局、HtmlCleanerhttp : //htmlcleaner.sourceforge.net/を似たようなものに使用しました。それは本当に使いやすく、私が必要なものに素早く対応しました。

3 に答える 3