次のことを上品でエレガントな方法で実行するhtmlパーサーを使用したい
- テキストを抽出します(これが最も重要です)
- リンク、メタキーワードを抽出する
- 元のドキュメントを再構築します(オプションですが、あると便利な機能です)
これまでの私の調査から、ジェリコは合うようです。あなたがお勧めする他のオープンソースライブラリはありますか?
最近、HtmlCleanerとCyberNekoHtmlを試しました。CyberNekoHtmlは、予測可能な結果を生成するDOM/SAXパーサーです。HtmlCleanerは少し高速ですが、正確な結果を生成できないことがよくあります。
CyberNekoHtmlをお勧めします。CyberNekoHtmlは、あなたが言及したすべてのことを実行できます。たとえば、すべての要素とその属性のリストを抽出するのは非常に簡単です。ページを再構築したい場合は、DOMツリーをトラバースして各要素をHTMLに戻すことができます。
ここにオープンソースのjavahtmlパーサーのリストがあります:http: //java-source.net/open-source/html-parsers
結局、HtmlCleanerhttp : //htmlcleaner.sourceforge.net/を似たようなものに使用しました。それは本当に使いやすく、私が必要なものに素早く対応しました。