java - どの html パーサーを使用すればよいですか?

Question

HTML ドキュメントを解析する必要がある製品に取り組んでいます。Jericho、TagSoup、Jsoup、および Crawl4J を探しました。Quartz を使用してマルチスレッド環境でこのプロセスを実行する必要があるため、HTML を解析するにはどのパーサーを使用すればよいですか?

一度に 10 個のスレッドがメモリ内で実行される場合、メモリの消費量が少ない API が必要です。ジェリコでは、テキストベースの検索 API であり、メモリ消費量が少ないことをどこかで読みました。私は正しいですか？または、他の方法を選択する必要がありますが、その理由は何ですか?

score 2 · Accepted Answer

それらをテストして、メモリフットプリントを確認してください。解析しようとしている HTML を理解してテストすることなく、メモリプロファイルを予測することは困難です。

FFIW さん、私はさまざまなシステムで Jsoup を使用してきましたが、非常にうまく機能することがわかりました。また、メモリの問題が横行していることに気付いたこともありません。

score 0 · Accepted Answer

私は JSoup を使用していますが、非常に感銘を受けました。解析が非常に高速であり、コンテンツの CSS スタイルパターンマッチングは XPath よりもはるかに簡単に維持できます。

最初に Validator.nu のパーサーを試してみましたが、非常に不十分であることがわかりました。ドキュメントは非常に薄く、Chrome で正常に動作する XPath を適切に実行することができませんでした。

また、次の質問もチェックしてください:どの HTML パーサーが最適ですか?

2 に答える 2