HTML ドキュメントを解析する必要がある製品に取り組んでいます。Jericho、TagSoup、Jsoup、および Crawl4J を探しました。Quartz を使用してマルチスレッド環境でこのプロセスを実行する必要があるため、HTML を解析するにはどのパーサーを使用すればよいですか?
一度に 10 個のスレッドがメモリ内で実行される場合、メモリの消費量が少ない API が必要です。ジェリコでは、テキストベースの検索 API であり、メモリ消費量が少ないことをどこかで読みました。私は正しいですか?または、他の方法を選択する必要がありますが、その理由は何ですか?