私は自分の仕事で多くの HTML 解析を行っています。これまでは、解析とブラウザーの自動化に HtmlUnit ヘッドレス ブラウザーを使用していました。
ここで、両方のタスクを分離したいと思います。
HtmlUnit では最初にページをロードし、次にソースを取得して解析するのに時間がかかるため、軽い HTML パーサーを使用したいと考えています。
どの HTML パーサーが HTML を効率的に解析できるか知りたいです。私は欲しい
- スピード
- 「id」、「name」、または「tag type」によって HtmlElement を簡単に見つけることができます。
汚れた HTML コードをきれいにしなくても、私にとっては問題ありません。HTML ソースをきれいにする必要はありません。HtmlElements 間を移動し、そこからデータを収集する最も簡単な方法が必要なだけです。