java - Web ページのリストアイテムを検出するための Java ライブラリ

Question

今日の Web ページのほとんどには、物事のリスト、または多く繰り返される html パターンのチャンクが含まれています。

例えば：

そのようなリストを検出するための Java ライブラリはありますか。これには、ある程度のパターンマッチングとインテリジェンスが必要です。ありがとう。

score 0 · Accepted Answer

XPath式とHTML要素の「id」属性の間で、関心のあるリストのルートを見つけることができるはずです。そうすれば、さらにXPathを使用してそれらを反復処理できます。

XPathをまだお持ちでない場合は、HtmlUnitを使用することをお勧めします。ええ、それはテスト用ですが、それは「ヘッドレス」ブラウザとして本当にうまく機能し、ページのDOMを回避するXPathの優れたサポートを備えています。

score 0 · Accepted Answer

あなたはグーグルで用語「スクレーパー」を調査したいかもしれません。Webページからのデータのピンポイント抽出は、ページ全体の「クロール」をキャプチャするのではなく、大まかにスクレイピングと呼ばれます。

java - Web ページのリスト アイテムを検出するための Java ライブラリ