今日の Web ページのほとんどには、物事のリスト、または多く繰り返される html パターンのチャンクが含まれています。
例えば:
- ホームページの Facebook ステータス メッセージ。
- Digg/ハッカーニュース
- StackOverflow ホームページ
そのようなリストを検出するための Java ライブラリはありますか。これには、ある程度のパターン マッチングとインテリジェンスが必要です。ありがとう。
今日の Web ページのほとんどには、物事のリスト、または多く繰り返される html パターンのチャンクが含まれています。
例えば:
そのようなリストを検出するための Java ライブラリはありますか。これには、ある程度のパターン マッチングとインテリジェンスが必要です。ありがとう。
XPath式とHTML要素の「id」属性の間で、関心のあるリストのルートを見つけることができるはずです。そうすれば、さらにXPathを使用してそれらを反復処理できます。
XPathをまだお持ちでない場合は、HtmlUnitを使用することをお勧めします。ええ、それはテスト用ですが、それは「ヘッドレス」ブラウザとして本当にうまく機能し、ページのDOMを回避するXPathの優れたサポートを備えています。
あなたはグーグルで用語「スクレーパー」を調査したいかもしれません。Webページからのデータのピンポイント抽出は、ページ全体の「クロール」をキャプチャするのではなく、大まかにスクレイピングと呼ばれます。