0

今日の Web ページのほとんどには、物事のリスト、または多く繰り返される html パターンのチャンクが含まれています。

例えば:

  1. ホームページの Facebook ステータス メッセージ。
  2. Digg/ハッカーニュース
  3. StackOverflow ホームページ

そのようなリストを検出するための Java ライブラリはありますか。これには、ある程度のパターン マッチングとインテリジェンスが必要です。ありがとう。

4

2 に答える 2

0

XPath式とHTML要素の「id」属性の間で、関心のあるリストのルートを見つけることができるはずです。そうすれば、さらにXPathを使用してそれらを反復処理できます。

XPathをまだお持ちでない場合は、HtmlUnitを使用することをお勧めします。ええ、それはテスト用ですが、それは「ヘッドレス」ブラウザとして本当にうまく機能し、ページのDOMを回避するXPathの優れたサポートを備えています。

于 2010-08-25T22:48:58.073 に答える
0

あなたはグーグルで用語「スクレーパー」を調査したいかもしれません。Webページからのデータのピンポイント抽出は、ページ全体の「クロール」をキャプチャするのではなく、大まかにスクレイピングと呼ばれます。

于 2010-12-31T17:04:06.143 に答える