java - Web ページからデータを検索してスクレイピングするための優れた Java ライブラリは何ですか。

Question

Webページからデータを検索してスクレイピングし、データベースに貼り付けるための優れたオープンソースのJavaライブラリは何ですか. たとえば、次のようなページがあるとします。

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

"Address:" がキーですが、実際には "123 My Street" を取得しようとしています。これには、html タグと間にスペースがたくさんあります。理想的には、文字列「Address:」に続く td の間の値を取得したいと考えています。JSoup は検索を実行できるようですが、オフセットを実行する方法の良い例は見当たりませんでした (見逃した可能性があります)。キー/値を処理するライブラリはありますか?

また、Kapow Extraction Browser に似た UI スクリプト作成のためのオープンソース (MIT/Apache) のイニシアチブについても知りたいと思っています。

ありがとう。

score 2 · Accepted Answer

Web-Harvest を試してみてください。Java で書かれたオープンソースのクローラーです。
Java ライブラリ、コマンドラインアプリケーション、またはスタンドアロン IDE として使用できます。

element を使用<xpath>して、XHTML ドキュメントから任意の値を抽出できます。

score 1 · Accepted Answer

これは、オープンソースパーサーの優れたリストです: http://java-source.net/open-source/html-parsers

私はTagSoupを使用して、実際に何万もの Web ページを解析することに大きな成功を収めてきました。「キーと値」の関係については、自分で対処する必要があります。

java - Web ページからデータを検索してスクレイピングするための優れた Java ライブラリは何ですか。

2 に答える 2

Related

Reference