1

Webページからデータを検索してスクレイピングし、データベースに貼り付けるための優れたオープンソースのJavaライブラリは何ですか. たとえば、次のようなページがあるとします。

<tr><td><b>Address:</b></td>
<td colspan=3>123 My Street        </td></tr>

"Address:" がキーですが、実際には "123 My Street" を取得しようとしています。これには、html タグと間にスペースがたくさんあります。理想的には、文字列「Address:」に続く td の間の値を取得したいと考えています。JSoup は検索を実行できるようですが、オフセットを実行する方法の良い例は見当たりませんでした (見逃した可能性があります)。キー/値を処理するライブラリはありますか?

また、Kapow Extraction Browser に似た UI スクリプト作成のためのオープン ソース (MIT/Apache) のイニシアチブについても知りたいと思っています。

ありがとう。

4

2 に答える 2

2

Web-Harvest を試してみてください。Java で書かれたオープンソースのクローラーです。
Java ライブラリ、コマンドライン アプリケーション、またはスタンドアロン IDE として使用できます。

element を使用<xpath>して、XHTML ドキュメントから任意の値を抽出できます。

于 2011-12-16T16:34:07.490 に答える
1

これは、オープン ソース パーサーの優れたリストです: http://java-source.net/open-source/html-parsers

私はTagSoupを使用して、実際に何万もの Web ページを解析することに大きな成功を収めてきました。「キーと値」の関係については、自分で対処する必要があります。

于 2011-07-29T02:28:44.360 に答える