0

動的ページの URL をヒットし、コンテンツを取得し、さまざまなネストされた div タグで特定の div タグを検索し、コンテンツを取得するユーティリティを作成しています。

主に、Java コード/ライブラリを探しています。JavaScript または JavaScript ベースのライブラリも機能します。

私は以下を最終候補に挙げました -> JSoup、Jerry、JTidy (最終更新日 2009-12-01)。パフォーマンス的にはどちらが優れていますか?

編集:質問を言い換えました。候補ライブラリを追加しました。

4

5 に答える 5

2

jQuery の単純な構文が気に入った場合は、Jerryを試すことができます。

Jerry is a jQuery in Java. Jerry is a fast and concise Java Library that simplifies HTML document parsing, traversing and manipulating.
Jerry is designed to change the way that you parse HTML content.

構文は非常に単純なようです。最大 3 行のコードで問題を解決できるはずです。

于 2011-12-23T09:50:51.063 に答える
2

ページをスクレイピングして解析したい場合は、jsdom でノードを使用することをお勧めします。

nodeJS をインストールします (Linux を想定):

sudo apt-get install git
cd ~
git clone git://github.com/joyent/node
cd node
git checkout v0.6
mkdir ~/.local # If it doesn't already exist
./configure --prefix=~/.local
make
make install

Windows インストーラーもあります: http://nodejs.org/dist/v0.6.6/node-v0.6.6.msi

jsdom をインストールします。

$ npm install jsdom

URL と関連するセレクターで変更されたこのスクリプトを実行します。

var jsdom = require('jsdom');

jsdom.env({
    html: 'url',
    done: function(errors, window) {
        console.log(window.document.getElementById('foo').textContent;
    }
});
于 2011-12-23T09:44:02.693 に答える
1

http://jtidy.sourceforge.net/

JTidy は DOM の解析が得意です。

于 2011-12-23T09:09:43.530 に答える
1

求めているのがセレクター エンジンである場合は、Sizzleが最適です。jQuery で使用されるエンジンです。

于 2011-12-23T09:10:09.590 に答える
0

各 div に一意の ID を指定し、document.getElementById(id) を使用して取得します

于 2011-12-23T09:09:43.727 に答える