0

Web ページ内のすべてのリンクにアクセスする必要がある Java の Web クローラー アプリケーションがあります。問題は、一部のページで、JavaScript 関数によってリンクが生成されることです。何かのようなもの:

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

私はHtmlUnitを知っています。しかし、私のテストでは、私の目的には遅すぎました。ローカル ページ ( http://localhost/test.html内) を取得するのに約 2 秒かかりました。他のリモート Web ページでは、はるかに時間がかかりました。

Java の javascript リンクであっても、Web ページ内のすべてのリンクを見つけるための最も簡単で最速の方法が欲しいです。(C/C++ でのソリューションは大歓迎です)。Nutch (クローラー) には Javascript からのリンク抽出機能があることも知っていますが、そのコードを Nutch から「抽出」して別のコンテキストで使用できるかどうかはわかりません。

4

1 に答える 1

0

Nutch から有用なコードを抽出できるようです:

メイン メソッドをスタンドアロンの JS リンク エクストラクタとして使用する方法を見てください。

于 2010-11-09T14:49:22.433 に答える