java - Java から JavaScript リンクを含む Web ページを取得する

Question

Web ページ内のすべてのリンクにアクセスする必要がある Java の Web クローラーアプリケーションがあります。問題は、一部のページで、JavaScript 関数によってリンクが生成されることです。何かのようなもの：

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

私はHtmlUnitを知っています。しかし、私のテストでは、私の目的には遅すぎました。ローカルページ ( http://localhost/test.html内) を取得するのに約 2 秒かかりました。他のリモート Web ページでは、はるかに時間がかかりました。

Java の javascript リンクであっても、Web ページ内のすべてのリンクを見つけるための最も簡単で最速の方法が欲しいです。(C/C++ でのソリューションは大歓迎です)。Nutch (クローラー) には Javascript からのリンク抽出機能があることも知っていますが、そのコードを Nutch から「抽出」して別のコンテキストで使用できるかどうかはわかりません。

score 0 · Accepted Answer

Nutch から有用なコードを抽出できるようです:

http://www.docjar.com/html/api/org/apache/nutch/parse/js/JSParseFilter.java.html

メインメソッドをスタンドアロンの JS リンクエクストラクタとして使用する方法を見てください。

java - Java から JavaScript リンクを含む Web ページを取得する

1 に答える 1

Related

Reference