1

Firefox の JavaScript エンジンをサーバー側に組み込んだプロジェクトjaxerを見つけたので、サーバー側の HTML を非常にうまく解析できます。しかし、このプロジェクトは死んでいるようです。Web ページをクロールして HTML を解析し、データを抽出するのに非常に役立ちます。

情報を抽出するのに役立つ新しいテクノロジーはありますか?

4

4 に答える 4

1

これを行うもう1つの興味深い方法は、node.jsjsdomおよびnode-htmlparserと組み合わせて使用​​して、ページをロードし、その中のjavascriptを解析することです。現時点ではまだ実際には機能していませんが、Dav Glass(Yahoo製)は、このコンボの修正バージョンを使用して、node.jsでYUIを実行することに成功しています。

これは、そこに十分なものは何もないと判断し、独自に実装したい場合に興味深いものです。もしそうなら、それは優れたオープンソースプロジェクトになるでしょう。

于 2010-10-08T17:20:28.717 に答える
0

Python + pywebkitgtk + javascript で js 対応のクローラーを作成することに成功しました。従来のクローラーよりもはるかに遅いですが、ジョブを完了し、スクリーンショットを作成したり、js インジェクションによって「隠されている」コンテンツを取得したりするなどのクールなことを実行できます。

ここにいくつかのサンプルコードを含むまともな記事があります:

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

于 2010-10-08T17:29:00.420 に答える
0

私が過去に行ったことは、Selenium RCを使用して Web ブラウザー (通常は firefox) をコードから制御し、実際の Web ブラウザーを使用して Web サイトをロードおよび解析することでした。

これの優れた点は、Perl、Ruby、C# など、使い慣れた言語でほとんどコーディングしていることです。しかし、 Seleniumの機能を十分に活用するには、JavaScript の知識と記述が必要です。

于 2010-10-08T17:11:21.777 に答える
0

ItsNatは Jaxer に似ていますが、主な違いは JavaScript ではなく Java ベースです。

于 2011-01-18T15:43:54.550 に答える