dom - クロールに適したサーバー側の DOM エンジンはありますか?

Question

Firefox の JavaScript エンジンをサーバー側に組み込んだプロジェクトjaxerを見つけたので、サーバー側の HTML を非常にうまく解析できます。しかし、このプロジェクトは死んでいるようです。Web ページをクロールして HTML を解析し、データを抽出するのに非常に役立ちます。

情報を抽出するのに役立つ新しいテクノロジーはありますか?

score 1 · Accepted Answer

これを行うもう1つの興味深い方法は、node.jsをjsdomおよびnode-htmlparserと組み合わせて使用して、ページをロードし、その中のjavascriptを解析することです。現時点ではまだ実際には機能していませんが、Dav Glass（Yahoo製）は、このコンボの修正バージョンを使用して、node.jsでYUIを実行することに成功しています。

これは、そこに十分なものは何もないと判断し、独自に実装したい場合に興味深いものです。もしそうなら、それは優れたオープンソースプロジェクトになるでしょう。

score 0 · Accepted Answer

Python + pywebkitgtk + javascript で js 対応のクローラーを作成することに成功しました。従来のクローラーよりもはるかに遅いですが、ジョブを完了し、スクリーンショットを作成したり、js インジェクションによって「隠されている」コンテンツを取得したりするなどのクールなことを実行できます。

ここにいくつかのサンプルコードを含むまともな記事があります:

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

score 0 · Accepted Answer

私が過去に行ったことは、Selenium RCを使用して Web ブラウザー (通常は firefox) をコードから制御し、実際の Web ブラウザーを使用して Web サイトをロードおよび解析することでした。

これの優れた点は、Perl、Ruby、C# など、使い慣れた言語でほとんどコーディングしていることです。しかし、 Seleniumの機能を十分に活用するには、JavaScript の知識と記述が必要です。

score 0 · Accepted Answer

ItsNatは Jaxer に似ていますが、主な違いは JavaScript ではなく Java ベースです。

dom - クロールに適したサーバー側の DOM エンジンはありますか?

4 に答える 4

Related

Reference