0

トピックについていくつか質問があります。

次の言語を使用してスクレイパーを作成することの長所と短所を誰か説明できますか?

Java/グルーヴィー

パール

PhP

セレン

パイソン

また、スクレイピング中にどのような問題に直面することが予想されるか、そしておそらくどのように対処するべきかについても考えています. たとえば、私はフラグメント ID に遭遇しましたが、まだそれを処理する方法を見つけていません。(私はhtmlunitを使用しています)

トピックについて少し知っている人のためのいくつかの指針を探しています。

4

3 に答える 3

1

利点/欠点は、プログラミング言語自体よりも利用可能なフレームワークに関連しています。

  1. javascript/ajax ウェブサイトを破棄する必要がある場合は、htmlunit が最適なオプションの 1 つですが、直接使用する場合は、JVM 上で実行される言語 (java、jython、clojure など) が必要です。もう 1 つの方法 (javascript/ajax の場合) は、Google Chrome アドオン (Firefox より簡単) を作成するか、アプリケーション内に Web ブラウザーを埋め込むことです。3 番目の代替手段は、http: //openqa.org/ (例: Selenium、Watir) にあるような自動化ツールを使用することです。
  2. 私の経験で javascript/ajax のサポートが必要ない場合、lxml は CPython での最適なスクレイピング ライブラリであり、主に不正な形式の html を処理します。他の html パーサーは、すべての状況でうまく機能するとは限りません。
  3. (1) と (2) 以外に、もう 1 つの重要な質問は、並列クロール フレームワークがあるかどうか (速度が必要な場合) です。(1)、(2)、(3) を一緒に見つけるのは難しいです。
于 2010-12-17T15:52:27.600 に答える
1

TestPlanを見ることを検討してください。独自の高水準言語を備えていますが、Java でモジュールを作成することもできます。Selenium バックエンドと HTMLUnit をサポートしています。

フラグメントに関する具体的な問題 (質問) を教えていただければ、それにもお答えできます。

于 2010-12-17T09:53:42.573 に答える
1

Python + lxmlから始めることをお勧めします。機械化も役立つ場合があります。

JavaScript や Cookie に依存する Web サイトはスクレイピングが困難ですが、ほとんどの Web サイトは単純です。

ブロックされないように、リクエストの間に数秒の間隔を空けてください。

于 2010-12-16T05:00:11.893 に答える