3

Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラー プロパティ エージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。

4

4 に答える 4

8

優れた python パッケージurllib2mechanizeBeautifulSoupを使用して、多くのスクレイピングを行います。

lxmlScrapyも参照することをお勧めしますが、現在は使用していません (まだ Scrapy を試す予定です)。

Perl 言語には、スクレイピングのための優れた機能もあります。

于 2009-04-17T07:43:57.553 に答える
1

モロゾフ氏と同じように、私もかなりのスクレイピングを行っています。主に現場です。それが助けになるなら、私は機械化に頼る必要はありませんでした。urllib2と組み合わせたBeautifulsoupは常に十分でした。

私はlxmlを使用しました。これは素晴らしいことです。ただし、必要に応じて、数か月前に試したときにGoogleアプリで利用できなかった可能性があります。

Scrapyについて言及してくれたMorozov氏に感謝します。聞いたことがない。

于 2009-07-01T14:57:00.650 に答える
1

PHP/cURL は非常に強力な組み合わせです。特に結果を Web ページで直接使用したい場合は...

于 2009-06-02T14:13:16.200 に答える