web-crawler - Web サイトのクロールとデータマイニングに最適なオープンソースライブラリまたはアプリケーション

Question

Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラープロパティエージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。

score 8 · Accepted Answer

優れた python パッケージurllib2、mechanize、BeautifulSoupを使用して、多くのスクレイピングを行います。

lxmlとScrapyも参照することをお勧めしますが、現在は使用していません (まだ Scrapy を試す予定です)。

Perl 言語には、スクレイピングのための優れた機能もあります。

score 1 · Accepted Answer

モロゾフ氏と同じように、私もかなりのスクレイピングを行っています。主に現場です。それが助けになるなら、私は機械化に頼る必要はありませんでした。urllib2と組み合わせたBeautifulsoupは常に十分でした。

私はlxmlを使用しました。これは素晴らしいことです。ただし、必要に応じて、数か月前に試したときにGoogleアプリで利用できなかった可能性があります。

Scrapyについて言及してくれたMorozov氏に感謝します。聞いたことがない。

score 1 · Accepted Answer

PHP/cURL は非常に強力な組み合わせです。特に結果を Web ページで直接使用したい場合は...

web-crawler - Web サイトのクロールとデータ マイニングに最適なオープン ソース ライブラリまたはアプリケーション