Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラー プロパティ エージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。
1883 次
4 に答える
8
優れた python パッケージurllib2、mechanize、BeautifulSoupを使用して、多くのスクレイピングを行います。
lxmlとScrapyも参照することをお勧めしますが、現在は使用していません (まだ Scrapy を試す予定です)。
Perl 言語には、スクレイピングのための優れた機能もあります。
于 2009-04-17T07:43:57.553 に答える
1
モロゾフ氏と同じように、私もかなりのスクレイピングを行っています。主に現場です。それが助けになるなら、私は機械化に頼る必要はありませんでした。urllib2と組み合わせたBeautifulsoupは常に十分でした。
私はlxmlを使用しました。これは素晴らしいことです。ただし、必要に応じて、数か月前に試したときにGoogleアプリで利用できなかった可能性があります。
Scrapyについて言及してくれたMorozov氏に感謝します。聞いたことがない。
于 2009-07-01T14:57:00.650 に答える
1
PHP/cURL は非常に強力な組み合わせです。特に結果を Web ページで直接使用したい場合は...
于 2009-06-02T14:13:16.200 に答える