Web サイトのクロールと分析に最適な eopen-source ライブラリは何か知りたいです。1 つの例として、多数のサイトから情報を取得し、それらを自分のサイトに集約したいクローラー プロパティ エージェンシーがあります。そのためには、サイトをクロールしてプロパティ広告を抽出する必要があります。
			
			1883 次
		
4 に答える
            8        
        
		
優れた python パッケージurllib2、mechanize、BeautifulSoupを使用して、多くのスクレイピングを行います。
lxmlとScrapyも参照することをお勧めしますが、現在は使用していません (まだ Scrapy を試す予定です)。
Perl 言語には、スクレイピングのための優れた機能もあります。
于 2009-04-17T07:43:57.553   に答える
    
    
            1        
        
		
モロゾフ氏と同じように、私もかなりのスクレイピングを行っています。主に現場です。それが助けになるなら、私は機械化に頼る必要はありませんでした。urllib2と組み合わせたBeautifulsoupは常に十分でした。
私はlxmlを使用しました。これは素晴らしいことです。ただし、必要に応じて、数か月前に試したときにGoogleアプリで利用できなかった可能性があります。
Scrapyについて言及してくれたMorozov氏に感謝します。聞いたことがない。
于 2009-07-01T14:57:00.650   に答える
    
    
            1        
        
		
PHP/cURL は非常に強力な組み合わせです。特に結果を Web ページで直接使用したい場合は...
于 2009-06-02T14:13:16.200   に答える