情報抽出に関する作業を行っており、Web ページからデータをクロールするためのツールが必要です。Windows で一般的なツールはありますか?
1500 次
1 に答える
9
出典: http://en.wikipedia.org/wiki/Web_crawler :
- Aspseekはクローラー、インデクサー、および検索エンジンであり、C で記述され、GPL の下でライセンスされています
- arachnode.netは、SQL 2008 と Lucene を使用して C# で記述された .NET Web クローラーです。
- DataparkSearchは、GNU General Public License の下でリリースされたクローラーおよび検索エンジンです。
- GNU Wgetは、C で記述され、GPL の下でリリースされたコマンドライン操作のクローラーです。通常、Web および FTP サイトのミラーリングに使用されます。
- GRUBは、Wikia Search ( http://wikiasearch.com ) が Web をクロールするために使用するオープン ソースの分散検索クローラーです。
- Heritrixは、Web の大部分の定期的なスナップショットをアーカイブするために設計された、Internet Archive のアーカイブ品質のクローラーです。それは Java で書かれました。
- ht://Digには、インデックス作成エンジンに Web クローラーが含まれています。
- HTTrackは Web クローラーを使用して、オフライン表示用の Web サイトのミラーを作成します。C で書かれており、GPL の下でリリースされています。
- ICDL クローラーは、C++ で書かれたクロスプラットフォームの Web クローラーであり、コンピューターの空き CPU リソースのみを使用して、Web サイト解析テンプレートに基づいて Web サイトをクロールすることを目的としています。
- mnoGoSearchは、C で書かれ、GPL の下でライセンスされたクローラー、インデクサー、および検索エンジンです。
- Nutchは Java で書かれたクローラーで、Apache ライセンスの下でリリースされています。Lucene text-indexing パッケージと組み合わせて使用できます。
- Pavukは、オプションの X11 GUI クローラーを備えたコマンドライン Web ミラー ツールであり、GPL の下でリリースされています。正規表現ベースのフィルタリングやファイル作成ルールなど、wget や httrack に比べて高度な機能が多数あります。
- YaCyは無料の分散型検索エンジンで、ピア ツー ピア ネットワークの原則に基づいて構築されています (GPL の下でライセンスされています)。
そしていくつかの読書: Spidering Hacks 100 Industrial-Strength Tips & Tools :
Spidering Hacks は、開発者、研究者、テクニカル アシスタント、ライブラリアン、およびパワー ユーザー向けに書かれており、スパイダーとスクレイピングの方法論に関する専門的なヒントを提供します。まず、スパイダーの概念、ツール (Perl、LWP、すぐに使用できるユーティリティ)、および倫理 (やり過ぎた場合の対処方法: 受け入れられるものと受け入れられないもの) の短期集中コースから始めます。次に、データベースからメディア ファイルとデータを収集します。次に、データを解釈して理解する方法、他のアプリケーションで使用するために再利用する方法、およびデータを独自のコンテンツに統合するための承認されたインターフェイスを構築する方法を学習します。
于 2009-12-14T17:21:28.330 に答える