windows - Web データをクロールするための一般的なツールはありますか?

Question

情報抽出に関する作業を行っており、Web ページからデータをクロールするためのツールが必要です。Windows で一般的なツールはありますか?

score 9 · Accepted Answer

出典: http://en.wikipedia.org/wiki/Web_crawler :

Aspseekはクローラー、インデクサー、および検索エンジンであり、C で記述され、GPL の下でライセンスされています
arachnode.netは、SQL 2008 と Lucene を使用して C# で記述された .NET Web クローラーです。
DataparkSearchは、GNU General Public License の下でリリースされたクローラーおよび検索エンジンです。
GNU Wgetは、C で記述され、GPL の下でリリースされたコマンドライン操作のクローラーです。通常、Web および FTP サイトのミラーリングに使用されます。
GRUBは、Wikia Search ( http://wikiasearch.com ) が Web をクロールするために使用するオープンソースの分散検索クローラーです。
Heritrixは、Web の大部分の定期的なスナップショットをアーカイブするために設計された、Internet Archive のアーカイブ品質のクローラーです。それは Java で書かれました。
ht://Digには、インデックス作成エンジンに Web クローラーが含まれています。
HTTrackは Web クローラーを使用して、オフライン表示用の Web サイトのミラーを作成します。C で書かれており、GPL の下でリリースされています。
ICDL クローラーは、C++ で書かれたクロスプラットフォームの Web クローラーであり、コンピューターの空き CPU リソースのみを使用して、Web サイト解析テンプレートに基づいて Web サイトをクロールすることを目的としています。
mnoGoSearchは、C で書かれ、GPL の下でライセンスされたクローラー、インデクサー、および検索エンジンです。
Nutchは Java で書かれたクローラーで、Apache ライセンスの下でリリースされています。Lucene text-indexing パッケージと組み合わせて使用できます。
Pavukは、オプションの X11 GUI クローラーを備えたコマンドライン Web ミラーツールであり、GPL の下でリリースされています。正規表現ベースのフィルタリングやファイル作成ルールなど、wget や httrack に比べて高度な機能が多数あります。
YaCyは無料の分散型検索エンジンで、ピアツーピアネットワークの原則に基づいて構築されています (GPL の下でライセンスされています)。

そしていくつかの読書: Spidering Hacks 100 Industrial-Strength Tips & Tools :

Spidering Hacks は、開発者、研究者、テクニカルアシスタント、ライブラリアン、およびパワーユーザー向けに書かれており、スパイダーとスクレイピングの方法論に関する専門的なヒントを提供します。まず、スパイダーの概念、ツール (Perl、LWP、すぐに使用できるユーティリティ)、および倫理 (やり過ぎた場合の対処方法: 受け入れられるものと受け入れられないもの) の短期集中コースから始めます。次に、データベースからメディアファイルとデータを収集します。次に、データを解釈して理解する方法、他のアプリケーションで使用するために再利用する方法、およびデータを独自のコンテンツに統合するための承認されたインターフェイスを構築する方法を学習します。

windows - Web データをクロールするための一般的なツールはありますか?

1 に答える 1

Related

Reference