0

情報抽出に関する作業を行っており、Web ページからデータをクロールするためのツールが必要です。Windows で一般的なツールはありますか?

4

1 に答える 1

9

出典: http://en.wikipedia.org/wiki/Web_crawler :

  • Aspseekはクローラー、インデクサー、および検索エンジンであり、C で記述され、GPL の下でライセンスされています
  • arachnode.netは、SQL 2008 と Lucene を使用して C# で記述された .NET Web クローラーです。
  • DataparkSearchは、GNU General Public License の下でリリースされたクローラーおよび検索エンジンです。
  • GNU Wgetは、C で記述され、GPL の下でリリースされたコマンドライン操作のクローラーです。通常、Web および FTP サイトのミラーリングに使用されます。
  • GRUBは、Wikia Search ( http://wikiasearch.com ) が Web をクロールするために使用するオープン ソースの分散検索クローラーです。
  • Heritrixは、Web の大部分の定期的なスナップショットをアーカイブするために設計された、Internet Archive のアーカイブ品質のクローラーです。それは Java で書かれました。
  • ht://Digには、インデックス作成エンジンに Web クローラーが含まれています。
  • HTTrackは Web クローラーを使用して、オフライン表示用の Web サイトのミラーを作成します。C で書かれており、GPL の下でリリースされています。
  • ICDL クローラーは、C++ で書かれたクロスプラットフォームの Web クローラーであり、コンピューターの空き CPU リソースのみを使用して、Web サイト解析テンプレートに基づいて Web サイトをクロールすることを目的としています。
  • mnoGoSearchは、C で書かれ、GPL の下でライセンスされたクローラー、インデクサー、および検索エンジンです。
  • Nutchは Java で書かれたクローラーで、Apache ライセンスの下でリリースされています。Lucene text-indexing パッケージと組み合わせて使用​​できます。
  • Pavukは、オプションの X11 GUI クローラーを備えたコマンドライン Web ミラー ツールであり、GPL の下でリリースされています。正規表現ベースのフィルタリングやファイル作成ルールなど、wget や httrack に比べて高度な機能が多数あります。
  • YaCyは無料の分散型検索エンジンで、ピア ツー ピア ネットワークの原則に基づいて構築されています (GPL の下でライセンスされています)。

そしていくつかの読書: Spidering Hacks 100 Industrial-Strength Tips & Tools :

Spidering Hacks は、開発者、研究者、テクニカル アシスタント、ライブラリアン、およびパワー ユーザー向けに書かれており、スパイダーとスクレイピングの方法論に関する専門的なヒントを提供します。まず、スパイダーの概念、ツール (Perl、LWP、すぐに使用できるユーティリティ)、および倫理 (やり過ぎた場合の対処方法: 受け入れられるものと受け入れられないもの) の短期集中コースから始めます。次に、データベースからメディア ファイルとデータを収集します。次に、データを解釈して理解する方法、他のアプリケーションで使用するために再利用する方法、およびデータを独自のコンテンツに統合するための承認されたインターフェイスを構築する方法を学習します。

于 2009-12-14T17:21:28.330 に答える