9

当社の Web アプリケーションの 1 つをクロールし、そこから静的サイトを作成する方法を見つける必要があります。このサイトを CD に焼き付けて、出張中の営業担当者が Web サイトのデモを行うために使用できます。バックエンドのデータ ストアは非常に多くのシステムに分散しているため、営業担当者のラップトップの VM でサイトを実行するだけでは機能しません。また、一部のクライアントにいる間は、インターネットにアクセスできません(インターネットなし、携帯電話....プリミティブ、私は知っています)。

リンクのクリーンアップ、フラッシュ、少しの ajax、css などを処理できるクローラーの推奨事項はありますか? 可能性が低いことはわかっていますが、独自のツールを作成する前に、ここで質問を投げ捨てることにしました。

4

5 に答える 5

15

たとえば、次のいずれかのWebCrawlerを使用します。

  • DataparkSearch は、GNU General Public License の下でリリースされたクローラーおよび検索エンジンです。
  • GNU Wget は、C で記述され、GPL の下でリリースされたコマンドライン操作のクローラーです。通常、Web および FTP サイトのミラーリングに使用されます。
  • HTTrack は Web クローラーを使用して、オフライン表示用の Web サイトのミラーを作成します。C で書かれており、GPL の下でリリースされています。
  • ICDL クローラーは、C++ で書かれたクロスプラットフォームの Web クローラーであり、コンピューターの空き CPU リソースのみを使用して、Web サイト解析テンプレートに基づいて Web サイトをクロールすることを目的としています。
  • JSpider は、GPL の下でリリースされた高度に構成可能でカスタマイズ可能な Web スパイダー エンジンです。
  • セバスチャン・アイレレのラルビン
  • Andreas BederによるWebtools4larbin
  • Methabot は、速度が最適化された Web クローラーおよびコマンド ライン ユーティリティであり、C で記述され、2 条項 BSD ライセンスの下でリリースされています。幅広い構成システム、モジュール システムを備えており、ローカル ファイル システム、HTTP または FTP を介した対象を絞ったクロールをサポートしています。
  • Jaeksoft WebSearch は、Apache Lucene 上に構築された Web クローラーおよびインデクサーです。GPL v3 ライセンスの下でリリースされています。
  • Nutch は Java で書かれたクローラーで、Apache ライセンスの下でリリースされています。Lucene テキスト インデックス作成パッケージと組み合わせて使用​​できます。
  • Pavuk は、オプションの X11 GUI クローラーを備えたコマンド ライン Web ミラー ツールであり、GPL の下でリリースされています。wget や httrack に比べて高度な機能がたくさんあります。正規表現ベースのフィルタリングとファイル作成ルール。
  • WebVac は、スタンフォード WebBase プロジェクトで使用されているクローラーです。
  • WebSPHINX (Miller と Bharat、1998 年) は、マルチスレッド Web ページの取得と HTML 解析を実装する Java クラス ライブラリと、開始 URL を設定し、ダウンロードされたデータを抽出し、基本的なテキストを実装するためのグラフィカル ユーザー インターフェイスで構成されています。ベースの検索エンジン。
  • WIRE - Web Information Retrieval Environment [15] は、C++ で書かれ、GPL の下でリリースされた Web クローラーであり、ページのダウンロードをスケジュールするためのいくつかのポリシーと、ダウンロードされたページに関するレポートと統計を生成するためのモジュールが含まれているため、Web の特徴付けに使用されています。 .
  • LWP::RobotUA (Langheinrich、2004 年) は、Perl 5 のライセンスの下で配布されている、行儀の良い並列 Web ロボットを実装するための Perl クラスです。
  • Web Crawler .NET 用のオープン ソース Web クローラー クラス (C# で記述)。
  • Sherlock Holmes Sherlock Holmes は、ローカルとネットワークの両方でテキスト データ (テキスト ファイル、Web ページなど) を収集し、インデックスを作成します。Holmes は、チェコの Web ポータル Centrum によって後援され、商業的に使用されています。また、Onet.pl によっても使用されます。
  • ピア ツー ピア ネットワークの原則に基づいて構築された無料の分散型検索エンジンである YaCy (GPL の下でライセンス)。
  • Ruya Ruya は、オープン ソースの高性能な幅優先のレベルベースの Web クローラーです。英語と日本語の Web サイトを行儀よくクロールするために使用されます。GPL の下でリリースされ、完全に Python 言語で書かれています。SingleDomainDelayCrawler の実装は、robots.txt に従い、クロールの遅延が発生します。
  • Universal Information Crawler 高速開発の Web クローラー。クロール データを保存して分析します。
  • Agent Kernel クロール時のスケジュール、スレッド、およびストレージ管理のための Java フレームワーク。
  • Spider News、perl でのスパイダーの構築に関する情報。
  • Arachnode.NET は、電子メール アドレス、ファイル、ハイパーリンク、画像、Web ページなどのインターネット コンテンツのダウンロード、インデックス作成、保存を行うオープン ソースの無差別 Web クローラーです。Arachnode.net は、SQL Server 2005 を使用して C# で記述されており、GPL の下でリリースされています。
  • 食事は、LGPL の下でリリースされた JavaScript でプログラムできるマルチスレッド Java HTTP クライアント/クローラーです。
  • Crawljax は、Ajax アプリケーション内のさまざまなナビゲーション パスと状態をモデル化する「状態フロー グラフ」を動的に構築するメソッドに基づく Ajax クローラーです。Crawljax は Java で書かれており、BSD ライセンスの下でリリースされています。
于 2008-09-22T20:40:18.153 に答える
3

wget または curl は、再帰的にリンクをたどることも、サイト全体をミラーリングすることもできるので、それは良い賭けかもしれません。検索エンジンやデータを変更するものなど、サイトの真にインタラクティブな部分を使用することはできません.

営業担当者のラップトップから実行でき、アプリが接続できるダミーのバックエンド サービスを作成することはまったく可能ですか?

于 2008-09-22T20:41:45.890 に答える
1

Web サーバーから実行する必要が生じた場合は、以下を参照してください。

ServerToGo

CD から WAMPP スタックを実行でき、mysql/php/apache サポートを完備しています。データベースは起動時に現在のユーザーの一時ディレクトリにコピーされ、ユーザーが何もインストールしなくても完全に実行できます!

于 2008-11-26T16:38:39.913 に答える
1

Web サーバーを CD に焼き付けずに AJAX リクエストなどを処理することはできませんが、これはすでに不可能だとおっしゃっています。

wgetはサイトをダウンロードします (「再帰的」には -r パラメーターを使用します) が、もちろん、レポートなどの動的コンテンツは適切に機能せず、スナップショットが 1 つだけ取得されます。

于 2008-09-22T20:42:35.107 に答える