html - 動的サイトを CD からデモできる静的サイトにするにはどうすればよいですか?

Question

当社の Web アプリケーションの 1 つをクロールし、そこから静的サイトを作成する方法を見つける必要があります。このサイトを CD に焼き付けて、出張中の営業担当者が Web サイトのデモを行うために使用できます。バックエンドのデータストアは非常に多くのシステムに分散しているため、営業担当者のラップトップの VM でサイトを実行するだけでは機能しません。また、一部のクライアントにいる間は、インターネットにアクセスできません（インターネットなし、携帯電話....プリミティブ、私は知っています）。

リンクのクリーンアップ、フラッシュ、少しの ajax、css などを処理できるクローラーの推奨事項はありますか? 可能性が低いことはわかっていますが、独自のツールを作成する前に、ここで質問を投げ捨てることにしました。

score 15 · Accepted Answer

たとえば、次のいずれかのWebCrawlerを使用します。

DataparkSearch は、GNU General Public License の下でリリースされたクローラーおよび検索エンジンです。
GNU Wget は、C で記述され、GPL の下でリリースされたコマンドライン操作のクローラーです。通常、Web および FTP サイトのミラーリングに使用されます。
HTTrack は Web クローラーを使用して、オフライン表示用の Web サイトのミラーを作成します。C で書かれており、GPL の下でリリースされています。
ICDL クローラーは、C++ で書かれたクロスプラットフォームの Web クローラーであり、コンピューターの空き CPU リソースのみを使用して、Web サイト解析テンプレートに基づいて Web サイトをクロールすることを目的としています。
JSpider は、GPL の下でリリースされた高度に構成可能でカスタマイズ可能な Web スパイダーエンジンです。
セバスチャン・アイレレのラルビン
Andreas BederによるWebtools4larbin
Methabot は、速度が最適化された Web クローラーおよびコマンドラインユーティリティであり、C で記述され、2 条項 BSD ライセンスの下でリリースされています。幅広い構成システム、モジュールシステムを備えており、ローカルファイルシステム、HTTP または FTP を介した対象を絞ったクロールをサポートしています。
Jaeksoft WebSearch は、Apache Lucene 上に構築された Web クローラーおよびインデクサーです。GPL v3 ライセンスの下でリリースされています。
Nutch は Java で書かれたクローラーで、Apache ライセンスの下でリリースされています。Lucene テキストインデックス作成パッケージと組み合わせて使用できます。
Pavuk は、オプションの X11 GUI クローラーを備えたコマンドライン Web ミラーツールであり、GPL の下でリリースされています。wget や httrack に比べて高度な機能がたくさんあります。正規表現ベースのフィルタリングとファイル作成ルール。
WebVac は、スタンフォード WebBase プロジェクトで使用されているクローラーです。
WebSPHINX (Miller と Bharat、1998 年) は、マルチスレッド Web ページの取得と HTML 解析を実装する Java クラスライブラリと、開始 URL を設定し、ダウンロードされたデータを抽出し、基本的なテキストを実装するためのグラフィカルユーザーインターフェイスで構成されています。ベースの検索エンジン。
WIRE - Web Information Retrieval Environment [15] は、C++ で書かれ、GPL の下でリリースされた Web クローラーであり、ページのダウンロードをスケジュールするためのいくつかのポリシーと、ダウンロードされたページに関するレポートと統計を生成するためのモジュールが含まれているため、Web の特徴付けに使用されています。 .
LWP::RobotUA (Langheinrich、2004 年) は、Perl 5 のライセンスの下で配布されている、行儀の良い並列 Web ロボットを実装するための Perl クラスです。
Web Crawler .NET 用のオープンソース Web クローラークラス (C# で記述)。
Sherlock Holmes Sherlock Holmes は、ローカルとネットワークの両方でテキストデータ (テキストファイル、Web ページなど) を収集し、インデックスを作成します。Holmes は、チェコの Web ポータル Centrum によって後援され、商業的に使用されています。また、Onet.pl によっても使用されます。
ピアツーピアネットワークの原則に基づいて構築された無料の分散型検索エンジンである YaCy (GPL の下でライセンス)。
Ruya Ruya は、オープンソースの高性能な幅優先のレベルベースの Web クローラーです。英語と日本語の Web サイトを行儀よくクロールするために使用されます。GPL の下でリリースされ、完全に Python 言語で書かれています。SingleDomainDelayCrawler の実装は、robots.txt に従い、クロールの遅延が発生します。
Universal Information Crawler 高速開発の Web クローラー。クロールデータを保存して分析します。
Agent Kernel クロール時のスケジュール、スレッド、およびストレージ管理のための Java フレームワーク。
Spider News、perl でのスパイダーの構築に関する情報。
Arachnode.NET は、電子メールアドレス、ファイル、ハイパーリンク、画像、Web ページなどのインターネットコンテンツのダウンロード、インデックス作成、保存を行うオープンソースの無差別 Web クローラーです。Arachnode.net は、SQL Server 2005 を使用して C# で記述されており、GPL の下でリリースされています。
食事は、LGPL の下でリリースされた JavaScript でプログラムできるマルチスレッド Java HTTP クライアント/クローラーです。
Crawljax は、Ajax アプリケーション内のさまざまなナビゲーションパスと状態をモデル化する「状態フローグラフ」を動的に構築するメソッドに基づく Ajax クローラーです。Crawljax は Java で書かれており、BSD ライセンスの下でリリースされています。

score 3 · Accepted Answer

wget または curl は、再帰的にリンクをたどることも、サイト全体をミラーリングすることもできるので、それは良い賭けかもしれません。検索エンジンやデータを変更するものなど、サイトの真にインタラクティブな部分を使用することはできません.

営業担当者のラップトップから実行でき、アプリが接続できるダミーのバックエンドサービスを作成することはまったく可能ですか?

score 1 · Accepted Answer

Web サーバーから実行する必要が生じた場合は、以下を参照してください。

ServerToGo

CD から WAMPP スタックを実行でき、mysql/php/apache サポートを完備しています。データベースは起動時に現在のユーザーの一時ディレクトリにコピーされ、ユーザーが何もインストールしなくても完全に実行できます!

score 1 · Accepted Answer

Web サーバーを CD に焼き付けずに AJAX リクエストなどを処理することはできませんが、これはすでに不可能だとおっしゃっています。

wgetはサイトをダウンロードします (「再帰的」には -r パラメーターを使用します) が、もちろん、レポートなどの動的コンテンツは適切に機能せず、スナップショットが 1 つだけ取得されます。

html - 動的サイトを CD からデモできる静的サイトにするにはどうすればよいですか?

5 に答える 5

Related

Reference