0

ユーザーが指定した URL をクロールし、別のモバイル サイトを公開する機能が必要な製品に取り組んでいます。クロール プロセスでは、サイト コンテンツ、CSS、画像、およびスクリプトをクロールします。この製品は、一部のマーケティング活動のスケジューリングなど、より多くの活動を行うために使用されていました。聞きたいこと -

このタスクを実行するためのベスト プラクティスとオープン ソース フレームワークは何ですか?

アプリケーション自体で実行する必要がありますか、それともこのアクティビティを実行するための別のサーバーが必要ですか (このアクティビティに負荷がかかる場合)。毎月 1 人の「欠けている」ユーザーが、Web サイトからモバイル サイトを公開しており、約 1 ~ 2,000 人の同時ユーザーがいることに注意してください。

このアプリケーションは、Spring と Hibernate をサーバー側のテクノロジとして使用して、Java と Java EE プラットフォームで構築されています。

4

2 に答える 2

1

リンクのオフヒープキューを管理するためにDerkleyDBJavaエディションを使用して、ダウンロードを保留しているリンクとまだダウンロードされているリンクをクロールして区別しました。

HTMLの解析には、TagSoupがワイルドインターネットで最高の選択肢です。

Batikは、CSSとSVGを解析するための選択肢です。

PDFBoxは素晴らしく、PDFからリンクを抽出することができます

Quartzスケジューラーは、イベントスケジューリングのための業界で実証済みの選択肢です。

はい、クロール用に1つ以上のサーバー、結果の集計とタスクのスケジューリング用に1つのサーバー、そしておそらくWEBフロントエンドとバックエンド用に別のサーバーが必要になります。

これはhttp://linktiger.comhttp://pagefreezer.comでうまく機能しました

于 2012-08-27T08:07:51.250 に答える
0

Selenium HtmlUnit Driverに基づくクロール プロジェクトを実装しています。ヘッドレス ブラウザを自動化するのに最適な Java フレームワークだと思います。

于 2012-08-27T08:13:29.117 に答える