0

Java で Web クローラーを作成する作業を行っています。クローラーは Web サイトにアクセスし、JDBC を使用してデータベースのデータにアクセス/保存し、ファイルをローカルまたはクラウド ストレージに保存します。

クロールの一環として、クローラーの使用状況の正確な詳細を記録したいと思います--

パラメータのような--

Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)

上記の一部またはすべてを達成する簡単な方法はありますか? 私のJavaアプリにプラグインしなければならないライブラリはありますか?クローラーが何らかのアクション (Web サイトへのアクセス、データのダウンロードなど) を実行するすべての段階で、上記のすべてのパラメーターを個別に書き留める必要がありますか? 上記のパラメーターを測定して追跡したいという理由だけで、プログラムが行き詰まるのを望んでいません。

クローラーをデスクトップ アプリと Web アプリの両方として使用することを検討しているため、両方のソリューションを歓迎します...

4

1 に答える 1

1

クローラーが何らかのアクション (Web サイトへのアクセス、データのダウンロードなど) を実行するすべての段階で、上記のすべてのパラメーターを個別に書き留める必要がありますか?

はい。

アプリケーション用に作成する必要があるグローバル統計クラスの整数値または long 値に数値を追加しています。あなたのプログラムは足し算の実行で行き詰まるべきではありません。

于 2012-06-28T15:51:35.410 に答える