Java で Web クローラーを作成する作業を行っています。クローラーは Web サイトにアクセスし、JDBC を使用してデータベースのデータにアクセス/保存し、ファイルをローカルまたはクラウド ストレージに保存します。
クロールの一環として、クローラーの使用状況の正確な詳細を記録したいと思います--
パラメータのような--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)
上記の一部またはすべてを達成する簡単な方法はありますか? 私のJavaアプリにプラグインしなければならないライブラリはありますか?クローラーが何らかのアクション (Web サイトへのアクセス、データのダウンロードなど) を実行するすべての段階で、上記のすべてのパラメーターを個別に書き留める必要がありますか? 上記のパラメーターを測定して追跡したいという理由だけで、プログラムが行き詰まるのを望んでいません。
クローラーをデスクトップ アプリと Web アプリの両方として使用することを検討しているため、両方のソリューションを歓迎します...