入力パラメーターとして url を Java で使用して Web ページのコンテンツを取得する最も信頼できる方法を見つけようとしています。
私が試したことは次のとおりです。1. JSOUP 2. HtmlUnit 3. URL と URLConnection
1 と 2 の問題は、ページのコンテンツを取得できる場合でも (robots.txt で許可されている場合でも)、SocketTimeoutException をスローするか、予期しない動作をすることがあります。
3 を使用すると、ミリ秒の減算を使用せずに loadTime を取得できません。これが最大の問題であり、不正確な結果をもたらします。また、コンテンツを取得するには、Streams を使用してコンテンツを 1 行ずつ読み取る必要があります。
現在の実装では、アプローチ #2 を使用しています。LoadTime と contentType の機能があります。
すべての Web ページのコンテンツについて、contentType、loadTime などが必要です。
基本的には、css の背景画像、画像、js、html などを含む Web サイト全体を検証する Link Validator プロジェクト用です。 contentType に基づいて、HTML のコンテンツのみをフィルタリングおよび解析します。
PS タイムアウトを 9 秒以上改善すると、リンクの検証が遅くなります。したがって、現在のタイムアウトは 9 秒です。
リンク検証ツールをできるだけ信頼できるものにしたいので、助けが必要です。