0

次のように、jsoup を使用して URL の http ステータス コードを取得しています。

Connection.Response response = null
Document doc = Jsoup.connect(url).ignoreContentType(true).get()
                    response = Jsoup.connect(url)
                            .userAgent("Mozilla/5.0 (X11  Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
                            .timeout(10000)
                            .execute()
                    int statusCode = response.statusCode()
                    if (statusCode == 200)
                        urlExists = true
                    else
                        urlExists = false

基本的に、指定されたURLが200ステータスコードを返しているかどうか、つまり、htmlページが存在するかどうか、またはpdfファイルが存在するかどうかなどを確認したいと思います。jpg ファイルは jsoup で解析できないため、.jpg で終わる URL では機能しません。私はクローラー4jと組み合わせてjsoupを使用しています。すべての URL の http ステータス コードを見つける方法は他にありますか。私の URL は次の拡張子で終わります:

css js pdf zip rar tar png gif html

4

1 に答える 1

0

使えるんじゃないの

int responseCode = new URL(url).openConnection().responseCode
于 2014-08-27T19:37:02.737 に答える