私は webcrawer タイプのプログラムを書いています。html と一緒に、画像や swf などをダウンロードしてオフラインで使用できるようにする必要があります。
ファイルのダウンロードに関して、誰かが以前に非常に役立つ情報を提供してくれました。
import static org.apache.commons.io.FileUtils.copyURLToFile;
public static void Download() {
URL dl = null;
File fl = null;
try {
fl = new File(System.getProperty("user.home").replace("\\", "/") + "/Desktop/Screenshots.zip");
dl = new URL("http://example.com/uploads/Screenshots.zip");
copyURLToFile(dl, fl);
} catch (Exception e) {
System.out.println(e);
}
}
これは非常にうまく機能しますが、一部のサイトでは 403 ブロックが発生します。いくつかの調査を行った結果、主に Web サイトがボットのダウンロードを制限しようとしていることがわかりました。Javaでこれに対する回避策はありますか? どうやら、私が持っているコードを使用するのではなく、HTTP リクエストとして送信する必要があるようです。
例として機能しないリンクは次のとおりです。http://images.4chan.org/v/src/1340901798824.jpg
前もって感謝します!