web-crawler - Web サイトから画像を取得する

Question

ユーザー名とパスワードを持っている Web サイトからすべての画像をダウンロードする必要があります。たとえば、ウェブサイトの URL は http://example.co.in/images/Photos/ABC123.jpg で、画像がたくさんあるので、すべての画像をダウンロードする必要があります。Java、C++、または任意のプログラミング言語で何ができますか? サンプルコードが役に立ちます。ありがとう

次のコードを使用して、Google Web サイトから画像を取得します

import java.io.BufferedInputStream;
import java.io.ByteArrayOutputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.URL;

class Test {
public static void main(String args[]) throws Exception {
    System.out.println("Hello World");

    URL url = new URL("http://www.google.co.in/images/google_favicon_128.png");
    InputStream in = new BufferedInputStream(url.openStream());
    ByteArrayOutputStream out = new ByteArrayOutputStream();
    byte[] buf = new byte[1024];
    int n = 0;
    while (-1 != (n = in.read(buf))) {
        out.write(buf, 0, n);
    }
    out.close();
    in.close();
    byte[] response = out.toByteArray();

    FileOutputStream fos = new FileOutputStream("C://ABC//google1.jpg");
    fos.write(response);
    fos.close();

}}

画像の名前がわからない場合、拡張子が .jpg (*.jpg) のすべての画像があり、フォルダーに 1.jpg、2.jpg などとして保存する必要があります。画像の数を取得する方法とhttp://www.google.co.in/images/で画像の名前にアクセスする方法

score 6 · Accepted Answer

あなたはクローラーを探しています。私は最近Scrapyを使用しましたが、使い方はかなり簡単です。

Spiderを作成するだけです。遭遇した URL ごとにオブジェクトを生成する必要がRequestあり、画像への追加の HTTP リクエストを使用してページ内の画像をダウンロードできます。

チュートリアルに従ってください。これは非常にシンプルで、クローラーの作成方法を説明し、コード例も提供して、順を追って説明します。

Scrapy は python で動作することに注意してください。

java 用のcrawl4jもあります。個人的にはあまり詳しくありませんが、とてもシンプルなものだと聞いたことがあります。

score 2 · Accepted Answer

Java に慣れているようです。 HtmlUnitを試してみてください。

HtmlPage.getElementsByTagName ("img")メソッドがあり、HTML 内のイメージタグのリストが表示されます。結果に基づいて、イメージのソースの場所を取得し、テストメソッドを使用して URL からイメージをダウンロードできます。

HTML を解析して画像タグを取得するために、 SimpleHTML Parser、JTidyなどの他の HTML パーサーを使用することもできます。

score 0 · Accepted Answer

Linux ユーザーの場合は、コマンドラインツールをご覧ください。wget

Windows ユーザーは、Cygwin (http://www.cygwin.com/)経由で使用できます。

score -1 · Accepted Answer

これは、非常に簡単に操作できる Web クローラーライブラリです。

サンプルデモでは、ページ内に含まれる URL を取得する方法を示しています。

 List<WebURL> links = htmlParseData.getOutgoingUrls();

ファイルの書き込みにバイトストリームは使用しません。URI から File オブジェクトを作成し、ファイルをディスクに書き込む方法を理解することができます。

File imageFile = new File( new URL("www.foo.someImage.jpg").toURI() );

別の可能な解決策は、 ImageIO() を使用することです

URL url = new URL("www.foo.someImage.jpg");

Image image = ImageIO.read(url);

if(image != null){
   ImageIO.write(image, "jpg",new File("file path to save");
}

web-crawler - Web サイトから画像を取得する

5 に答える 5

Related

Reference