java - Web ページのコンテンツを文字列に取得するのが非常に遅い

Question

HttpURLConnection.getInputStream() を使用して Web ページをダウンロードし、コンテンツを文字列に取得するには、次の方法を実行します。

String content="";
isr = new InputStreamReader(pageContent);
br = new BufferedReader(isr);
try {
    do {
            line = br.readLine();
            content += line;
        } while (line != null);
        return content;
    } catch (Exception e) {
        System.out.println("Error: " + e);
        return null;
    }

ページのダウンロードは高速ですが、コンテンツを String に取得する処理は非常に低速です。コンテンツを文字列に取得するための別の方法はありますか?

これを String に変換してデータベースに挿入します。

score 2 · Accepted Answer

行のような任意のものではなく、バイト数でバッファに読み込みます。読者が行の終わりを見つける必要がないので、それだけでこれをスピードアップするための良いスタートになるはずです。

score 1 · Accepted Answer

StringBuffer代わりに使用してください。

例を編集します。

StringBuffer buffer=new StringBuffer();

for(int i=0;i<20;++i)
  buffer.append(i.toString());

String result=buffer.toString();

score 0 · Accepted Answer

blob / clobを使用して、コンテンツをデータベースに直接配置します。文字列を1行ずつまとめてデータベースに入れる特別な理由はありますか？

score 0 · Accepted Answer

私は jsoup を使用してページの指定されたコンテンツを取得しています。これは、jquery と jsoup に基づいて Web ページのコンテンツをキャッチする Web デモです。キャッチする必要があるページコンテンツの ID またはクラスを指定する必要があります: http: //www.gbin1.com/technology/democenter/20120720jsoupjquerysnatchpage/index.html

java - Web ページのコンテンツを文字列に取得するのが非常に遅い

4 に答える 4

Related

Reference