私はウェブサイトからの情報を解析しようとしています。ただし、コンテキストがそれほど長くない場合にのみ機能します。HTMLが大きくなると、読み込まれるコンテンツは不完全になります。取得される文字列の全長は約40000です。毎回取得される文字列の数は異なります。(例:これは、初めて31345カウント、次回は31358カウントのようなものです)したがって、ページ全体を取得できません。
結果として、この問題はインターネット接続またはバッファに関連している可能性があると思います。しかし、私はbufferedReaderを使用しました。私が知る限り、HttpURLConnectionはストリームのように機能するので、問題はないはずです。UrlConnectionに関連するほとんどすべてのページを確認しましたが、これについて話す人は誰もいません。
私のコードに何か問題がありますか?私はこの問題に数日間取り組んできました。どんなアドバイスも非常に役に立ちます。前もって感謝します。
public String getHtmlFromUrl(String url, int startReadingLine) {
String xml = "";
try {
//URL url1 = new URL(url);
URL url1 = new URL("http://support.google.com/analytics/bin/answer.py?hl=zh-Hant&answer=1009602");
HttpURLConnection urlConn = (HttpURLConnection) url1
.openConnection();
urlConn.setRequestProperty("User-Agent",
"Mozilla/5.0 (Windows NT 6.1;zh-tw; MSIE 6.0)");
if (Integer.parseInt(Build.VERSION.SDK) < Build.VERSION_CODES.FROYO) {
System.setProperty("http.keepAlive", "false");
}
urlConn.setReadTimeout(10000 /* milliseconds */);
urlConn.setConnectTimeout(15000 /* milliseconds */);
urlConn.setDoOutput(true);
urlConn.setDoInput(true);
urlConn.setRequestMethod("GET");
urlConn.setUseCaches(false);
InputStreamReader in = new InputStreamReader(
urlConn.getInputStream());
BufferedReader buffer = new BufferedReader(in, 100000);
StringBuilder builder = new StringBuilder();
String auxaux = "";
while ((aux = buffer.readLine()) != null)
builder.append(aux);
xml = builder.toString();
in.close();
urlConn.disconnect();
} catch (SocketTimeoutException e) {
return "time out";
} catch (IOException e) {
e.printStackTrace();
}
// return XML
return xml;
}
xmlの例を次に示します:(40710としてカウント)
(xmlの最後に「...」を追加しませんでした)
<!DOCTYPE html><html lang="zh-Hant"class="streamlined streamlined-3"><head><script type="text/javascript">serverResponseTimeDelta=window.external&&window.external.pageT?window.external.pageT:-1;pageStartTime=new Date().getTime...
...
..."納米比亞", "NR": "諾魯", "NP": "尼泊爾", "NL": "荷蘭", "AN": "荷屬安地列斯", "KN": "尼維斯", "NC": "新喀里多尼亞", "NI": "尼加拉瓜", "NE": "尼日", "NG": "奈及利亞", "NU": "紐埃", "KR": "北韓", "NO": "挪威", "NZ": "紐西蘭", "OM": "阿曼", "PW": "帛琉", "PK": "巴基斯坦", "PS": "巴勒斯坦", "PA": "巴拿馬", "PG": "巴布亞新幾內亞", "PY": "巴拉圭", "PE": "秘魯", "PH"...
別の:(カウント41106)
<!DOCTYPE html><html lang="zh-Hant"class="streamlined streamlined-3"><head><script type="text/javascript">serverResponseTimeDelta=window.external&&window.external.pageT?window.externa...
...
...屬安地列斯", "KN": "尼維斯", "NC": "新喀里多尼亞", "NI": "尼加拉瓜", "NE": "尼日", "NG": "奈及利亞", "NU": "紐埃", "KR": "北韓", "NO": "挪威", "NZ": "紐西蘭", "OM": "阿曼", "PW": "帛琉", "PK": "巴基斯坦", "PS": "巴勒斯坦", "PA": "巴拿馬", "PG": "巴布亞新幾內亞", "PY": "巴拉圭", "PE": "秘魯", "PH"...
編集:これまでのところ、各結果のカウントが異なるため、インターネットとの対話方法に関係があると思います。または、デバイスの奇妙なバグである可能性があります。根本的な原因はまだわかっていません。最も奇妙な部分は、結果が「...」で終わることです。結果がまだ完全ではないことを知っているようです...