java - インターネットからExcelファイルを保存する

Question

Seleniumを使用してサイトからExcelファイルをダウンロードしようとしています。

私がやっている方法：

    WebElement excelList = driver.findElement(By.xpath("..."));

    excelList.click();

    driver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS);

    String pageSource = driver.getPageSource();
    FileOutputStream fos = new FileOutputStream("d:/load.xls");

    for (int i = 0; i < pageSource.length(); i++) {
        char c = pageSource.charAt(i);


        fos.write((byte) c);
    }

    fos.close();

ページソース文字列の長さは、このサイトから手動でダウンロードしたファイルサイズと同じです。

問題は、データを間違って保存していて、MS Excel が保存されたファイルを開くことができないことです。

ファイルを正しく保存するにはどうすればよいですか?

score 0 · Accepted Answer

私はそれを考え出した。

必要なのは、ファイルの読み込みボタンをクリックした後、最後のページから入力ストリームを取得することだけでした。しかし、ページオブジェクト 'lastPage()' を取得するメソッドはアクセスを保護しています。

方法は次のとおりです。

 private static void saveExcelFile(HtmlUnitDriver driver)  {
    Method m = driver.getClass().getDeclaredMethod("lastPage", null);
    m.setAccessible(true);
    Object obj = m.invoke(driver, null);

    Page page = (Page) obj;

    InputStream stream = page.getWebResponse().getContentAsStream();

    FileOutputStream fos = new FileOutputStream("d:/load.xls");

    int c;

    while ((c = stream.read()) != -1) {
        fos.write(c);
    }

    fos.close();
}

score 0 · Accepted Answer

文字をバイトストリームに再エンコードするために使用することもできますがString.getBytes()、それでもおそらくうまくいきません。

基本的に、Excel ファイルのバイナリデータを文字列に保持するには、文字セットを使用してデータをデコードする必要があります。Excel ファイルはプレーンテキストとして読み取られることが想定されていないため、有効な文字エンコーディングではないバイトシーケンスが多数存在する可能性があります。これらのバイトシーケンスは、デコードされるStringと、おそらく単に「?」として表されます。（ただし、これはCharset実際に使用されているによって異なります）。String.getBytes()または他の方法を使用して文字を再エンコードしようとすると、「?」文字は元のバイトに変換されずに、Unicode の疑問符文字のエンコーディングに変換されますが、これは Excel ファイル形式ではほぼ確実に有効ではありません。

問題は、なぜこのファイルを Se からダウンロードする必要があるのかということです。Se は、ブラウザーが Web ページをレンダリングする方法をテストすることに関するものです。Excel ファイルが必要な場合は、Se でクリックしているリンクから href を取得HttpUrlConnectionし、標準のバイナリを使用して簡単にファイルをダウンロードしてみInputStreamませんか?

java - インターネットからExcelファイルを保存する

2 に答える 2

Related

Reference