大きな xls または xlsx ファイル (約 30 MB 以上、70,000 行以上) を読みたいと思っています。OutOfMemory エラーが発生するまで、Apache POI を使用して小さな Excel ファイルを読み取ることができました。
パフォーマンスとメモリ使用量は私にとって懸念事項です。メモリ フットプリントが問題になる場合は、XSSF の場合、基礎となる XML データを取得し、XSSF と SAX (イベント API) を使用して自分で処理できるという多くの投稿を読みました。興味深いことに、xlsx ファイル全体を問題なく読み取ることができるようになりました。イベント API を使用していない場合、ほとんどの GB 単位 (-Xmx を 1024m に設定してもハングしていた場合は 1 GB まで) と比較して、消費するメモリははるかに少なく (70 MB 未満) した。
しかし、今は読み取りプロセスをカスタマイズして、特定の行だけを Excel から読み取れるようにしたいと考えています。org.apache.poi.ss.usermodel.Sheet#getRow(int rownum) を使用してこれを簡単に行うことができます。しかし、イベント API を使用すると、中断することなくすべての行が読み取られ、特定の行 (行番号 2、3、5 など) を読み取るのが難しいことがわかります。以下は私のコード全体です。
import java.io.InputStream;
import java.util.Iterator;
import java.util.Vector;
import org.apache.poi.xssf.eventusermodel.XSSFReader;
import org.apache.poi.xssf.model.SharedStringsTable;
import org.apache.poi.xssf.usermodel.XSSFRichTextString;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.xml.sax.Attributes;
import org.xml.sax.ContentHandler;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;
/**
* XSSF and SAX (Event API)
*/
public class FromHowTo {
public void processAllSheets(String filename) throws Exception {
OPCPackage pkg = OPCPackage.open(filename);
XSSFReader r = new XSSFReader( pkg );
SharedStringsTable sst = r.getSharedStringsTable();
XMLReader parser = fetchSheetParser(sst);
Iterator<InputStream> sheets = r.getSheetsData();
while(sheets.hasNext()) {
InputStream sheet = sheets.next();
InputSource sheetSource = new InputSource(sheet);
parser.parse(sheetSource);
sheet.close();
}
}
public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {
XMLReader parser = XMLReaderFactory.createXMLReader("org.apache.xerces.parsers.SAXParser");
ContentHandler handler = new SheetHandler(sst);
parser.setContentHandler(handler);
return parser;
}
/**
* See org.xml.sax.helpers.DefaultHandler javadocs
*/
private static class SheetHandler extends DefaultHandler {
private SharedStringsTable sst;
private String lastContents;
private boolean nextIsString;
Vector values = new Vector(10);
private SheetHandler(SharedStringsTable sst) {
this.sst = sst;
}
public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException {
// c => cell
if(name.equals("c")) {
// Figure out if the value is an index in the SST
String cellType = attributes.getValue("t");
//System.out.println(cellType);
if(cellType != null && cellType.equals("s")) {
nextIsString = true;
} else {
nextIsString = false;
}
}
// Clear contents cache
lastContents = "";
}
public void endElement(String uri, String localName, String name) throws SAXException {
// Process the last contents as required.
// Do now, as characters() may be called more than once
if(nextIsString) {
try {
int idx = Integer.parseInt(lastContents);
lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();
} catch (NumberFormatException e) {
}
}
// v => contents of a cell
// Output after we've seen the string contents
if(name.equals("v")) {
values.add(lastContents);
}
if(name.equals("row")) {
System.out.println(values);
values.removeAllElements();
}
}
public void characters(char[] ch, int start, int length) throws SAXException {
lastContents += new String(ch, start, length);
}
}
public static void main(String[] args) throws Exception {
FromHowTo howto = new FromHowTo();
howto.processAllSheets(args[0]);
}
}
Apache POI 3.7 で JRE7 を使用しています。Event API を使用して特定の行を取得するのを手伝ってもらえますか?