動的に作成された 2 つの Excel 2007 ファイルの結合に問題があります。私のファイルは、Solaris 上の Perl モジュールExcel::Writer::XLSXで作成されます。
fileA.xlsx と fileB.xlsx の 2 つのファイルがあるとします。今、それらを一緒にマージしたいと思います (fileA + fileB => fileC)。現時点では、fileB を fileAに追加することは実際には不可能です。これは、新しいファイルしか作成できない Excel::Writer::XLSX の制限です。
どちらの .xlsx ファイルも、Excel 2007、LibreOffice 3 (Linux 上)、および (Microsoft の xlsx から xls へのコンバーターの助けを借りて) Excel 2003 でも問題なく開くことができます。
ただし、(モジュールSpreadsheet::XLSXを使用して) perl でそれらを開くと、ヘッダー行 (行 0) の内容は常にスキップされます。
# ...
foreach my $infile (@infiles) {
my $excel = Spreadsheet::XLSX->new($infile);
my $i = 0;
foreach my $sheet ( @{ $excel->{Worksheet} } ) {
printf( "Infile '$infile', Sheet $i: %s\n", $sheet->{Name} );
$sheet->{MaxRow} ||= $sheet->{MinRow};
print "$infile: " . $sheet->{MaxRow} . " rows\n";
print "data starts at row: " . $sheet->{MinRow} . ". \n";
next unless $i == 0; # only copy data from the first sheet (for speed)
my $start_row = $sheet->{MinRow};
foreach my $row ( $start_row .. $sheet->{MaxRow} ) {
$sheet->{MaxCol} ||= $sheet->{MinCol};
foreach my $col ( $sheet->{MinCol} .. $sheet->{MaxCol} ) {
my $cell = $sheet->{Cells}[$row][$col];
if ($cell) {
# do something with the data
# ...
# write to outfile
$excel_writer->sheets(0)->write($dest_row, $col, $cell->{Val} )
}
}
}
}
}
さて、このコードフラグメントの出力は常に
data starts at row: 1.
しかし、これは正しくありません。行 0 から始まります。手動で行 0 からデータを読み込むと、$cell は未定義になります (そうあるべきではありませんが)。
興味深いことに、Microsoft Excel でファイルを開いて簡単に変更し (たとえば、ヘッダー行のセル値の 1 つに空白を追加して)、ファイルを保存すると、ヘッダー行がコードによって検出されますその上。
data starts at row: 0.
ところで、LibreOffice でファイルを開き、変更し、保存すると、上記のコードで再読み込みすると、日付の値に関する多くの警告が表示されます。(したがって、日時の値は、LibreOffice によってわずかに正しく保存されないようです)。
ファイルを生成するコードは次のようになります (注: 一部の変数は、このサブルーチンの外部で定義されています)。
sub exportAsXLS {
#require Spreadsheet::WriteExcel;
require Excel::Writer::XLSX;
my ( $data, $dir, $sep, @not2export ) = @_;
my $val;
my $EXCEL_MAXROW = 1048576;
return undef unless $data;
return "." unless scalar @$data > 0;
my $time = time2str( "%Y%m%d_%H%M%S", time() );
my $file = "$outdir/$dir/${host}_${port}-${time}.xlsx";
#my $workbook = Spreadsheet::WriteExcel->new($file);
my $workbook = Excel::Writer::XLSX->new($file);
$workbook->set_optimization();
my $worksheet = $workbook->add_worksheet();
# Set the default format for dates.
#my $date_formatHMS = $workbook->add_format( num_format => 'mmm d yyyy hh:mm AM/PM' );
#my $date_formatHMS = $workbook->add_format( num_format => 'yyyy-mm-ddThh:mm:ss.sss' );
my %formats;
$formats{date_HM} = $workbook->add_format( num_format => 'yyyy-mm-ddThh:mm' );
$formats{date_HMS} = $workbook->add_format( num_format => 'yyyy-mm-ddThh:mm:ss' );
$formats{num} = $workbook->add_format();
$formats{num}->set_num_format();
$formats{headline} = $workbook->add_format();
$formats{headline}->set_bold();
$formats{headline}->set_num_format('@');
# Format as a string. use the Excel text format @:
# Doesn't change to a number when edited
$formats{string} = $workbook->add_format( num_format => '@' );
$worksheet->set_row( 0, 15, $formats{headline} );
my $row = 0;
my $col = 0;
for ( my $r = -1 ; $r < @$data && $r < $EXCEL_MAXROW ; $r++ ) {
for ( my $i = 0 ; $i < @$column ; $i++ ) {
next if grep( $_ eq $column->[$i], @not2export );
my $val = $data->[$r]{ $column->[$i] };
my $t = int $type->[$i];
if ( $r < 0 ) {
#warn " type: $type->[$i] , ";
# Erste Zeile = Spaltennamen ausgeben
$worksheet->write_string( $row, $col++, $column->[$i], $formats{string});
#$worksheet->write_comment( 0, 0, "\x{263a}" ); # Smiley
#$worksheet->write( $row, $col++, $column->[$i], $formats{headline} );
} elsif ( ( $t == 11 ) or ( $t == 9 ) ) {
# 11 - Der Wert ist ein Datum, im SHORT Format, 9- long
$val = time2str( "%Y-%m-%dT%H:%M:%S", str2time( $data->[$r]{ $column->[$i] } ) );
$worksheet->write_date_time( $row, $col++, $val, $formats{date_HMS} );
} else {
$worksheet->write( $row, $col++, $val );
}
}
$col = 0;
$row++;
}
return $file;
}
ファイルの違いは以下の通りです。
左側は、Excel::Writer::XLSX が生成するファイルです。右側は、MS Excel 2003 がヘッダー行をわずかに変更した後に生成するファイルです。行ヘッダー データがリファクタリングされ、別のファイル sharedStrings.xml に外部化されます。
このように見えます。
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<sst xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" count="5" uniqueCount="5">
<si>
<t>SITE</t>
</si>
<si>
<t>LOG_DATE</t>
</si>
<si>
<t>KTZI201_WF_TEMPERATUR</t>
</si>
<si>
<t>KTZI300_TEMP_RESERVOIR</t>
</si>
<si>
<t>XPEDITION</t>
</si>
</sst>
Spreadsheet::XLSX は、.xlsx ファイルが図の右半分に示されているようにフォーマットされている場合、ヘッダーを読み取ることができますが、左半分に示されているようにフォーマットされている場合、ヘッダー行をスキップします。