データベースからExcelファイルに大量のデータをダンプしています(頻度よりも量の点で、つまり一度に100Kまたは> 400MBのレコードをダンプしています)。現在、ダンプ プロセスは Python、R、および Java (POI ライブラリを使用) で実行されています。ダンプ プロセスの一環として、データベースから中間ファイル (パイプで区切られたテキスト ファイル) にデータを読み取り、コードによって取得されて Excel ファイルを更新します。最近、改行文字を含むデータベースからのテキストにより、パイプ区切りファイルが無効になるという問題が発生しました。これは、1 つのレコードが 1 行ではなく複数行にまたがるためです。例えば、
| Col1 | Col2 | Col3 |
| Val | Val2 | Val3 |
パイプ区切りファイルの有効な例です。データに改行が含まれている場合は、次のようになります。
| Col1 | Col2 | Col3 |
| Val1
| Val2 | Val3
|
このようなシナリオは把握するのが難しくなり、その結果、そのようなチェックを行うために実行する必要があるよりも多くのコーディングが必要になります。
そのような一時データを書き出すために使用できるライブラリ/テクニックがあるかどうか疑問に思っていました。このような大量のデータではパフォーマンスが問題になる可能性があることを考えると、XML が解決策になるかどうかはわかりません。JSON の方が適しているように思えるかもしれませんが、ここですべてのオプションを把握しているわけではありません。