R with Pythonを使用して生成された大きなCSVファイル(200Mb)を抽出しています(私はPythonを使用しています)。
ファイルをいじくり回して(正規化、スケーリング、ジャンク列の削除など)、データ区切り文字を「、」としてnumpyのsavetxtを使用して再度保存し、csvプロパティをキーします。
つまり、新しいファイルは元のファイルのほぼ2倍の大きさです(ほぼ400Mb)。元のデータと新しいデータは、floatの配列のみです。
それが役立つ場合は、新しいファイルの値が非常に小さく、元のファイルにはなかった指数値が必要であるように見えます。
なぜこれが起こっているのかについて何か考えはありますか?