0

大きなドキュメントで tf-idf を計算しています。私が持っている単語の数は80,000以上です。csv ファイルに疎行列を書き込もうとしています。Python を使用して CSV ファイルに新しい列を追加する方法は?

出力ファイルのサイズが大きすぎ、約 30,000 ワードだけで 700 MB を超えます。それで、私の質問はそれを効率的に書く方法ですか?ありがとうございました。

4

2 に答える 2

14

gzip モジュールを使用して、gzip ファイルを直接簡単に書き込むことができます。

import gzip
import csv

f=gzip.open("myfile.csv.gz", "w")
csv_w=csv.writer(f)
for row in to_write :
    csv_w.writerow(row)
f.close()

ファイルを閉じることを忘れないでください。そうしないと、結果の csv.gz ファイルが読み取れない可能性があります。

より Pythonic スタイルで行うこともできます。

with gzip.open("myfile.csv.gz", "w") as f :
    csv_w = csv.writer(f)
    ...

これにより、ファイルが閉じられることが保証されます。

お役に立てれば。

于 2013-03-17T21:26:00.210 に答える
2
于 2013-03-17T18:41:11.243 に答える