大きなドキュメントで tf-idf を計算しています。私が持っている単語の数は80,000以上です。csv ファイルに疎行列を書き込もうとしています。Python を使用して CSV ファイルに新しい列を追加する方法は?
出力ファイルのサイズが大きすぎ、約 30,000 ワードだけで 700 MB を超えます。それで、私の質問はそれを効率的に書く方法ですか?ありがとうございました。
gzip モジュールを使用して、gzip ファイルを直接簡単に書き込むことができます。
import gzip
import csv
f=gzip.open("myfile.csv.gz", "w")
csv_w=csv.writer(f)
for row in to_write :
csv_w.writerow(row)
f.close()
ファイルを閉じることを忘れないでください。そうしないと、結果の csv.gz ファイルが読み取れない可能性があります。
より Pythonic スタイルで行うこともできます。
with gzip.open("myfile.csv.gz", "w") as f :
csv_w = csv.writer(f)
...
これにより、ファイルが閉じられることが保証されます。
お役に立てれば。