python - ファイルを分割すると、サイズが劇的に増加します

翻译自：https://stackoverflow.com/questions/33421793 2015-10-29T18:19:06.847

42 次

4GB の Wiktionary XML データダンプを小さなファイルに分割し、オーバーラップせずに Python で処理し、個別のページを保存しています (...)。

異なるファイルに分割された同じ情報が、18 GB 以上に膨れ上がっています。

これはなぜでしょうか？そして、これを回避する方法はありますか？

import os 
import re
import subprocess

subprocess.call(['mkdir', 'WIKTIONARY_WORDS_DUMP'])

# English Wiktionary (which noneless contains many foreign words!)
f = open('enwiktionary-20151020-pages-articles.xml', 'r')

page = False
number = 1
for i, l in enumerate(f): 

    if '<page>' in l:
        word_file = open(os.path.join('WIKTIONARY_WORDS_DUMP', str(number)+'.xml'), 'a')
        word_file.write(l)
        page = True
        number += 1

    elif '</page>' in l:
        word_file.write(l)
        word_file.close()
        page = False

    elif page:
        word_file.write(l)


word_file.close()
f.close()

python - ファイルを分割すると、サイズが劇的に増加します

1 に答える 1

Related

Reference