4GB の Wiktionary XML データ ダンプを小さなファイルに分割し、オーバーラップせずに Python で処理し、個別のページを保存しています (...)。
異なるファイルに分割された同じ情報が、18 GB 以上に膨れ上がっています。
これはなぜでしょうか?そして、これを回避する方法はありますか?
import os
import re
import subprocess
subprocess.call(['mkdir', 'WIKTIONARY_WORDS_DUMP'])
# English Wiktionary (which noneless contains many foreign words!)
f = open('enwiktionary-20151020-pages-articles.xml', 'r')
page = False
number = 1
for i, l in enumerate(f):
if '<page>' in l:
word_file = open(os.path.join('WIKTIONARY_WORDS_DUMP', str(number)+'.xml'), 'a')
word_file.write(l)
page = True
number += 1
elif '</page>' in l:
word_file.write(l)
word_file.close()
page = False
elif page:
word_file.write(l)
word_file.close()
f.close()