python - RAM が制限された lxml で iterparse を使用して、python で非常に大きな xml ファイル (18.5 GB) を解析します。方法はありますか？

翻译自：https://stackoverflow.com/questions/16730292 2013-05-24T08:01:23.480

332 次

限られた RAM (~6 GB) で大きな XML データダンプ (18.5 GB) を解析しようとしています。各オブジェクトからいくつかのタグを取得し、それらのタグでハッシュテーブルを作成したいだけです。現在、iterparse (ファイル全体をメモリにロードできないため) と xpath (必要なタグを見つけるため) を使用しています。

これは可能ですか？

ここにサンプルがあります

context = etree.iterparse(StringIO(xml))

artistReleases = {}

for action, elem in context:

    artistName = elem.xpath('/releases/release/artists/artist/name')
    releaseName = elem.xpath('/releases/release/title')

i = 0
while i < len(artistName):
    artist = artistName[i].text
    release = releaseName[i].text
    if artist in artistReleases.keys():
        artistReleases[artist].append(release)
    else:
        artistReleases[artist] = release

    i += 1

8 MB のファイルを実行するには、約 20 分かかります。1 か月以内に 18.5 GB を達成したいと考えています。:)

python - RAM が制限された lxml で iterparse を使用して、python で非常に大きな xml ファイル (18.5 GB) を解析します。方法はありますか？

0 に答える 0

Related

Reference