python - gzip された jsonlines ファイルの解析を高速化

翻译自：https://stackoverflow.com/questions/60815579 2020-03-23T14:32:30.307

584 次

約 5,000個の.gzipファイル (それぞれ約 1 MB) があります。これらの各ファイルには、あるjsonlines形式のデータが含まれています。外観は次のとおりです。

{"category_id":39,"app_id":12731}
{"category_id":45,"app_id":12713}
{"category_id":6014,"app_id":13567}

これらのファイルを解析して、パンダのデータフレームに変換したいと考えています。このプロセスをスピードアップする方法はありますか? これが私のコードですが、ちょっと遅いです（ファイルあたり0.5秒）

import pandas as pd
import jsonlines
import gzip
import os
import io


path = 'data/apps/'
files = os.listdir(path)

result = []
for n, file in enumerate(files):
    print(n, file)
    with open(f'{path}/{file}', 'rb') as f:
        data = f.read()

    unzipped_data = gzip.decompress(data)

    decoded_data = io.BytesIO(unzipped_data)
    reader = jsonlines.Reader(decoded_data)

    for line in reader:
        if line['category_id'] == 6014:
            result.append(line)


df = pd.DataFrame(result)

python - gzip された jsonlines ファイルの解析を高速化

1 に答える 1

Related

Reference