python - pandas データフレームから parquet ファイルへの変換

翻译自：https://stackoverflow.com/questions/64815070 2020-11-13T03:28:15.350

1023 次

csv ファイルを txt ファイルに変換して s3 バケットから別のバケットに移動しようとしていますが、あらゆる種類の区切り文字の問題が発生しています。そのため、csv を寄木細工のファイルに変換することにしましたが、正しく行っているかどうかはわかりません。これは寄木細工のファイルに変換する正しい方法ですか。これらの寄木細工のファイルを取得し、redshift に入力する別の ETL (グルークローラー) があります。s3 バケットには寄木細工のファイルが表示されますが、redshift データベースには表示されません。ファイルが寄木細工に正しく変換されているかどうか疑問に思っています。

bucket = 'source bucket'
file = 'file path'
    
    
    obj = client.get_object(Bucket= bucket, Key= file)
    initial_df = pd.read_csv(obj['Body'])
    
    
    file = 'file.parquet'
    bucketdest = 'destinationbucketname'
    buf = BytesIO()
    initial_df.to_parquet(buf, index=False)
    s3_file = 'path'+file
    print(s3_file)
    buf.seek(0)
    s3 = session2.resource('s3')
    s3.Object(bucketdest, s3_file).put(Body=buf.getvalue())
    print('loaded')

python - pandas データフレームから parquet ファイルへの変換

1 に答える 1

Related

Reference