utf-8 でエンコードされた json ファイルとして S3 に保存されたデータがあり、snappy/lz4 を使用して圧縮されています。このデータの読み取り/処理に Spark を使用したいのですが、Sparkは圧縮スキームを理解するためにファイル名のサフィックス( .lz4
, ) を必要とするようです。.snappy
問題は、ファイルの命名方法を制御できないことです。ファイルはこの接尾辞で書き込まれません。また、そのようなすべてのファイルの名前を変更してサフィックスなどを含めるのもコストがかかりすぎます。
Spark がこれらの JSON ファイルを正しく読み取る方法はありますか? 寄木細工でエンコードされたファイルの場合'parquet.compression' = 'snappy'
、Hive メタストアに があり、寄木細工ファイルのこの問題を解決するようです。テキストファイルに似たものはありますか?