apache-spark - 圧縮された JSON を Spark で読み取る

翻译自：https://stackoverflow.com/questions/58492700 2019-10-21T19:06:25.843

404 次

utf-8 でエンコードされた json ファイルとして S3 に保存されたデータがあり、snappy/lz4 を使用して圧縮されています。このデータの読み取り/処理に Spark を使用したいのですが、Sparkは圧縮スキームを理解するためにファイル名のサフィックス( .lz4, ) を必要とするようです。.snappy

問題は、ファイルの命名方法を制御できないことです。ファイルはこの接尾辞で書き込まれません。また、そのようなすべてのファイルの名前を変更してサフィックスなどを含めるのもコストがかかりすぎます。

Spark がこれらの JSON ファイルを正しく読み取る方法はありますか? 寄木細工でエンコードされたファイルの場合'parquet.compression' = 'snappy'、Hive メタストアにがあり、寄木細工ファイルのこの問題を解決するようです。テキストファイルに似たものはありますか?

apache-spark - 圧縮された JSON を Spark で読み取る

0 に答える 0

Related

Reference