問題タブ [hive-metastore]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 圧縮された JSON を Spark で読み取る
utf-8 でエンコードされた json ファイルとして S3 に保存されたデータがあり、snappy/lz4 を使用して圧縮されています。このデータの読み取り/処理に Spark を使用したいのですが、Sparkは圧縮スキームを理解するためにファイル名のサフィックス( .lz4
, ) を必要とするようです。.snappy
問題は、ファイルの命名方法を制御できないことです。ファイルはこの接尾辞で書き込まれません。また、そのようなすべてのファイルの名前を変更してサフィックスなどを含めるのもコストがかかりすぎます。
Spark がこれらの JSON ファイルを正しく読み取る方法はありますか? 寄木細工でエンコードされたファイルの場合'parquet.compression' = 'snappy'
、Hive メタストアに があり、寄木細工ファイルのこの問題を解決するようです。テキストファイルに似たものはありますか?
azure - Hive のパーティション化されたファイルとバケット化されたファイルのファイルを 1 つの大きなファイルにマージするにはどうすればよいですか?
ビッグ データ処理用の Azure HDInsight クラスターに取り組んでいます。数日前、多くのファイルをマージして、ハイブにパーティション化され、バケット化されたテーブルを作成しました。
Azure にはクラスターを停止するオプションがないため、コストを節約するためにクラスターを削除する必要がありました。データは、Azure ストレージ アカウントに個別に格納されます。同じストレージ アカウントを使用して新しいクラスターを作成すると、HDFS コマンドを使用してデータベースとテーブルを表示できますが、ハイブはそのデータベースまたはテーブルを読み取ることができません。ハイブにそれに関するメタデータがない可能性があります。
私が残した唯一のオプションは、これらのパーティション分割およびバケット化されたファイルをすべて単一のファイルにマージしてから、テーブルを再度作成することです。そのテーブルを別のデータベースに移行したり、移行しやすくするためにマージしたりする方法はありますか??