問題タブ [parquet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 地図の読み方と書き方JavaまたはScalaの寄木細工のファイルから/へ?
Map<String, Object>
Java または Scala で寄木細工のファイルを読み書きする方法の簡潔な例をお探しですか?
com.fasterxml.jackson.databind.ObjectMapper
Java でシリアライザーとして使用する (つまり、parquet を使用して同等のものを探す)と予想される構造は次のとおりです。
apache-spark - Avro、Kryo、Parquet でスパーク
Avro、Kryo、および Parquet が Spark のコンテキストで正確に何をするのかを理解するのに苦労しています。それらはすべてシリアライゼーションに関連していますが、それらが一緒に使用されているのを見たので、同じことをすることはできません.
Parquet は、その自己を列型ストレージ形式と説明していますが、それはある程度理解できますが、寄木細工のファイルを保存するときに、Arvo または Kryo はそれと関係がありますか? または、スパークジョブ中にのみ関連します。シャッフルまたはディスクへのスピル中にネットワーク経由でオブジェクトを送信するには? Arvo と Kryo の違いと、それらを一緒に使用するとどうなりますか?
hive - 寄木細工のスナッピー出力ファイルサイズをハイブに設定しますか?
ハイブ INSERT OVERWRITE TABLE... によって作成された parquet/snappy ファイルを dfs.block.size 境界で分割しようとしています。これは、パーティション内のファイルがブロック サイズより大きい場合に impala が警告を発行するためです。
impala は次の警告を記録します。
コード:
INSERT
hql スクリプトについては、次のようになります。
問題は、ファイルの押収がいたるところにあることです。
dfs.block.size
設定 (および上記の他の設定) が256M
、512M
または1G
(異なるデータ セットの場合) に増加しても、問題は同じです。
出力寄木細工/スナッピーファイルの分割がhdfsブロックサイズのすぐ下になるようにする方法/設定はありますか?
hadoop - エラーの取得、エラー: org.kitesdk.data.DatasetIOException: Avro 値をデコードできません
hdfs(parquet format)
を使用して、redshift から にデータをロードしようとしていますsqoop(--as-parquetfile)
。
他の誰かがこの同じエラーに遭遇しましたか (以下を参照)? もしそうなら、どのように問題を解決しましたか?
ご提案いただきありがとうございます。
c++ - 寄木細工のファイル形式の処理でのビット ベクトルの交差
私は寄木細工のファイル形式を扱っています。例えば:
データのグループ:
1 2ヌル3 4 5 6ヌル7 8ヌル ヌル9 10 11 12 13 14
null 要素を示すビット ベクトルを取得しました。
1 1 0 1 1 1 1 0 1 1 0 0 1 1 1 1 1 1
null 以外の要素のみを保存します。
1 2 3 4 5 6 7 8 9 10 11 12 13 14
述語を評価したい: big then 5
非 null 要素を 5 と比較し、ビット ベクトルを取得しました。
0 0 0 0 0 1 1 1 1 1 1 1 1
すべての要素のビット ベクトルを取得したい:
0 0 0 0 0 1 0 1 1 0 0 1 1 1 1 1 1
太字の 0 は null 要素です。false にする必要があります。
私のコードはかなり醜いです。とにかく速くする方法はありますか? まことにありがとうございます!
hadoop - Sqoop の実行中に例外が発生しました: java.lang.NullPointerException using -query および --as-parquetfile
テーブル データを Redshift から HDFS (Parquet 形式を使用) にインポートしようとしていますが、以下に示すエラーに直面しています。
使用したコマンド ライン クエリ:
sqoop import --driver "com.amazon.redshift.jdbc41.Driver" --connect "jdbc:postgresql://:5439/events" --username "username" --password "password" --query "SELECT * FROM mobile_og.pages WHERE \$CONDITIONS" --split-by anonymous_id --target-dir /user/huser/pq_mobile_og_pages_2 --as-parquetfile.
--as-parquetfile
上記のコマンド ライン クエリからオプションを削除すると、正常に動作します。
hadoop - HDFS からローカル ファイル システムへの Parquet データの収集
HDFS (メタデータ ファイル + 5 つのパーツ) に分散された Parquet データセットが与えられた場合、.parquet
パーツを正しくマージしてデータをローカル ファイル システムに収集する方法は? dfs -getmerge ...
機能しません-メタデータを実際の寄木細工のファイルとマージします..
amazon-s3 - 単純な SparkSQL クエリでパーティションがプルーニングされない
SparkSQL テーブル (S3 の寄木細工) から個々のパーティションを効率的に選択しようとしています。ただし、Spark がフィルターを通過したファイルだけでなく、テーブル内のすべての寄木細工のファイルを開いている証拠が見られます。これにより、多数のパーティションを持つテーブルでは、小さなクエリでもコストがかかります。
これがわかりやすい例です。SparkSQL と Hive メタストアを使用して、S3 に単純なパーティション テーブルを作成しました。
次のセッションでは、このテーブルのサブセットを選択したいと考えています。
印刷された後続のログでは、プルーニングが行われていることがわかります。
しかし、すべてのパーティションから寄木細工のファイルが開かれていることがわかります。
パーティションが 3 つしかない場合、これは問題にはなりませんが、数千になると、かなりの遅延が発生します。これらの無関係なファイルがすべて開かれているのはなぜですか?
apache - ビルドの失敗 - Apache Parquet-MR ソース (mvn インストールの失敗)
https://github.com/apache/parquet-mrから取得した parquet-mr ソースをビルドするために「mvn clean install」を実行しようとすると、次のエラーが発生します。
「mvn --version」は次のとおりです。
誰かが私を同じように案内できますか? これに関するヘルプは大歓迎です。ありがとうございました!
parquet - Parquet が MR ジョブで概要ファイル (_metadata) を圧縮することは可能ですか?
現在、mapreduce ジョブを使用してデータを変換し、結果を Parquet 形式で保存しています。
サマリー ファイル (_metadata) も生成されます。しかし、問題は大きすぎることです(5G以上)。サイズを小さくする方法はありますか?