問題タブ [parquet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
805 参照

hadoop - scalding への parquet-avro サポートの追加

Scalding Sourceの間の変換を処理するを作成するにはどうすればよいですか。avroparquet

解決策は次のとおりです。

注: Cascading には、thrift と parquet を活用するためのモジュールがあることに気付きました。ここから探し始めるのが良いと思います。また、 google-groups/scalding-devでスレッドを開きました

0 投票する
1 に答える
967 参照

hadoop - Parquet ファイルに挿入すると、512 MB のファイルが生成されます。1 GB のファイルを生成するには?

Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。

以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーター セットです。

次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。

約 1 GB のファイル サイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?

0 投票する
1 に答える
1346 参照

hadoop - AvroParquetOutputFormat で複数の Avro スキーマを設定する方法は?

私の MapReduce ジョブでは、AvroParquetOutputFormat を使用して、Avro スキーマを使用して Parquet ファイルに書き込みます。

アプリケーション ロジックでは、Reducer によって作成される複数の種類のファイルが必要であり、各ファイルには独自の Avro スキーマがあります。

クラス AvroParquetOutputFormat には、出力の Avro スキーマを設定する静的メソッド setSchema() があります。コードを見ると、AvroParquetOutputFormat は AvroWriteSupport.setSchema() を使用していますが、これも静的実装です。

AvroWriteSupport を拡張してロジックをハッキングすることなく、単一の MR ジョブで AvroParquetOutputFormat から複数の Avro スキーマ出力を実現する簡単な方法はありますか?

ポインタ/入力は高く評価されています。

ありがとうございます。それでは、お元気で

MK

0 投票する
10 に答える
124898 参照

java - csv ファイルを寄木細工に変換する方法

BigData は初めてです。csv/txt ファイルを Parquet 形式に変換する必要があります。私はたくさん検索しましたが、そうする直接的な方法を見つけることができませんでした。それを達成する方法はありますか?

0 投票する
1 に答える
3252 参照

hadoop - Spark SQL が多数のシャードを含む Parquet データの書き込みを完了できない

Apache Spark SQL を使用して、S3 の json ログ データを S3 上の Parquet ファイルに etl しようとしています。私のコードは基本的に次のとおりです。

このコードは、最大 2000 個のパーティションがある場合に機能し、データの量に関係なく、5000 個以上で失敗します。通常はパーティションを合体させて許容できる数にすることができますが、これは非常に大きなデータセットであり、2000 個のパーティションでこの質問で説明されている問題に遭遇しました

これを、ec2 の R3.xlarge の spark-1.1.0 で実行しています。上記のコードを実行するために、spark-shell コンソールを使用しています。その後、SchemaRDD オブジェクトに対して重要なクエリを実行できるようにdataなったため、リソースの問題ではないようです。結果の Parquet ファイルを読み取ってクエリを実行することもできますが、サマリー ファイルがないため非常に時間がかかります。

0 投票する
0 に答える
888 参照

apache-spark - 再分割された SchemaRDD を Spark SQL で Parquet に書き込む際のエラー

セーブ Spark SQL テーブルを Parquet ファイルに書き込もうとしています。他の 問題のため、書き込む前にパーティションの数を減らす必要があります。私のコードは

これはスローします

合体ステップを実行し、使用するコードを変更するshuffle=truerepartition、同じエラーをスローすると、コードは正常に機能します。私はspark-1.1.0を使用しています。

0 投票する
1 に答える
2272 参照

amazon-s3 - S3 で >>25T SchemaRDD を Parquet 形式で保存する

非常に大きな SchemaRDD を S3 の Parquet 形式で保存しようとすると、多くの問題が発生しました。これらの問題については、すでに具体的な質問を投稿しましたが、これが本当に必要なことです。コードは次のようになります

約 2000 を超えるパーティションがある場合、または 5G を超えるパーティションがある場合、問題が発生します。これにより、この方法で処理できる SchemaRDD の最大サイズに上限が設定されます。パーティションのサイズは大きく異なり、プロセスが失敗するために必要な 5G パーティションは 1 つだけであるため、実際の制限は 1T に近くなります。

私が遭遇した特定の問題を扱う質問は、

この質問は、上記の問題のいずれかを直接解決することを必ずしも必要としない、主な目標に対する解決策があるかどうかを確認することです。


物事を蒸留するには2つの問題があります

  • 5G を超える単一のシャードを S3 に書き込むと失敗します。s3n://私の知る限り、これはバケットの組み込み制限です。バケットでは可能ですs3://が、Spark からは機能しないようでhadoop distcp、ローカル HDFS からも機能しません。

  • 数千のシャードがあると、サマリー ファイルの書き込みが失敗する傾向があります。これには複数の問題があるようです。S3 に直接書き込むと、上記のリンクされた質問でエラーが発生します。ローカル HDFS に直接書き込むと、r3.8xlarge (244G RAM) でさえ、約 5000 個のシャードがある場合に OOM エラーが発生します。これは、実際のデータ量とは無関係のようです。サマリー ファイルは、効率的なクエリに不可欠なようです。

これらの問題をまとめると、S3 の Parquet テーブルは 25T に制限されます。実際には、RDD 内でシャードのサイズが大きく異なる可能性があり、5G 制限が最大のシャードに適用されるため、実際には大幅に少なくなります。

>>25T RDD を Parquet として S3 に書き込むにはどうすればよいですか?

Spark-1.1.0 を使用しています。

0 投票する
1 に答える
7866 参照

parquet - parquet ファイルの作成時に .crc ファイルの作成を回避する方法

寄木細工のフレームワークを使用して、寄木細工のファイルを作成しています。このコンストラクターで寄木細工ライターを作成します--

parquet ファイルが作成されるたびに、それに対応する .crc ファイルもディスク上に作成されます。その .crc ファイルの作成を回避するにはどうすればよいですか? 私が設定しなければならないフラグまたは何かがありますか?

ありがとう

0 投票する
1 に答える
102 参照

parquet - 列レベルの圧縮仕様

parquet-mr では現在、デフォルトですべての列に適用される圧縮を指定できます。将来、個々の列に固有の圧縮を指定するサポートがサポートされる場合、「デフォルトの圧縮」の現在のサポートは引き続きサポートされますか、それとも廃止されますか?

ありがとう、ラビC

0 投票する
1 に答える
2008 参照

mapreduce - Parquet Fileformat を使用してスキーマ データ用の Hive (0.10) テーブルを作成する

サーバーからハイブにデータをエクスポートしたい。Java クラスの形式で 3 レベルのネストされたデータがあります。Avro Tools ReflectData を使用して avro スキーマを作成し、ReflectDatumWriter を使用して avro ファイルにデータを書き出すことができました。Hive では、テーブルを作成し、

同じデータを寄木細工の形式でエクスポートする方法があることがわかります http://blog.cloudera.com/blog/2014/05/how-to-convert-existing-data-into-parquet/

それが完了し、寄木細工のファイルに同じデータがあるとしましょう..このエクスポート寄木細工のデータを Hive で照会するにはどうすればよいですか? しかし、ハイブのスキーマを指定するにはどうすればよいですか? ネストされたスキーマ全体を使用して、ハイブに巨大なテーブル作成ステートメントを記述したくありません。スキーマの一部のメンバーに null 値を指定するにはどうすればよいですか? avro スキーマのような寄木細工のスキーマを直接作成し、create table ステートメントを使用して Hive に渡す方法はありますか?