問題タブ [parquet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive で大文字と小文字を区別する列名
パーティションを持つ外部 HIVE テーブルを作成しようとしています。一部の列名には大文字が含まれています。これにより、大文字の列名の値が NULL として返されるため、テーブルの作成中に問題が発生しました。次に、SERDEPROPERTIES を使用してこれを処理するために ParquetSerDe を変更しましたが、これは外部テーブル (パーティション分割されていません) で動作していました。今、外部テーブル WITH パーティションを作成しようとしていますが、大文字の列 (例: FieldName) にアクセスしようとすると、このエラーが発生します。tablename から FieldName を選択します。
考えられる提案はありますか?データ ソースのスキーマを変更できません。
これは、テーブルを作成するために使用するコマンドです-
次に、パーティションを追加します。
hive - 寄木細工の裏打ちされたテーブルが壊れています - HIVE - 末尾のマジック ナンバー [80, 65, 82, 49] が予想されますが、[1, 92, 78, 10] が見つかりました
ディストリビューション: CDH-4.6.0-1.cdh4.6.0.p0.26 Hive バージョン: 0.10.0 Parquet バージョン: 1.2.5
圧縮と列指向ストレージを利用するために、最近 Parquet に変換したログ ファイルでいっぱいの 2 つの大きな日付パーティション化された外部 Hive テーブルがあります。これまでのところ、私はパフォーマンスにとても満足しています。
最近、開発チームがログにフィールドを追加したため、両方のログ テーブルに列を追加する必要がありました。1つは完全に機能しましたが、もう1つは破損しているようです。変更を元に戻しましたが、まだテーブルをクエリできません。
データは (変更されていないため) 問題ないと確信していますが、メタストアに何か問題があります。msck 修復テーブルは、ドロップ/作成後にパーティションを再作成しますが、以下のエラーを処理しません。それを修正できることが 2 つありますが、どちらも私を満足させるものではありません。
- データを再挿入します。
- 本番クラスターからテーブルにデータをコピーして戻します。
上記の2つのオプションに頼らなくてもテーブルを修正できる、私が知らないコマンドがあることを本当に望んでいます。おっしゃる通り、データは問題ありません。私はエラーから抜け出し、いくつかの結果を得ましたが、それらはすべて、使用していたものではないImpalaに関連しています。
問題はこれです:
原因: java.lang.RuntimeException: hdfs://hdfs-dev/data/prod/upload-metrics/upload_metrics_hist/dt=2014-07-01/000005_0 は Parquet ファイルではありません。末尾にマジック ナンバー [80, 65, 82, 49] が期待されていましたが、[1, 92, 78, 10] が見つかりました
フルエラー
hdfs - テキスト ファイルを Parquet にカスケードする
Cascading を使用してファイルを Parquet に変換しようとしています。しかし、私は以下のエラーが発生しています。
エラー
コード
scalding - Scalding は、Parquet を使用した述語プッシュダウンによるレコード フィルタリングをサポートしていますか?
フィルターに失敗するレコードを読み取る必要がないため、明らかに速度が向上します。Spark がサポートしていることはわかりますが、Scalding を使用した方法に関するドキュメントは見つかりませんでした。
mapreduce - 寄木細工: 特定の列をメモリに読み込む
mysql テーブルを寄木細工のファイル (avro ベース) にエクスポートしました。今、そのファイルから特定の列を読みたいと思っています。特定の列を完全に読み取るにはどうすればよいですか? Java コードの例を探しています。
必要な列を渡してテーブルの 2D 配列を取得できる API はありますか?
parquet - ParquetFileWriter を使用して寄木細工のファイルにデータを書き込みますか?
私は寄木細工に新しい蜂です!parquetWriterを使用して寄木細工のファイルにデータを書き込むために、以下のコード例を試しました。
http://php.sabscape.com/blog/?p=623
上記の例では parquetWriter を使用していますが、ParquetFileWriter を使用して効率的に parquet ファイルにデータを書き込みたいと考えています。
例またはParquetFileWriterを使用して寄木細工のファイルを作成する方法を提案してください。
hadoop - scalding への parquet-avro サポートの追加
とScalding
Source
の間の変換を処理するを作成するにはどうすればよいですか。avro
parquet
解決策は次のとおりです。
注: Cascading には、thrift と parquet を活用するためのモジュールがあることに気付きました。ここから探し始めるのが良いと思います。また、 google-groups/scalding-devでスレッドを開きました
hadoop - Parquet ファイルに挿入すると、512 MB のファイルが生成されます。1 GB のファイルを生成するには?
Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。
以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーター セットです。
次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。
約 1 GB のファイル サイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?
hadoop - AvroParquetOutputFormat で複数の Avro スキーマを設定する方法は?
私の MapReduce ジョブでは、AvroParquetOutputFormat を使用して、Avro スキーマを使用して Parquet ファイルに書き込みます。
アプリケーション ロジックでは、Reducer によって作成される複数の種類のファイルが必要であり、各ファイルには独自の Avro スキーマがあります。
クラス AvroParquetOutputFormat には、出力の Avro スキーマを設定する静的メソッド setSchema() があります。コードを見ると、AvroParquetOutputFormat は AvroWriteSupport.setSchema() を使用していますが、これも静的実装です。
AvroWriteSupport を拡張してロジックをハッキングすることなく、単一の MR ジョブで AvroParquetOutputFormat から複数の Avro スキーマ出力を実現する簡単な方法はありますか?
ポインタ/入力は高く評価されています。
ありがとうございます。それでは、お元気で
MK
java - csv ファイルを寄木細工に変換する方法
BigData は初めてです。csv/txt ファイルを Parquet 形式に変換する必要があります。私はたくさん検索しましたが、そうする直接的な方法を見つけることができませんでした。それを達成する方法はありますか?