“parquet”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

14875 参照

hadoop - Hive で大文字と小文字を区別する列名

パーティションを持つ外部 HIVE テーブルを作成しようとしています。一部の列名には大文字が含まれています。これにより、大文字の列名の値が NULL として返されるため、テーブルの作成中に問題が発生しました。次に、SERDEPROPERTIES を使用してこれを処理するために ParquetSerDe を変更しましたが、これは外部テーブル (パーティション分割されていません) で動作していました。今、外部テーブル WITH パーティションを作成しようとしていますが、大文字の列 (例: FieldName) にアクセスしようとすると、このエラーが発生します。tablename から FieldName を選択します。

考えられる提案はありますか？データソースのスキーマを変更できません。

これは、テーブルを作成するために使用するコマンドです-

次に、パーティションを追加します。

2014-07-15T20:03:20.950

0 投票する

0 に答える

6230 参照

hive - 寄木細工の裏打ちされたテーブルが壊れています - HIVE - 末尾のマジックナンバー [80, 65, 82, 49] が予想されますが、[1, 92, 78, 10] が見つかりました

ディストリビューション: CDH-4.6.0-1.cdh4.6.0.p0.26 Hive バージョン: 0.10.0 Parquet バージョン: 1.2.5

圧縮と列指向ストレージを利用するために、最近 Parquet に変換したログファイルでいっぱいの 2 つの大きな日付パーティション化された外部 Hive テーブルがあります。これまでのところ、私はパフォーマンスにとても満足しています。

最近、開発チームがログにフィールドを追加したため、両方のログテーブルに列を追加する必要がありました。1つは完全に機能しましたが、もう1つは破損しているようです。変更を元に戻しましたが、まだテーブルをクエリできません。

データは (変更されていないため) 問題ないと確信していますが、メタストアに何か問題があります。msck 修復テーブルは、ドロップ/作成後にパーティションを再作成しますが、以下のエラーを処理しません。それを修正できることが 2 つありますが、どちらも私を満足させるものではありません。

データを再挿入します。
本番クラスターからテーブルにデータをコピーして戻します。

上記の2つのオプションに頼らなくてもテーブルを修正できる、私が知らないコマンドがあることを本当に望んでいます。おっしゃる通り、データは問題ありません。私はエラーから抜け出し、いくつかの結果を得ましたが、それらはすべて、使用していたものではないImpalaに関連しています。

問題はこれです：

原因: java.lang.RuntimeException: hdfs://hdfs-dev/data/prod/upload-metrics/upload_metrics_hist/dt=2014-07-01/000005_0 は Parquet ファイルではありません。末尾にマジックナンバー [80, 65, 82, 49] が期待されていましたが、[1, 92, 78, 10] が見つかりました

フルエラー

hive hdfs parquet

2014-07-18T17:29:55.933

0 投票する

2 に答える

875 参照

hdfs - テキストファイルを Parquet にカスケードする

Cascading を使用してファイルを Parquet に変換しようとしています。しかし、私は以下のエラーが発生しています。

エラー

コード

hdfs file-conversion cascading parquet

2014-07-23T15:27:51.597

0 投票する

2 に答える

412 参照

scalding - Scalding は、Parquet を使用した述語プッシュダウンによるレコードフィルタリングをサポートしていますか?

フィルターに失敗するレコードを読み取る必要がないため、明らかに速度が向上します。Spark がサポートしていることはわかりますが、Scalding を使用した方法に関するドキュメントは見つかりませんでした。

scalding parquet

2014-08-03T14:10:27.953

0 投票する

3 に答える

1190 参照

mapreduce - 寄木細工: 特定の列をメモリに読み込む

mysql テーブルを寄木細工のファイル (avro ベース) にエクスポートしました。今、そのファイルから特定の列を読みたいと思っています。特定の列を完全に読み取るにはどうすればよいですか? Java コードの例を探しています。

必要な列を渡してテーブルの 2D 配列を取得できる API はありますか?

mapreduce avro parquet

2014-08-15T21:27:03.753

0 投票する

1 に答える

3212 参照

parquet - ParquetFileWriter を使用して寄木細工のファイルにデータを書き込みますか?

私は寄木細工に新しい蜂です！parquetWriterを使用して寄木細工のファイルにデータを書き込むために、以下のコード例を試しました。

http://php.sabscape.com/blog/?p=623

上記の例では parquetWriter を使用していますが、ParquetFileWriter を使用して効率的に parquet ファイルにデータを書き込みたいと考えています。

例またはParquetFileWriterを使用して寄木細工のファイルを作成する方法を提案してください。

parquet

2014-09-07T16:29:12.927

0 投票する

1 に答える

805 参照

hadoop - scalding への parquet-avro サポートの追加

とScalding Sourceの間の変換を処理するを作成するにはどうすればよいですか。avroparquet

解決策は次のとおりです。

注: Cascading には、thrift と parquet を活用するためのモジュールがあることに気付きました。ここから探し始めるのが良いと思います。また、 google-groups/scalding-devでスレッドを開きました

hadoop avro cascading scalding parquet

2014-09-12T13:28:15.830

0 投票する

1 に答える

967 参照

hadoop - Parquet ファイルに挿入すると、512 MB のファイルが生成されます。1 GB のファイルを生成するには?

Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。

以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーターセットです。

次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。

約 1 GB のファイルサイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?

hadoop impala parquet

2014-09-17T18:50:51.217

0 投票する

1 に答える

1346 参照

hadoop - AvroParquetOutputFormat で複数の Avro スキーマを設定する方法は?

私の MapReduce ジョブでは、AvroParquetOutputFormat を使用して、Avro スキーマを使用して Parquet ファイルに書き込みます。

アプリケーションロジックでは、Reducer によって作成される複数の種類のファイルが必要であり、各ファイルには独自の Avro スキーマがあります。

クラス AvroParquetOutputFormat には、出力の Avro スキーマを設定する静的メソッド setSchema() があります。コードを見ると、AvroParquetOutputFormat は AvroWriteSupport.setSchema() を使用していますが、これも静的実装です。

AvroWriteSupport を拡張してロジックをハッキングすることなく、単一の MR ジョブで AvroParquetOutputFormat から複数の Avro スキーマ出力を実現する簡単な方法はありますか?

ポインタ/入力は高く評価されています。

ありがとうございます。それでは、お元気で

MK

hadoop avro parquet

2014-09-25T19:43:09.810

0 投票する

10 に答える

124898 参照

java - csv ファイルを寄木細工に変換する方法

BigData は初めてです。csv/txt ファイルを Parquet 形式に変換する必要があります。私はたくさん検索しましたが、そうする直接的な方法を見つけることができませんでした。それを達成する方法はありますか？

java parquet

2014-09-30T15:18:49.737

問題タブ [parquet]

エラー

コード

Reference