“orc”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

165 参照

apache-pig - 複数のディレクトリからリレーションをロードする

次のようなディレクトリ構造があるとします。

orc ファイルは foo1 と foo2 にあります。おそらく、foo の下に任意の数のサブディレクトリが存在する可能性があります。(それらは分割されたファイルです)。

サブディレクトリ内のすべてのファイルをリレーションにロードするにはどうすればよいですか?

私はもう試した：

これはエラーにはなりませんが、リレーションには必要なデータのほとんどがありません。これが実際に何をしているのか、私は本当に理解していません。

これにより、ファイルが見つからないという例外が発生します。

これにより、ファイルが見つからないという例外も発生します。

私は何を間違っていますか？

apache-pig orc

2016-09-23T21:33:25.393

0 投票する

1 に答える

654 参照

hive - Hive ORC テーブルで ClassCastException を取得する

Cloudera 8.1 を使用しています。Hive で、CSV ファイルを使用して ORC 形式のテーブルをロードしました。ロードされたテーブルをクエリしようとすると、次のエラーが発生します。

例外 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.io.HiveVarcharWritable を org.apache にキャストできませんで失敗しました。 hadoop.io.IntWritable

2016-10-04T02:04:51.843

0 投票する

1 に答える

550 参照

hadoop - バケット化されたテーブルでの Hive クエリが遅い

私は2つのテーブルを持っています。
一方はバケット化されていますが、他方はそうではありません - それらが同一であることを除いて。
両方とも orc として保存され、パーティション化されています。
特定のパーティションでバケットテーブルをクエリすると、同じパーティションでそのツインをクエリするよりもはるかに遅くなります。
それは期待されていますか？
そうでない場合、その理由は何ですか？
はいの場合、バケット化されたテーブルを保持する唯一の動機は結合とサンプリングであると結論付ける必要があります。この場合、テーブルの 2 つのコピーを保持します。

hadoop hive hiveql orc

2016-10-05T14:44:00.083

0 投票する

2 に答える

1762 参照

apache - Hive 挿入ステートメントに時間がかかりすぎる

1 つのファイル (test.hql) に 200 個の Insert ステートメントがあり、それらを ORC 形式のハイブテーブルに挿入します。各挿入にはかなりの時間がかかり (40 秒)、完全なプロセスに 2 時間近くかかります。物事をスピードアップする方法はありますか?

tmp (テキスト形式) テーブルを作成し、単純な挿入上書きを行うこともできましたが、それは許可されていません.. 新しい DDL を作成できません.. -> 1 つのオプションは、シェルで test.hql を中断し、並列プロセスで実行することです。Hive自体でこれらの挿入を高速化できる他の方法はありますか??

apache hive orc

2016-10-10T08:31:39.337

0 投票する

1 に答える

189 参照

hadoop - ORC テーブルでハイブ選択クエリが失敗しました

例外：

例外 java.io.IOException:java.io.IOException: Somehow read -1 bytes trying to skip 6257 more bytes to seek to position 6708, size: 1290047 で失敗しました

cloud dataproc でそれを修正する方法について誰か考えがありますか?

hadoop hive hadoop-partitioning google-cloud-dataproc orc

2016-10-13T03:10:28.073

0 投票する

1 に答える

1829 参照

hadoop - ORC はどのようにフィールドを区切りますか?

これがばかげた質問であることはわかっていますが、何時間もグーグルで検索しても答えが得られません。

区切り文字がどのように機能するかは、csv などのプレーンテキスト形式で簡単に理解できます。一方、ORC ではバイナリが HDFS に格納されているため、フィールドの区切り文字は何でしょうか? ORC には区切り文字がないと言われましたが、私はこのステートメントに非常に疑問を持っています。

行グループとして格納されている場合でも、各行グループの 1 つの列に対して、複数のデータフィールドが存在する可能性があります。各フィールドは次のフィールドとどのように区別されますか? 各行は次の行からどのように区切られていますか? これを達成するための区切り文字はありますか？

コメントありがとうございます！

hadoop hive hdfs storage orc

2016-10-13T19:38:43.910

0 投票する

0 に答える

499 参照

oracle - Hive VARCHAR フィールドに Unicode 文字を格納できますか?

FAQ を読み、このセクションによると、Hive は明らかに Unicode をサポートしています。しかし、Hive テーブルのどのデータ型フィールドで Unicode 文字が許可されているかわかりません。それVARCHARかSTRING？オンラインで回答を見つけることができず、まだテストすることもできません。

ORC または Parquet を使用する可能性が高いのですが、どちらも Unicode 互換のフィールドをサポートしていますか? NVARCHARデータはOracle ソースのフィールドから取得されます

oracle hadoop unicode parquet orc

2016-11-10T20:30:29.610

0 投票する

1 に答える

1002 参照

apache-spark - write.save の Spark partitionBy はすべてのデータをドライバーにもたらしますか?

基本的に、いくつかの単純なjsonファイルを読み取り、それらを1つのフィールドで分割されたorcファイルとして書き込もうとするpython sparkジョブがあります。一部のキーは非常に大きく、他のキーは非常に小さいため、パーティションはあまりバランスが取れていません。

次のようなことをすると、メモリの問題が発生しました。

エグゼキュータにメモリを追加しても効果がないように見えましたが、ドライバのメモリを増やして解決しました。これは、すべてのデータがドライバーに送信されて書き込まれるということですか? 各エグゼキュータは独自のパーティションを書き込むことはできませんか? Spark 2.0.1を使用しています

apache-spark pyspark hadoop2 orc

2016-11-16T22:34:28.397

問題タブ [orc]

Reference