問題タブ [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-pig - 複数のディレクトリからリレーションをロードする
次のようなディレクトリ構造があるとします。
orc ファイルは foo1 と foo2 にあります。おそらく、foo の下に任意の数のサブディレクトリが存在する可能性があります。(それらは分割されたファイルです)。
サブディレクトリ内のすべてのファイルをリレーションにロードするにはどうすればよいですか?
私はもう試した:
これはエラーにはなりませんが、リレーションには必要なデータのほとんどがありません。これが実際に何をしているのか、私は本当に理解していません。
これにより、ファイルが見つからないという例外が発生します。
これにより、ファイルが見つからないという例外も発生します。
私は何を間違っていますか?
hive - Hive ORC テーブルで ClassCastException を取得する
Cloudera 8.1 を使用しています。Hive で、CSV ファイルを使用して ORC 形式のテーブルをロードしました。ロードされたテーブルをクエリしようとすると、次のエラーが発生します。
例外 java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.io.HiveVarcharWritable を org.apache にキャストできませんで失敗しました。 hadoop.io.IntWritable
hadoop - バケット化されたテーブルでの Hive クエリが遅い
私は2つのテーブルを持っています。
一方はバケット化されていますが、他方はそうではありません - それらが同一であることを除いて。
両方とも orc として保存され、パーティション化されています。
特定のパーティションでバケット テーブルをクエリすると、同じパーティションでそのツインをクエリするよりもはるかに遅くなります。
それは期待されていますか?
そうでない場合、その理由は何ですか?
はいの場合、バケット化されたテーブルを保持する唯一の動機は結合とサンプリングであると結論付ける必要があります。この場合、テーブルの 2 つのコピーを保持します。
apache - Hive 挿入ステートメントに時間がかかりすぎる
1 つのファイル (test.hql) に 200 個の Insert ステートメントがあり、それらを ORC 形式のハイブ テーブルに挿入します。各挿入にはかなりの時間がかかり (40 秒)、完全なプロセスに 2 時間近くかかります。物事をスピードアップする方法はありますか?
tmp (テキスト形式) テーブルを作成し、単純な挿入上書きを行うこともできましたが、それは許可されていません.. 新しい DDL を作成できません.. -> 1 つのオプションは、シェルで test.hql を中断し、並列プロセスで実行することです。Hive自体でこれらの挿入を高速化できる他の方法はありますか??
hadoop - ORC テーブルでハイブ選択クエリが失敗しました
例外:
例外 java.io.IOException:java.io.IOException: Somehow read -1 bytes trying to skip 6257 more bytes to seek to position 6708, size: 1290047 で失敗しました
cloud dataproc でそれを修正する方法について誰か考えがありますか?
hadoop - ORC はどのようにフィールドを区切りますか?
これがばかげた質問であることはわかっていますが、何時間もグーグルで検索しても答えが得られません。
区切り文字がどのように機能するかは、csv などのプレーン テキスト形式で簡単に理解できます。一方、ORC ではバイナリが HDFS に格納されているため、フィールドの区切り文字は何でしょうか? ORC には区切り文字がないと言われましたが、私はこのステートメントに非常に疑問を持っています。
行グループとして格納されている場合でも、各行グループの 1 つの列に対して、複数のデータ フィールドが存在する可能性があります。各フィールドは次のフィールドとどのように区別されますか? 各行は次の行からどのように区切られていますか? これを達成するための区切り文字はありますか?
コメントありがとうございます!
oracle - Hive VARCHAR フィールドに Unicode 文字を格納できますか?
FAQ を読み、このセクションによると、Hive は明らかに Unicode をサポートしています。しかし、Hive テーブルのどのデータ型フィールドで Unicode 文字が許可されているかわかりません。それVARCHAR
かSTRING
?オンラインで回答を見つけることができず、まだテストすることもできません。
ORC または Parquet を使用する可能性が高いのですが、どちらも Unicode 互換のフィールドをサポートしていますか? NVARCHAR
データはOracle ソースのフィールドから取得されます
apache-spark - write.save の Spark partitionBy はすべてのデータをドライバーにもたらしますか?
基本的に、いくつかの単純なjsonファイルを読み取り、それらを1つのフィールドで分割されたorcファイルとして書き込もうとするpython sparkジョブがあります。一部のキーは非常に大きく、他のキーは非常に小さいため、パーティションはあまりバランスが取れていません。
次のようなことをすると、メモリの問題が発生しました。
エグゼキュータにメモリを追加しても効果がないように見えましたが、ドライバのメモリを増やして解決しました。これは、すべてのデータがドライバーに送信されて書き込まれるということですか? 各エグゼキュータは独自のパーティションを書き込むことはできませんか? Spark 2.0.1を使用しています