問題タブ [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
673 参照

hive - ファイル形式が異なるハイブのファイルサイズ

小さなファイル (2MB) があります。このファイル (テキストファイルとして保存) に対して外部ハイブ テーブルを作成しました。別のテーブル (ORC として保存) を作成し、前のテーブルからデータをコピーしました。ORCテーブルのデータサイズを確認したところ、2MB以上ありました。
ORCは圧縮ファイル形式なので、データサイズは少なくていいのでは?

0 投票する
0 に答える
303 参照

hive - ハイブの酸特性

ハイブにテキストファイル形式で保存されているテーブルで酸トランザクションを実行できるかどうかを知りたかっただけです。テーブルをテキストファイル形式で保存し、orc 形式で新しいテーブルを作成し、textfile テーブルを使用してデータを挿入できることを知っています。このオーバーヘッドを削減する他のアプローチはありますか?

0 投票する
2 に答える
3081 参照

hive - ORC として格納されているハイブ テーブルの列を変更する方法はありますか?

一般的な Hive に関する質問が既にあります ( Is there a way to alter column type in hive table? )。この質問への回答は、alter table change コマンドでスキーマを変更できると述べています。

ただし、ファイルがORCとして保存されている場合、これも可能ですか?

0 投票する
1 に答える
1426 参照

scala - Spark で作成されたデータの上に Hive テーブルを作成する

次のように、Spark で ORC 形式のデータを作成しました。

今、次のようにHiveで外部テーブルを作成しようとしています:

私がする時:

"select count(*) from mydb.mytable"

カウント値を 0 として取得します。しかし、Spark-shell で実行すると、次のようになります。

期待どおりに500,000行を取得します。

「パーティション」が認識されていないようです。Spark で作成されたデータの上に「外部」Hive テーブルを作成するにはどうすればよいですか?

0 投票する
1 に答える
80 参照

hadoop - バケット化されたテーブルに挿入すると、空のテーブルが生成されます

バケット化されたテーブルに挿入しようとしています。クエリを実行すると、すべて問題なく表示され、レポートに書き込まれたバイト数が表示されます。Hive ログにもエラーはありません。
しかし、テーブルを見ると何もありません:(

CREATE TABLE test(
test_datestring,
test_idstring,
test_titlestring,)
CLUSTERED BY (
text_date)
INTO 100 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
'\n' によって終了する行は
ORCの場所として保存され ます 'hdfs:
//myserver/data/hive/databases/test.db/test ' '真実')



INSERT INTO test.test
SELECT 'test_date', 'test_id', 'test_title' from test2.green

結果
終了ジョブ = job_148140234567_254152
テーブル test.test にデータをロード中
テーブル test.teststats: [numFiles=100, numRows=1601822, totalSize=9277056, rawDataSize=0]
MapReduce ジョブの起動:
Stage-Stage-1: Map: 6 Reduce: 100累積 CPU: 423.34 秒
HDFS 読み取り: 148450105
HDFS 書き込み: 9282219
成功

hive> select * from test.test limit 2;
OK
かかった時間: 0.124 秒
hive>

0 投票する
0 に答える
483 参照

apache-spark - 単一の列がクエリされても、Spark ORC リーダーが完全なファイルを読み取っている

ORC ファイルを読み取り、その上でビジネス ロジックを実行する必要がある場合、spark 1.6.1 を使用してソリューションを構築しています。ORC ファイルの読み取りに関する Spark のドキュメントには、列形式の形式により、リーダーは現在のクエリに必要な列のみを読み取り、圧縮解除し、処理できると記載されています。しかし、私たちの場合、SQL クエリが 1 つの列のみを選択しても、SparkUI はファイル全体が読み取られていることを示しています。

ここで寄木細工のフォーマットに関する同様の質問を見つけました->特定の Parquet Column を読み込んでいる間、 Parquet-Sql で指定された単一の列ではなく、すべての列が読み込まれます。しかし、それは解決されていません。

サンプルコード

ORC ファイルは次のように作成されています。

そして、次のように読まれます。

HDFS での ORC データのサイズは 91.6 M で、SparkUI では、ステージタブの [入力] 列に同じ数値 '91.6 M' が表示されます。このコードに何か問題がありますか? 誰かがこの動作を説明できますか?

Spark UI

0 投票する
0 に答える
481 参照

hadoop - Hive のデータ処理に予想以上の時間がかかる

ハイブの ORC タイプのデータに関する問題に直面しています。誰かが同様の問題に直面した場合、いくつかの提案が必要でした。

ハイブテーブルに巨大なデータが保存されています(パーティション化およびORC化)。ORC のデータ サイズは約 4 TB です。このデータを圧縮されていない通常のハイブ テーブル (同じテーブル構造) にコピーしようとしています。

プロセスは永久に実行されており、追跡中に膨大な量の非 DFS ストレージを占有しています。現在、プロセスは 12 時間実行されており、130 TB の非 DFS を占有しています。これは、20 台のサーバーを持つ Hadoop クラスターとしては非常に異常です。

以下は私のパラメータです:

この ORCed テーブルに対する単純な結合または通常の分析操作はどうなるのだろうか。また、ORC 形式のデータは基本的な DML クエリのパフォーマンスを向上させるという理論もあります。

私が何か間違ったことをしているのか、それともこれが正常な動作なのか、誰かに教えてもらえますか? ORCされたデータで、これは私の最初の経験です。

まず最初に、ヤーン ログ ファイルが巨大なサイズで作成されていることがわかりました。ほとんどの場合、エラーログはヘビーでのみ表示されます。

ありがとう

0 投票する
1 に答える
3591 参照

scala - DataFrameをcvsとして保存する際のSpark 2.0 DataSourceRegister構成エラー

Spark 2.0、Scala 2.11 (Spark 1.6 からコードを移行するプロセス) でデータ フレームを cvs に保存しようとしています。

spark セッションは正しく構築されていますか?

エラーは実行時 (コードのコンパイル時) にのみ受信されます。

私が見落としている明らかな何かがありますか?詳細が必要ですか?アドバイスをいただければ幸いです。ありがとう!