問題タブ [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1116 参照

apache-spark - トランザクション用に有効化された Hive バケット テーブル

そのため、以下のステートメントを使用して、バケット化され、トランザクションが有効になっている ORC 形式の Hive テーブルを作成しようとしています。

テーブルは Hive で作成され、Metastore と Spark SQL (Hive JDBC 上で実行するように構成した) の両方で Beeline にも反映されます。

現在、Hive を介してこのテーブルにデータを挿入しています。ただし、挿入後にデータが Spark SQL に反映されないことがわかります。Hive でのみ正しく反映されます。

Thrift Server を再起動すると、テーブルにデータのみが表示されます。

0 投票する
1 に答える
1019 参照

apache-spark - Hive orc テーブルの spark beeline からのデータを表示できません

以下のように orc ハイブ テーブルを作成しました。

  • orc TBLPROPERTIES ('transactional'='true') として格納された 2 つのバケットに (id) によってクラスター化されたテーブル forest41 (id int、type string) を作成します。

    テーブル forest41 値 (1,'赤'),(2,'白'),(3,'黒') に挿入します。

Spark beeline からのデータを表示しようとすると、データが表示されず、例外もスローされません。

以下は私が実行したクエリです: select * from default.forest40 limit 10

ただし、spark ジョブ コンソールでは、上記のクエリに関連するジョブの 1 つが表示されます - Skipped Stages (1) -- Spark JDBC Server Query

0 投票する
0 に答える
1107 参照

apache-pig - Pig で複数の Orc ファイルを読み取る

豚の OrcStorage() を使用して、ディレクトリに存在する複数の Orc ファイルを読み込もうとしています。私はグロブ技術を使用しようとしましたが、それは私にとってはうまくいかず、ファイルが存在しないというエラーがスローされました。この機能を豚に実装する方法を教えてください。

使用したサンプル ファイル:

使用コード:

エラーログ:

0 投票する
2 に答える
5616 参照

scala - spark rdd を ORC 形式で保存する

RDD を orc 形式で保存しようとしています。

正常にコンパイルされますが、機能しません。次の例外が発生します。

私のデータはhdfsにあり、どのハイブテーブルにも関連していないため、これを行うためにハイブを使用することは避けたいと思います。回避策はありますか?Parquet 形式では問題なく動作します。前もって感謝します。

0 投票する
1 に答える
2220 参照

hadoop - HIVEを使用せずにHDFSにORC形式でavroデータを保存する

avro データの保存を ORC と Parquet 形式で比較しています。「com.twitter」 % 「parquet-avro」 % 「1.6.0」 を使用して Avro データを parquet に保存することに成功しましたが、保存する情報や API が見つかりませんでした。 ORC 形式の avro データ。

ORC は Hive のみと密接に結合されていますか?

ありがとう

0 投票する
1 に答える
773 参照

java - Java を使用した Hive Text から ORC への変換

Java ソリューションを使用してテキスト ファイルを Hive で使用する ORC ファイルに変換できるかどうかを知りたいです。

ハイブクエリを使用して変換したくありません。助言がありますか?

0 投票する
1 に答える
540 参照

sql - 常に1つのマッパーのみを使用するhadoop orcテーブル

私の現在のプロジェクトでは、スナップ圧縮形式の Orc ファイルを使用しています。どのクエリを実行しても、1 つのマッパーのみで実行されます。mapred.max.split.size と mapred.min.split.size を構成しようとしましたが、マッパーの数に変化は見られません。リデューサーの数は十分ですが、マッパーは単一のマッパーであるため、.

x による z グループから x,max(y) を選択します。mapper を完了するのに約 20 分かかります。マッパーの数を増やすために他にすべきことはありますか?

パーティションまたはバケットを使用するように言わないでください。テーブルで既に使用しているためです。

0 投票する
0 に答える
536 参照

hive - オークハイブテーブルにデータを挿入する方法

のような ORC ハイブ テーブルにデータを直接追加することは可能insert into table name,fieldsですか?

多くの例を見ました。これらすべての例で、データは別のテーブルから選択してロードされます。