問題タブ [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - トランザクション用に有効化された Hive バケット テーブル
そのため、以下のステートメントを使用して、バケット化され、トランザクションが有効になっている ORC 形式の Hive テーブルを作成しようとしています。
テーブルは Hive で作成され、Metastore と Spark SQL (Hive JDBC 上で実行するように構成した) の両方で Beeline にも反映されます。
現在、Hive を介してこのテーブルにデータを挿入しています。ただし、挿入後にデータが Spark SQL に反映されないことがわかります。Hive でのみ正しく反映されます。
Thrift Server を再起動すると、テーブルにデータのみが表示されます。
apache-spark - Hive orc テーブルの spark beeline からのデータを表示できません
以下のように orc ハイブ テーブルを作成しました。
orc TBLPROPERTIES ('transactional'='true') として格納された 2 つのバケットに (id) によってクラスター化されたテーブル forest41 (id int、type string) を作成します。
テーブル forest41 値 (1,'赤'),(2,'白'),(3,'黒') に挿入します。
Spark beeline からのデータを表示しようとすると、データが表示されず、例外もスローされません。
以下は私が実行したクエリです: select * from default.forest40 limit 10
ただし、spark ジョブ コンソールでは、上記のクエリに関連するジョブの 1 つが表示されます - Skipped Stages (1) -- Spark JDBC Server Query
apache-pig - Pig で複数の Orc ファイルを読み取る
豚の OrcStorage() を使用して、ディレクトリに存在する複数の Orc ファイルを読み込もうとしています。私はグロブ技術を使用しようとしましたが、それは私にとってはうまくいかず、ファイルが存在しないというエラーがスローされました。この機能を豚に実装する方法を教えてください。
使用したサンプル ファイル:
使用コード:
エラーログ:
scala - spark rdd を ORC 形式で保存する
RDD を orc 形式で保存しようとしています。
正常にコンパイルされますが、機能しません。次の例外が発生します。
私のデータはhdfsにあり、どのハイブテーブルにも関連していないため、これを行うためにハイブを使用することは避けたいと思います。回避策はありますか?Parquet 形式では問題なく動作します。前もって感謝します。
hadoop - HIVEを使用せずにHDFSにORC形式でavroデータを保存する
avro データの保存を ORC と Parquet 形式で比較しています。「com.twitter」 % 「parquet-avro」 % 「1.6.0」 を使用して Avro データを parquet に保存することに成功しましたが、保存する情報や API が見つかりませんでした。 ORC 形式の avro データ。
ORC は Hive のみと密接に結合されていますか?
ありがとう
java - Java を使用した Hive Text から ORC への変換
Java ソリューションを使用してテキスト ファイルを Hive で使用する ORC ファイルに変換できるかどうかを知りたいです。
ハイブクエリを使用して変換したくありません。助言がありますか?
sql - 常に1つのマッパーのみを使用するhadoop orcテーブル
私の現在のプロジェクトでは、スナップ圧縮形式の Orc ファイルを使用しています。どのクエリを実行しても、1 つのマッパーのみで実行されます。mapred.max.split.size と mapred.min.split.size を構成しようとしましたが、マッパーの数に変化は見られません。リデューサーの数は十分ですが、マッパーは単一のマッパーであるため、.
x による z グループから x,max(y) を選択します。mapper を完了するのに約 20 分かかります。マッパーの数を増やすために他にすべきことはありますか?
パーティションまたはバケットを使用するように言わないでください。テーブルで既に使用しているためです。
hive - オークハイブテーブルにデータを挿入する方法
のような ORC ハイブ テーブルにデータを直接追加することは可能insert into table name,fields
ですか?
多くの例を見ました。これらすべての例で、データは別のテーブルから選択してロードされます。