問題タブ [orc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
2962 参照

hadoop - Impala を使用した ORC ファイル形式

ORC ファイル形式は Impala で使用できますか? また、Impala のハイブ メタストアに格納されている ORC テーブルにアクセスする方法。ドキュメント リンクの下にありますが、制限されたファイル形式のリストや、impala でサポートされていない ORC についての言及は含まれていません

0 投票する
1 に答える
580 参照

hive - フィールド区切り文字を使用した Hive ORC または AVRO 形式

ORC または Avro 形式のハイブ テーブルにフィールド区切り文字が指定されているとはどういう意味ですか? 指定されていてもハイブは無視しますか?

例えば、

0 投票する
0 に答える
327 参照

hadoop - テーブルのロード時に "orc.create.index"="false" が設定されている場合、Hive は ORC を読み取ることができません

Hive バージョン: 1.2.1、以下でテーブルを作成します。

ただし、クエリを実行すると、常にNULLが返されます。例えば:

ORC_NONE, 2G のサイズを確認したので、空のテーブルではなく、「orc.create.index」="true" を設定してテーブルを作成すると、クエリが機能します。

行インデックスの有無にかかわらず、ORC で Hive のパフォーマンスをテストすること、より正確には、行インデックスのスキップ能力をテストすることを意図していました。ただし、行インデックスが使用できない場合、Hive はデータを読み取れないようでした。

これはバグですか?それとも私の読み込みに問題がありますか?

0 投票する
0 に答える
379 参照

apache-spark - DataFrame から ORC パーティションを作成中: エラー java.io.IOException: 67108864 バイトのメモリを取得できません

myDF.write.format("orc").partitionBy("creation_date").save("/user/xyz/data3")

HDFS ディレクトリ /user/xyz/data3 にある myDF データフレームの「creation_date」列に基づいて分割されたデータ ファイルを ORC 形式で作成しようとすると、次のエラーが発生します: java.io.IOException: 67108864 バイトのメモリを取得できません。

この問題に関連してインターネットに投稿されている可能性のあるすべてのシナリオを試しましたが、どれもうまくいきませんでした。私が試したそれらのいくつかは次のとおりです。sqlContext.setConf("spark.sql.tungsten.enabled", "false") sqlContext.setConf("spark.buffer.pageSize", "16m")

この問題を解決する方法を教えてください。

この問題は Spark 1.5.1 で発生しています。

エラーのスクリーン ショット。java.io.IOException: 67108864 バイトのメモリを取得できません

0 投票する
0 に答える
243 参照

apache-spark - Spark ログ - ORC ファイルの読み取り中に「最小キー = null、最大キー = null」

Sparkを介して1億レコードのORCファイルとデータフレーム(たとえば100レコード)を結合しようとしています(各レコードは4〜50億、25バイトに増加する可能性があります)。また、Spark hiveContext API を使用して作成されます。

ORC ファイル作成コード

ORC ファイル読み取りコード

読み取り中の Spark ログ (ローカルから)

Spark ジョブは正常に完了しましたが、ORC インデックス ファイル機能を利用できないため、先に進む前に ORC データのブロック全体をチェックしていると思います。

質問

-- これは通常の動作ですか、それともデータを ORC 形式で保存する前に何らかの構成を設定する必要がありますか?

-- NORMALの場合、ディスク レベルで一致しないレコードを破棄するように結合する最善の方法は何ですか (ORC データのインデックス ファイルのみが読み込まれる可能性があります)。

0 投票する
0 に答える
297 参照

pyspark - API newAPIHadoopFile、spark 1.2 を使用して pyspark から ORC ファイルにアクセスする際のエラー

java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.io.orc.OrcStruct.<init>() の解決方法を教えてください。

pyspark の起動に使用するコマンド

pyspark --jars "hive-exec-0.13.1-cdh5.3.3.jar,hadoop-common-2.5.0-cdh5.3.3.jar,hadoop-mapreduce-client-app-2.5.0-cdh5.3.3.jar ,hadoop-mapreduce-client-common-2.5.0-cdh5.3.3.jar,hadoop-mapreduce-client-core-2.5.0-cdh5.3.3.jar,hadoop-core-2.5.0-mr1-cdh5.3.3 .jar、ハイブ-メタストア-0.13.1-cdh5.3.3.jar"

pyspark シェルで次のコマンドを実行しました

distFile = sc.newAPIHadoopFile(path="orcdatafolder/",inputFormatClass="org.apache.hadoop.hive.ql.io.orc.OrcNewInputFormat", keyClass="org.apache.hadoop.io.NullWritable" , valueClass=" org.apache.hadoop.hive.ql.io.orc.OrcStruct")

エラー:

16/07/31 19:49:53 WARN scheduler.TaskSetManager: ステージ 0.0 でタスク 0.0 が失われました (TID 0、sj1dra096.corp.adobe.com): java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache. hadoop.hive.ql.io.orc.OrcStruct.<init>() の org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:131) の org.apache.hadoop.io.WritableUtils.clone(WritableUtils) .java:217) org.apache.spark.api.python.WritableToJavaConverter.org$apache$spark$api$python$WritableToJavaConverter$$convertWritable(PythonHadoopUtil.scala:96) で org.apache.spark.api.python. WritableToJavaConverter.convert(PythonHadoopUtil.scala:104) at org.apache.spark.api.python.PythonHadoopUtil$$anonfun$convertRDD$1.apply(PythonHadoopUtil.scala:183) at org.apache.spark.api.python.PythonHadoopUtil$ $anonfun$convertRDD$1.apply(PythonHadoopUtil.scala:183) scala.collection.Iterator$$anon$11.next(Iterator.scala:328) で scala.collection.Iterator$$anon$10.next(Iterator.scala:312) で scala.collection.Iterator$class.foreach (Iterator.scala:727) で scala.collection.AbstractIterator.foreach(Ite​​rator.scala:1157) で scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:48) で scala.collection .mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:103) で scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:47) で scala.collection.TraversableOnce$class.to (TraversableOnce.scala:27​​3) で scala.collection.AbstractIterator.to(Iterator.scala:1157) で scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:265) で scala.collection.AbstractIterator.toBuffer(Iterator. scala:1157) で scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:252) で scala.collection.AbstractIterator.toArray(Iterator.scala:1157) org.apache.spark.rdd.RDD$$anonfun$26.apply(RDD.scala:1081) で org.apache .spark.rdd.RDD$$anonfun$26.apply(RDD.scala:1081) org.apache.spark.SparkContext$$anonfun$runJob$4.apply(SparkContext.scala:1319) org.apache.spark.SparkContext $$anonfun$runJob$4.apply(SparkContext.scala:1319) org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61) org.apache.spark.scheduler.Task.run(Task.scala) :56) org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:196) で java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) で java.util.concurrent.ThreadPoolExecutor$ でWorker.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:745) 原因: java.lang.NoSuchMethodException: java.lang.Class.getConstructor0(Class.java:2849) の org.apache.hadoop.hive.ql.io.orc.OrcStruct.() java.lang.Class.getDeclaredConstructor(Class.java:2053) at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:125) ... 28 詳細