問題タブ [orc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop ORC ファイル - 仕組み - メタデータの取得方法
ORCファイルは初めてです。多くのブログを調べましたが、明確な理解が得られませんでした。以下の質問を助けて明確にしてください。
ORC ファイルからスキーマを取得できますか? Avro では、スキーマをフェッチできることを知っています。
実際にスキーマの進化をどのように提供しますか? 追加できる列がほとんどないことはわかっています。しかし、それを行う方法。私が知っている唯一の orc ファイルの作成は、データを orc 形式で保存するハイブテーブルにデータをロードすることです。
ORC ファイルのインデックスはどのように機能しますか? 私が知っていることは、すべてのストライプ インデックスが維持されるということです。ただし、ファイルはソートされていないため、ストライプのリストでデータを検索するのに役立ちます。データの検索中にストライプをスキップするのにどのように役立ちますか?
列ごとにインデックスが維持されます。はいの場合、より多くのメモリを消費することはありませんか?
列形式の ORC ファイルが、各列の値が一緒に格納されるハイブ テーブルにどのように収まるか。一方、ハイブテーブルはレコードごとにフェッチするように作られています。両方がどのように適合しますか?
indexing - ORC インデックス作成の仕組み
データベースのインデックス作成方法: Xenph Yan からの回答を参照
テーブル内のフィールドにインデックスを作成すると、フィールド値と、それに関連するレコードへのポインターを保持する別のデータ構造が作成されます。次に、このインデックス構造がソートされ、バイナリ検索を実行できるようになります。
私がORCのインデックス作成を理解した方法は、ORCが10'000行ごとに(デフォルトで)行に関する統計(最小、最大、合計)を保持し、データを照会すると、統計を見て、読み取る必要があるかどうかを判断することです行チャンクかどうか。
では、ORC のインデックス作成ではデータが並べ替えられないというのは正しいでしょうか?
非常に構造化されていないデータを含む 69 列の大きなテーブルがあり、すべての列でアドホック クエリを実行できるようにしたいと考えています。そのためには、すべての列をインデックス (または少なくともそれらのほとんど) で並べ替えられるようにしたいと考えています。高速に照会されるデータには「キー」列はありません。
java - How to increase CodedInputStream.setSizeLimit()
I am Trying to read an ORC file in Java using
I am getting the following Error
com.google.protobuf.InvalidProtocolBufferException: プロトコル メッセージが大きすぎます。悪意がある可能性があります。CodedInputStream.setSizeLimit() を使用して、サイズ制限を増やします。
この問題は、別のプログラムで解決されています。https://code.google.com/p/protobufeditor/issues/detail?id=2
しかし、彼らがどのようにそれをしたかはわかりません。助けてください。
hadoop - s3n での Orc ファイルのクエリが異常に遅い
hdfsでORCファイルをクエリする限り、すべてが素晴らしく、非常に高速ですが、S3に保存されているデータをクエリしたい場合、非常に遅く、クエリを終了できません。
私はHive 0.12を使用しています。私の作成ステートメントは次のようになります
これは、ORC + Presto + S3 で同じ問題があったように思えますが (こちらを参照)、Hive に似たものを見つけることができませんでした
hadoop - Spark RDD を介して ORC 形式でハイブにデータを保存する
私の要件に従って、hdfsにあるファイルをORC形式のハイブテーブルに保存したいと考えています。Hive 0.14.0 バージョンで Spark 1.2.1 を使用しています。
以下のドキュメントに従っています http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_spark-quickstart/content/ch_orc-spark-quickstart.html
すべてがうまくいきました..スパークシェルに例外は見られません..
以下のように、ハイブに ORC テーブルを 1 つ作成しました。
以下のようにリストクエリの結果を見ることができます..
オークテーブルへの保存もうまくいきました..
以下のように orc テーブルを取得することもできます。
val morePeople = hiveContext.orcFile("person_orc_table") morePeople.registerTempTable("morePeople")
しかし、ハイブ コンテキストでクエリを実行してレコードを表示すると、レコードが表示されません。
ハイブ テーブルにデータ/レコードがあることを期待しています。しかし、そこにはありません。ここで何が欠けていますか?
hadoop - JavaでSparkを介してorc形式を保存する
私はspark 1.3.1を使用しており、ORC形式としてハイブにデータを保存したい..
エラーを示す行の下では、orc が spark 1.3.1 のデータ ソースとしてサポートされていないようです。
Spark 1.4 には..
orc形式で保存する..
spark 1.3.1 でファイルを ORC 形式で保存する方法はありますか??
ありがとう、
mapreduce - ORC ファイルを読み取るための Mapreduce の例
いくつかのファイルを分析する mapreduce コードを作成しました。ただし、一部のファイルは Hive から作成され、それらは ORC タイプです。
この ORC ファイルを Texfile のように解析できますか? mapreduce の出力は Text 型になりますか?
tks