1

avro データの保存を ORC と Parquet 形式で比較しています。「com.twitter」 % 「parquet-avro」 % 「1.6.0」 を使用して Avro データを parquet に保存することに成功しましたが、保存する情報や API が見つかりませんでした。 ORC 形式の avro データ。

ORC は Hive のみと密接に結合されていますか?

ありがとう

4

1 に答える 1

2

Spark を使用しているとは言っていませんが、質問にタグが付けられているので、使用していると思います。

ORC ファイル形式は現在、Spark の HiveContext と強く結びついています (1.4 以降でしか利用できないと思います) が、Hive コンテキストを作成すると、データフレームを ORC ファイルに書き込むことができるはずです。寄木細工の例:

import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")

Spark データフレーム API を介して avro データを読み取る場合は、これで十分ですが、Hortonworks ブログに詳細があります。

于 2015-12-14T15:06:51.060 に答える