avro データの保存を ORC と Parquet 形式で比較しています。「com.twitter」 % 「parquet-avro」 % 「1.6.0」 を使用して Avro データを parquet に保存することに成功しましたが、保存する情報や API が見つかりませんでした。 ORC 形式の avro データ。
ORC は Hive のみと密接に結合されていますか?
ありがとう
avro データの保存を ORC と Parquet 形式で比較しています。「com.twitter」 % 「parquet-avro」 % 「1.6.0」 を使用して Avro データを parquet に保存することに成功しましたが、保存する情報や API が見つかりませんでした。 ORC 形式の avro データ。
ORC は Hive のみと密接に結合されていますか?
ありがとう
Spark を使用しているとは言っていませんが、質問にタグが付けられているので、使用していると思います。
ORC ファイル形式は現在、Spark の HiveContext と強く結びついています (1.4 以降でしか利用できないと思います) が、Hive コンテキストを作成すると、データフレームを ORC ファイルに書き込むことができるはずです。寄木細工の例:
import org.apache.spark.sql._
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val df = sqlContext.read.avro(("/input/path")
df.write.format("orc").save("/path/to/use")
Spark データフレーム API を介して avro データを読み取る場合は、これで十分ですが、Hortonworks ブログに詳細があります。