私はsparkの初心者で、javaを使用してavroデータをspark 'dataset' (spark 1.6)にロードしようとしています。scala にはいくつかの例がありますが、java にはありません。Java の例へのポインタは役に立ちます。javaRDD を作成してから、それを「データセット」に変換しようとしました。まっすぐ進む道があるに違いないと私は信じています。
質問する
2701 次
1 に答える
1
最初に hadoop.home.dir を設定する必要があります
System.setProperty("hadoop.home.dir", "C:/app/hadoopo273/winutils-master/hadoop-2.7.1");
次に、avro ファイルの場所を指定して Spark セッションを作成します。
SparkSession spark = SparkSession .builder().master("local").appName("ASH").config("spark.cassandra.connection.host", "127.0.0.1").config("spark.sql.warehouse.dir", "file:///C:/cygwin64/home/a622520/dev/AshMiner2/cass-spark-embedded/cassspark/cassspark.all/spark-warehouse/").getOrCreate();
私のコードでは、組み込みのスパーク環境を使用しています
// Creates a DataFrame from a specified file
Dataset<Row> df = spark.read().format("com.databricks.spark.avro") .load("./Ash.avro");
df.createOrReplaceTempView("words");
Dataset<Row> wordCountsDataFrame = spark.sql("select count(*) as total from words");
wordCountsDataFrame.show();
お役に立てれば
于 2016-10-11T11:40:09.083 に答える