1

私はsparkの初心者で、javaを使用してavroデータをspark 'dataset' (spark 1.6)にロードしようとしています。scala にはいくつかの例がありますが、java にはありません。Java の例へのポインタは役に立ちます。javaRDD を作成してから、それを「データセット」に変換しようとしました。まっすぐ進む道があるに違いないと私は信じています。

4

1 に答える 1

1

最初に hadoop.home.dir を設定する必要があります

System.setProperty("hadoop.home.dir", "C:/app/hadoopo273/winutils-master/hadoop-2.7.1");

次に、avro ファイルの場所を指定して Spark セッションを作成します。

SparkSession spark = SparkSession .builder().master("local").appName("ASH").config("spark.cassandra.connection.host", "127.0.0.1").config("spark.sql.warehouse.dir", "file:///C:/cygwin64/home/a622520/dev/AshMiner2/cass-spark-embedded/cassspark/cassspark.all/spark-warehouse/").getOrCreate();

私のコードでは、組み込みのスパーク環境を使用しています

// Creates a DataFrame from a specified file
Dataset<Row> df = spark.read().format("com.databricks.spark.avro") .load("./Ash.avro");
df.createOrReplaceTempView("words");
Dataset<Row> wordCountsDataFrame = spark.sql("select count(*) as total from words");
wordCountsDataFrame.show();

お役に立てれば

于 2016-10-11T11:40:09.083 に答える