4

Spark 2.0.1 で遊んでいます。新しいデータセット API は非常にクリーンですが、非常に単純な操作に問題があります。

誰かが助けてくれることを願っています。

これらの指示

SparkConf conf = new SparkConf().setAppName("myapp").setMaster("local[*]");
SparkSession spark = SparkSession
        .builder()
        .config(conf)
        .getOrCreate();

Dataset<Info> infos = spark.read().json("data.json").as(Encoders.bean(Info.class));

System.out.println(infos.rdd().count());

を生産する

 java.lang.NegativeArraySizeException

JVM (1.8) によって検出された致命的なエラー。

データセット API を使用したデータの操作 (つまり、選択、infos オブジェクトのカウント) は正常に機能します。

Dataset と RDD を切り替えるにはどうすればよいですか?

4

1 に答える 1