これがバグかどうかわからないので、このようなことをすると
// d:spark.RDD[String]
d.distinct().map(x => d.filter(_.equals(x)))
JavaNPEを取得します。collect
ただし、直後に行う場合はdistinct
、すべて問題ありません。
私はspark0.6.1を使用しています。
これがバグかどうかわからないので、このようなことをすると
// d:spark.RDD[String]
d.distinct().map(x => d.filter(_.equals(x)))
JavaNPEを取得します。collect
ただし、直後に行う場合はdistinct
、すべて問題ありません。
私はspark0.6.1を使用しています。
Sparkは、ネストされたRDDまたは他のRDDを参照するユーザー定義関数をサポートしていないため、NullPointerExceptionが発生します。メーリングリストのこのスレッドをspark-users
参照してください。
現在のコードがの要素をd
値でグループ化しようとしているようです。groupBy()
これは、 RDDメソッドを使用して効率的に行うことができます。
scala> val d = sc.parallelize(Seq("Hello", "World", "Hello"))
d: spark.RDD[java.lang.String] = spark.ParallelCollection@55c0c66a
scala> d.groupBy(x => x).collect()
res6: Array[(java.lang.String, Seq[java.lang.String])] = Array((World,ArrayBuffer(World)), (Hello,ArrayBuffer(Hello, Hello)))
Spark1.3.0ストリームプログラミングガイドで提供されているウィンドウ処理の例はどうですか
val dataset: RDD[String, String] = ...
val windowedStream = stream.window(Seconds(20))...
val joinedStream = windowedStream.transform { rdd => rdd.join(dataset) }
SPARK-5063を使用すると、RDDの変換メソッド内から結合が呼び出されているため、例が失敗します。