型配列を RDD に格納する必要があります。このために、Hadoop のArrayWritableクラスを使用します。
static public class Record {
public long id;
public FloatArrayWritable dataArray;
}
動作しますが、必要がない場合はオブジェクトがシリアル化されないようにしたいと思います。できるだけ記憶に残しておきたいと思います。Spark と Flink は、データをメモリに保持すると主張しています。ArrayWritable クラスの場合でしょうか。これは配列を格納する効率的な方法ですか? ありがとう!
編集: @ mattinbitsの回答から、Sparkの場合、効率的な方法はJava配列またはArrayListを使用することです(動的にサイズ変更するため)