2 台のマシンの Spark クラスターがあり、Spark ストリーミング アプリケーションを実行すると、次のエラーが発生します。
Exception in thread "main" org.apache.spark.SparkException: Checkpoint RDD ReliableCheckpointRDD[11] at print at StatefulNetworkWordCount.scala:78(1) has different number of partitions from original RDD MapPartitionsRDD[10] at updateStateByKey at StatefulNetworkWordCount.scala:76(2)
at org.apache.spark.rdd.ReliableRDDCheckpointData.doCheckpoint(ReliableRDDCheckpointData.scala:73)
at org.apache.spark.rdd.RDDCheckpointData.checkpoint(RDDCheckpointData.scala:74)
HDFS/Cassandra/その他のデータ ストアではないファイル システムにチェックポイント ディレクトリを指定するにはどうすればよいですか?
私は2つの可能な解決策を考えましたが、それらをコーディングする方法がわかりません:
両方のワーカーに対してローカルな 1 つのリモート ディレクトリがある
両方のワーカーにリモート ディレクトリを指定する
助言がありますか ?