私はこのstackoverflowの質問を経験しました。回答によると、バッチ間隔にDStream
1つだけ作成されます。RDD
例えば:
私のバッチ間隔は 1 分で、Spark ストリーミング ジョブは Kafka トピックからのデータを消費しています。
私の質問は、DStream で利用可能な RDD は、最後の 1 分間のデータ全体をプル/含むか? 過去 1 分間に作成されたすべてのデータを取得するために設定する必要がある条件やオプションはありますか?
3 つのパーティションを持つ Kafka トピックがあり、3 つのパーティションすべてに最後の 1 分間のデータが含まれている場合、DStream はすべての Kafka トピック パーティションで最後の 1 分間に作成されたすべてのデータをプル/格納しますか?
アップデート:
DStream に複数の RDD が含まれているのはどの場合ですか?