Spark バッチ ジョブで Kafka トピックから読み取り、別のトピックに発行しようとしています。ユースケースに合わないため、ストリーミングは使用していません。spark docs によると、バッチ ジョブはデフォルトで最も古い Kafka オフセットから読み取りを開始するため、ジョブを再度実行すると、最も古いものから再度読み取られます。ジョブが最後に読み取った場所から次のオフセットを確実に取得するにはどうすればよいですか?
Spark Kafka Integration docs によると、「startingOffsets」と「endingOffsets」を指定するオプションがあります。しかし、どうすればそれらを理解できますか?
API を使用して、spark.read.format("kafka")
Kafka からデータをデータセットとして読み取ります。しかし、このデータセットの読み取りから開始オフセット範囲と終了オフセット範囲を取得するオプションが見つかりませんでした。