apache-spark - スケジュールされたSparkバッチジョブでKafkaのstartingOffsetsとendingOffsetsを把握する方法は?

翻译自：https://stackoverflow.com/questions/58123758 2019-09-26T19:45:51.807

1077 次

Spark バッチジョブで Kafka トピックから読み取り、別のトピックに発行しようとしています。ユースケースに合わないため、ストリーミングは使用していません。spark docs によると、バッチジョブはデフォルトで最も古い Kafka オフセットから読み取りを開始するため、ジョブを再度実行すると、最も古いものから再度読み取られます。ジョブが最後に読み取った場所から次のオフセットを確実に取得するにはどうすればよいですか?

Spark Kafka Integration docs によると、「startingOffsets」と「endingOffsets」を指定するオプションがあります。しかし、どうすればそれらを理解できますか？

API を使用して、spark.read.format("kafka")Kafka からデータをデータセットとして読み取ります。しかし、このデータセットの読み取りから開始オフセット範囲と終了オフセット範囲を取得するオプションが見つかりませんでした。

apache-spark - スケジュールされたSparkバッチジョブでKafkaのstartingOffsetsとendingOffsetsを把握する方法は?

0 に答える 0

Related

Reference