問題タブ [spark-checkpoint]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - スケジュールされたSparkバッチジョブでKafkaのstartingOffsetsとendingOffsetsを把握する方法は?
Spark バッチ ジョブで Kafka トピックから読み取り、別のトピックに発行しようとしています。ユースケースに合わないため、ストリーミングは使用していません。spark docs によると、バッチ ジョブはデフォルトで最も古い Kafka オフセットから読み取りを開始するため、ジョブを再度実行すると、最も古いものから再度読み取られます。ジョブが最後に読み取った場所から次のオフセットを確実に取得するにはどうすればよいですか?
Spark Kafka Integration docs によると、「startingOffsets」と「endingOffsets」を指定するオプションがあります。しかし、どうすればそれらを理解できますか?
API を使用して、spark.read.format("kafka")
Kafka からデータをデータセットとして読み取ります。しかし、このデータセットの読み取りから開始オフセット範囲と終了オフセット範囲を取得するオプションが見つかりませんでした。
apache-kafka - Spark Structured Streaming - オフセットを 2 回書き込むことは可能ですか
Spark 構造化ストリーミングを使用して、kafka トピックからデータを消費し、そのデータを別の kafka シンクに書き込みます。
オフセットを2回保存したい-トピックから読み取ってオフセットをかき混ぜるときに1回。第二に、データを出力シンクに書き込み、オフセットを書き込むとき。これは、チェックポイント ディレクトリの場所を指定することで可能になります。
トピックのサブスクライブ中に消費されたオフセットを書き込むことは可能ですか。