Kafka 0.8.2
AdExchange からデータを受信するために使用Spark Streaming 1.4.1
してから、データを に保存するために使用していMongoDB
ます。
私の問題は、Spark Streaming
たとえば、新しいバージョンの更新、バグの修正、新しい機能の追加など、ジョブを再起動するときです。その時点で最新offset
のものを引き続き読み取り、ジョブの再起動中に AdX が kafka にプッシュしたデータを失います。kafka
私は何かを試してみますauto.offset.reset -> smallest
が、0から受信します->最後に、データが巨大でdbで重複していました。
また、特定のものを設定しようとgroup.id
しconsumer.id
ますSpark
が、同じです。
offset
消費された最新のスパークを保存する方法、zookeeper
またはkafka
それから最新のものに読み戻す方法はoffset
?