要するに、最初からKafka のデータで Flink パイプラインを再実行したいと思います。
フリンク 0.10.2、カフカ 0.8.2。
Kafka には保持期間 2 時間のツイート トピックがあり、Flink には 10 秒ごとに 5 分のスライディング ウィンドウでツイートをカウントするパイプラインがあります。
パイプラインを中断して再実行する場合は、古いツイートを再読み込みして、5 分間分のツイートのカウントを出力するようにします。代わりに新着ツイートからリスタートするようなので、カウントが「常態」になるまで5分かかります。
auto.offset.reset = smallest/earliest
と の変更の両方を試しましgroup.id
たが、失敗しました。また、ここで説明されているように、Kafka でオフセットを手動で変更しようとしました: https://metabroadcast.com/blog/resetting-kafka-offsets
次に、問題が Flink のチェックポイントに関連している可能性があると仮定しますが、それをリセットする方法についての手がかりがありません/情報が見つかりません。
誰かが動作するコードを共有できますか? ありがとう、E.