3

要するに、最初からKafka のデータで Flink パイプラインを再実行したいと思います。

フリンク 0.10.2、カフカ 0.8.2。

Kafka には保持期間 2 時間のツイート トピックがあり、Flink には 10 秒ごとに 5 分のスライディング ウィンドウでツイートをカウントするパイプラインがあります。

パイプラインを中断して再実行する場合は、古いツイートを再読み込みして、5 分間分のツイートのカウントを出力するようにします。代わりに新着ツイートからリスタートするようなので、カウントが「常態」になるまで5分かかります。

auto.offset.reset = smallest/earliestと の変更の両方を試しましgroup.idたが、失敗しました。また、ここで説明されているように、Kafka でオフセットを手動で変更しようとしました: https://metabroadcast.com/blog/resetting-kafka-offsets

次に、問題が Flink のチェックポイントに関連している可能性があると仮定しますが、それをリセットする方法についての手がかりがありません/情報が見つかりません。

誰かが動作するコードを共有できますか? ありがとう、E.

4

1 に答える 1