Memsql の下で実行されている Spark クラスターがあり、さまざまなパイプラインが実行されています。ETL セットアップは以下のとおりです。
- 抽出:- Kafka クラスターからの Spark 読み取りメッセージ (Memsql Kafka-Zookeeper を使用)
- 変換:- このステップ用にデプロイされたカスタム jar があります。
- 読み込み:- 変換ステージからのデータが列ストアに読み込まれます
以下の疑問があります。
ジョブが Transform ステージで失敗した場合、Kafka からポーリングされたメッセージに何が起こるか - Memsql はそのメッセージを再度ロードしますか - または、データが失われます
データが失われた場合、この問題を解決するにはどうすればよいですか? そのために必要な構成変更はありますか?