Flume でできるように、Kafka でファンアウト (複製) できるかどうかは不明です。
Kafka で HDFS または S3 にデータを保存し、リアルタイム処理のためにそのデータの複製を Storm に送信したいと考えています。Storm の集計/分析の出力は、Cassandra に保存されます。Kafka から Storm にすべてのデータを流し、次に Storm から 2 つの出力を流す実装がいくつか見られます。ただし、未加工のデータ ストレージに対する Storm の依存関係を排除したいと考えています。
これは可能ですか?このようなドキュメント/例/実装を知っていますか?
また、Kafka は S3 ストレージを適切にサポートしていますか?
HDFS に保存するための Camus を見ました。このジョブを cron 経由で実行して、Kafka から HDFS にデータを継続的にロードしますか? 前のインスタンスが終了する前にジョブの 2 番目のインスタンスが開始された場合はどうなりますか? 最後に、Camus は S3 で動作しますか?
ありがとうございます。