pigを使用した分析のために、アプリケーションログを定期的に(1時間ごとに)Cassandraにロードしたいと思います。
これは通常どのように行われますか?これに焦点を当てたプロジェクトはありますか?
ムマキルはデータの一括読み込みによく使われているようです。それを中心に構築されたcronジョブを作成することはできましたが、私が作成するジョブよりも堅牢なものを望んでいました。
また、必要に応じて、アプリケーションを変更して、データを別の形式(syslogやCassandraに直接保存するなど)で保存することもできます。その場合、Cassandraが利用できなくなった場合のデータ損失が心配になりますが。