非常に大量のデータを収集し、大量のストレージと非常に高速な書き込みスループットを必要とするアプリケーションのプライマリ データ ストアとして Cassandra を使用します。
このデータを定期的に抽出し、リレーショナル データベース (mySQL など) にロードする予定です。毎日数億件のレコードに対応できる抽出メカニズムはありますか? Informatica のような高価なサード パーティの ETL ツールは、私たちの選択肢ではありません。これまでのところ、私の Web 検索では、オプションとして Pig または Hive を使用した Hadoop しか見つかりませんでした。しかし、この分野には非常に慣れていないため、実行時に Cassandra クラスター自体にどれだけの負荷がかかるか、スケーリングがどのくらいうまくいくかはわかりません。他のオプションもありますか?