DataStax Web サイトで提供されている一括読み込みサンプルを使用して、Cassandra SSTables を生成しています。http://www.datastax.com/dev/blog/bulk-loading
私の質問は、SSTable ファイルが理想的に消費するディスク容量はどれくらいですか? 私の場合、データ CSV ファイルは 40 GB で、この特定のファイルのために SStables が消費する合計ディスク容量は約250GBです。これらのテーブルを作成する際に何か足りないものはありますか? sstables の生成に使用できる圧縮オプションはありますか?
sstableloader を使用して sstables をロードする 2 番目のステップは問題なく動作し、データは CQL でのクエリに使用できます。
また、上記のバルクロード方法以外に、大きなデータを cassandra にインポートする方法が他にあるかどうかを知りたいです。