分散環境で毎日 50Gb のログを保存するのに問題があります。Hadoop HDFS を調べましたが、Windows インフラストラクチャでの実行に問題があり、多言語ファイルシステム API が不足しているため、私にはあまり適していません。一方、Cassandra は、どのプラットフォームにも簡単にデプロイできます。私が直面している唯一の大きな問題は、ディスク容量の使用です。数値は次のとおりです。
- 元のログ サイズは 224Mb です
- Cassandra データ ファイルは 557Mb です
- Cassandra インデックス ファイルは 109Mb です
そのため、ログ ファイルからログ行を保存するときに、ほぼ 2 倍のオーバーヘッドが発生しました。
非常に単純なシナリオで大量のディスク容量を消費しないように、何らかの方法で Cassandra を調整することは可能ですか?