Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Cassandra の列ファミリーに新しい列を挿入するときに、正確にディスクに格納されるバイト数を知りたいです。私の主な問題は、列が Snappy で圧縮されるときにこの情報を知る必要があることです。生のバイトの計算は知っていますが、データの変動性のために、圧縮率を適切に概算することはできません。この量のバイトが Cassandra コードベースのどこにあるかについての情報は歓迎します。
前もって感謝します。
圧縮では、圧縮率が保証されることはありません。得られる最良の値は、サンプル データの平均比率です。
サンプル データのロードを取得し、それをテスト インスタンスに挿入して、ディスク使用量を測定します。
Snappy での圧縮が非常に不十分なデータがあり、実際には未加工のバイトを格納するよりもディスク上の使用量が多くなる場合があります。
データの圧縮に関しては、たった 1 つのルールがあります: MEASURE