cassandra - Cassandra 圧縮コードベース

Question

Cassandra の列ファミリーに新しい列を挿入するときに、正確にディスクに格納されるバイト数を知りたいです。私の主な問題は、列が Snappy で圧縮されるときにこの情報を知る必要があることです。生のバイトの計算は知っていますが、データの変動性のために、圧縮率を適切に概算することはできません。この量のバイトが Cassandra コードベースのどこにあるかについての情報は歓迎します。

前もって感謝します。

score 2 · Accepted Answer

圧縮では、圧縮率が保証されることはありません。得られる最良の値は、サンプルデータの平均比率です。

サンプルデータのロードを取得し、それをテストインスタンスに挿入して、ディスク使用量を測定します。

Snappy での圧縮が非常に不十分なデータがあり、実際には未加工のバイトを格納するよりもディスク上の使用量が多くなる場合があります。

データの圧縮に関しては、たった 1 つのルールがあります: MEASURE

cassandra - Cassandra 圧縮コードベース

1 に答える 1

Related

Reference