書き込みパフォーマンスを向上させるために、Hbase から ORC にいくつかのデータを移植しようとしています。Hbase では、データは行キーに対して合計 10 列に格納されます。Hbase を使用しているので、これらの列のスパース性について心配する必要はありません。ほとんどの行にゼロ以外の値を持つ列が 2 つしかない場合でも、Hbase は 2 つの列しか格納しないので問題ありません。
データを移植するときの私の最初の本能は、上記の列修飾子をマップに関連する値に変換することでした。ただし、これは検索にはあまり効率的ではありません。ORC が null を解釈する方法を理解しようとしています。値をマップとしてではなく、10 個の個別の列として保存した方がよいでしょうか? 最悪の場合、この行列は非常にまばらになります。