Unique Visitor についてレポートできるようにする必要がありますが、キーのすべての可能な順列を事前に計算して複数のテーブルを作成することは避けたいと考えています。
単純な例として、次の列を持つテーブルで月間ユニーク数を報告する必要があるとします。
- 日付 (月/年)
- page_id
- country_id
- device_type_id
- month_uniques
Druid と Redis では、Hyperloglog データ型がこれを処理し (わずかな誤差が許容できると仮定して)、ディメンションの任意の組み合わせでクエリを実行し、一意の実行可能な見積もりを受け取ることができます。
PostgreSQL の世界で見つけた最も近いプラグインは postgresql-hll プラグインですが、PostgreSQL 9.0 以降用のようです。
訪問者 ID を事前に計算したり保存したりすることなく、Redshift でこれを表す方法はありますか (テーブルのサイズを大幅に拡大しますが、RedShift の「概算カウント」hll 実装を使用できます)。
注: RedShift が推奨されるプラットフォームですが、CitusDB などの他の自己ホスト型 PostgreSQL フォークがこれをサポートできることは既に知っています。RedShift でこれを行う方法を探しています。