1

Unique Visitor についてレポートできるようにする必要がありますが、キーのすべての可能な順列を事前に計算して複数のテーブルを作成することは避けたいと考えています。

単純な例として、次の列を持つテーブルで月間ユニーク数を報告する必要があるとします。

  • 日付 (月/年)
  • page_id
  • country_id
  • device_type_id
  • month_uniques

Druid と Redis では、Hyperloglog データ型がこれを処理し (わずかな誤差が許容できると仮定して)、ディメンションの任意の組み合わせでクエリを実行し、一意の実行可能な見積もりを受け取ることができます。

PostgreSQL の世界で見つけた最も近いプラグインは postgresql-hll プラグインですが、PostgreSQL 9.0 以降用のようです。

訪問者 ID を事前に計算したり保存したりすることなく、Redshift でこれを表す方法はありますか (テーブルのサイズを大幅に拡大しますが、RedShift の「概算カウント」hll 実装を使用できます)。

注: RedShift が推奨されるプラットフォームですが、CitusDB などの他の自己ホスト型 PostgreSQL フォークがこれをサポートできることは既に知っています。RedShift でこれを行う方法を探しています。

4

3 に答える 3

-1

Redshift は技術的には postgresql から派生したものですが、10 年以上前にフォークされました。それは依然として postgres と同じ回線プロトコルを話しますが、そのコードは大幅に分岐しています。他の非互換性の中でも特に、カスタム データ型が許可されなくなりました。つまり、使用しようとしているプラ​​グインのタイプが実現可能ではないということです。

ただし、ご指摘のとおり、すべての生データを取得できる場合は、組み込みの近似機能を使用できます。

于 2016-08-24T17:42:14.043 に答える