3 つ以上の実験を含むパーセンテージ メトリックには、どの有意性検定を使用する必要がありますか?
例えば、
Version | Clicks | Impressions
A | 5 | 1,763
B | 4 | 1,672
C | 2 | 1,689
バージョン A が実際に他の 2 つよりも優れていると確信できるでしょうか?
3 つ以上の実験を含むパーセンテージ メトリックには、どの有意性検定を使用する必要がありますか?
例えば、
Version | Clicks | Impressions
A | 5 | 1,763
B | 4 | 1,672
C | 2 | 1,689
バージョン A が実際に他の 2 つよりも優れていると確信できるでしょうか?
過去に、私は個人的にトップとボトムの間でペアごとの G 検定を行いました。信頼度に n のファッジ係数を掛けて、2 を選択します。 . 理論的には、これは過度に保守的ですが、私にとってはうまくいきました。
詳細については、 http://elem.com/~btilly/effective-ab-testing/を参照してください。