statistics - A/B テスト統計

Question

さまざまな A/B テストの統計分析を行って、どの代替案が優れているかを確認しようとしていますが、これについて矛盾する情報が見つかりました。

まず、私はいくつかの異なることに興味があります。

コンバージョンや送信されたメールなどのイベントをカウントして成功を測定するテスト
収益をカウントして成功を測定するテスト
2 つの選択肢 (コントロールと新規) しかないテスト
複数の選択肢があるテスト (コントロールと複数の新規)

この分析を行うための簡単な式またはルールのセットを見つけたいと思っていましたが、答えよりも多くの質問を見つけました。

このサイトによると、複数の代替テストを比較することはできません。ペアごとの比較とカイ二乗分析のみを実行して、検定全体が統計的に有意かどうかを確認できます。

このサイトでは、A/B/C/D テスト (スライド 74 から開始) を行う方法を提案し、G-テスト (カイ 2 乗に関連していると述べています) を使用して結果を分析していますが、詳細については明確ではありません。ファッジファクターを使用します。また、A/B 比較で明確な勝者が得られるまで、A/B/C/D アプローチのみを使用して代替案を排除できることも示唆しています。

このサイトでは、A/B/C/D テスト (コントロールを含む) の例を示し、コンバージョン率を比較して勝者を決定する方法を示しています。このアプローチとは異なり、代替案を排除することはお勧めしませんが、すぐに勝者を選択します (統計的に有意な結果を想定)。

おそらく私は素朴ですが、今では統計分析ライブラリがこの問題に対処するために存在すると思います。これらの問題を解決するために必要なアルゴリズム/方程式についての詳細情報もいただければ幸いです。大学の統計の授業は久しぶりです。

score 1 · Accepted Answer

イベント生成の比較については、ベータ分布を使用してこれにアプローチできます。各選択肢には、観測されていないp、つまりイベントを生成する確率があります。NのうちX個の肯定的なイベントを観察した場合、 pに関する不確実性はBeta(X+1,N-X+1)によってモデル化できます。

P(pA > pB)を見ることで、2 つの選択肢を比較できます。ここで、pAとpBは 2 つのベータ分布です。その不等確率を計算する方法は、この論文で見つけることができます。

E[pA-pB]、効果サイズ、またはその信頼限界を計算することもできます。

statistics - A/B テスト統計

1 に答える 1

Related

Reference