私は A/B テストを行っていますが、結果 (日対月対テストの合計時間) でシンプソンのパラドックスに直面しています。
- 私の a/b テストが正しくない/代表的ではないということですか? (何らかの外的要因がテストに影響を与えましたか?)
- それが問題の兆候である場合、従うべき指示は何ですか?
大変お世話になりました。
私は A/B テストを行っていますが、結果 (日対月対テストの合計時間) でシンプソンのパラドックスに直面しています。
大変お世話になりました。
テストしている正確なデータとディメンションを見ずに言うのは少し難しいですが、一般的に言えば、結合されていないデータに基づいて決定を下したいと考えています。Microsoft のこの記事は、ソフトウェア テストにおける Simpson のパラドックスの非常に明確な例を示しています。
結合されたデータと結合されていないデータの明確な例と、テストの簡単な要約を提供できますか?
Aが個々のA/Bテストで明らかに大幅に優れている一方で、Bのスコアが全体として優れている場合、主な意味は、これらのデータセットをそのように集約できないことです。Aの方がいいです。
テストで毎日同じ結果が得られた場合、1日あたりのサンプルサイズを変えても、この明確な結果は得られません。ですから、それはさらに何かが変わったことを意味すると思います。しかし、それは何でもかまいません。たぶん、あなたが毎日テストしたものが変わったのかもしれません(おそらくサーバーの速度のような非常に微妙な方法で)。あるいは、あなたがそれをテストしている人々が変わったかもしれません(おそらく人口統計学的に、おそらく彼らの気分の観点から)。それはあなたのテストが悪いか無効であるという意味ではありません。それは単にあなたが動いている何かを測定していることを意味し、それは物事をトリッキーにします。
そして、私は状況を誤算したり誤解したりしているかもしれませんが、あなたがAとBを同じ回数テストしていないことも必然的に真実だと思います。つまり、月曜日にAを50回、Bを50回テストし、火曜日にAを600回、Bを600回、というようにテストし、Aが毎日Bを上回った場合、どうすればよいかわかりません。 BがAに勝る集計結果。これがテスト設定に当てはまる場合、データを推論しやすくするために修正できるもののように思われます。
シンプソンのパラドックスは、グループのサイズが異なる場合にのみ発生します。実際には、最終結果は各グループの結果の加重平均です (この加重では、パラドックスが生じる可能性があります)。
それは実際には外的要因などによって引き起こされたものではありません。それは単純に、1 つのグループがはるかに重要だからです (グループ内により多くの要素があるため)。
より多くの情報を提供していただければ、より適切なサポートができる可能性があります。