男性ユーザー グループと女性ユーザー グループの合計プレイ数ごとの統計的差異を評価したいと思います (以下の例を参照)。
女性のエントリー例
female
users artist plays gender age
0 48591 sting 12763 f 25.0
1 48591 stars 8192 f 25.0
ユニーク女性ユーザーあたりの合計再生数
female_user_plays = female.groupby('users').plays.sum()
female_user_plays
users
5 5479
6 3782
7 7521
11 7160
男性のエントリー例
female
users artist plays gender age
51 56496 iron maiden 456 m 28.0
52 56496 elle 407 m 28.0
ユニーク男性ユーザーあたりの合計再生数
male_user_plays = male.groupby('users').plays.sum()
male_user_plays
users
0 3282
1 25329
2 51522
3 1590
性別ごとの平均再生回数
Average Total Male Plays: 11880
Average Total Female Plays: 13104
t 検定を試す前に、各シリーズを値リストに変換しました。
female_plays_list = female_user_plays.values.tolist()
male_plays_list = male_user_plays.values.tolist()
t 検定の場合:
ttest_ind(female_plays_list, male_plays_list, equal_var=False)
出力が非常にずれているように見えるので、結果は私を混乱させ、2つのサンプルサイズの分散によるものではないと考えています....
Ttest_indResult(statistic=-8.9617251652001002, pvalue=3.3195063228833119e-19)
これを引き起こしている可能性のある配列の長さ以外の理由はありますか?