0

男性ユーザー グループと女性ユーザー グループの合計プレイ数ごとの統計的差異を評価したいと思います (以下の例を参照)。

女性のエントリー例

female

    users   artist  plays   gender  age
0   48591   sting   12763   f       25.0
1   48591   stars   8192    f       25.0

ユニーク女性ユーザーあたりの合計再生数

female_user_plays = female.groupby('users').plays.sum()

female_user_plays

users
5         5479
6         3782
7         7521
11        7160

男性のエントリー例

female
    users   artist         plays    gender  age
51  56496   iron maiden    456      m       28.0
52  56496   elle           407      m       28.0

ユニーク男性ユーザーあたりの合計再生数

male_user_plays = male.groupby('users').plays.sum()
male_user_plays

users
0         3282
1        25329
2        51522
3         1590

性別ごとの平均再生回数

Average Total Male Plays: 11880
Average Total Female Plays: 13104

t 検定を試す前に、各シリーズを値リストに変換しました。

female_plays_list = female_user_plays.values.tolist()
male_plays_list = male_user_plays.values.tolist()

t 検定の場合:

ttest_ind(female_plays_list, male_plays_list, equal_var=False)

出力が非常にずれているように見えるので、結果は私を混乱させ、2つのサンプルサイズの分散によるものではないと考えています....

Ttest_indResult(statistic=-8.9617251652001002, pvalue=3.3195063228833119e-19)

これを引き起こしている可能性のある配列の長さ以外の理由はありますか?

4

1 に答える 1