Tukey の HSD 検定を実行して、データ内のいくつかのグループの平均値に有意差があるかどうかを確認しようとしています。たとえば、ここでは、グループ「クラス」によって変数「acad_se_communicate_needs」に平均的な違いがあるかどうかを確認しようとしています。ただし、結果に NaN 値が含まれています。ここで何が起こっていますか?どうすれば修正できますか?
これを行うために statsmodels 関数を使用しました。複数の変数に対してこの分析を実行する必要があるため、データをグループごとに異なるデータフレームに分割する必要がある方法は避けました。また、それらの方法は私には理解するのが本当に難しいです。
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multicomp import MultiComparison
mc = MultiComparison(clean['acad_se_communicate_needs'], clean['Class'])
result = mc.tukeyhsd()
print(result)
私の出力は次のとおりです...ナンはどこにでもあります!
Multiple Comparison of Means - Tukey HSD,FWER=0.05
==============================================
group1 group2 meandiff lower upper reject
----------------------------------------------
Freshman Junior nan nan nan False
Freshman Senior nan nan nan False
Freshman Sophomore nan nan nan False
Junior Senior nan nan nan False
Junior Sophomore nan nan nan False
Senior Sophomore nan nan nan False
----------------------------------------------
nan 値があります (欠落)。欠損値を削除するコードをいくつか試しました。そのコードは
sm.stats.multicomp.pairwise_tukeyhsd('acad_se_communicate_needs','Class', alpha=0.05, missing = 'drop') のようになります
しかし、「pairwise_tukeyhsd() が予期しないキーワード引数 'missing' を取得しました」というエラーが表示されます。