0

Tukey の HSD 検定を実行して、データ内のいくつかのグループの平均値に有意差があるかどうかを確認しようとしています。たとえば、ここでは、グループ「クラス」によって変数「acad_se_communicate_needs」に平均的な違いがあるかどうかを確認しようとしています。ただし、結果に NaN 値が含まれています。ここで何が起こっていますか?どうすれば修正できますか?

これを行うために statsmodels 関数を使用しました。複数の変数に対してこの分析を実行する必要があるため、データをグループごとに異なるデータフレームに分割する必要がある方法は避けました。また、それらの方法は私には理解するのが本当に難しいです。

from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multicomp import MultiComparison

mc = MultiComparison(clean['acad_se_communicate_needs'], clean['Class'])
result = mc.tukeyhsd()
print(result)

私の出力は次のとおりです...ナンはどこにでもあります!

Multiple Comparison of Means - Tukey HSD,FWER=0.05
==============================================
 group1    group2  meandiff lower upper reject
----------------------------------------------
Freshman   Junior    nan     nan   nan  False 
Freshman   Senior    nan     nan   nan  False 
Freshman Sophomore   nan     nan   nan  False 
 Junior    Senior    nan     nan   nan  False 
 Junior  Sophomore   nan     nan   nan  False 
 Senior  Sophomore   nan     nan   nan  False 
----------------------------------------------

nan 値があります (欠落)。欠損値を削除するコードをいくつか試しました。そのコードは
sm.stats.multicomp.pairwise_tukeyhsd('acad_se_communicate_needs','Class', alpha=0.05, missing = 'drop') のようになります

しかし、「pairwise_tukeyhsd() が予期しないキーワード引数 'missing' を取得しました」というエラーが表示されます。

4

2 に答える 2