3

間隔 [0,1] に 45 個の値の 2 つのシリーズがあります。最初のシリーズは人間が作成した標準であり、2 番目のシリーズはコンピューターが作成したものです (完全なシリーズはこちらhttp://www.copypastecode.com/74844/ )。最初のシリーズは降順でソートされます。

0.909090909 0.216196598
0.909090909 0.111282099
0.9 0.021432587
0.9 0.033901106
...
0.1 0.003099256
0   0.001084533
0   0.008882249
0   0.006501463

ここで評価したいのは、最初の系列が単調であることを前提として、2 番目の系列で順序が保持される程度です。ピアソン相関は 0.454763067 ですが、この関係は線形ではないので解釈が難しいと思います。

自然なアプローチは、Spearman の順位相関を使用することです。この場合は 0.670556181 です。ランダムな値を使用すると、ピアソンは 0 に非常に近く、スピアマンの順位相関は 0.5 まで上昇するため、0.67 の値は非常に低く見えることに気付きました。

これら 2 つの系列の順序の類似性を評価するには、何を使用しますか?

4

1 に答える 1

6

評価したいのは、注文がどの程度維持されているかです

気になる順序(ランク)なので、ここではスピアマンの順位相関がより意味のあるメトリックです。

ランダムな値で[...]スピアマンの順位相関が0.5まで上がることに気づきました

これらのランダムな値をどのように生成しますか?を使用して生成されたいくつかの乱数を使用して簡単な実験を行ったところ、次のnumpyことがわかりません。

In [1]: import numpy as np

In [2]: import scipy.stats

In [3]: x = np.random.randn(1000)

In [4]: y = np.random.randn(1000)

In [5]: print scipy.stats.spearmanr(x, y)
(-0.013847401847401847, 0.66184551507218536)

最初の数値(-0.01)は、順位相関係数です。2番目の数値(0.66)は、関連するp値です。

于 2011-07-18T10:55:37.443 に答える