2

ユーザーのリスト用に 2 つの変数を保持するデータフレームがあります。このような変数は、各ユーザーが開いた投稿の数とスレッドの数を表します。

2 つの変数間の相関関係をテストしたいと思います。要点は、投稿すればするほどスレッドを開くかどうかをテストすることなので、さらに、変数は正規分布していないため、Spearman 相関を選択して2 つの変数間の関係を評価します。

これを行うには、ユーザーが行った投稿とスレッドの数に応じてユーザーをランク付けする必要がありますが、この時点で立ち往生しています。私のデータセットは次のようなデータ フレームです。

> data
USER SUM(POSTS) SUM(THREADS)
u0          2            2
u1          4            2
u10        212          25
u100         7           1
u102       226          23
u103         1           1
u104         3           1
u105         7           1
u107       234          28

私がこれまでに試したことは、繰り返される値の平均を次のように並べ替えて見つけることです。

p<-ave(order(data[,2]), data[,2]) 
t<-ave(order(data[,3]), data[,3]) 

手順が正しければ、そうではないかもしれませんが、スレッドは次のようにランク付けされると予想されます。

4.5 4.5 2 7.5 3 7.5 7.5 7.5 1

しかし、私のコードはこのランキングを生成します:

5.500000 5.500000 6.000000 4.333333 1.000000 4.333333 5.000000 4.333333 9.000000

どんな助けでも大歓迎です!

ベスト、シモーネ

4

1 に答える 1