ユーザーのリスト用に 2 つの変数を保持するデータフレームがあります。このような変数は、各ユーザーが開いた投稿の数とスレッドの数を表します。
2 つの変数間の相関関係をテストしたいと思います。要点は、投稿すればするほどスレッドを開くかどうかをテストすることなので、さらに、変数は正規分布していないため、Spearman 相関を選択して2 つの変数間の関係を評価します。
これを行うには、ユーザーが行った投稿とスレッドの数に応じてユーザーをランク付けする必要がありますが、この時点で立ち往生しています。私のデータセットは次のようなデータ フレームです。
> data
USER SUM(POSTS) SUM(THREADS)
u0 2 2
u1 4 2
u10 212 25
u100 7 1
u102 226 23
u103 1 1
u104 3 1
u105 7 1
u107 234 28
私がこれまでに試したことは、繰り返される値の平均を次のように並べ替えて見つけることです。
p<-ave(order(data[,2]), data[,2])
t<-ave(order(data[,3]), data[,3])
手順が正しければ、そうではないかもしれませんが、スレッドは次のようにランク付けされると予想されます。
4.5 4.5 2 7.5 3 7.5 7.5 7.5 1
しかし、私のコードはこのランキングを生成します:
5.500000 5.500000 6.000000 4.333333 1.000000 4.333333 5.000000 4.333333 9.000000
どんな助けでも大歓迎です!
ベスト、シモーネ